Gegevenssets openen

Ontdek open source datasets waarmee u ML-modellen kunt trainen

Gegevenssets openen

Open source datasets om u op weg te helpen met AI/ML-modellen

De output van uw AI & ML-modellen is slechts zo goed als de gegevens die u gebruikt om ze te trainen - dus de precisie die u toepast op gegevensaggregatie en het taggen en identificeren van die gegevens is belangrijk!

Dus als u een nieuw AI/ML-initiatief wilt starten en u zich nu snel realiseert dat het vinden van hoogwaardige trainingsgegevens een van de meer uitdagende aspecten van uw project zal zijn, aangezien hoogwaardige datasets de brandstof zijn die de AI/ ML-motor loopt. We hebben een lijst met open datasets verzameld die u gratis kunt gebruiken en trainen voor uw AI/ML-modellen van de toekomst.

SpecialisatieData typeDataset naamIndustrie / Afd.Annotatie/gebruikssituatieOmschrijvingLink
NLPTekstAmazon beoordelingenE-commerceSentiment analyseEen set van 35 Mn beoordelingen en beoordelingen van de afgelopen 18 jaar in platte tekst met gebruikers- en productdetails.Link
NLPTekstWikipedia-linksgegevensAlgemeenMeer dan 4 Mn. artikelen met 1.9 miljard. woord dat bestaat uit zowel woorden en woordgroepen als alinea's.Link
NLPTekstStandford Sentiment BoombankOnstpanningSentiment analyseDataset met sentimentannotaties voor meer dan 10,000 recensies van Rotten Tomatoes in HTML-bestandsindelingLink
NLPTekstTwitter US Airline-sentimentvliegmaatschappijSentiment analyse2015 Tweets op US Airlines opgesplitst in positieve, negatieve en neutrale tonenLink
CVBeeld Gelabelde gezichten in het wildAlgemeenGezichtsherkenningDataset met meer dan 13,000 bijgesneden gezichten met twee verschillende afbeeldingen voor gezichtsherkenningstraining.Link
CVVideo, AfbeeldingUMDFaces-gegevenssetAlgemeenGezichtsherkenningGeannoteerde dataset met meer dan 367,000 gezichten van meer dan 8,000 onderwerpen, inclusief stilstaande en videobeelden.Link
CVBeeld ImagenetAlgemeenDataset met meer dan 14 Mn. afbeeldingen in verschillende bestandsindelingen, georganiseerd volgens de WordNet-hiërarchie.Link
CVBeeld Google's Open AfbeeldingenAlgemeen9 mnd. URL's om openbare afbeeldingen te categoriseren uit meer dan 6,000 categorieën.Link
NLPTekstMIMIC Critical Care-databaseGezondheidszorgComputational Physiology Datasets met geanonimiseerde gegevens van 40,000 intensive care-patiënten. De dataset bevat informatie zoals demografische gegevens, vitale functies, medicijnen, enz.Link
CVBeeldUS National Travel and Tourism OfficeToerismeBiedt brede foto's uit de toeristenindustrie met betrouwbare databases, over onderwerpen als inkomende en uitgaande reizen en internationale toeristische informatie.Link
NLPTekstMinisterie van VerkeerToerismeToeristische datasets met nationale parken, chauffeursregisters, bruggen en spoorinformatie enz.Link
NLPAudioFlickr Corpus voor audiobijschriftenAlgemeenMeer dan 40 gesproken bijschriften van 8,000 foto's ontworpen voor spraakpatronen zonder toezichtLink
NLPAudioGegevensset spraakopdrachtenAlgemeenSpraakherkenning, audioannotatieUitspraken van 1 seconde van duizenden individuen, om een ​​basisspraakinterface te bouwen.Link
NLPAudioOmgevingsgeluidsdatasetsAlgemeenOmgevingsaudiodatasets die geluid van gebeurtenissentabellen en akoestische scènetabellen bevatten.Link
NLPTekstCOVID-19 Open onderzoeksdataset GezondheidszorgMedische AIEen onderzoeksdataset bestaande uit 45,000 wetenschappelijke artikelen over COVID-19 en de coronavirusfamilie van virussen.Link
CVBeeldWaymo Open-dataset Auto-IndustrieDe meest diverse datasets voor autonoom rijden vrijgegeven door WaymoLink
CVBeeldVisueel genoom AlgemeenOndertiteling van afbeeldingenEen visuele kennisbank met gedetailleerde ondertiteling van meer dan 100 afbeeldingenLink
CVBeeldLabel mij Openbare overheidGrote reeks geannoteerde afbeeldingen toegankelijk via het Labelme MatlabLink
CVBeeldSPOEL100AlgemeenMeer dan 100 verschillende objecten gefotografeerd vanuit meerdere hoeken (dwz 360 graden)Link
CVBeeldStanford Dogs-gegevenssetAlgemeenMeer dan 20,500+ afbeeldingen gecategoriseerd in afbeeldingenset van 120 verschillende hondenrassenLink
CVBeeldBinnenscèneherkenningAlgemeenScèneherkenningEen specifieke dataset bestaande uit 15620 afbeeldingen uit 67 binnencategorieën om modellen voor scèneherkenning te bouwenLink
CVBeeldVisualQAAlgemeenEen dataset met open vragen met betrekking tot 265,016 foto's waarvoor begrip van visie en taalbegrip vereist is om te kunnen reageren.Link
NLPTekstDataset voor sentimentanalyse met meerdere domeinenE-commerceSentiment analyseDataset met productrecensies van AmazonLink
NLPTekstIMDB beoordelingenOnstpanningSentiment analyseDataset met 25000 filmrecensies voor sentimentanalyseLink
NLPTekstSentiment 140AlgemeenSentiment analyseDataset met 160,000 tweets met vooraf verwijderde emoticons voor hogere nauwkeurigheidLink
NLPTekstBlogger-corpusAlgemeenKeyprase-analyseDataset met 681,288 blogberichten van blogger.com bestaande uit minimaal 200 keer dat veelgebruikte Engelse woorden voorkomen.Link
NLPTekstGevaarAlgemeenChatbot-trainingDataset met meer dan 200,000 vragen die kunnen worden gebruikt om machine learning-modellen te trainen om intelligent automatisch te reagerenLink
NLPTekstSMS-spamverzameling in het EngelsTelecomSpamherkenningEen spambericht-dataset bestaande uit 5,574 Engelse sms'jesLink
NLPTekstYelp beoordelingenAlgemeenSentiment analyseEen dataset met meer dan 5 mn review gepubliceerd door YelpLink
NLPTekstUCI's SpambaseEnterpriseSpamherkenningEen grote dataset van spam-e-mails, handig voor spamfiltering.Link
CVVideo, AfbeeldingBerkeley DeepDrive BDD100kAuto-IndustrieAutonome voertuigenEen van de grootste datasets voor zelfrijdende AI met 1,100 uur aan rijervaringen in meer dan 100,000 video's van verschillende tijdstippen van de dag uit New York en San Francisco.Link
CVVideokomma.aiAuto-IndustrieAutonome voertuigen Een dataset van 7 uur rijden op de snelweg met informatie over de snelheid, acceleratie, stuurhoek en GPS-coördinaten van de autoLink
CVVideo, AfbeeldingStadsgezicht datasetAuto-IndustrieSemantisch label voor autonoom voertuigEen dataset van 5,000 aantekeningen op pixelniveau plus een grotere set van 20,000 zwak geannoteerde frames in stereovideosequenties, opgenomen vanuit 50 verschillende stedenLink
CVBeeldKUL België verkeersbord datasetAuto-IndustrieAutonome voertuigenMeer dan 10000+ verkeersbordannotaties uit het Vlaamse Gewest op basis van fysiek verschillende verkeersborden uit heel België.Link
CVBeeldLISA: laboratorium voor intelligente en veilige auto's, UC San Diego-gegevenssetsAuto-IndustrieAutonome voertuigenEen uitgebreide dataset met verkeersborden, voertuigdetectie, verkeerslichten en trajectpatronen.Link
CVBeeldCIFAR-10AlgemeenObject herkenningEen dataset bestaande uit 50,000 afbeeldingen en 10,000 testafbeeldingen (dwz 60,000 32×32 kleurenafbeeldingen in 10 klassen) voor objectherkenning.Link
CVBeeldMode MNISTModeEen afbeeldingsdataset die bestaat uit 60,000 voorbeelden en een testset van 10,000 voorbeelden in 28×28 grijswaardenafbeeldingen, gekoppeld aan een label uit 10 klassen.Link
CVBeeldIMDB-Wiki-gegevenssetOnstpanningGezichtsherkenningEen grote dataset van gezichtsafbeeldingen met labels zoals geslacht en leeftijd. Van de in totaal 523,051 gezichtsafbeeldingen zijn 460,723 afbeeldingen verkregen van 20,284 beroemdheden van IMDB en 62,328 van Wikipedia.Link
CVVideoKinetiek-700AlgemeenVoor elke actieklasse bestaat de hoogwaardige dataset uit 650,000 videoclips en omvat 700 menselijke actieklassen met ten minste 600 videoclips. Hier duurt elke clip ongeveer 10 seconden.Link
CVBeeldMS CocoAlgemeenObjectdetectie, SegmentatieDe dataset bevat 328k afbeeldingen en heeft in totaal 2.5 Mn-instanties en 91 objectafbeeldingen om grootschalige objectdetectie, segmentatie en gegevensondertiteling-gerelateerde ML-modellen te trainen.Link
CVBeeldMPII Human Pose-gegevenssetAlgemeenOngeveer 25 foto's met meer dan 40 individuen met geannoteerde lichaamsgewrichten zijn opgenomen in de dataset, die wordt gebruikt voor het articuleren van menselijke pose-schattingen. In totaal omvat de dataset 410 menselijke activiteiten en elk beeld is voorzien van een activiteitenlabel.Link
CVBeeldOpen afbeeldingenAlgemeenAnnotaties objectlocatieAfbeeldingsdataset met ongeveer 9 Mn afbeeldingen geannoteerd met labels op afbeeldingsniveau, objectkaders, objectsegmentatie enz. De dataset bestaat ook uit 16 Mn. begrenzingsvakken voor 600 objectklassen op 1.9 Mn-beelden.Link
CVVideoApollo Open Platform, door Baidu Inc, ChinaAuto-IndustrieBegrenzingsdoos, LiDAREen rijke dataset voor autonoom rijden, die ontwikkelaars voorziet van de benodigde gegevens voor autonoom rijden om de efficiëntie van de innovatieve iteratie te versnellen.Link
CVVideo, AfbeeldingArgo, door Argo, VSAuto-IndustrieBegrenzingsvak, optische stroom, gedragslabel, semantisch label, rijbaanmarkeringEen zelfrijdende dataset die bestaat uit HD-kaarten met geometrische en semantische metadata, dwz middellijnen van rijstroken, rijstrookrichting en berijdbaar gebied. De dataset wordt gebruikt om ML-modellen te trainen, om nauwkeurigere waarnemingsalgoritmen te maken, die zelfrijdende voertuigen helpen veilig te navigeren.Link
CVVideoBosch kleine verkeerslichten, door Bosch North America ResearchAuto-IndustrieOmsluitend kaderEen dataset bestaande uit 13427 camerabeelden met een resolutie van 1280*720 om een ​​op zicht gebaseerd verkeerslichtdetectiesysteem te bouwen. De dataset heeft meer dan 24000 geannoteerde verkeerslichten.Link
CVVideoBrain4Cars, door Cornell Univ., Verenigde StatenAuto-IndustrieGedragslabelEen dataset bestaande uit een reeks cabinesensoren (camera's, tactiele sensoren, slimme apparaten, enz.) om bruikbare statistieken over de alertheid van de bestuurder te extraheren. Onze algoritmen kunnen bestuurders die slaperig of afgeleid zijn detecteren en de nodige alarmen activeren om de bescherming te verbeteren.Link
CVBeeldCULane, door Chinese Univ. van Hong Kong, Peking, ChinaAuto-IndustrieRijstrookmarkeringEen Computer Vision dataset over rijstrookdetectie, bestaande uit 55 uur aan video's waarvan 133,235 (88880 trainingsset, 9675 validatieset en 34680 testset) frames werden geëxtraheerd. Het wordt verzameld door camera's die zijn gemonteerd op zes verschillende voertuigen die worden bestuurd door verschillende chauffeurs in Peking.Link
CVVideoDAVIS, door Univ. van Zürich, ETH ¨ Zürich, Duitsland, ZwitserlandAuto-IndustrieEen end-to-end rijtrainingsdataset voor voertuigen die gebruikmaakt van een DAVIS event+frame camera. Autogegevens zoals besturing, gaspedaal, GPS, enz. worden gebruikt om de fusie van frame- en gebeurtenisgegevens voor auto-apps te evalueren.Link
CVVideoDBNet, door Shanghai Jiao Tong Univ., Xiamen Univ., ChinaAuto-IndustriePuntenwolk, LiDARReal-world 1000 KM rijgegevens, inclusief uitgelijnde video, puntenwolk, GPS en rijgedrag voor diepgaand onderzoek naar rijgedrag.Link
CVVideoDr(eye)ve, door Univ. van Modena en Reggio Emilia, Modena, ItaliëAuto-IndustrieGedragslabelDataset met 74 videosequenties van elk 5 minuten, geannoteerd in meer dan 500,000 frames. De dataset bestaat uit locaties met geografische referentie, rijsnelheid, koers, en ook fixaties van de blikken van bestuurders en hun temporele integratie met taakspecifieke kaarten.Link
CVVideoETH Pedestrian (2009), door ETH Zürich, Zürich, ZwitserlandAlgemeenOmsluitend kaderEen dataset van 74 videosequenties van elk 5 minuten, geannoteerd in meer dan 500,000 frames. De dataset biedt geo-gerefereerde posities, rijsnelheid, richting, en ook labels voor blikfixaties voor chauffeurs en hun temporele integratie, inclusief taakspecifieke kaarten.Link
CVVideoFord (2009), door Univ. uit Michigan, Michigan, VSAuto-IndustrieBegrenzingsdoos, , LiDAREen dataset samengesteld door een geautomatiseerd landvoertuig bewapend met een Velodyne 3D-lidar-scanner, twee vooruitziende Rieg-lidars met duwbezem, een technische en consumenteninertiële meeteenheid (IMU) en een Point Grey Ladybug3 omnidirectioneel camerasysteem.Link
CVVideoHCI Challenging Stereo, Bosch Corporation Research, Hildesheim, DuitslandAlgemeenEen dataset van enkele miljoenen frames van vastgelegde videoscènes met een breed scala aan verschillende weersomstandigheden, meerdere bewegingslagen en diepte; situaties in de stad en op het platteland, enz.Link
CVVideoJAAD, door York University, Oekraïne, CanadaAuto-IndustrieBegrenzingsvak, gedragslabel"JAAD is een dataset voor het bestuderen van gezamenlijke aandacht in de context van autonoom rijden. De focus ligt op het gedrag van voetgangers en automobilisten op het oversteekpunt en de factoren die daarop van invloed zijn. Daartoe biedt de JAAD-dataset een rijk geannoteerde verzameling van 346 korte videobeelden clips (5-10 seconden lang) uit meer dan 240 uur rij-opnames van verschillende locaties in Noord-Amerika en Oost-Europa. Begrenzingsvakken met occlusietags worden gebruikt voor alle voetgangers, waardoor deze dataset geschikt is voor voetgangersdetectie. Gedragsannotaties specificeren het gedrag van voetgangers die interactie hebben met of de aandacht van de bestuurder vereisen. Voor elke video zijn er verschillende tags (weer, locaties, enz.) voorzien voor elke voetganger (bijv. leeftijd, geslacht, bewegingsrichting, enz.), evenals een lijst van zichtbare elementen van de verkeersscène (bijv. stopbord, verkeerslicht, enz.) in elk frame."Link
CVVideoKAIST Urban, door KAIST, Zuid-KoreaAlgemeenLiDARDe gegevensverzameling omvat tal van locatiesensoren voor LiDAR-gegevens en stereobeelden die gericht zijn op een zeer complex stedelijk gebied (bijvoorbeeld metropoolgebieden, complexe gebouwen en woonwijken).Link
CVBeeldLISA Verkeersbord, door Univ. van Californië, San Diego, Verenigde StatenAuto-IndustrieOmsluitend kaderDe dataset met video's en geannoteerde frames met Amerikaanse verkeersborden. Het wordt uitgebracht in twee fasen, een met alleen de foto's en een met zowel foto's als video's.Link
CVBeeldMapillary Vistas, door Mapillary AB, GlobalAuto-IndustrieSemantisch labelEen dataset voor fotografie op straatniveau voor het interpreteren van straattaferelen over de hele wereld met pixelnauwkeurige en instantiespecifieke menselijke aantekeningen.Link
CVVideo, AfbeeldingSemantic KITTI, door de Universiteit van Bonn, Karlsruhe, DuitslandAuto-IndustrieBegrenzingsvak, semantisch label, rijstrookmarkeringEen dataset met een semantische annotatie voor alle Odometry Benchmark-reeksen. De dataset annoteert verschillende soorten bewegend en niet-bewegend verkeer: inclusief auto's, fietsen, fietsen, voetgangers en fietsers, waardoor objecten in de scène kunnen worden bestudeerd.Link
CVVideoStanford Track, door Stanford Univ., Verenigde StatenAuto-IndustrieObjectdetectie / classificatie LiDAR, GPS, codesEen dataset met 14,000 gelabelde objecttracks zoals waargenomen door een Velodyne HDL-64E S2 LIDAR in natuurlijke straatscènes, die kan worden gebruikt om machine learning-modellen te trainen voor 3D-objectherkenning.Link
CVVideo, AfbeeldingThe Boxy Dataset, door Bosch, Verenigde StatenAuto-IndustrieBegrenzingsdoos / voertuigdetectieEen voertuigdetectiedataset met 2 miljoen geannoteerde voertuigen voor het trainen en analyseren van objectherkenningsstrategieën voor zelfrijdende auto's op snelwegen.Link
CVVideoTME Motorway, door Czech Technical Univ., Noord-ItaliëAuto-IndustrieOmsluitend kaderEen dataset van 28 clips voor in totaal 27 minuten opgesplitst in meer dan 30,000 voertuigannotatieframes. Annotatie werd semi-automatisch geproduceerd met behulp van de gegevens van de laserscanner. Deze gegevensverzameling omvat variabele verkeersscenario's, aantal rijstroken, wegkromming en verlichting, die veel van de voorwaarden van de volledige acquisitie dekken.Link
CVVideoZonder toezicht lama's, door Bosch, Verenigde StatenAuto-IndustrieRijbaanmarkering, LiDARDe Unsupervised Llamas-dataset is geannoteerd door het genereren van high-definition automatische rijkaarten, inclusief op Lidar gebaseerde rijstrookmarkeringen. Het autonome voertuig kan tegen deze kaarten worden uitgelijnd en de rijstrookmarkeringen worden in het cameraframe geprojecteerd. De 3D-projectie wordt geoptimaliseerd door de discrepantie tussen reeds waargenomen en voorspelde beeldmarkeringen te minimaliseren.Link
NLPAudioFacebook AI Meertalige LibriSpeech (MLS)AlgemeenAudio-annotatie / spraakherkenningFacebook AI Multilingual LibriSpeech (MLS), is een grootschalige, open source dataset die is ontworpen om onderzoek naar automatische spraakherkenning (ASR) vooruit te helpen. MLS biedt meer dan 50,000 uur aan audio in 8 talen: Engels, Duits, Nederlands, Frans, Spaans, Italiaans, Portugees en Pools. Link