Gegevenssets openen
Ontdek open source datasets waarmee u ML-modellen kunt trainen
Open source datasets om u op weg te helpen met AI/ML-modellen
De output van uw AI & ML-modellen is slechts zo goed als de gegevens die u gebruikt om ze te trainen - dus de precisie die u toepast op gegevensaggregatie en het taggen en identificeren van die gegevens is belangrijk!
Dus als u een nieuw AI/ML-initiatief wilt starten en u zich nu snel realiseert dat het vinden van hoogwaardige trainingsgegevens een van de meer uitdagende aspecten van uw project zal zijn, aangezien hoogwaardige datasets de brandstof zijn die de AI/ ML-motor loopt. We hebben een lijst met open datasets verzameld die u gratis kunt gebruiken en trainen voor uw AI/ML-modellen van de toekomst.
Specialisatie | Data type | Dataset naam | Industrie / Afd. | Annotatie/gebruikssituatie | Omschrijving | Link |
---|---|---|---|---|---|---|
NLP | Tekst | Amazon beoordelingen | E-commerce | Sentiment analyse | Een set van 35 Mn beoordelingen en beoordelingen van de afgelopen 18 jaar in platte tekst met gebruikers- en productdetails. | Link |
NLP | Tekst | Wikipedia-linksgegevens | Algemeen | Meer dan 4 Mn. artikelen met 1.9 miljard. woord dat bestaat uit zowel woorden en woordgroepen als alinea's. | Link | |
NLP | Tekst | Standford Sentiment Boombank | Onstpanning | Sentiment analyse | Dataset met sentimentannotaties voor meer dan 10,000 recensies van Rotten Tomatoes in HTML-bestandsindeling | Link |
NLP | Tekst | Twitter US Airline-sentiment | vliegmaatschappij | Sentiment analyse | 2015 Tweets op US Airlines opgesplitst in positieve, negatieve en neutrale tonen | Link |
CV | Beeld | Gelabelde gezichten in het wild | Algemeen | Gezichtsherkenning | Dataset met meer dan 13,000 bijgesneden gezichten met twee verschillende afbeeldingen voor gezichtsherkenningstraining. | Link |
CV | Video, Afbeelding | UMDFaces-gegevensset | Algemeen | Gezichtsherkenning | Geannoteerde dataset met meer dan 367,000 gezichten van meer dan 8,000 onderwerpen, inclusief stilstaande en videobeelden. | Link |
CV | Beeld | Beeldnet | Algemeen | Dataset met meer dan 14 Mn. afbeeldingen in verschillende bestandsindelingen, georganiseerd volgens de WordNet-hiërarchie. | Link | |
CV | Beeld | Google's Open Afbeeldingen | Algemeen | 9 mnd. URL's om openbare afbeeldingen te categoriseren uit meer dan 6,000 categorieën. | Link | |
NLP | Tekst | MIMIC Critical Care-database | Gezondheidszorg | Computational Physiology Datasets met geanonimiseerde gegevens van 40,000 intensive care-patiënten. De dataset bevat informatie zoals demografische gegevens, vitale functies, medicijnen, enz. | Link | |
CV | Beeld | Amerikaans nationaal reis- en toerismebureau | Toerisme | Biedt brede foto's uit de toeristenindustrie met betrouwbare databases, over onderwerpen als inkomende en uitgaande reizen en internationale toeristische informatie. | Link | |
NLP | Tekst | Ministerie van Verkeer | Toerisme | Toeristische datasets met nationale parken, chauffeursregisters, bruggen en spoorinformatie enz. | Link | |
NLP | Audio | Flickr Corpus voor audiobijschriften | Algemeen | Meer dan 40 gesproken bijschriften van 8,000 foto's ontworpen voor spraakpatronen zonder toezicht | Link | |
NLP | Audio | Gegevensset spraakopdrachten | Algemeen | Spraakherkenning, audioannotatie | Uitspraken van 1 seconde van duizenden individuen, om een basisspraakinterface te bouwen. | Link |
NLP | Audio | Omgevingsgeluidsdatasets | Algemeen | Omgevingsaudiodatasets die geluid van gebeurtenissentabellen en akoestische scènetabellen bevatten. | Link | |
NLP | Tekst | COVID-19 Open onderzoeksdataset | Gezondheidszorg | Medische AI | Een onderzoeksdataset bestaande uit 45,000 wetenschappelijke artikelen over COVID-19 en de coronavirusfamilie van virussen. | Link |
CV | Beeld | Waymo Open-dataset | Automotive | De meest diverse datasets voor autonoom rijden vrijgegeven door Waymo | Link | |
CV | Beeld | Visueel genoom | Algemeen | Ondertiteling van afbeeldingen | Een visuele kennisbank met gedetailleerde ondertiteling van meer dan 100 afbeeldingen | Link |
CV | Beeld | Label mij | Openbare overheid | Grote reeks geannoteerde afbeeldingen toegankelijk via het Labelme Matlab | Link | |
CV | Beeld | SPOEL100 | Algemeen | Meer dan 100 verschillende objecten gefotografeerd vanuit meerdere hoeken (dwz 360 graden) | Link | |
CV | Beeld | Stanford Dogs-gegevensset | Algemeen | Meer dan 20,500+ afbeeldingen gecategoriseerd in afbeeldingenset van 120 verschillende hondenrassen | Link | |
CV | Beeld | Binnenscèneherkenning | Algemeen | Scèneherkenning | Een specifieke dataset bestaande uit 15620 afbeeldingen uit 67 binnencategorieën om modellen voor scèneherkenning te bouwen | Link |
CV | Beeld | Visuele QA | Algemeen | Een dataset met open vragen met betrekking tot 265,016 foto's waarvoor begrip van visie en taalbegrip vereist is om te kunnen reageren. | Link | |
NLP | Tekst | Dataset voor sentimentanalyse met meerdere domeinen | E-commerce | Sentiment analyse | Dataset met productrecensies van Amazon | Link |
NLP | Tekst | IMDB beoordelingen | Onstpanning | Sentiment analyse | Dataset met 25000 filmrecensies voor sentimentanalyse | Link |
NLP | Tekst | Sentiment 140 | Algemeen | Sentiment analyse | Dataset met 160,000 tweets met vooraf verwijderde emoticons voor hogere nauwkeurigheid | Link |
NLP | Tekst | Blogger-corpus | Algemeen | Keyprase-analyse | Dataset met 681,288 blogberichten van blogger.com bestaande uit minimaal 200 keer dat veelgebruikte Engelse woorden voorkomen. | Link |
NLP | Tekst | Gevaar | Algemeen | Chatbot-training | Dataset met meer dan 200,000 vragen die kunnen worden gebruikt om machine learning-modellen te trainen om intelligent automatisch te reageren | Link |
NLP | Tekst | SMS-spamverzameling in het Engels | Telecom | Spamherkenning | Een spambericht-dataset bestaande uit 5,574 Engelse sms'jes | Link |
NLP | Tekst | Yelp beoordelingen | Algemeen | Sentiment analyse | Een dataset met meer dan 5 mn review gepubliceerd door Yelp | Link |
NLP | Tekst | UCI's Spambase | Enterprise | Spamherkenning | Een grote dataset van spam-e-mails, handig voor spamfiltering. | Link |
CV | Video, Afbeelding | Berkeley DeepDrive BDD100k | Automotive | Autonome voertuigen | Een van de grootste datasets voor zelfrijdende AI met 1,100 uur aan rijervaringen in meer dan 100,000 video's van verschillende tijdstippen van de dag uit New York en San Francisco. | Link |
CV | Video | komma.ai | Automotive | Autonome voertuigen | Een dataset van 7 uur rijden op de snelweg met informatie over de snelheid, acceleratie, stuurhoek en GPS-coördinaten van de auto | Link |
CV | Video, Afbeelding | Stadsgezicht dataset | Automotive | Semantisch label voor autonoom voertuig | Een dataset van 5,000 aantekeningen op pixelniveau plus een grotere set van 20,000 zwak geannoteerde frames in stereovideosequenties, opgenomen vanuit 50 verschillende steden | Link |
CV | Beeld | KUL België verkeersbord dataset | Automotive | Autonome voertuigen | Meer dan 10000+ verkeersbordannotaties uit het Vlaamse Gewest op basis van fysiek verschillende verkeersborden uit heel België. | Link |
CV | Beeld | LISA: laboratorium voor intelligente en veilige auto's, UC San Diego-gegevenssets | Automotive | Autonome voertuigen | Een uitgebreide dataset met verkeersborden, voertuigdetectie, verkeerslichten en trajectpatronen. | Link |
CV | Beeld | CIFAR-10 | Algemeen | Object herkenning | Een dataset bestaande uit 50,000 afbeeldingen en 10,000 testafbeeldingen (dwz 60,000 32×32 kleurenafbeeldingen in 10 klassen) voor objectherkenning. | Link |
CV | Beeld | Mode MNIST | Mode | Een afbeeldingsdataset die bestaat uit 60,000 voorbeelden en een testset van 10,000 voorbeelden in 28×28 grijswaardenafbeeldingen, gekoppeld aan een label uit 10 klassen. | Link | |
CV | Beeld | IMDB-Wiki-gegevensset | Onstpanning | Gezichtsherkenning | Een grote dataset van gezichtsafbeeldingen met labels zoals geslacht en leeftijd. Van de in totaal 523,051 gezichtsafbeeldingen zijn 460,723 afbeeldingen verkregen van 20,284 beroemdheden van IMDB en 62,328 van Wikipedia. | Link |
CV | Video | Kinetiek-700 | Algemeen | Voor elke actieklasse bestaat de hoogwaardige dataset uit 650,000 videoclips en omvat 700 menselijke actieklassen met ten minste 600 videoclips. Hier duurt elke clip ongeveer 10 seconden. | Link | |
CV | Beeld | MS Coco | Algemeen | Objectdetectie, Segmentatie | De dataset bevat 328k afbeeldingen en heeft in totaal 2.5 Mn-instanties en 91 objectafbeeldingen om grootschalige objectdetectie, segmentatie en gegevensondertiteling-gerelateerde ML-modellen te trainen. | Link |
CV | Beeld | MPII Human Pose-gegevensset | Algemeen | Ongeveer 25 foto's met meer dan 40 individuen met geannoteerde lichaamsgewrichten zijn opgenomen in de dataset, die wordt gebruikt voor het articuleren van menselijke pose-schattingen. In totaal omvat de dataset 410 menselijke activiteiten en elk beeld is voorzien van een activiteitenlabel. | Link | |
CV | Beeld | Open afbeeldingen | Algemeen | Annotaties objectlocatie | Afbeeldingsdataset met ongeveer 9 Mn afbeeldingen geannoteerd met labels op afbeeldingsniveau, objectkaders, objectsegmentatie enz. De dataset bestaat ook uit 16 Mn. begrenzingsvakken voor 600 objectklassen op 1.9 Mn-beelden. | Link |
CV | Video | Apollo Open Platform, door Baidu Inc, China | Automotive | Begrenzingsdoos, LiDAR | Een rijke dataset voor autonoom rijden, die ontwikkelaars voorziet van de benodigde gegevens voor autonoom rijden om de efficiëntie van de innovatieve iteratie te versnellen. | Link |
CV | Video, Afbeelding | Argo, door Argo, VS | Automotive | Begrenzingsvak, optische stroom, gedragslabel, semantisch label, rijbaanmarkering | Een zelfrijdende dataset die bestaat uit HD-kaarten met geometrische en semantische metadata, dwz middellijnen van rijstroken, rijstrookrichting en berijdbaar gebied. De dataset wordt gebruikt om ML-modellen te trainen, om nauwkeurigere waarnemingsalgoritmen te maken, die zelfrijdende voertuigen helpen veilig te navigeren. | Link |
CV | Video | Bosch kleine verkeerslichten, door Bosch North America Research | Automotive | Omsluitend kader | Een dataset bestaande uit 13427 camerabeelden met een resolutie van 1280*720 om een op zicht gebaseerd verkeerslichtdetectiesysteem te bouwen. De dataset heeft meer dan 24000 geannoteerde verkeerslichten. | Link |
CV | Video | Brain4Cars, door Cornell Univ., Verenigde Staten | Automotive | Gedragslabel | Een dataset bestaande uit een reeks cabinesensoren (camera's, tactiele sensoren, slimme apparaten, enz.) om bruikbare statistieken over de alertheid van de bestuurder te extraheren. Onze algoritmen kunnen bestuurders die slaperig of afgeleid zijn detecteren en de nodige alarmen activeren om de bescherming te verbeteren. | Link |
CV | Beeld | CULane, door Chinese Univ. van Hong Kong, Peking, China | Automotive | Rijstrookmarkering | Een Computer Vision dataset over rijstrookdetectie, bestaande uit 55 uur aan video's waarvan 133,235 (88880 trainingsset, 9675 validatieset en 34680 testset) frames werden geëxtraheerd. Het wordt verzameld door camera's die zijn gemonteerd op zes verschillende voertuigen die worden bestuurd door verschillende chauffeurs in Peking. | Link |
CV | Video | DAVIS, door Univ. van Zürich, ETH ¨ Zürich, Duitsland, Zwitserland | Automotive | Een end-to-end rijtrainingsdataset voor voertuigen die gebruikmaakt van een DAVIS event+frame camera. Autogegevens zoals besturing, gaspedaal, GPS, enz. worden gebruikt om de fusie van frame- en gebeurtenisgegevens voor auto-apps te evalueren. | Link | |
CV | Video | DBNet, door Shanghai Jiao Tong Univ., Xiamen Univ., China | Automotive | Puntenwolk, LiDAR | Real-world 1000 KM rijgegevens, inclusief uitgelijnde video, puntenwolk, GPS en rijgedrag voor diepgaand onderzoek naar rijgedrag. | Link |
CV | Video | Dr(eye)ve, door Univ. van Modena en Reggio Emilia, Modena, Italië | Automotive | Gedragslabel | Dataset met 74 videosequenties van elk 5 minuten, geannoteerd in meer dan 500,000 frames. De dataset bestaat uit locaties met geografische referentie, rijsnelheid, koers, en ook fixaties van de blikken van bestuurders en hun temporele integratie met taakspecifieke kaarten. | Link |
CV | Video | ETH Pedestrian (2009), door ETH Zürich, Zürich, Zwitserland | Algemeen | Omsluitend kader | Een dataset van 74 videosequenties van elk 5 minuten, geannoteerd in meer dan 500,000 frames. De dataset biedt geo-gerefereerde posities, rijsnelheid, richting, en ook labels voor blikfixaties voor chauffeurs en hun temporele integratie, inclusief taakspecifieke kaarten. | Link |
CV | Video | Ford (2009), door Univ. uit Michigan, Michigan, VS | Automotive | Begrenzingsdoos, , LiDAR | Een dataset samengesteld door een geautomatiseerd landvoertuig bewapend met een Velodyne 3D-lidar-scanner, twee vooruitziende Rieg-lidars met duwbezem, een technische en consumenteninertiële meeteenheid (IMU) en een Point Grey Ladybug3 omnidirectioneel camerasysteem. | Link |
CV | Video | HCI Challenging Stereo, Bosch Corporation Research, Hildesheim, Duitsland | Algemeen | Een dataset van enkele miljoenen frames van vastgelegde videoscènes met een breed scala aan verschillende weersomstandigheden, meerdere bewegingslagen en diepte; situaties in de stad en op het platteland, enz. | Link | |
CV | Video | JAAD, door York University, Oekraïne, Canada | Automotive | Begrenzingsvak, gedragslabel | "JAAD is een dataset voor het bestuderen van gezamenlijke aandacht in de context van autonoom rijden. De focus ligt op het gedrag van voetgangers en automobilisten op het oversteekpunt en de factoren die daarop van invloed zijn. Daartoe biedt de JAAD-dataset een rijk geannoteerde verzameling van 346 korte videobeelden clips (5-10 seconden lang) uit meer dan 240 uur rij-opnames van verschillende locaties in Noord-Amerika en Oost-Europa. Begrenzingsvakken met occlusietags worden gebruikt voor alle voetgangers, waardoor deze dataset geschikt is voor voetgangersdetectie. Gedragsannotaties specificeren het gedrag van voetgangers die interactie hebben met of de aandacht van de bestuurder vereisen. Voor elke video zijn er verschillende tags (weer, locaties, enz.) voorzien voor elke voetganger (bijv. leeftijd, geslacht, bewegingsrichting, enz.), evenals een lijst van zichtbare elementen van de verkeersscène (bijv. stopbord, verkeerslicht, enz.) in elk frame." | Link |
CV | Video | KAIST Urban, door KAIST, Zuid-Korea | Algemeen | LiDAR | De gegevensverzameling omvat tal van locatiesensoren voor LiDAR-gegevens en stereobeelden die gericht zijn op een zeer complex stedelijk gebied (bijvoorbeeld metropoolgebieden, complexe gebouwen en woonwijken). | Link |
CV | Beeld | LISA Verkeersbord, door Univ. van Californië, San Diego, Verenigde Staten | Automotive | Omsluitend kader | De dataset met video's en geannoteerde frames met Amerikaanse verkeersborden. Het wordt uitgebracht in twee fasen, een met alleen de foto's en een met zowel foto's als video's. | Link |
CV | Beeld | Mapillary Vistas, door Mapillary AB, Global | Automotive | Semantisch label | Een dataset voor fotografie op straatniveau voor het interpreteren van straattaferelen over de hele wereld met pixelnauwkeurige en instantiespecifieke menselijke aantekeningen. | Link |
CV | Video, Afbeelding | Semantic KITTI, door de Universiteit van Bonn, Karlsruhe, Duitsland | Automotive | Begrenzingsvak, semantisch label, rijstrookmarkering | Een dataset met een semantische annotatie voor alle Odometry Benchmark-reeksen. De dataset annoteert verschillende soorten bewegend en niet-bewegend verkeer: inclusief auto's, fietsen, fietsen, voetgangers en fietsers, waardoor objecten in de scène kunnen worden bestudeerd. | Link |
CV | Video | Stanford Track, door Stanford Univ., Verenigde Staten | Automotive | Objectdetectie / classificatie LiDAR, GPS, codes | Een dataset met 14,000 gelabelde objecttracks zoals waargenomen door een Velodyne HDL-64E S2 LIDAR in natuurlijke straatscènes, die kan worden gebruikt om machine learning-modellen te trainen voor 3D-objectherkenning. | Link |
CV | Video, Afbeelding | The Boxy Dataset, door Bosch, Verenigde Staten | Automotive | Begrenzingsdoos / voertuigdetectie | Een voertuigdetectiedataset met 2 miljoen geannoteerde voertuigen voor het trainen en analyseren van objectherkenningsstrategieën voor zelfrijdende auto's op snelwegen. | Link |
CV | Video | TME Motorway, door Czech Technical Univ., Noord-Italië | Automotive | Omsluitend kader | Een dataset van 28 clips voor in totaal 27 minuten opgesplitst in meer dan 30,000 voertuigannotatieframes. Annotatie werd semi-automatisch geproduceerd met behulp van de gegevens van de laserscanner. Deze gegevensverzameling omvat variabele verkeersscenario's, aantal rijstroken, wegkromming en verlichting, die veel van de voorwaarden van de volledige acquisitie dekken. | Link |
CV | Video | Zonder toezicht lama's, door Bosch, Verenigde Staten | Automotive | Rijbaanmarkering, LiDAR | De Unsupervised Llamas-dataset is geannoteerd door het genereren van high-definition automatische rijkaarten, inclusief op Lidar gebaseerde rijstrookmarkeringen. Het autonome voertuig kan tegen deze kaarten worden uitgelijnd en de rijstrookmarkeringen worden in het cameraframe geprojecteerd. De 3D-projectie wordt geoptimaliseerd door de discrepantie tussen reeds waargenomen en voorspelde beeldmarkeringen te minimaliseren. | Link |
NLP | Audio | Facebook AI Meertalige LibriSpeech (MLS) | Algemeen | Audio-annotatie / spraakherkenning | Facebook AI Multilingual LibriSpeech (MLS), is een grootschalige, open source dataset die is ontworpen om onderzoek naar automatische spraakherkenning (ASR) vooruit te helpen. MLS biedt meer dan 50,000 uur aan audio in 8 talen: Engels, Duits, Nederlands, Frans, Spaans, Italiaans, Portugees en Pools. | Link |