Open source datasets om u op weg te helpen met AI/ML-modellen
De output van uw AI & ML-modellen is slechts zo goed als de gegevens die u gebruikt om ze te trainen - dus de precisie die u toepast op gegevensaggregatie en het taggen en identificeren van die gegevens is belangrijk!
Dus als u een nieuw AI/ML-initiatief wilt starten en u zich nu snel realiseert dat het vinden van hoogwaardige trainingsgegevens een van de meer uitdagende aspecten van uw project zal zijn, aangezien hoogwaardige datasets de brandstof zijn die de AI/ ML-motor loopt. We hebben een lijst met open datasets verzameld die u gratis kunt gebruiken en trainen voor uw AI/ML-modellen van de toekomst.
| Specialisatie | Data type | Dataset naam | Industrie / Afd. | Annotatie/gebruikssituatie | Link |
|---|---|---|---|---|---|
| +NLP | Tekst | Amazon beoordelingen | E-commerce | Sentiment analyse | Link |
| Beschrijving | Een set van 35 Mn beoordelingen en beoordelingen van de afgelopen 18 jaar in platte tekst met gebruikers- en productdetails. | ||||
| +NLP | Tekst | Wikipedia-linksgegevens | Algemeen | Link | |
| Beschrijving | Meer dan 4 miljoen artikelen met 1.9 miljard woorden van Wikipedia. Elk artikel bevat hyperlinks naar de bijbehorende entiteit. | ||||
| +NLP | Tekst | Standford Sentiment Boombank | Entertainment | Sentiment analyse | Link |
| Beschrijving | Dataset met sentimentannotaties voor meer dan 10,000 zinnen uit de filmrecensie van Rotten Tomatoes. Beschikbaar op zinsdeelniveau - elke zin wordt geparseerd in subzinnen door de parse-bomen te binariseren in het Penn Treebank-formaat. | ||||
| +NLP | Tekst | Twitter US Airline-sentiment | vliegmaatschappij | Sentiment analyse | Link |
| Beschrijving | Tweets over US Airlines waren in 2015 verdeeld in positieve, neutrale en negatieve sentimenten. | ||||
| +CV | Beeld | Beeldnet | Algemeen | Link | |
| Beschrijving | Dataset met meer dan 14 miljoen afbeeldingen in verschillende bestandsformaten, toegewezen aan ongeveer 21,000 synsets. Synsets zijn synoniemen met bijbehorende entiteiten die als afbeelding aanwezig zijn. 1 miljoen afbeeldingen heeft een begrenzend kader en meer dan 1 miljoen afbeeldingen hebben SIFT-functies. | ||||
| +CV | Beeld | Google's Open Afbeeldingen | Algemeen | Link | |
| Beschrijving | Een dataset vergelijkbaar met ImageNet met 600 categorieën. Beschikbaar in ontwikkelings-, validatie- en trainingsindelingen. Sommige afbeeldingen bevatten ook omkaderingskaders en visuele relaties. | ||||
| +NLP | Tekst | Cornell-filmdialogen | Entertainment | dialogen | Link |
| Beschrijving | Een verzameling fictieve gesprekken, met metadata van personages en films. Elke rij is een dialoog tussen twee personen, in een vraag-antwoordvorm. | ||||
| Beschrijving | Een vraag-antwoorddataset met vragen en antwoorden van het Yahoo Answers-portaal tussen april 2007 en oktober 2007. | ||||
| +NLP | Tekst | MEVROUW MARCO | Algemeen | Vraag beantwoorden | Link |
| Beschrijving | Een dataset met vraag-antwoorden en annotaties uit de webzoeklogboeken van Bing. Elke vraag bevat een antwoord van een gebruiker, evenals webpassages die het antwoord bevatten. | ||||
| +NLP | Tekst | Natuurlijke vragen dataset | Algemeen | Vraag beantwoorden | Link |
| Beschrijving | Deze door Google vrijgegeven dataset bevat echte gebruikersvragen en antwoorden uit Wikipedia-artikelen. | ||||
| +NLP | Tekst | DBPedia | Algemeen | Kennis Grafiek | Link |
| Beschrijving | Een gestructureerde weergave van Wikipedia, waarbij entiteiten en relaties zijn geëxtraheerd als een Knowledge Graph. | ||||
| +NLP | Tekst | YAGO | Algemeen | Kennis Grafiek | Link |
| Beschrijving | Een kennisgrafiek met entiteiten en relaties uit Wikipedia, WordNet en GeoNames. | ||||
| +NLP | Tekst | FreeBase | Algemeen | Kennis Grafiek | Link |
| Beschrijving | Een crowd-sourced kennisbank bestaande uit entiteiten en relaties, nu opgenomen in Google Knowledge Graph. | ||||
| +NLP | Tekst | Ontonotes | Algemeen | Semantische rollabeling | Link |
| Beschrijving | Een corpus met syntactische, semantische en discours-niveau annotaties die worden gebruikt in de gedeelde CoNLL-taken. | ||||
| Beschrijving | Een Engelstalige dataset met aantekeningen voor benoemde entiteiten zoals persoon, organisatie en locatie. | ||||
| +CV | Beeld | COCO | Algemeen | Objectdetectie | Link |
| Beschrijving | Common Objects in Context: een dataset met uitgebreide annotaties voor objectdetectie, segmentatie en ondertiteling. | ||||
| +CV | Beeld | PASCALE VOC | Algemeen | Objectdetectie | Link |
| Beschrijving | Een benchmarkdataset voor uitdagingen op het gebied van objectdetectie en -segmentatie. | ||||
| +CV | Beeld | Stadsgezichten | Autonoom rijden | Semantische segmentatie | Link |
| Beschrijving | Dataset voor inzicht in stedelijke scènes met annotaties op pixelniveau voor 30 klassen. | ||||
| +CV | Beeld | MNIST | Algemeen | Cijferclassificatie | Link |
| Beschrijving | Dataset met handgeschreven cijfers met 60,000 trainings- en 10,000 testbeelden van 28x28 pixels. | ||||
| +CV | Beeld | Mode-MNIST | Retail | Afbeeldingsclassificatie | Link |
| Beschrijving | Dataset met afbeeldingen van artikelen van Zalando in hetzelfde formaat als MNIST, gebruikt als directe vervanging voor benchmarking. | ||||
| +NLP | Audio | LibriSpraak | Algemeen | ASR | Link |
| Beschrijving | Een corpus van gelezen Engelse spraak afkomstig van luisterboeken, met 1000 uur aan spraak en bijbehorende teksten. | ||||
| +NLP | Audio | TED-LIUM | Algemeen | ASR | Link |
| Beschrijving | Getranscribeerde TED-talks met audio en afgestemde transcripties voor onderzoek naar spraakherkenning. | ||||
| +NLP | Audio | TIMIT | Algemeen | Foneemherkenning | Link |
| Beschrijving | Fonetisch getranscribeerde spraak van sprekers van het Amerikaans-Engels, veel gebruikt voor foneemherkenningstaken. | ||||
| +NLP | Audio | Gemeenschappelijke stem | Algemeen | ASR | Link |
| Beschrijving | Een meertalig corpus van voorgelezen toespraken, bijeengebracht door vrijwilligers over de hele wereld. | ||||
| +NLP | Audio | VoxCeleb | Algemeen | Luidsprekerherkenning | Link |
| Beschrijving | Een grootschalige dataset voor sprekersidentificatie, verzameld uit YouTube-video's. | ||||
| +NLP | Tekst | Wikipedia-dump | Algemeen | Taalmodellering | Link |
| Beschrijving | Volledige tekstdumps van Wikipedia-artikelen, regelmatig bijgewerkt, gebruikt voor het vooraf trainen van taalmodellen. | ||||
| +NLP | Tekst | Gigawoord | Nieuws | Taalmodellering | Link |
| Beschrijving | Een uitgebreid archief met nieuwstekstgegevens van verschillende persbureaus. | ||||
| +NLP | Tekst | IMDB beoordelingen | Entertainment | Sentiment analyse | Link |
| Beschrijving | Grote dataset met filmrecensies voor binaire sentimentclassificatie. | ||||
| +CV | Video | Kinetiek-700 | Algemeen | Actieherkenning | Link |
| Beschrijving | Een grootschalige, hoogwaardige dataset met YouTube-videoclips die 700 soorten menselijk handelen bestrijken. | ||||
| +CV | Video | UCF101 | Algemeen | Actieherkenning | Link |
| Beschrijving | Een dataset met realistische actievideo's, met 101 actiecategorieën. | ||||
| +CV | Video | HMDB51 | Algemeen | Actieherkenning | Link |
| Beschrijving | Een grote database met video's van menselijke bewegingen met 51 actiecategorieën. | ||||
| Beschrijving | Een database met foto's van gezichten, ontworpen voor het bestuderen van onbeperkte gezichtsherkenning. | ||||
| +CV | Beeld | CASIA-WebFace | Algemeen | Gezichtsherkenning | Link |
| Beschrijving | Een dataset met miljoenen afbeeldingen van gezichten voor het trainen van modellen voor diepe gezichtsherkenning. | ||||
| +NLP | Tekst | Ploeg | Algemeen | Begrijpend lezen | Link |
| Beschrijving | Stanford Question Answering Dataset: vragen gesteld door crowdworkers over een reeks Wikipedia-artikelen. | ||||
| Beschrijving | Een dataset over machinebegrip met vragen en antwoorden op basis van nieuwsartikelen van CNN. | ||||
| +NLP | Tekst | MultiNLI | Algemeen | Natuurlijke taalinferentie | Link |
| Beschrijving | Een dataset voor het afleiden van natuurlijke taaluitdrukkingen op basis van zinsparen in meerdere genres. | ||||
| +NLP | Tekst | SNLI | Algemeen | Natuurlijke taalinferentie | Link |
| Beschrijving | Stanford Natural Language Inference Corpus met zinparen die zijn gelabeld als implicatie, tegenspraak of neutraal. | ||||
| Beschrijving | Een verzameling van meer dan 100 miljoen tokens, afkomstig uit de set geverifieerde goede en uitgelichte artikelen op Wikipedia. | ||||
| Beschrijving | Een dataset met 16,185 afbeeldingen van 196 soorten auto's. | ||||
| +CV | Beeld | Oxford Bloemen 102 | Plantkunde | Fijnmazige classificatie | Link |
| Beschrijving | 102 bloemcategorieën die veel voorkomen in het Verenigd Koninkrijk. | ||||
| +CV | Beeld | CIFAR-10 | Algemeen | Afbeeldingsclassificatie | Link |
| Beschrijving | Afbeeldingen van 10 klassen: vliegtuig, auto, vogel, kat, hert, hond, kikker, paard, schip en vrachtwagen. | ||||
| +CV | Beeld | CIFAR-100 | Algemeen | Afbeeldingsclassificatie | Link |
| Beschrijving | Een dataset vergelijkbaar met CIFAR-10, maar met 100 fijnmazige klassen. | ||||
| +CV | Beeld | VOC-persoonsindeling | Algemeen | Stel schatting | Link |
| Beschrijving | Onderdeel van PASCAL VOC, gericht op annotaties van de lay-out van personen, zoals hoofd, handen en voeten. | ||||
| +CV | Beeld | MPII Menselijke houding | Algemeen | Stel schatting | Link |
| Beschrijving | Ongeveer 25,000 afbeeldingen met meer dan 40,000 mensen met geannoteerde lichaamsdelen. | ||||
| Beschrijving | Verzameling van Reuters-nieuwsartikelen voor onderzoek naar tekstcategorisatie. | ||||
| +NLP | Tekst | 20 nieuwsgroepen | Algemeen | Tekstclassificatie | Link |
| Beschrijving | Een verzameling van 20,000 nieuwsgroepdocumenten, verdeeld over 20 verschillende nieuwsgroepen. | ||||