NLP-gegevensset voor ML

15 beste NLP-datasets om u natuurlijke taalverwerkingsmodellen te trainen

Natuurlijke taalverwerking is een essentieel onderdeel van het machine learning-pantser. Er zijn echter enorme hoeveelheden gegevens en training nodig om het model goed te laten werken. Een van de belangrijke problemen met NLP is het gebrek aan trainingsdatasets die grote interessegebieden binnen het domein kunnen bestrijken.

Als u begint in dit enorme veld, vindt u het misschien een uitdaging en praktisch overbodig om uw datasets te maken. Vooral als er kwaliteit is NLP datasets beschikbaar om uw machine learning-modellen te trainen op basis van hun doel.

De NLP-markt zal naar verwachting groeien met een CAGR van 11.7% in 2018 en 2026 om te bereiken $ 28.6 miljard door 2026. Dankzij de groeiende vraag naar NLP en machine learning, is het nu mogelijk om hoogwaardige datasets in handen te krijgen voor sentimentanalyse, beoordelingen, vraag- en antwoordanalyse en spraakanalysedatasets.

De NLP-datasets voor machine learning waarop u kunt vertrouwen

Aangezien er bijna elke dag talloze datasets - gericht op verschillende behoeften - worden vrijgegeven, kan het een uitdaging zijn om toegang te krijgen tot hoogwaardige, betrouwbare en beste datasets. Hier hebben we het werk voor u gemakkelijker gemaakt, omdat we u samengestelde datasets hebben gepresenteerd die zijn gescheiden op basis van de categorieën die ze bedienen.

Algemeen

Spambase, gemaakt in de Hewlett-Packard Labs, heeft een verzameling spam-e-mails van de gebruikers, met als doel een gepersonaliseerd spamfilter te ontwikkelen. Het heeft meer dan 4600 waarnemingen van e-mailberichten, waarvan bijna 1820 spam zijn.

De Enron-dataset heeft een uitgebreide verzameling geanonimiseerde 'echte' e-mails die beschikbaar zijn voor het publiek om hun machine learning-modellen te trainen. Het beschikt over meer dan een half miljoen e-mails van meer dan 150 gebruikers, voornamelijk het senior management van Enron. Deze dataset is beschikbaar voor gebruik in zowel gestructureerde als ongestructureerde formaten. Om de ongestructureerde data op te fleuren, moet je dataverwerkingstechnieken toepassen.

  • Gegevensset van aanbevolen systemen (Link)

De gegevensset van het Recommender-systeem is een enorme verzameling van verschillende gegevenssets met verschillende functies, zoals

  • Beoordelingen
  • Sterbeoordelingen
  • Fitness volgen
  • Nummergegevens
  • Sociale netwerken
  • timestamps
  • Gebruiker/item interacties
  • GPS-gegevens

Sentiment analyse

  • Woordenboeken voor films en financiën (Link)

Sentiment analyse
De dataset Woordenboeken voor films en financiën biedt domeinspecifieke woordenboeken voor positieve of negatieve polariteit in financiële vullingen en filmrecensies. Deze woordenboeken zijn afkomstig uit IMDb en US Form-8 vullingen.

Sentiment 140 heeft meer dan 160,000 tweets met verschillende emoticons gecategoriseerd in 6 verschillende velden: tweetdatum, polariteit, tekst, gebruikersnaam, ID en zoekopdracht. Met deze dataset kun je het sentiment van een merk, een product of zelfs een onderwerp ontdekken op basis van Twitter-activiteit. Aangezien deze dataset automatisch wordt aangemaakt, in tegenstelling tot andere door mensen geannoteerde tweets, classificeert het tweets met positieve emoties en negatieve emoties als ongunstig.

  • Multi-domein sentiment dataset (Link)

Deze sentimentdataset met meerdere domeinen is een opslagplaats van Amazon-recensies voor verschillende producten. Sommige productcategorieën, zoals boeken, hebben duizenden recensies, terwijl andere slechts een paar honderd recensies hebben. Bovendien kunnen de beoordelingen met sterbeoordelingen worden omgezet in binaire labels.

Laten we vandaag uw AI-trainingsgegevensvereiste bespreken.

Tekst

Het WiKi QA Corpus is gemaakt om het open-domein vraag- en antwoordonderzoek te helpen en is een van de meest uitgebreide openbaar beschikbare datasets. Het is samengesteld uit de zoekopdrachtlogboeken van de Bing-zoekmachine en wordt geleverd met vraag-en-antwoordparen. Het heeft meer dan 3000 vragen en 1500 gelabelde antwoordzinnen.

  • Dataset juridische casusrapporten (Link)

De dataset Legal Case Reports heeft een verzameling van 4000 rechtszaken en kan worden gebruikt om te trainen voor automatische tekstsamenvatting en citatie-analyse. Elk document, catchphrases, citatieklassen, citation catchphrases en meer worden gebruikt.

Jeopardy-dataset is een verzameling van meer dan 200,000 vragen in de populaire quiz-tv-show die is samengesteld door een Reddit-gebruiker. Elk datapunt wordt geclassificeerd op basis van de uitgezonden datum, afleveringsnummer, waarde, ronde en vraag/antwoord.

Audio spraak

  • Gesproken Wikipedia Corpora (Link)

Audiotoespraak Deze dataset is perfect voor iedereen die verder wil gaan dan de Engelse taal. Deze dataset bevat een verzameling artikelen die in het Nederlands en Duits en Engels zijn gesproken. Het heeft een breed scala aan onderwerpen en sprekerssets die honderden uren in beslag nemen.

De Engelse dataset HUB2000 uit 5 bevat 40 transcripties van telefoongesprekken in de Engelse taal. De gegevens worden geleverd door het National Institute of Standards and Technology, en de belangrijkste focus ligt op het herkennen van conversatiespraak en het omzetten van spraak in tekst.

LibriSpeech-dataset is een verzameling van bijna 1000 uur Engelse spraak die is genomen en correct is gesegmenteerd op onderwerpen in hoofdstukken uit audioboeken, waardoor het een perfect hulpmiddel is voor natuurlijke taalverwerking.

Recensies

De Yelp-dataset heeft een uitgebreide verzameling van ongeveer 8.5 miljoen beoordelingen van meer dan 160,000 bedrijven, hun beoordelingen en gebruikersgegevens. De beoordelingen kunnen worden gebruikt om uw modellen te trainen in sentimentanalyse. Bovendien bevat deze dataset ook meer dan 200,000 foto's van acht grootstedelijke locaties.

IMDB-recensies behoren tot de meest populaire datasets met cast-informatie, beoordelingen, beschrijving en genre voor meer dan 50 duizend films. Deze dataset kan worden gebruikt om uw machine learning-modellen te testen en te trainen.

  • Amazon-gegevensset voor recensies en beoordelingen (Link)

Amazon review- en beoordelingsdataset bevat een waardevolle verzameling metadata en reviews van verschillende producten van Amazon verzameld van 1996 tot 2014 - ongeveer 142.8 miljoen records. De metadata omvatten de prijs, productbeschrijving, merk, categorie en meer, terwijl de recensies tekstkwaliteit, het nut van de tekst, beoordelingen en meer hebben.

Welke dataset heb je gekozen om je machine learning-model op te trainen?

Als we gaan, laten we je achter met een pro-tip. 

Zorg ervoor dat u het README-bestand grondig doorloopt voordat u een NLP-dataset kiest voor uw behoeften. De dataset zal alle benodigde informatie bevatten die u nodig heeft, zoals de inhoud van de dataset, de verschillende parameters waarop de data is gecategoriseerd en de mogelijke gebruiksscenario's van de dataset.

Ongeacht de modellen die u bouwt, is er een opwindend vooruitzicht om onze machines nauwer en intrinsieker met ons leven te integreren. Met NLP worden de mogelijkheden voor zaken, films, spraakherkenning, financiën en meer uitgebreid. Als u op zoek bent naar meer van dergelijke datasets Klik hier.

Sociale Share

Dit vind je misschien ook leuk