NLP-gegevensset voor ML

Top NLP-dataset om uw machine learning-modellen te verbeteren

NLP-datasets vormen de ruggengraat van veel natuurlijke taalverwerkingsprojecten en bieden flexibiliteit voor een breed scala aan taken, zoals tekstclassificatie, sentimentanalyse en vraagbeantwoording. Het Blog Authorship Corpus bevat bijvoorbeeld meer dan 681,000 blogposts van bijna 20,000 bloggers, wat het een rijke bron maakt voor het bestuderen van schrijfstijlen, het identificeren van auteurs en meer.

Geïnteresseerden in academisch onderzoek kunnen terecht bij de dataset arXiv Research Papers, die toegang biedt tot een uitgebreide collectie wetenschappelijke artikelen in diverse disciplines. Deze dataset ondersteunt geavanceerde NLP-taken zoals citatieanalyse en documentclassificatie. De dataset van het Federal Procurement Data Center is een andere waardevolle bron met gedetailleerde informatie over federale contracten – ideaal voor projecten met overheidsdata en entiteitsherkenning.

Deze NLP-datasets worden veel gebruikt om machine learning-modellen te trainen en evalueren, en helpen onderzoekers en ontwikkelaars de prestaties van hun systemen voor diverse NLP-taken te verbeteren. Of u nu werkt met blogposts, onderzoekspapers of overheidsgegevens, deze datasets vormen de basis voor robuuste en veelzijdige NLP-toepassingen.

Wat is NLP?

NLP (Natural Language Processing) helpt computers menselijke taal te begrijpen. Het is alsof je computers leert om tekst en spraak te lezen, begrijpen en erop te reageren zoals mensen dat doen.

Wat kan NLP doen?

  • Verander rommelige tekst in georganiseerde gegevens
  • Begrijp of opmerkingen positief of negatief zijn
  • Vertalen tussen talen
  • Maak samenvattingen van lange teksten
  • En nog veel meer!
  • Aan de slag met NLP:

Om goede NLP-systemen te bouwen, heb je veel voorbeelden nodig om ze te trainen – net zoals mensen beter leren met meer oefening. Het goede nieuws is dat er veel gratis bronnen zijn waar je deze voorbeelden kunt vinden: Gezicht knuffelen, Kaggle en GitHub. Datasets van deze platforms zijn eenvoudig toegankelijk, waardoor de ontwikkeling van NLP-projecten wordt versneld.

NLP-markt omvang en groei:

In 2023 werd de markt voor natuurlijke taalverwerking (NLP) gewaardeerd op ongeveer $ 26 miljard. Er wordt verwacht dat deze aanzienlijk zal groeien, met een samengestelde jaarlijkse groei (CAGR) van ongeveer 30% van 2023 tot 2030. Deze groei wordt aangestuurd door de toenemende vraag naar NLP-toepassingen in sectoren zoals gezondheidszorg, financiën en klantenservice.

Bij het kiezen van een goede NLP-dataset moet u rekening houden met de volgende factoren:

  • Relevantie: Zorg ervoor dat de dataset aansluit bij uw specifieke taak of domein.
  • Grootte:Grotere datasets verbeteren doorgaans de modelprestaties, maar zorgen wel voor een evenwicht tussen grootte en kwaliteit.
  • Verscheidenheid: Zoek naar datasets met verschillende taalstijlen en contexten om de robuustheid van het model te verbeteren.
  • Kwaliteit: Controleer of de gegevens correct zijn gelabeld en correct zijn, om fouten te voorkomen.
  • Toegankelijkheid: Zorg ervoor dat de dataset beschikbaar is voor gebruik en houd rekening met eventuele licentiebeperkingen.
  • Voorverwerking: Bepaal of de dataset aanzienlijk moet worden opgeschoond of voorverwerkt.
  • Community Support: Populaire datasets hebben vaak meer bronnen en community-ondersteuning, wat handig kan zijn.

Door deze factoren te evalueren, kunt u een dataset selecteren die het beste aansluit bij de behoeften van uw project. Het kiezen van de juiste datasets is essentieel voor het behalen van optimale resultaten in NLP-projecten, omdat ze direct van invloed zijn op de modelprestaties en trainingsefficiëntie.

Top 33 Open Datasets die u gezien moet hebben voor NLP

Algemeen

  • UCI's Spambase (Link)

    Spambase, gemaakt in de Hewlett-Packard Labs, heeft een verzameling spam-e-mails van de gebruikers, met als doel een gepersonaliseerd spamfilter te ontwikkelen. Het heeft meer dan 4600 waarnemingen van e-mailberichten, waarvan bijna 1820 spam zijn.

  • Enron-gegevensset (Link)

    De Enron-dataset bevat een enorme verzameling geanonimiseerde 'echte' e-mails die openbaar beschikbaar zijn om hun machine learning-modellen te trainen. De dataset bevat meer dan een half miljoen e-mails van meer dan 150 gebruikers, voornamelijk het senior management van Enron. Deze dataset is beschikbaar voor gebruik in zowel gestructureerde als ongestructureerde formaten. Om de ongestructureerde data op te fleuren, moet je dataverwerkingstechnieken toepassen.

  • Gegevensset van aanbevolen systemen (Link)

    De gegevensset van het Recommender-systeem is een enorme verzameling van verschillende gegevenssets met verschillende functies, zoals

    • Beoordelingen
    • Sterbeoordelingen
    • Fitness volgen
    • Nummergegevens
    • Sociale netwerken
    • timestamps
    • Gebruiker/item interacties
    • GPS-gegevens
  • Penn Boombank (Link)

    Dit corpus, afkomstig van de Wall Street Journal, is populair voor het testen van modellen voor het labelen van sequenties.

  • NLTK (Link)

    Deze Python-bibliotheek biedt toegang tot meer dan 100 corpora en lexicale bronnen voor NLP. Het bevat ook het NLTK-boek, een training voor het gebruik van de bibliotheek. NLTK biedt toegang tot WordNet, een grote lexicale database van het Engels, waar woorden zoals zelfstandige naamwoorden, werkwoorden, bijvoeglijke naamwoorden en bijwoorden zijn gegroepeerd in synsets op basis van gedeelde betekenissen. NLTK biedt ook een geannoteerde lijst met corpora en lexicale bronnen voor NLP-onderzoek.

  • Universele afhankelijkheden (Link)

    UD biedt een consistente manier om grammatica te annoteren, met bronnen in meer dan 100 talen, 200 boombanken en ondersteuning van meer dan 300 communityleden.

Gegevenssets voor sentimentanalyse

  • Woordenboeken voor films en financiën (Link)

    Sentiment analyse
    De dataset Woordenboeken voor films en financiën biedt domeinspecifieke woordenboeken voor positieve of negatieve polariteit in financiële vullingen en filmrecensies. Deze woordenboeken zijn afkomstig uit IMDb en US Form-8 vullingen.

  • Gevoel 140 (Link)

    Sentiment 140 heeft meer dan 160,000 tweets met verschillende emoticons gecategoriseerd in 6 verschillende velden: tweetdatum, polariteit, tekst, gebruikersnaam, ID en zoekopdracht. Met deze dataset kun je het sentiment van een merk, een product of zelfs een onderwerp ontdekken op basis van Twitter-activiteit. Aangezien deze dataset automatisch wordt aangemaakt, in tegenstelling tot andere door mensen geannoteerde tweets, classificeert het tweets met positieve emoties en negatieve emoties als ongunstig.

  • Multi-domein sentiment dataset (Link)

    Deze sentimentdataset met meerdere domeinen is een opslagplaats van Amazon-recensies voor verschillende producten. Sommige productcategorieën, zoals boeken, hebben duizenden recensies, terwijl andere slechts een paar honderd recensies hebben. Bovendien kunnen de beoordelingen met sterbeoordelingen worden omgezet in binaire labels.

  • Standford Sentiment TreeBank (Link)

    Deze NLP-dataset van Rotten Tomatoes bevat langere zinnen en meer gedetailleerde tekstvoorbeelden.

  • Het blogauteurschapcorpus (Link)

    Deze collectie bevat blogposts met bijna 1.4 miljoen woorden, elke blog is een aparte dataset.

  • OpinRank-gegevensset (Link)

    300,000 beoordelingen van Edmunds en TripAdvisor, gerangschikt op automodel of reisbestemming en hotel.

Tekstdataset

  • Het Wiki QA Corpus (Link)

    Het WiKi QA Corpus is gemaakt om het open-domein vraag- en antwoordonderzoek te helpen en is een van de meest uitgebreide openbaar beschikbare datasets. Het is samengesteld uit de zoekopdrachtlogboeken van de Bing-zoekmachine en wordt geleverd met vraag-en-antwoordparen. Het heeft meer dan 3000 vragen en 1500 gelabelde antwoordzinnen.

  • Dataset juridische casusrapporten (Link)

    De dataset Legal Case Reports heeft een verzameling van 4000 rechtszaken en kan worden gebruikt om te trainen voor automatische tekstsamenvatting en citatie-analyse. Elk document, catchphrases, citatieklassen, citation catchphrases en meer worden gebruikt.

  • Gevaar (Link)

    Jeopardy-dataset is een verzameling van meer dan 200,000 vragen in de populaire quiz-tv-show die is samengesteld door een Reddit-gebruiker. Elk datapunt wordt geclassificeerd op basis van de uitgezonden datum, afleveringsnummer, waarde, ronde en vraag/antwoord.

  • 20 nieuwsgroepen (Link)

    Een verzameling van 20,000 documenten omvat 20 nieuwsgroepen en onderwerpen, met gedetailleerde onderwerpen van religie tot populaire sporten.

  • Reuters News-gegevensset (Link)

    Deze dataset verscheen voor het eerst in 1987 en is gelabeld, geïndexeerd en samengesteld voor machine learning-doeleinden.

  • ArXiv (Link)

    Deze substantiële dataset van 270 GB bevat de volledige tekst van alle arXiv-onderzoekspapers.

  • Parallelle corpus van procedures van het Europees Parlement (Link)

    Zinsparen uit de werkzaamheden van het Parlement omvatten inzendingen uit 21 Europese talen, met enkele minder gebruikelijke talen voor machine learning-corpora.

  • Miljard Word Benchmark (Link)

    Deze dataset voor taalmodellering, afgeleid van de WMT 2011 News Crawl, bevat bijna een miljard woorden voor het testen van innovatieve taalmodelleringstechnieken.

Audio-spraakdatasets

  • Gesproken Wikipedia Corpora (Link)

    Audiotoespraak Deze dataset is perfect voor iedereen die verder wil gaan dan de Engelse taal. Deze dataset bevat een verzameling artikelen die in het Nederlands en Duits en Engels zijn gesproken. Het heeft een breed scala aan onderwerpen en sprekerssets die honderden uren in beslag nemen.

  • 2000 HUB5 Engels (Link)

    De Engelse dataset HUB2000 uit 5 bevat 40 transcripties van telefoongesprekken in de Engelse taal. De gegevens worden geleverd door het National Institute of Standards and Technology, en de belangrijkste focus ligt op het herkennen van conversatiespraak en het omzetten van spraak in tekst.

  • LibriSpraak (Link)

    LibriSpeech-dataset is een verzameling van bijna 1000 uur Engelse spraak die is genomen en correct is gesegmenteerd op onderwerpen in hoofdstukken uit audioboeken, waardoor het een perfect hulpmiddel is voor natuurlijke taalverwerking.

  • Gratis gesproken cijfers-dataset (Link)

    Deze NLP-dataset bevat meer dan 1,500 opnames van gesproken cijfers in het Engels.

  • M-AI Labs spraakgegevensset (Link)

    De dataset biedt bijna 1,000 uur aan audio met transcripties, omvat meerdere talen en is onderverdeeld in mannelijke, vrouwelijke en gemengde stemmen.

  • Database met luidruchtige spraak (link)

    Deze dataset bevat parallelle, luidruchtige en zuivere spraakopnamen, bedoeld voor de ontwikkeling van spraakverbeteringssoftware, maar ook nuttig voor spraaktraining in uitdagende omstandigheden.

Beoordelingen Datasets

  • Yelp beoordelingen (Link)

    De Yelp-dataset heeft een uitgebreide verzameling van ongeveer 8.5 miljoen beoordelingen van meer dan 160,000 bedrijven, hun beoordelingen en gebruikersgegevens. De beoordelingen kunnen worden gebruikt om uw modellen te trainen in sentimentanalyse. Bovendien bevat deze dataset ook meer dan 200,000 foto's van acht grootstedelijke locaties.

  • IMDB beoordelingen (Link)

    IMDB-recensies behoren tot de meest populaire datasets met cast-informatie, beoordelingen, beschrijving en genre voor meer dan 50 duizend films. Deze dataset kan worden gebruikt om uw machine learning-modellen te testen en te trainen.

  • Amazon-gegevensset voor recensies en beoordelingen (Link)

    Amazon review- en beoordelingsdataset bevat een waardevolle verzameling metadata en reviews van verschillende producten van Amazon verzameld van 1996 tot 2014 - ongeveer 142.8 miljoen records. De metadata omvatten de prijs, productbeschrijving, merk, categorie en meer, terwijl de recensies tekstkwaliteit, het nut van de tekst, beoordelingen en meer hebben.

Vraag- en antwoorddatasets

  • Stanford vraag- en antwoordgegevensset (SQuAD) (Link)

    Deze dataset voor begrijpend lezen bevat 100,000 beantwoordbare en 50,000 onbeantwoordbare vragen, allemaal gemaakt door crowdworkers van Wikipedia.

  • Natuurlijke vragen (Link)

    Deze trainingsset bevat ruim 300,000 trainingsvoorbeelden, 7,800 ontwikkelingsvoorbeelden en 7,800 testvoorbeelden, elk met een Google-zoekopdracht en een bijpassende Wikipedia-pagina.

  • Trivia QA (Link)

    Deze uitdagende vragenset bevat 950,000 QA-paren, inclusief zowel door mensen geverifieerde als door machines gegenereerde subsets.

  • CLEVR (compositietaal en elementair visueel redeneren) (Link)

    Deze dataset voor het beantwoorden van visuele vragen bevat 3D-gerenderde objecten en duizenden vragen met details over de visuele scène.

Welke dataset heb je gekozen om je machine learning-model op te trainen?

Als we gaan, laten we je achter met een pro-tip.

Zorg ervoor dat u het README-bestand grondig doorloopt voordat u een NLP-dataset kiest voor uw behoeften. De dataset zal alle benodigde informatie bevatten die u nodig heeft, zoals de inhoud van de dataset, de verschillende parameters waarop de data is gecategoriseerd en de mogelijke gebruiksscenario's van de dataset.

Ongeacht de modellen die je bouwt, er is een opwindend vooruitzicht om onze machines nauwer en intrinsieker te integreren in ons leven. Met NLP worden de mogelijkheden voor zaken, films, spraakherkenning, financiën en meer enorm vergroot.

Vond je dit artikel interessant? Volg Shaip op LinkedIn voor meer updates.

Sociale Share