Named Entity Recognition (NER)

Named Entity Recognition (NER) - Het concept, de typen en toepassingen

Elke keer dat we een woord horen of een tekst lezen, hebben we het natuurlijke vermogen om het woord te identificeren en te categoriseren in mensen, plaats, locatie, waarden en meer. Mensen kunnen een woord snel herkennen, categoriseren en de context begrijpen. Als u bijvoorbeeld het woord 'Steve Jobs' hoort, kunt u onmiddellijk aan ten minste drie tot vier kenmerken denken en de entiteit in categorieën indelen,

  • Persoon: Steve Jobs
  • Bedrijf: Apple
  • Locatie: Californië

Omdat computers dit natuurlijke vermogen niet hebben, hebben ze onze hulp nodig om woorden of tekst te identificeren en te categoriseren. Het is waar Erkende entiteitsherkenning (NER) in het spel komt.

Laten we een kort begrip krijgen van NER en zijn relatie tot NLP.

Wat is benoemde entiteitsherkenning?

Named Entity Recognition is een onderdeel van Natural Language Processing. Het primaire doel van NER is te verwerken gestructureerde en ongestructureerde data en classificeer deze benoemde entiteiten in vooraf gedefinieerde categorieën. Enkele veelvoorkomende categorieën zijn naam, locatie, bedrijf, tijd, geldwaarden, evenementen en meer.

Kort samengevat houdt NER zich bezig met:

  • Herkenning/detectie van benoemde entiteiten – Identificatie van een woord of een reeks woorden in een document.
  • Classificatie van benoemde entiteiten – Classificatie van elke gedetecteerde entiteit in vooraf gedefinieerde categorieën.

Maar hoe is NER gerelateerd aan NLP?

Natuurlijke taalverwerking helpt bij het ontwikkelen van intelligente machines die in staat zijn om betekenis uit spraak en tekst te halen. Machine Learning helpt deze intelligente systemen om te blijven leren door te trainen op grote hoeveelheden natuurlijke taal gegevenssets.

Over het algemeen bestaat NLP uit drie hoofdcategorieën:

  • De structuur en regels van de taal begrijpen – Syntaxis
  • De betekenis van woorden, tekst en spraak afleiden en hun relaties identificeren - Semantiek
  • Gesproken woorden herkennen, herkennen en omzetten in tekst - Toespraak

NER helpt bij het semantische deel van NLP, de betekenis van woorden extraheren, ze identificeren en lokaliseren op basis van hun relaties.

Veelvoorkomende voorbeelden van NER

Enkele veelvoorkomende voorbeelden van een vooraf bepaald entiteit categorisatie zijn:

Veelvoorkomende voorbeelden van Ner Persoon: Michael Jackson, Oprah Winfrey, Barack Obama, Susan Sarandon

Locatie: Canada, Honolulu, Bangkok, Brazilië, Cambridge

Organisatie: Samsung, Disney, Yale University, Google

Tijd: 15.35, 12 uur,

Andere categorieën zijn onder meer Numerieke waarden, Expressie, E-mailadressen en Faciliteit.

Ambiguïteit in herkenning van entiteiten op naam

De categorie waartoe een term behoort, is intuïtief vrij duidelijk voor de mens. Dat is echter niet het geval bij computers - ze hebben te maken met classificatieproblemen. Bijvoorbeeld:

Manchester City (Organisatie) won de Premier League Trophy terwijl in de volgende zin de organisatie anders wordt gebruikt. Manchester City (Locatie) was een textiel- en industriële krachtpatser.

Uw NER-model nodig heeft trainingsdata nauwkeurig uitvoeren entiteit extractie en classificatie. Als je je model in Shakespeare-Engels traint, is het onnodig om te zeggen dat het Instagram niet kan ontcijferen.

Verschillende NER-benaderingen

Het primaire doel van een NER-model is om entiteiten in tekstdocumenten te labelen en te categoriseren. Hiervoor worden doorgaans de volgende drie benaderingen gebruikt. U kunt er echter ook voor kiezen om een ​​of meer methoden te combineren.

Laten we vandaag uw AI-trainingsgegevensvereiste bespreken.

De verschillende benaderingen voor het maken van NER-systemen zijn:

  • Woordenboekgebaseerde systemen

    Het op woordenboeken gebaseerde systeem is misschien wel de meest eenvoudige en fundamentele NER-benadering. Het zal een woordenboek gebruiken met veel woorden, synoniemen en woordenschatverzameling. Het systeem controleert of een bepaalde entiteit die in de tekst voorkomt ook in de woordenschat voorkomt. Door gebruik te maken van een algoritme voor het matchen van strings, wordt een kruiscontrole van entiteiten uitgevoerd.

    Een nadeel van het gebruik van deze benadering is dat de vocabulaire-dataset voortdurend moet worden bijgewerkt voor het effectief functioneren van het NER-model.

  • Op regels gebaseerde systemen

    Bij deze benadering wordt informatie geëxtraheerd op basis van een set vooraf ingestelde regels. Er zijn twee primaire sets van regels die worden gebruikt,

    Op patronen gebaseerde regels - Zoals de naam al doet vermoeden, volgt een op patronen gebaseerde regel een morfologisch patroon of een reeks woorden die in het document worden gebruikt.

    Op context gebaseerde regels – Op context gebaseerde regels zijn afhankelijk van de betekenis of de context van het woord in het document.

  • Op machine learning gebaseerde systemen

    In op Machine learning gebaseerde systemen wordt statistische modellering gebruikt om entiteiten te detecteren. In deze benadering wordt een op kenmerken gebaseerde weergave van het tekstdocument gebruikt. U kunt verschillende nadelen van de eerste twee benaderingen overwinnen, aangezien het model dit kan herkennen: entiteitstypen ondanks kleine variaties in hun spelling.

Toepassingen van NER

NER heeft verschillende use-cases op veel gebieden die verband houden met natuurlijke taalverwerking en het maken van trainingsdatasets voor: machine learning en diepgaand leren oplossingen. Enkele van de toepassingen van NER zijn:

  • Gestroomlijnde klantenondersteuning

    Een NER-systeem kan gemakkelijk relevante klachten, vragen en feedback van klanten herkennen op basis van cruciale informatie zoals productnamen, specificaties, vestigingslocatie en meer. De klacht of feedback wordt passend geclassificeerd en doorgestuurd naar de juiste afdeling door prioriteitszoekwoorden te filteren.

  • Efficiënte menselijke hulpbronnen

    NER helpt Human Resource-teams om hun wervingsproces te verbeteren en de tijdlijnen te verkorten door snel de cv's van sollicitanten samen te vatten. De NER-tools kunnen het cv scannen en relevante informatie extraheren - naam, leeftijd, adres, kwalificatie, universiteit, enzovoort.

    Daarnaast kan de HR-afdeling ook NER-tools gebruiken om de interne workflows te stroomlijnen door klachten van werknemers te filteren en door te sturen naar de betrokken afdelingshoofden.

  • Vereenvoudigde inhoudsclassificatie

    Contentclassificatie is een gigantische taak voor nieuwsaanbieders. Door de inhoud in verschillende categorieën in te delen, wordt het gemakkelijker om te ontdekken, inzichten te krijgen, trends te identificeren en de onderwerpen te begrijpen. een benoemde Entiteitsherkenning tool kan van pas komen voor nieuwsaanbieders. Het kan veel artikelen scannen, prioritaire trefwoorden identificeren en informatie extraheren op basis van de personen, organisatie, locatie en meer.

  • Zoekmachines optimaliseren

    Search Engine Optimization NER helpt bij het vereenvoudigen en verbeteren van de snelheid en relevantie van zoekresultaten. In plaats van de zoekopdracht voor duizenden artikelen uit te voeren, kan een NER-model de zoekopdracht één keer uitvoeren en de resultaten opslaan. Op basis van de tags in de zoekopdracht kunnen de artikelen die aan de zoekopdracht zijn gekoppeld dus snel worden opgehaald.

  • Nauwkeurige inhoudsaanbeveling

    Verschillende moderne applicaties zijn afhankelijk van NER-tools om een ​​geoptimaliseerde en op maat gemaakte klantervaring te leveren. Netflix biedt bijvoorbeeld gepersonaliseerde aanbevelingen op basis van de zoek- en kijkgeschiedenis van gebruikers met behulp van benoemde entiteitsherkenning.

Named Entity Recognition maakt uw machine learning modellen efficiënter en betrouwbaarder. U hebt echter hoogwaardige trainingsgegevenssets nodig om uw modellen op hun optimale niveau te laten werken en de beoogde doelen te bereiken. Het enige dat u nodig heeft, is een ervaren servicepartner die u kant-en-klare kwaliteitsdatasets kan leveren. Als dat het geval is, is Shaip de beste keuze tot nu toe. Neem contact met ons op voor uitgebreide NER-datasets om u te helpen bij het ontwikkelen van efficiënte en geavanceerde ML-oplossingen voor uw AI-modellen.P

Sociale Share

Dit vind je misschien ook leuk