8 februari 2022

Named Entity Recognition (NER) - Het concept, de typen en toepassingen

Elke keer dat we een woord horen of een tekst lezen, hebben we het natuurlijke vermogen om het woord te identificeren en te categoriseren in mensen, plaats, locatie, waarden en meer. Mensen kunnen een woord snel herkennen, categoriseren en de context begrijpen. Als u bijvoorbeeld het woord 'Steve Jobs' hoort, kunt u onmiddellijk aan ten minste drie tot vier kenmerken denken en de entiteit in categorieën indelen,

Persoon: Steve Jobs
Bedrijf: Apple
Locatie: Californië

Omdat computers dit natuurlijke vermogen niet hebben, hebben ze onze hulp nodig om woorden of tekst te identificeren en te categoriseren. Het is waar Erkende entiteitsherkenning (NER) in het spel komt.

Laten we een kort begrip krijgen van NER en zijn relatie tot NLP.

Wat is benoemde entiteitsherkenning?

Named Entity Recognition is een onderdeel van Natural Language Processing. Het primaire doel van NER is te verwerken gestructureerde en ongestructureerde data en classificeer deze benoemde entiteiten in vooraf gedefinieerde categorieën. Enkele veelvoorkomende categorieën zijn naam, locatie, bedrijf, tijd, geldwaarden, evenementen en meer.

Kort samengevat houdt NER zich bezig met:

Herkenning/detectie van benoemde entiteiten – Identificatie van een woord of een reeks woorden in een document.
Classificatie van benoemde entiteiten – Classificatie van elke gedetecteerde entiteit in vooraf gedefinieerde categorieën.

Maar hoe is NER gerelateerd aan NLP?

Natuurlijke taalverwerking helpt bij het ontwikkelen van intelligente machines die in staat zijn om betekenis uit spraak en tekst te halen. Machine Learning helpt deze intelligente systemen om te blijven leren door te trainen op grote hoeveelheden natuurlijke taal gegevenssets.

Over het algemeen bestaat NLP uit drie hoofdcategorieën:

De structuur en regels van de taal begrijpen – Syntaxis
De betekenis van woorden, tekst en spraak afleiden en hun relaties identificeren - Semantiek
Gesproken woorden herkennen, herkennen en omzetten in tekst - Toespraak

NER helpt bij het semantische deel van NLP, het extraheren van de betekenis van woorden, het identificeren en lokaliseren ervan op basis van hun relaties.

Veelvoorkomende voorbeelden van NER

Enkele veelvoorkomende voorbeelden van een vooraf bepaald entiteit categorisatie zijn:

Persoon: Michael Jackson, Oprah Winfrey, Barack Obama, Susan Sarandon

Locatie: Canada, Honolulu, Bangkok, Brazilië, Cambridge

Organisatie: Samsung, Disney, Yale Universiteit, Google

Tijd: 15.35, 12 uur,

Andere categorieën zijn onder meer Numerieke waarden, Expressie, E-mailadressen en Faciliteit.

Ambiguïteit in herkenning van entiteiten op naam

De categorie waartoe een term behoort, is intuïtief vrij duidelijk voor de mens. Dat is echter niet het geval bij computers - ze hebben te maken met classificatieproblemen. Bijvoorbeeld:

Manchester City (Organisatie) won de Premier League Trophy terwijl in de volgende zin de organisatie anders wordt gebruikt. Manchester City (Locatie) was een textiel- en industriële krachtpatser.

Uw NER-model nodig heeft trainingsdata nauwkeurig uitvoeren entiteit extractie en classificatie. Als je je model in Shakespeare-Engels traint, is het onnodig om te zeggen dat het Instagram niet kan ontcijferen.

Verschillende NER-benaderingen

Het primaire doel van een NER-model is om entiteiten in tekstdocumenten te labelen en te categoriseren. Hiervoor worden doorgaans de volgende drie benaderingen gebruikt. U kunt er echter ook voor kiezen om een of meer methoden te combineren.

Laten we vandaag uw AI-trainingsgegevensvereiste bespreken.

De verschillende benaderingen voor het maken van NER-systemen zijn:

Woordenboekgebaseerde systemen
Het op woordenboeken gebaseerde systeem is misschien wel de meest eenvoudige en fundamentele NER-benadering. Het zal een woordenboek gebruiken met veel woorden, synoniemen en woordenschatverzameling. Het systeem controleert of een bepaalde entiteit die in de tekst voorkomt ook in de woordenschat voorkomt. Door gebruik te maken van een algoritme voor het matchen van strings, wordt een kruiscontrole van entiteiten uitgevoerd.
Een nadeel van het gebruik van deze benadering is dat de vocabulaire-dataset voortdurend moet worden bijgewerkt voor het effectief functioneren van het NER-model.
Op regels gebaseerde systemen
Bij deze benadering wordt informatie geëxtraheerd op basis van een set vooraf ingestelde regels. Er zijn twee primaire sets van regels die worden gebruikt,
Op patronen gebaseerde regels - Zoals de naam al doet vermoeden, volgt een op patronen gebaseerde regel een morfologisch patroon of een reeks woorden die in het document worden gebruikt.
Op context gebaseerde regels – Op context gebaseerde regels zijn afhankelijk van de betekenis of de context van het woord in het document.
Op machine learning gebaseerde systemen
In op Machine learning gebaseerde systemen wordt statistische modellering gebruikt om entiteiten te detecteren. In deze benadering wordt een op kenmerken gebaseerde weergave van het tekstdocument gebruikt. U kunt verschillende nadelen van de eerste twee benaderingen overwinnen, aangezien het model dit kan herkennen: entiteitstypen ondanks kleine variaties in hun spelling.

Gebruiksscenario's en voorbeelden van herkenning van benoemde entiteiten?

Onthulling van de veelzijdigheid van Named Entity Recognition (NER):

chatbots: NER helpt chatbots zoals OpenAI's ChatGPT bij het begrijpen van gebruikersvragen door belangrijke entiteiten te identificeren.
Klantenservice: Het organiseert feedback van klanten op productnamen, waardoor de responstijden worden versneld.
Financiën: NER haalt cruciale gegevens uit financiële rapporten en helpt bij trendanalyse en risicobeoordeling.
Gezondheidszorg: Het haalt essentiële informatie uit klinische dossiers en bevordert een snellere gegevensanalyse.
HR: Het stroomlijnt de werving door de profielen van sollicitanten samen te vatten en feedback van medewerkers te kanaliseren.
Nieuwsaanbieders: NER categoriseert inhoud in relevante informatie en trends, waardoor de rapportage wordt versneld.
Aanbeveling motoren: Bedrijven als Netflix gebruiken NER om aanbevelingen te personaliseren op basis van gebruikersgedrag.
Zoekmachines: Door webinhoud te categoriseren verbetert NER de nauwkeurigheid van zoekresultaten.
Sentiment analyse: NER haalt merkvermeldingen uit recensies, waardoor tools voor sentimentanalyse worden aangewakkerd.

Toepassingen van NER

NER heeft verschillende gebruiksscenario's op veel gebieden die verband houden met natuurlijke taalverwerking en het creëren van trainingsdatasets voor machine learning en diepgaand leren oplossingen. Enkele van de toepassingen van NER zijn:

Gestroomlijnde klantenondersteuning
Een NER-systeem kan eenvoudig relevante klachten, vragen en feedback van klanten opmerken op basis van cruciale informatie zoals productnamen, specificaties, vestigingslocaties en meer. De klacht of feedback wordt op passende wijze geclassificeerd en doorgestuurd naar de juiste afdeling door prioriteitszoekwoorden te filteren.
Efficiënte menselijke hulpbronnen
NER helpt HR-teams hun wervingsproces te verbeteren en de tijdlijnen te verkorten door de cv's van sollicitanten snel samen te vatten. De NER-tools kunnen het cv scannen en relevante informatie eruit halen – naam, leeftijd, adres, kwalificatie, universiteit, enzovoort.
Daarnaast kan de HR-afdeling ook NER-tools gebruiken om de interne workflows te stroomlijnen door klachten van werknemers te filteren en door te sturen naar de betrokken afdelingshoofden.
Vereenvoudigde inhoudsclassificatie
Contentclassificatie is een gigantische taak voor nieuwsaanbieders. Door de inhoud in verschillende categorieën in te delen, wordt het gemakkelijker om te ontdekken, inzichten te krijgen, trends te identificeren en de onderwerpen te begrijpen. een benoemde Entiteitsherkenning tool kan van pas komen voor nieuwsaanbieders. Het kan veel artikelen scannen, prioritaire trefwoorden identificeren en informatie extraheren op basis van de personen, organisatie, locatie en meer.
Zoekmachines optimaliseren
NER helpt bij het vereenvoudigen en verbeteren van de snelheid en relevantie van zoekresultaten. In plaats van de zoekopdracht voor duizenden artikelen uit te voeren, kan een NER-model de zoekopdracht één keer uitvoeren en de resultaten opslaan. Op basis van de tags in de zoekopdracht kunnen de artikelen die aan de zoekopdracht zijn gekoppeld dus snel worden opgehaald.
Nauwkeurige inhoudsaanbeveling
Verschillende moderne toepassingen zijn afhankelijk van NER-tools om een geoptimaliseerde en op maat gemaakte klantervaring te bieden. Netflix biedt bijvoorbeeld gepersonaliseerde aanbevelingen op basis van de zoek- en kijkgeschiedenis van de gebruiker met behulp van benoemde entiteitsherkenning.

Named Entity Recognition maakt uw machine learning modellen efficiënter en betrouwbaarder. U hebt echter hoogwaardige trainingsdatasets nodig om uw modellen op het optimale niveau te laten werken en de beoogde doelen te bereiken. Het enige dat u nodig heeft, is een ervaren servicepartner die u gebruiksklare kwaliteitsdatasets kan bieden. Als dat het geval is, is Shaip de beste keuze tot nu toe. Neem contact met ons op voor uitgebreide NER-datasets waarmee u efficiënte en geavanceerde ML-oplossingen voor uw AI-modellen kunt ontwikkelen.

[Lees ook: Casestudy: Named Entity Recognition (NER) voor klinische NLP]

Hoe werkt de herkenning van benoemde entiteiten?

Als we ons verdiepen in het domein van Named Entity Recognition (NER), wordt een systematische reis onthuld die uit verschillende fasen bestaat:

tokenization
In eerste instantie worden de tekstuele gegevens ontleed in kleinere eenheden, tokens genoemd, die kunnen variëren van woorden tot zinnen. De verklaring ‘Barack Obama was de president van de VS’ is bijvoorbeeld gesegmenteerd in tokens als ‘Barack’, ‘Obama’, ‘was’, ‘de’, ‘president’, ‘van’, ‘de’ en ‘ VERENIGDE STATEN VAN AMERIKA".
Detectie van entiteiten
Gebruikmakend van een mengsel van taalkundige richtlijnen en statistische methodologieën worden potentiële benoemde entiteiten in de schijnwerpers gezet. Het herkennen van patronen zoals hoofdletters in namen (“Barack Obama”) of verschillende notaties (zoals datums) is in deze fase van cruciaal belang.
Entiteitsclassificatie
Na detectie worden entiteiten gesorteerd in vooraf gedefinieerde categorieën, zoals ‘Persoon’, ‘Organisatie’ of ‘Locatie’. Machine learning-modellen, gebaseerd op gelabelde datasets, zijn vaak de drijvende kracht achter deze classificatie. Hier wordt ‘Barack Obama’ getagd als een ‘Persoon’ en ‘VS’ als een ‘Locatie’.
Contextuele evaluatie
De bekwaamheid van NER-systemen wordt vaak vergroot door de omringende context te evalueren. In de zinsnede 'Washington was getuige van een historische gebeurtenis' helpt de context bijvoorbeeld om 'Washington' als locatie te onderscheiden in plaats van als de naam van een persoon.
Verfijning na de evaluatie
Na de initiële identificatie en classificatie kan een verfijning na de evaluatie volgen om de resultaten aan te scherpen. In deze fase kunnen dubbelzinnigheden worden aangepakt, entiteiten met meerdere tokens worden samengevoegd of kennisbanken worden gebruikt om de entiteitsgegevens uit te breiden.

Deze afgebakende aanpak ontrafelt niet alleen de kern van NER, maar optimaliseert ook de inhoud voor zoekmachines, waardoor de zichtbaarheid van het ingewikkelde proces dat NER belichaamt wordt vergroot.

NER-voordelen en uitdagingen?

Voordelen:

Informatie-extractie: NER identificeert belangrijke gegevens en helpt bij het ophalen van informatie.
Inhoudsorganisatie: Het helpt bij het categoriseren van inhoud, handig voor databases en zoekmachines.
Verbeterde gebruikerservaring: NER verfijnt zoekresultaten en personaliseert aanbevelingen.
Inzichtelijke analyse: Het vergemakkelijkt sentimentanalyse en trenddetectie.
Geautomatiseerde workflow: NER bevordert automatisering, waardoor tijd en middelen worden bespaard.

Beperkingen/uitdagingen:

Dubbelzinnigheid oplossing: Worstelt met het onderscheiden van vergelijkbare entiteiten.
Domeinspecifieke aanpassing: Resource-intensief in diverse domeinen.
Taalafhankelijkheid: De effectiviteit varieert per taal.
Schaarste aan gelabelde gegevens: Heeft grote gelabelde datasets nodig voor training.
Omgaan met ongestructureerde gegevens: Vereist geavanceerde technieken.
Prestatiemeting: Nauwkeurige evaluatie is complex.
Real-time verwerking: Het balanceren van snelheid en nauwkeurigheid is een uitdaging.

Sociale Share

Praat met een expert

Voornaam*
Achternaam*
E-mail*
Telefoonnummer*
Bedrijf*
Land*
Land
Heb je vragen? Stel ze hier.*
Door te registreren ga ik akkoord met Shaip Privacy Policy en Algemene Voorwaarden en geef mijn toestemming om B2B-marketingcommunicatie van Shaip te ontvangen.
CAPTCHA

Gratis boek downloaden

Dit vind je misschien ook leuk

Named Entity Recognition (NER) - Het concept, de typen en toepassingen

Wat is benoemde entiteitsherkenning?

Veelvoorkomende voorbeelden van NER

Verschillende NER-benaderingen

Woordenboekgebaseerde systemen

Op regels gebaseerde systemen

Op machine learning gebaseerde systemen

Gebruiksscenario's en voorbeelden van herkenning van benoemde entiteiten?

Toepassingen van NER

Gestroomlijnde klantenondersteuning

Efficiënte menselijke hulpbronnen

Vereenvoudigde inhoudsclassificatie

Zoekmachines optimaliseren

Nauwkeurige inhoudsaanbeveling

Hoe werkt de herkenning van benoemde entiteiten?

tokenization

Detectie van entiteiten

Entiteitsclassificatie

Contextuele evaluatie

Verfijning na de evaluatie

NER-voordelen en uitdagingen?

Voordelen:

Beperkingen/uitdagingen:

Sociale Share

Praat met een expert

AI-gegevensservices

Specialiteit

Industrie

Producten

Bedrijf

Resources

Contact