Definitie
Named Entity Recognition (NER) is een NLP-taak waarmee entiteiten in tekst, zoals personen, organisaties, locaties, data of producten, worden geïdentificeerd en geclassificeerd.
Doel
Het doel is om ongestructureerde tekst te structureren door sleutelentiteiten te extraheren. Het ondersteunt zoeken, informatie-extractie en het bouwen van kennisgrafieken.
Belang
- Fundamenteel voor informatieopvraging en NLP-pijplijnen.
- Fouten worden doorgegeven aan downstream-applicaties.
- Voor domeinspecifieke NER (bijvoorbeeld medisch, juridisch) zijn aangepaste datasets nodig.
- Gerelateerd aan taken zoals entiteitskoppeling en relatie-extractie.
Hoe het werkt
- Tekst verzamelen en voorbewerken.
- Annoteer datasets met entiteitscategorieën.
- Train modellen op gelabelde voorbeelden (CRF's, transformatoren).
- Voorspel entiteiten in ongeziene tekst.
- Valideer de nauwkeurigheid met testgegevens.
Voorbeelden (echte wereld)
- spaCy: open-source NLP-bibliotheek met ingebouwde NER.
- Stanford CoreNLP: biedt hulpmiddelen voor het herkennen van benoemde entiteiten.
- Financiële NLP: haalt bedrijfsnamen uit rapporten.
Referenties / Verder lezen
- Jurafsky & Martin. Spraak- en taalverwerking. Stanford.
- Lample et al. “Neurale architecturen voor herkenning van benoemde entiteiten.” ACL.
- Knuffelende Gezichtstransformatoren NER-modellen.
- Wat is Named Entity Recognition (NER)?