Gegevensannotatie – NER

Named Entity Recognition (NER) annotatie voor klinische NLP

Ner-annotatie

Goed geannoteerde en Gold Standard klinische tekstgegevens om klinische NLP te trainen/ontwikkelen om de volgende versie van de Healthcare API te bouwen

Het belang van klinische natuurlijke taalverwerking (NLP) is de afgelopen jaren steeds meer onderkend en heeft tot transformatieve vooruitgang geleid. Klinische NLP stelt computers in staat de rijke betekenis te begrijpen die schuilgaat achter de schriftelijke analyse van een patiënt door een arts. Klinische NLP kan meerdere gebruiksscenario's hebben, variërend van analyses van de volksgezondheid tot verbetering van de klinische documentatie, tot spraakherkenning tot het matchen van klinische onderzoeken, enz.

Om klinische NLP-modellen te ontwikkelen en te trainen, heb je nauwkeurige, onbevooroordeelde en goed geannoteerde datasets in enorme volumes nodig. Gold Standard en diverse gegevens helpen bij het verbeteren van de precisie en het terugroepen van NLP-engines.

Volume

Aantal geannoteerde documenten
10
Aantal pagina's geannoteerd
10 +
Projectduur
< 1 maanden

Uitdagingen

De klant keek ernaar uit om zijn Natural Language Processing (NLP)-platform te trainen en te ontwikkelen met nieuwe entiteitstypen en ook de relatie tussen verschillende typen te identificeren. Bovendien evalueerden ze leveranciers die een hoge nauwkeurigheid boden, voldeden aan de lokale wetgeving en over de vereiste medische kennis beschikten om een ​​grote set gegevens te annoteren.

De taak was om maximaal 20,000 gelabelde records te labelen en te annoteren, waaronder maximaal 15,000 gelabelde records uit intramurale en poliklinische gegevens over elektronische medische dossiers (EPD) en maximaal 5,000 gelabelde records uit getranscribeerde medische dictaten, gelijkelijk verdeeld over (1) geografische herkomst en (2) geografische herkomst en (XNUMX) XNUMX) beschikbare medische specialismen.

Om de uitdagingen samen te vatten:

  • Organiseer heterogene klinische gegevens om het NLP-platform te trainen
  • Identificeer de relatie tussen verschillende entiteiten om kritische informatie af te leiden
  • Vermogen en expertise om een ​​brede reeks complexe klinische documenten te labelen / annoteren
  • De kosten onder controle houden om een ​​grote hoeveelheid gegevens te labelen/annoteren om klinische NLP binnen het gestelde tijdsbestek te trainen
  • Annoteer entiteiten in de klinische dataset die voor 75% bestaat uit EPD- en 25% dicteerrecords.
  • Gegevensde-identificatie op het moment van levering

Andere uitdagingen bij het begrijpen van natuurlijke taal

Dubbelzinnigheid

Woorden zijn uniek, maar kunnen verschillende betekenissen hebben, afhankelijk van de context, wat resulteert in dubbelzinnigheid op lexicale, syntactische en semantische niveaus.

Synoniem

We kunnen hetzelfde idee uitdrukken met verschillende termen die ook synoniemen zijn: groot en groot betekenen hetzelfde bij het beschrijven van een object.

Coreferentie

Het proces van het vinden van alle uitdrukkingen die naar dezelfde entiteit in een tekst verwijzen, wordt coreferentieresolutie genoemd.

Persoonlijkheid, intentie, emoties

Afhankelijk van de persoonlijkheid van de spreker kunnen hun bedoelingen en emoties verschillend worden uitgedrukt voor hetzelfde idee.

Oplossing

Er is een grote hoeveelheid medische gegevens en kennis beschikbaar, in de vorm van medische documenten, maar veelal in ongestructureerde vorm. Met Medical Entity Annotation / Named Entity Recognition (NER) Annotation kon Shaip ongestructureerde gegevens omzetten in een gestructureerd formaat door nuttige informatie uit verschillende soorten klinische dossiers te annoteren. Nadat de entiteiten waren geïdentificeerd, werd ook de onderlinge relatie in kaart gebracht om kritische informatie te identificeren.

Reikwijdte van het werk: Annotatie van vermelding van gezondheidszorgentiteit

9 entiteitstypen

  • Medische toestand
  • Medische ingreep
  • Anatomische structuur
  • Geneeskunde
  • Medisch apparaat
  • Lichaamsmeting
  • Substance Abuse
  • Laboratorium gegevens
  • Lichaamsfunctie

17 Wijzigingen

  • Medicatiemodificatoren: sterkte, eenheid, dosis, van, frequentie, route, duur, status
  • Modificatoren voor lichaamsmetingen: waarde, eenheid, resultaat
  • Proceduremodificatoren: Methode
    • Laboratoriumgegevens Modificator: Labwaarde, Labeenheid, Labresultaat
  • Strengheid
  • Procedureresultaat

27 Relaties en patiëntstatus

Resultaat

De geannoteerde gegevens zouden worden gebruikt om het klinische NLP-platform van de klant te ontwikkelen en te trainen, dat zou worden opgenomen in de volgende versie van hun Healthcare API. De voordelen die de klant hieruit haalde waren:

  • De gelabelde/geannoteerde gegevens voldeden aan de standaardrichtlijnen voor gegevensannotatie van Klant.
  • Heterogene datasets werden gebruikt om het NLP-platform te trainen voor grotere nauwkeurigheid.
  • Relaties tussen verschillende entiteiten, dwz anatomische lichaamsstructuur <> Medisch hulpmiddel, medische aandoening <> Medisch hulpmiddel, medische aandoening <> Medicatie, medische aandoening <> Procedure werden geïdentificeerd om kritische medische informatie af te leiden.
  • De brede reeks gegevens die waren gelabeld/geannoteerd, werden ook geanonimiseerd op het moment van levering.

Onze samenwerking met Shaip heeft ons project op het gebied van Ambient Technology en Conversational AI binnen de gezondheidszorg aanzienlijk bevorderd. Hun expertise in het creëren en transcriberen van synthetische gezondheidszorgdialogen vormde een solide basis, waarmee het potentieel van synthetische data bij het overwinnen van regelgevingsuitdagingen werd aangetoond. Met Shaip hebben we deze hindernissen overwonnen en zijn we nu een stap dichter bij het realiseren van onze visie op intuïtieve gezondheidszorgoplossingen.

Gouden 5-sterren

Versnel uw gespreks-AI
applicatieontwikkeling met 100%