Verbetering van oncologisch NLP-onderzoek

Precisie van oncologische gegevens: licentieverlening, de-identificatie en annotatie voor NLP-modelinnovatie

Oncologie nlp

Een revolutie teweegbrengen in de kankerzorg met geavanceerde NLP-technologieën

De klant, een grote speler in de gezondheidszorg, had een geavanceerde NLP-oplossing nodig om een ​​aanzienlijk volume aan medische oncologische dossiers te verwerken. Als onderdeel van een cruciaal initiatief om oncologisch onderzoek te verfijnen, is de noodzaak om gedetailleerde data-analyse in evenwicht te brengen met strenge privacynormen van het grootste belang. Deze casestudy schetst onze bijdragen aan het verbeteren van de onderzoeksinspanningen van de klant door middel van high-fidelity data-annotatie, rigoureuze de-identificatiepraktijken en de toepassing van Natural Language Processing (NLP)-technieken, allemaal binnen het regelgevingskader van HIPAA.

Volume

Datalicenties + Data De-id
10 Pages
Oncologische relaties
10 Pages
Niet-oncologisch domein
10 Pages
Ontkenning
10 Pages
Domein Oncologie
10 Pages
NER + Relatie in kaart brengen
10 Pages

Uitdagingen

Het project vereiste een genuanceerd begrip van klinische documentatie, nauwkeurige identificatie van medische entiteiten en de mogelijkheid om negatielabels nauwkeurig toe te passen, allemaal binnen een veilig raamwerk dat de privacy van patiënten beschermt volgens de HIPAA-regelgeving. Het streven vereiste niet alleen technische expertise bij het omgaan met grote hoeveelheden complexe gegevens, maar ook een strategische aanpak om feedback op te nemen en de kwaliteit in alle fasen van het annotatieproces te behouden.

Doelstellingen

Gedetailleerde beschrijving van diensten

CategorieOmschrijving
Uitgebreide dekking van klinische gegevensHet bestrijkt verschillende typen notities, zorginstellingen en oncologische subspecialismen, waardoor een robuuste dataset ontstaat die een weerspiegeling is van diverse klinische scenario's.
Rigoureuze de-identificatieErvoor zorgen dat alle gelabelde records worden geanonimiseerd in overeenstemming met de Safe Harbor-methode van HIPAA, waardoor het vertrouwen van de klant in de privacy en beveiliging van gegevens wordt verzekerd.
AnnotatierichtlijnenCreatie en implementatie van standaardrichtlijnen voor gegevensannotatie voor het voorbereiden van gelabelde records in overeenstemming met HIPAA-normen.
Geavanceerde annotatiestrategieënHandmatige annotatie van 10,000 pagina's aan oncologiegerelateerde gegevens werd uitgevoerd met een gedetailleerde focus op het identificeren van negatiestatussen en andere relevante informatie in overeenstemming met vastgestelde richtlijnen.
Strenge kwaliteitsborgingHet behalen van de gespecificeerde kwaliteitsnorm zoals beschreven in de richtlijn

Oplossing

Onze aanpak omvatte de volgende sleutelstrategieën:

Aangepaste compilatie van oncologiegegevenssets

Uit een enorm archief van meer dan 5 MN-EPD's werd een zorgvuldig gekozen subset van gegevens geëxtraheerd, gericht op het voldoen aan de gespecialiseerde behoeften van de klant aan oncologische gegevens, met de nadruk op genomische entiteiten. Het verzamelproces omvatte het creëren van een uitputtende lijst van tumormarkers, genen, varianten en TNM-stadia, waarbij gebruik werd gemaakt van trefwoordzoekopdrachten om documenten te lokaliseren die rijk zijn aan deze gegevens. Reguliere expressies werden gebruikt om een ​​reeks genetische variaties en kankerstadia te identificeren. Deze aanpak, gecombineerd met een brede datadekking die verschillende documenttypen, specialismen, zorginstellingen en gegevens van meerdere artsen omvatte, zorgde voor een uitgebreide en relevante oncologische dataset.

Compilatie van oncologische datasets

Rigoureuze de-identificatie

Het proces volgde strikt de Safe Harbor-methode van HIPAA voor de-identificatie, die het vertrouwen van de klant in gegevensprivacy en -beveiliging garandeert. Dit houdt in dat alle beschermde gezondheidsinformatie (PHI) wordt verwijderd en vervangen door gelabelde tijdelijke aanduidingen, waardoor de bruikbaarheid van de gegevens behouden blijft en de vertrouwelijkheid van de patiënt wordt beschermd.

De-identificatievariabelen

Categoriesubcategorie
NaamNaam patiënt, naam arts, naam verpleeghuisarts, naam familielid, naam medisch centrum, naam kliniek, naam verpleeghuis, bedrijfsnaam, naam universiteit
Leeftijd 
DatumDatumpatroon, maand-jaarpatroon, dag-maandpatroon, dag-jaarpatroon, dag, maand, jaar, seizoen
LocatieLand, Staat, Stad, Straat, Postcode, Kamernummer, Suitenummer, Verdiepingnummer
IDBurgerservicenummer, medisch dossiernummer, nummer van de begunstigde van het zorgplan, rekeningnummer, certificaat-/licentienummer, biometrische ID, record-ID, toetredingsnummer, voertuigidentificatienummer, kentekennummerApparaatidentificatoren en serienummer
Neem contact opTelefoonnummer, faxnummer, e-mailadres, web-URL, IP-adres

Voorbeeld:

Op 25 september 2106, om 11 uur, werd de heer Harry Pace, 00 jaar oud, opgenomen in het Forrest General Hospital voor een geplande heupoperatie, eerder geraadpleegd door zijn huisarts Dr. Jose Martin, en bijgewoond door Kendra Reith, MD. Tijdens zijn verblijf stond hij onder de hoede van Mary Hu, NP, en Suzan Ray, RN, waarbij ook R. Charles Melancon, PA, werd geraadpleegd. Zijn operatie, uitgevoerd op dezelfde dag als opname, was succesvol en er werden geen complicaties gemeld. Na de operatie werd dhr. Pace voor herstel overgebracht naar kamer 90, verdieping 202. Zijn vrouw, Emma Pace, was de hele tijd aanwezig en werd voorzien van alle nodige updates. Tijdens zijn korte verblijf werden zijn medische dossiers, waaronder MRN MR2 en rekening KV99062619, behandeld volgens de standaardprotocollen van Gracewood Nursing Home, zijn vorige woonplaats. Hij werd later diezelfde dag ontslagen naar de polikliniek van Oakland voor verder herstel. Gedurende het hele proces werden alle procedures gedocumenteerd en beveiligd met inachtneming van de vertrouwelijkheidsnormen.

Voorbeeld: geanonimiseerd

On [Datumpatroon], om 11 uur, dhr. [Patient naam], oud [Leeftijd], werd toegelaten [Naam medisch centrum] voor een geplande heupoperatie, eerder geraadpleegd door zijn huisarts Dr. [Naam arts], en bijgewoond door [Naam arts] MD. Tijdens zijn verblijf stond hij onder toezicht [Verpleegster], NP, en [Verpleegster], RN, met [Naam arts], PA, die ook wordt geraadpleegd. Zijn operatie, uitgevoerd op dezelfde dag als opname, was succesvol en er werden geen complicaties gemeld. Na de operatie heeft dhr. [Patient naam] werd overgebracht naar kamernr. [Kamernummer], Verdieping nr. [Verdiepingnummer], voor herstel. Zijn vrouw, [naam familielid], was de hele tijd aanwezig en kreeg alle nodige updates. Tijdens zijn korte verblijf zijn zijn medische dossiers, waaronder MRN [Medisch dossiernummer] en Rekening [Rekeningnummer], werden afgehandeld volgens de standaardprotocollen van [Naam verpleeghuis], zijn vorige woonplaats. Hij werd later dezelfde dag ontslagen onder de hoede van [Klinieknaam] voor verder herstel. Gedurende het hele proces werden alle procedures gedocumenteerd en beveiligd met inachtneming van de vertrouwelijkheidsnormen.

Annotatierichtlijnen en geavanceerde annotatietechnieken

Shaip speelde een belangrijke rol bij het vaststellen en implementeren van standaardrichtlijnen voor gegevensannotatie en zorgde ervoor dat alle gelabelde records consistent en in overeenstemming met de HIPAA-normen werden voorbereid. Bovendien werden 10,000 pagina's uit verschillende medische dossiers minutieus geannoteerd, met de nadruk op het gedetailleerd labelen van negatiestatussen en andere klinisch relevante entiteiten, waaronder verschillende subspecialiteiten in de oncologie. De annotaties zijn uitgevoerd door een team van deskundige annotators met gespecialiseerde kennis op het gebied van oncologie en regelgeving inzake gegevensprivacy.

Complexe annotatiecriteria

Categoriesubcategorie
Datumannotatie (oncologie)Diagnosedatum, stadiumdatum, begin, proceduredatum, medische datum gestart, medische datum geëindigd, bestralingsdatum gestart, bestralingsdatum beëindigd
Ziekte (Oncologie)Kankerprobleem, histologie, klinische status, lichaamslocatie, gedrag, graad, kankerstadium, TNM-stadium, tumormarkertest, afmetingen, code
Behandeling (Oncologie)Kankergeneeskunde, Dosering van medicijnen, Frequentie, Kankerchirurgie, Resultaat van de operatie, Stralingsmodaliteit, Stralingsdosering
GenomicsVariatiecode, genstudie, methode, monster
OntkenningNegatief, mogelijk negatief, onzeker, mogelijk positief
Klinische NERKankerprobleem – lichaamslocatie, histologie – lichaamslocatie, gedrag – lichaamslocatie, kankerchirurgie – relaties lichaamslocatie, stralingsmodaliteit – lichaamslocatie, histologie – graad, kankerprobleem – dimensie

Voorbeeld:

Klinische notaverklaring oncologie

Klinische notaverklaring oncologie

“Patiënt Jane Doe kreeg op 03/05/2023 de diagnose stadium IIIB niet-kleincellige longkanker (NSCLC), met name adenocarcinoom. De kanker bevindt zich in de rechter onderkwab van de long. Het is geclassificeerd als T3N2M0 volgens het TNM-stadiëringssysteem, met een tumorgrootte van 5 cm x 3 cm. Een EGFR exon 19-deletie werd geïdentificeerd door middel van PCR-analyse van het tumorbiopsiespecimen. Chemotherapie met carboplatine AUC 5 en Pemetrexed 500 mg/m² werd gestart op 03-20-2023 en moet elke 3 weken worden toegediend. Op 60-30-04 is gestart met uitwendige radiotherapie (EBRT) met een dosis van 01 Gy in 2023 fracties. De behandeling van de patiënt is aan de gang en er zijn geen aanwijzingen voor hersenmetastasen op de recente MRI. De mogelijkheid van lymfovasculaire invasie moet nog worden vastgesteld en de tolerantie van de patiënt voor het volledige chemotherapieregime blijft onzeker.

Klinische notaverklaring oncologie

Klinische notaverklaring oncologie

Strenge kwaliteitsborging

Implementeerde een flexibel raamwerk voor projectmanagement dat de effectieve integratie van feedback van klanten mogelijk maakte en tegelijkertijd strenge kwaliteitsnormen handhaafde. Er werd een alomvattend protocol voor kwaliteitsborging afgedwongen, dat in lijn was met de richtlijnen om aan de vereiste kwaliteitsbenchmarks te voldoen. Dit protocol omvatte opeenvolgende beoordelings- en verificatierondes, waardoor de nauwkeurigheid en betrouwbaarheid van de geannoteerde gegevens werd gewaarborgd. Dergelijk nauwgezet kwaliteitstoezicht is van cruciaal belang bij het ontwikkelen van een betrouwbare NLP-oplossing, essentieel voor geïnformeerde klinische besluitvorming en uitmuntend onderzoek.

Resultaat

Met succes 10,000 hoogwaardige, niet-geïdentificeerde gelabelde records geleverd, waardoor een veilige en waardevolle dataset werd geboden voor de ontwikkeling van het NLP-model van de klant. De nauwgezette toepassing van NLP en het naleven van de HIPAA-de-identificatiestandaarden resulteerden in een zeer verfijnde dataset die de lopende en toekomstige oncologische onderzoeksinspanningen van de cliënt zal ondersteunen, met als uiteindelijk doel de resultaten voor oncologische patiënten en de efficiëntie van de zorgverlening te verbeteren.

Het succes van het project illustreert ons vermogen om complexe medische gegevens met precisie te verwerken, wat bijdraagt ​​aan het doel van de klant om de resultaten van de patiëntenzorg te verbeteren en het tempo van de innovatie in de gezondheidszorg te versnellen.

Onze samenwerking met Shaip heeft een belangrijke rol gespeeld bij het bevorderen van onze NLP-mogelijkheden binnen het oncologiedomein. De professionele behandeling van 10,000 medische dossiers, geannoteerd met gedetailleerde ontkenningen en andere klinische entiteiten, demonstreerde hun toewijding aan uitmuntendheid en naleving. Bovendien heeft hun inzet voor privacystandaarden zoals HIPAA ons voorzien van onschatbare middelen om onze AI-initiatieven voor de ontwikkeling van geavanceerde oncologische behandelingen en diagnostiek vooruit te helpen.

Gouden 5-sterren

Versnel uw gezondheidszorg-AI
applicatieontwikkeling met 100%