Casestudy: Licentieverlening voor medische datasets

Transformatie van pediatrische en gynaecologische zorg door middel van nauwkeurige datacuratie en annotatietraining

De kracht van medische data ontsluiten: uitgebreide datacuratie, anonimisering, ICD-10 CM en annotatie voor superieure AI-modeltraining.

Licentie voor medische datasets

project Overzicht

Shaip werkte samen met een toonaangevend AI-bedrijf in de gezondheidszorg om hoogwaardige, geannoteerde medische datasets te cureren en annoteren voor het trainen van geavanceerde NLP-modellen. Het project richtte zich op pediatrie en gynaecologie en leverde poliklinische dossiers met ICD-10 CM-codes via een robuust API-framework.

De dataset is zo gestructureerd dat AI-training in real-world gezondheidszorgdocumentatie wordt vergemakkelijkt en de mogelijkheden van het model voor het begrijpen van klinische verhalen worden verbeterd.

Licentie voor medische datasets

Key Stats

750 pagina's / ~300 poliklinische dossiers

375 pagina's Kindergeneeskunde

375 pagina's Verloskunde en Gynaecologie

ICD-10 CM 2023 medische code-annotaties

Project bereik

Gegevenssettype Specialiteit Volume Metadata vastgelegd Notes
Medische aantekeningen Kindergeneeskunde 375 pagina's (~150 records) Bestandsnaam, Specialiteit,
Documenttype, Patiëntenklasse (poliklinisch)
Bevat beoordelings-/plansecties
OB-GYN 375 pagina's (~150 records)
Annotaties ICD-10 CM (2023) Volledige dataset Codetoewijzing via API Codevalidatie door programmeurs valt buiten het bereik

Challenges

Het project kende een aantal belangrijke uitdagingen die een nauwkeurige planning en uitvoering vereisten:

1. Specialiteitsspecifieke gegevensverzameling

Het verkrijgen van hoogwaardige poliklinische dossiers uitsluitend van pediatrie en gynaecologie was een uitdaging. Elk document moest belangrijke klinische secties bevatten zoals beoordeling en plan om nauwkeurige aantekeningen te ondersteunen.

2. Uitgebreide PHI-de-identificatie

Het garanderen van volledige verwijdering van alle persoonlijk identificeerbare informatie (PII) terwijl de medische context behouden bleef, was essentieel voor HIPAA-naleving. Dit vereiste gedetailleerde beoordelingen om privacyschendingen te voorkomen.

3. Complexe ICD-10 CM-annotatie

Het toepassen van nauwkeurige ICD-10 CM (2023)-codes via API was complex vanwege de verschillende vertelstijlen en medische terminologie. Consistentie en nauwkeurigheid in codering waren cruciaal om betrouwbare AI-modeltraining te garanderen.

4. Nauwkeurigheid en consistentie van metagegevens

Het vastleggen en valideren van metadata zoals specialiteit, documenttype en patiëntklasse zonder discrepanties was essentieel. Elke mismatch zou invloed kunnen hebben op de modeltraining en bruikbaarheid van de data.

5. Strikte poliklinische filtering

Het garanderen dat alle dossiers strikt betrekking hadden op poliklinische patiënten, maakte het extra complex. Veel klinische documenten bevatten namelijk gemengde patiëntklassen of onvolledige secties.

6. Kwaliteitsborging en nauwkeurigheidsnormen

Om aan de nauwkeurigheidsdrempel van 90% te voldoen, waren er beoordelingen op meerdere niveaus nodig om duplicaten te elimineren, de specialistische afstemming te valideren en de-identificatie te garanderen. Indien nodig waren er voorzieningen voor herbewerking.

Het resultaat

Uitgebreide datalicenties en annotaties

  • Gelicentieerde pediatrische en gynaecologische poliklinische dossiers
  • Zorgde voor opname van kritische secties: Hoofdklacht, Geschiedenis, ROS, Beoordeling, Plan
  • API-gebaseerde ICD-10 CM-annotatie (versie 2023)

De-identificatie en naleving

  • PHI vervangen door tijdelijke aanduidingen (PERSOONSNAAM, DATUM, LOCATIE, enz.)
  • Zorgde voor naleving van de normen voor privacy van medische gegevens

Metagegevens taggen

  • Gedetailleerde metagegevens per bestand vastgelegd:
    • Bestandsnaam
    • Specialisme (kindergeneeskunde of gynaecologie)
    • Documenttype (follow-up, H&P, consultatie)
    • Patiëntenklasse (alleen poliklinische zorg)

Kwaliteitscontrole

  • Strenge kwaliteitsbeoordelingen met:
    • Geen dubbele records
    • Validatie van speciale wedstrijden
    • Controle alleen poliklinische controle
    • Controle op consistentie van metagegevens
  • Vervanging of correctie van gegevens met een nauwkeurigheidsdrempel van minder dan 90%

Resultaat

Shaip leverde een gestructureerde, geannoteerde dataset met medische aantekeningen waarmee de klant:

  • Train AI-modellen voor nauwkeurige ICD-10 CM-codevoorspelling
  • Verbeter NLP-vaardigheden in realistische zorgscenario's
  • Zorg voor naleving van privacy- en regelgevingsnormen
  • Schaal AI-modellen voor de gezondheidszorg op in de domeinen pediatrie en gynaecologie

Shaip's gestructureerde aanpak van datasetcuratie en annotatie overtrof onze verwachtingen. De nauwkeurigheid, de-identificatie en metadataprecisie hebben onze AI-modeltrainingspijplijn aanzienlijk versterkt.

Gouden 5-sterren