Casestudy: Licentieverlening voor medische datasets
Transformatie van pediatrische en gynaecologische zorg door middel van nauwkeurige datacuratie en annotatietraining
De kracht van medische data ontsluiten: uitgebreide datacuratie, anonimisering, ICD-10 CM en annotatie voor superieure AI-modeltraining.
project Overzicht
Shaip werkte samen met een toonaangevend AI-bedrijf in de gezondheidszorg om hoogwaardige, geannoteerde medische datasets te cureren en annoteren voor het trainen van geavanceerde NLP-modellen. Het project richtte zich op pediatrie en gynaecologie en leverde poliklinische dossiers met ICD-10 CM-codes via een robuust API-framework.
De dataset is zo gestructureerd dat AI-training in real-world gezondheidszorgdocumentatie wordt vergemakkelijkt en de mogelijkheden van het model voor het begrijpen van klinische verhalen worden verbeterd.
Key Stats
750 pagina's / ~300 poliklinische dossiers
375 pagina's Kindergeneeskunde
375 pagina's Verloskunde en Gynaecologie
ICD-10 CM 2023 medische code-annotaties
Project bereik
| Gegevenssettype | Specialiteit | Volume | Metadata vastgelegd | Notes |
|---|---|---|---|---|
| Medische aantekeningen | Kindergeneeskunde | 375 pagina's (~150 records) |
Bestandsnaam, Specialiteit, Documenttype, Patiëntenklasse (poliklinisch) |
Bevat beoordelings-/plansecties |
| OB-GYN | 375 pagina's (~150 records) | |||
| Annotaties | ICD-10 CM (2023) | Volledige dataset | Codetoewijzing via API | Codevalidatie door programmeurs valt buiten het bereik |
Challenges
Het project kende een aantal belangrijke uitdagingen die een nauwkeurige planning en uitvoering vereisten:
1. Specialiteitsspecifieke gegevensverzameling
Het verkrijgen van hoogwaardige poliklinische dossiers uitsluitend van pediatrie en gynaecologie was een uitdaging. Elk document moest belangrijke klinische secties bevatten zoals beoordeling en plan om nauwkeurige aantekeningen te ondersteunen.
2. Uitgebreide PHI-de-identificatie
Het garanderen van volledige verwijdering van alle persoonlijk identificeerbare informatie (PII) terwijl de medische context behouden bleef, was essentieel voor HIPAA-naleving. Dit vereiste gedetailleerde beoordelingen om privacyschendingen te voorkomen.
3. Complexe ICD-10 CM-annotatie
Het toepassen van nauwkeurige ICD-10 CM (2023)-codes via API was complex vanwege de verschillende vertelstijlen en medische terminologie. Consistentie en nauwkeurigheid in codering waren cruciaal om betrouwbare AI-modeltraining te garanderen.
4. Nauwkeurigheid en consistentie van metagegevens
Het vastleggen en valideren van metadata zoals specialiteit, documenttype en patiëntklasse zonder discrepanties was essentieel. Elke mismatch zou invloed kunnen hebben op de modeltraining en bruikbaarheid van de data.
5. Strikte poliklinische filtering
Het garanderen dat alle dossiers strikt betrekking hadden op poliklinische patiënten, maakte het extra complex. Veel klinische documenten bevatten namelijk gemengde patiëntklassen of onvolledige secties.
6. Kwaliteitsborging en nauwkeurigheidsnormen
Om aan de nauwkeurigheidsdrempel van 90% te voldoen, waren er beoordelingen op meerdere niveaus nodig om duplicaten te elimineren, de specialistische afstemming te valideren en de-identificatie te garanderen. Indien nodig waren er voorzieningen voor herbewerking.
Het resultaat
Uitgebreide datalicenties en annotaties
- Gelicentieerde pediatrische en gynaecologische poliklinische dossiers
- Zorgde voor opname van kritische secties: Hoofdklacht, Geschiedenis, ROS, Beoordeling, Plan
- API-gebaseerde ICD-10 CM-annotatie (versie 2023)
De-identificatie en naleving
- PHI vervangen door tijdelijke aanduidingen (PERSOONSNAAM, DATUM, LOCATIE, enz.)
- Zorgde voor naleving van de normen voor privacy van medische gegevens
Metagegevens taggen
- Gedetailleerde metagegevens per bestand vastgelegd:
-
- Bestandsnaam
- Specialisme (kindergeneeskunde of gynaecologie)
- Documenttype (follow-up, H&P, consultatie)
- Patiëntenklasse (alleen poliklinische zorg)
Kwaliteitscontrole
- Strenge kwaliteitsbeoordelingen met:
- Geen dubbele records
- Validatie van speciale wedstrijden
- Controle alleen poliklinische controle
- Controle op consistentie van metagegevens
- Vervanging of correctie van gegevens met een nauwkeurigheidsdrempel van minder dan 90%
Resultaat
Shaip leverde een gestructureerde, geannoteerde dataset met medische aantekeningen waarmee de klant:
- Train AI-modellen voor nauwkeurige ICD-10 CM-codevoorspelling
- Verbeter NLP-vaardigheden in realistische zorgscenario's
- Zorg voor naleving van privacy- en regelgevingsnormen
- Schaal AI-modellen voor de gezondheidszorg op in de domeinen pediatrie en gynaecologie
Shaip's gestructureerde aanpak van datasetcuratie en annotatie overtrof onze verwachtingen. De nauwkeurigheid, de-identificatie en metadataprecisie hebben onze AI-modeltrainingspijplijn aanzienlijk versterkt.