Het analyseren van gestructureerde data kan helpen bij betere diagnose en patiëntenzorg. Het analyseren van ongestructureerde data kan echter revolutionaire medische doorbraken en ontdekkingen aanwakkeren.
Dit is de kern van het onderwerp dat we vandaag zullen bespreken. Het is erg interessant om te zien dat er zoveel radicale vooruitgang is geboekt op het gebied van gezondheidszorgtechnologie met slechts 10-20% van de bruikbare gezondheidszorggegevens.
Statistieken laten zien dat meer dan 90% van de data in dit spectrum ongestructureerd is, wat zich vertaalt naar data die minder bruikbaar is en moeilijker te begrijpen, interpreteren en toepassen. Van analoge data zoals een doktersrecept tot digitale data in de vorm van medische beeldvorming en audiovisuele data, ongestructureerde data zijn van verschillende typen.
Zulke enorme brokken ongestructureerde data herbergen ongelooflijke inzichten die de vooruitgang in de gezondheidszorg met tientallen jaren kunnen versnellen. Of het nu gaat om het helpen ontdekken van medicijnen voor levensbedreigende auto-immuunziekten of data die zorgverzekeraars kunnen helpen bij risicobeoordelingen, ongestructureerde data kunnen de weg vrijmaken voor onbekende mogelijkheden.
Wanneer dergelijke ambities er zijn, worden interpreteerbaarheid en interoperabiliteit van gezondheidszorggegevens cruciaal. Met strikte richtlijnen en handhaving van naleving van de regelgeving zoals GDPR en HIPAA op hun plaats, wat onvermijdelijk wordt is anonimisering van gezondheidsgegevens.
We hebben al een uitgebreid artikel geschreven over het demystificeren gestructureerde gezondheidszorggegevens en ongestructureerde gezondheidszorggegevens. Er is een speciaal (lees uitgebreid) artikel over anonimisering van gezondheidsgegevens ook. We raden u aan om ze te lezen voor holistische informatie, aangezien we dit artikel zullen hebben voor een speciaal stuk over ongestructureerde data-de-identificatie.
Uitdagingen bij het de-identificeren van ongestructureerde data
Zoals de naam al doet vermoeden, zijn ongestructureerde gegevens niet georganiseerd. Ze zijn verspreid in termen van formaten, bestandstypen, groottes, context en meer. Het simpele feit dat ongestructureerde gegevens bestaan in de vorm van audio, tekst, medische beeldvorming, analoge vermeldingen en meer, maakt het des te moeilijker om Personal Information Identifiers (PII) te begrijpen, wat essentieel is in ongestructureerde data-de-identificatie.
Om u een idee te geven van de fundamentele uitdagingen, volgt hier een korte lijst:
- Contextueel begrip – waar het voor een AI-stakeholder moeilijk is om de specifieke context achter een bepaald deel of aspect van ongestructureerde data te begrijpen. Bijvoorbeeld, begrijpen of een naam een bedrijfsnaam, de naam van een persoon of een productnaam is, kan een dilemma opleveren over de vraag of deze geanonimiseerd moet worden.
- Niet-tekstuele gegevens – waarbij het identificeren van auditieve of visuele signalen voor namen of PII's een ontmoedigende taak kan zijn, aangezien een belanghebbende mogelijk uren en uren aan beeldmateriaal of opnamen moet doornemen om te proberen kritische aspecten te anonimiseren.
- Dubbelzinnigheid – dit geldt met name in de context van analoge data zoals een doktersrecept of een ziekenhuisinschrijving in een register. Van handschrift tot beperkingen van expressie in natuurlijke taal, het zou data-de-identificatie een complexe taak kunnen maken.
Best practices voor de-identificatie van ongestructureerde gegevens
Het proces van het verwijderen van PII's uit ongestructureerde data is heel anders dan gestructureerde data-anonimisering maar niet onmogelijk. Door een systematische en contextuele aanpak kan het potentieel van ongestructureerde data naadloos worden benut. Laten we eens kijken naar de verschillende manieren waarop dit kan worden bereikt.
Afbeelding redactie: Dit betreft medische beeldgegevens en omvat het verwijderen van patiëntidentificaties en het vervagen van anatomische referenties en delen van afbeeldingen. Deze worden vervangen door speciale tekens om de diagnostische functionaliteit en bruikbaarheid van beeldgegevens te behouden.
Patroonaanpassing: Enkele van de meest voorkomende PII's, zoals namen, contactgegevens en adressen, kunnen worden gedetecteerd en verwijderd door vooraf gedefinieerde patronen te bestuderen.
Differentiële privacy of dataverstoring: Dit omvat het opnemen van gecontroleerde ruis om data of kenmerken te verbergen die kunnen worden herleid tot een individu. Deze ideale methode zorgt niet alleen voor de-identificatie van data, maar ook voor het behouden van de statistische eigenschappen van de dataset voor analyses.
Gegevensanonimisering: Dit is een van de meest betrouwbare en effectieve manieren om PII's uit ongestructureerde data te verwijderen. Dit kan op twee manieren worden geïmplementeerd:
- Leren onder toezicht – waarbij een model is getraind om tekst of data te classificeren als PII of niet-PII
- Niet-gecontroleerd leren – waarbij een model wordt getraind om autonoom te leren patronen te detecteren bij het identificeren van PII's
Deze methode zorgt voor de bescherming van patiënt privacy terwijl menselijke tussenkomst nog steeds behouden blijft voor de meest overbodige aspecten van de taak. Stakeholders en aanbieders van gezondheidszorggegevens die ML-technieken inzetten om ongestructureerde gegevens te de-identificeren, kunnen eenvoudigweg een door mensen aangestuurd kwaliteitsborgingsproces hebben om eerlijkheid, relevantie en nauwkeurigheid van uitkomsten te garanderen.
Gegevensmaskering: Datamaskering is een digitaal woordspel om medische gegevens te anonimiseren, waarbij specifieke identificatiegegevens generiek of vaag worden gemaakt met behulp van nichetechnieken zoals:
- Tokenisatie – waarbij PII's worden vervangen door tekens of tokens
- Generalisatie – door specifieke PII-waarden te vervangen door generieke/vage waarden
- Schudden – door PII's te vermengen om ze dubbelzinnig te maken
Deze methode kent echter een beperking: met een geavanceerd model of een geavanceerde aanpak kunnen gegevens opnieuw identificeerbaar worden gemaakt
Uitbesteden aan marktspelers
De enige juiste aanpak om het proces van ongestructureerde data-de-identificatie is waterdicht, onfeilbaar en voldoet aan de HIPAA-richtlijnen door de taken uit te besteden aan een betrouwbare dienstverlener zoals ShaipMet geavanceerde modellen en strikte kwaliteitsborgingsprotocollen zorgen wij ervoor menselijk toezicht op dataprivacy wordt te allen tijde beperkt.
Omdat we al jaren een marktdominante onderneming zijn, begrijpen we de criticaliteit van uw projecten. Neem daarom vandaag nog contact met ons op om uw ambities op het gebied van gezondheidszorg te optimaliseren met door Shaip geanonimiseerde gezondheidszorggegevens.



