Verbetering van voorspellende modellen voor de gezondheidszorg met generatieve AI
Een case study over detectie van longontsteking en stadiëring van kanker
project Overzicht
In het snelgroeiende domein van de gezondheidszorg is het inzetten van generatieve AI, met name Large Language Models (LLM's), voor het voorspellen van ziektetoestanden op basis van klinische rapporten een aanzienlijke stap voorwaarts. De klant, een pionier op het gebied van gezondheidsanalyses, begon aan een missie om hun voorspellingsmodellen voor ziektetoestanden te verfijnen. Door gebruik te maken van de open-source MIMIC CXR-database en generatieve AI-voorspellingen op te nemen voor de eerste analyse, gevolgd door handmatige validatie met Label Studio, was het doel om de nauwkeurigheid en betrouwbaarheid van het model voor klinische rapportanalyses, met name radiologierapporten, te verbeteren.
Challenges
Het integreren van generatieve AI-voorspellingen in workflows in de gezondheidszorg bracht tal van uitdagingen met zich mee:
Gegevenstoegang en beveiliging
Om toegang te krijgen tot hoogwaardige, open-source medische datasets zoals MIMIC-CXR, was een streng accreditatieproces vereist, waarmee naleving van privacy- en ethische normen werd gewaarborgd.
Voorspellingsnauwkeurigheid
De eerste uitkomsten van generatieve AI-modellen vertoonden af en toe onnauwkeurigheden in de voorspellingen van ziektetoestanden, waardoor handmatige controles noodzakelijk waren om de nauwkeurigheid te vergroten.
Identificatie van complexe ziektetoestanden
Het nauwkeurig classificeren van ziektebeelden op basis van de genuanceerde taal van klinische rapporten, vooral bij gebruik van generatieve AI, vormde een groot obstakel.
Annotatiekwaliteit
Om te zorgen voor hoogwaardige, nauwkeurige annotaties in de Label Studio-tool was specialistische kennis en inzicht in medische ziektebeelden vereist.
Het resultaat
Shaip hanteerde een uitgebreide strategie om deze uitdagingen aan te pakken:
- Gestroomlijnde accreditatie: Het team heeft het accreditatieproces voor MIMIC-CXR-toegang snel doorlopen en daarbij blijk gegeven van efficiëntie en toewijding aan ethische onderzoekspraktijken.
- Richtlijnontwikkeling: Ontwikkelde inzichtelijke richtlijnen voor handmatige validators om consistentie en kwaliteit te garanderen bij het annoteren van LLM-voorspellingen.
- Deskundige aantekeningen over AI-voorspellingen: Zorgde voor nauwkeurige handmatige validatie en correctie van LLM-voorspellingen met behulp van Label Studio, ondersteund door medische expertise.
- Prestatiegegevens: Door middel van gedetailleerde analyses berekende Shaip de prestatie-indicatoren van LLM, zoals overeenstemming, precisie, terugroepactie en F1-score, waardoor voortdurende verbetering mogelijk werd.
Resultaat
- Verbeterde nauwkeurigheid bij het voorspellen van ziektebeelden op basis van radiologierapporten.
- Ontwikkeling een hoogwaardige grondwaarheid dataset voor toekomstige productontwikkeling en evaluatie van generatieve AI-voorspellingen.
- Verbeterd begrip van identificatie van ziektetoestanden, wat betrouwbaardere voorspellingen mogelijk maakt.
Gebruiksscenario 1: Validatie van machine learning-modellen
Scenario: Verbetering van de nauwkeurigheid van voorspelling van longontsteking met generatieve AI In dit geval doorzocht een generatief AI-model röntgenfoto's van de borstkas om tekenen van longontsteking te detecteren. Een rapport met de opmerking "Toegenomen opaciteit in de rechter onderkwab, wat wijst op een infectieus proces" leidde tot een eerste classificatie als "Onzeker" door de AI vanwege de dubbelzinnige formulering van het rapport.
Validatieproces:
- Een medisch expert bestudeerde het rapport in Label Studio en concentreerde zich daarbij op de tekst die door de AI was gemarkeerd.
- Door de klinische context te evalueren en radiologische kennis toe te passen, herclassificeerde de deskundige het rapport als definitief ‘positief’ voor longontsteking.
- Deze deskundige correctie werd geïntegreerd in het AI-model, waardoor het model voortdurend kon worden geleerd en verfijnd.
uitkomsten:
- Verbeterde modelnauwkeurigheid
- Verbetering van de precisie en terugroeping van prestatie-indicatoren
Gebruiksscenario 2: Grondwaarheidsdataset genereren
Scenario: Het creëren van een benchmarkdataset voor kanker-TNM-stadiëring met generatieve AI
Met als doel de ontwikkeling van kankerprogressieproducten te bevorderen, wilde de klant een uitgebreide ground truth-dataset samenstellen. Deze dataset zou de training en beoordeling van nieuwe AI-modellen benchmarken voor het nauwkeurig voorspellen van de TNM-stadiëring van kanker op basis van klinische verhalen.
Datasetgeneratieproces:
- Er werd een breed spectrum aan kankergerelateerde rapporten verzameld, waaronder pathologische bevindingen en diagnostische overzichten.
- Het generatieve AI-model leverde voor elk rapport initiële TNM-stadiëringsvoorspellingen en maakte daarbij gebruik van de geleerde patronen en kennis.
- Medische professionals beoordeelden de nauwkeurigheid van deze door AI gegenereerde voorspellingen, corrigeerden fouten en vulden informatie aan waar de AI-voorspellingen onvolledig of onjuist waren.
uitkomsten:
- Creatie van een hoogwaardige grondwaarheidsdataset.
- Foundation for Future Products voor het verfijnen van next-gen modellen voor kankerdiagnose en -stadiëring.
Samenwerken met Shaip heeft onze aanpak van ziektevoorspelling radicaal veranderd. De precisie en betrouwbaarheid van onze modellen zijn aanzienlijk verbeterd met annotaties die zijn uitgevoerd door Shaip's domeinexperts. Dankzij hun nauwkeurige validatieproces.