Gezondheidszorggegevenssets

Beste open source gezondheidszorgdatasets voor machine learning-projecten

  • Het mondiale gezondheidszorgsysteem produceert dagelijks enorme hoeveelheden medische gegevens, die het potentieel hebben om te worden gebruikt voor machine learning-toepassingen. In alle sectoren worden data beschouwd als een kostbaar bezit waarmee bedrijven een concurrentievoordeel kunnen behalen, en de gezondheidszorgsector is niet anders.

Dit artikel gaat beknopt in op de obstakels die men tegenkomt bij de omgang met medische gegevens en geeft een samenvatting van publiek toegankelijke zorgdatasets.

Belang van gezondheidszorgdatasets

Belang van zorgdatasets

Zorgdatasets zijn verzamelingen patiëntinformatie, zoals medische dossiers, diagnoses, behandelingen, genetische gegevens en details over levensstijl. Ze zijn erg belangrijk in de wereld van vandaag, waar AI steeds vaker wordt gebruikt. Dit is waarom:

De gezondheid van patiënten begrijpen:

Zorgdatasets geven artsen een volledig beeld van de gezondheid van een patiënt. Gegevens over de medische geschiedenis, medicijnen en levensstijl van een patiënt kunnen bijvoorbeeld helpen voorspellen of hij/zij mogelijk een chronische ziekte krijgt. Hierdoor kunnen artsen vroeg ingrijpen en speciaal voor die patiënt een behandelplan opstellen.

Medisch onderzoek helpen:

Door datasets uit de gezondheidszorg te bestuderen, kunnen medische onderzoekers kijken hoe kankerpatiënten worden behandeld en hoe ze herstellen. Ze kunnen de behandelingen vinden die het beste werken in de echte wereld. Door bijvoorbeeld naar tumormonsters in biobanken en de behandelgeschiedenis van patiënten te kijken, kunnen onderzoekers leren hoe specifieke mutaties en kankereiwitten reageren op verschillende behandelingen. Deze datagestuurde aanpak helpt bij het vinden van trends die leiden tot betere patiëntresultaten.

Betere diagnose en behandeling:

Artsen gebruiken AI-tools om naar datasets in de gezondheidszorg te kijken en belangrijke patronen te vinden. Hierdoor kunnen ze ziekten beter diagnosticeren en behandelen. In de radiologie kan AI problemen in scans sneller en nauwkeuriger vinden dan mensen. Hierdoor kunnen artsen ziekten eerder opsporen en eerder met de juiste behandeling beginnen. Medische beeldannotatie kan leiden tot een snellere en betere diagnose, wat de gezondheid van de patiënt verbetert.

Ondersteuning van volksgezondheidsinitiatieven:

Stel je een klein stadje voor waar deskundigen uit de gezondheidszorg datasets gebruikten om een ​​griepuitbraak te volgen. Ze keken naar patronen en vonden de getroffen gebieden. Met deze gegevens startten ze gerichte vaccinatiecampagnes en gezondheidsvoorlichtingscampagnes. Deze datagestuurde aanpak hielp de griep in bedwang te houden. Het laat zien hoe datasets uit de gezondheidszorg actief initiatieven op het gebied van de volksgezondheid kunnen begeleiden en verbeteren.

Open source medische datasets voor machinaal leren

Open datasets zijn essentieel voor de goede werking van elk machine learning-model. Machine learning wordt al gebruikt in de biowetenschappen, de gezondheidszorg en de geneeskunde, en levert geweldige resultaten op. Het helpt ziekten te voorspellen en te begrijpen hoe ze zich verspreiden. Machine learning geeft ook ideeën over hoe we op de juiste manier kunnen zorgen voor zieke, oudere en onwel zijnde mensen in een gemeenschap. Zonder goede datasets zouden deze machine learning-modellen niet mogelijk zijn.

Algemene en volksgezondheid:

  • data.gov: Richt zich op VS-georiënteerde gezondheidszorggegevens die eenvoudig kunnen worden doorzocht met behulp van meerdere parameters. De datasets zijn ontworpen om het welzijn van individuen die in de VS wonen te verbeteren; de informatie zou echter ook nuttig kunnen zijn voor andere trainingspakketten op het gebied van onderzoek of aanvullende volksgezondheidsdomeinen.
  • WIE: Biedt datasets rond mondiale gezondheidsprioriteiten. Het platform bevat een gebruiksvriendelijke zoekfunctie en biedt naast de datasets waardevolle inzichten voor een uitgebreid inzicht in de betreffende onderwerpen.
  • Re3Data: Biedt gegevens over meer dan 2,000 onderzoeksonderwerpen, onderverdeeld in verschillende brede gebieden. Hoewel niet alle datasets vrij toegankelijk zijn, geeft het platform duidelijk de structuur aan en maakt het eenvoudig zoeken mogelijk op basis van factoren zoals kosten, lidmaatschapsvereisten en auteursrechtbeperkingen.
  • Database met menselijke sterfte biedt toegang tot gegevens over sterftecijfers, bevolkingscijfers en diverse gezondheids- en demografische statistieken voor 35 landen.
  • CHDS: De datasets van Child Health and Development Studies zijn bedoeld om de intergenerationele overdracht van ziekten en gezondheid te onderzoeken. Het omvat datasets voor het onderzoeken van niet alleen genomische expressie, maar ook de invloed van sociale, ecologische en culturele factoren op ziekte en gezondheid.
  • Merck Moleculaire Activiteitsuitdaging: Presenteert datasets die zijn ontworpen om de toepassing van machinaal leren bij de ontdekking van geneesmiddelen te bevorderen door de potentiële interacties tussen verschillende molecuulcombinaties te simuleren.
  • 1000 Genomen Project: Bevat sequentiegegevens van 2,500 individuen uit 26 verschillende populaties, waardoor het een van de grootste toegankelijke genoomopslagplaatsen is. Deze internationale samenwerking is toegankelijk via AWS. (Merk op dat er subsidies beschikbaar zijn voor genoomprojecten.)

Beelddatasets voor biowetenschappen, gezondheidszorg en geneeskunde:

  • Neuro openen: Als gratis en open platform deelt OpenNeuro een breed scala aan medische beelden, waaronder MRI-, MEG-, EEG-, iEEG-, ECoG-, ASL- en PET-gegevens. Met 563 medische datasets die 19,187 deelnemers bestrijken, is het een bron van onschatbare waarde voor onderzoekers en beroepsbeoefenaren in de gezondheidszorg.
  • Oase: Deze dataset is afkomstig uit de Open Access Series of Imaging Studies (OASIS) en streeft ernaar om neuroimaging-gegevens gratis aan het publiek te verstrekken ten behoeve van de wetenschappelijke gemeenschap. Het omvat 1,098 onderwerpen verspreid over 2,168 MR-sessies en 1,608 PET-sessies en biedt onderzoekers een schat aan informatie.
  • Neuroimaging-initiatief voor de ziekte van Alzheimer: Het Alzheimer's Disease Neuroimaging Initiative (ADNI) presenteert gegevens verzameld door onderzoekers over de hele wereld die zich toeleggen op het definiëren van de progressie van de ziekte van Alzheimer. De dataset omvat een uitgebreide verzameling MRI- en PET-beelden, genetische informatie, cognitieve tests en CSF- en bloedbiomarkers, waardoor een veelzijdige benadering voor het begrijpen van deze complexe aandoening mogelijk wordt.

Ziekenhuisgegevenssets:

  • Providergegevenscatalogus: Toegang krijgen tot en downloaden van uitgebreide datasets van leveranciers op gebieden als dialysefaciliteiten, artsenpraktijken, thuiszorgdiensten, hospicezorg, ziekenhuizen, intramurale revalidatie, ziekenhuizen voor langdurige zorg, verpleeghuizen met revalidatiediensten, kosten voor doktersbezoeken en leveranciersgidsen.
  • Gezondheidszorgkosten- en gebruiksproject (HCUP): Deze uitgebreide, landelijke database is gemaakt om nationale trends in het gebruik, de toegang, de kosten, de kwaliteit en de resultaten van de gezondheidszorg te identificeren, volgen en analyseren. Elke medische dataset binnen HCUP bevat informatie op ontmoetingsniveau over alle patiëntenverblijven, bezoeken aan de spoedeisende hulp en ambulante operaties in Amerikaanse ziekenhuizen, wat een schat aan gegevens oplevert voor onderzoekers en beleidsmakers.
  • MIMIC Critical Care-database: Deze openlijk beschikbare medische dataset is ontwikkeld door MIT ten behoeve van Computationele Fysiologie en omvat geanonimiseerde gezondheidsgegevens van meer dan 40,000 patiënten in de intensive care. De MIMIC-dataset dient als een waardevolle hulpbron voor onderzoekers die intensive care bestuderen en nieuwe computermethoden ontwikkelen.

Kankergegevenssets:

  • CT medische beelden: Deze dataset is ontworpen om alternatieve methoden te vergemakkelijken voor het onderzoeken van trends in CT-beeldgegevens en bevat CT-scans van kankerpatiënten, waarbij de nadruk ligt op factoren zoals contrast, modaliteit en leeftijd van de patiënt. Onderzoekers kunnen deze gegevens gebruiken om nieuwe beeldvormingstechnieken te ontwikkelen en patronen in de diagnose en behandeling van kanker te analyseren.
  • Internationale samenwerking op het gebied van kankerrapportage (ICCR): De medische datasets binnen de ICCR zijn ontwikkeld en ter beschikking gesteld om wereldwijd een evidence-based benadering van kankerrapportage te bevorderen. Door de kankerrapportage te standaardiseren, wil de ICCR de kwaliteit en vergelijkbaarheid van kankergegevens tussen instellingen en landen verbeteren.
  • SEER-incidentie van kanker: Deze kankergegevens, verstrekt door de Amerikaanse overheid, zijn gesegmenteerd op basis van demografische basisverschillen zoals ras, geslacht en leeftijd. Met de SEER-dataset kunnen onderzoekers de incidentie en overlevingspercentages van kanker in verschillende subgroepen van de bevolking onderzoeken, waardoor initiatieven op het gebied van de volksgezondheid en onderzoeksprioriteiten worden geïnformeerd.
  • Gegevensset longkanker: Deze gratis dataset bevat informatie over gevallen van longkanker die teruggaat tot 1995. Onderzoekers kunnen deze gegevens gebruiken om langetermijntrends in de incidentie, behandeling en uitkomsten van longkanker te bestuderen, en om nieuwe diagnostische en prognostische hulpmiddelen te ontwikkelen.

Aanvullende bronnen voor gezondheidszorggegevens:

  • Kaggle: Een veelzijdige datasetrepository – Kaggle blijft een uitstekend platform voor een breed scala aan datasets, niet beperkt tot de gezondheidszorgsector. Kaggle is ideaal voor mensen die zich willen verdiepen in verschillende onderwerpen of die diverse datasets nodig hebben voor modeltraining.
  • subreddit: Een door de gemeenschap aangestuurde schatkamer – De juiste subreddit-discussies kunnen een goudmijn zijn voor open datasets. Voor niche- of specifieke vragen die niet worden beantwoord door openbare datasets, kan de Reddit-gemeenschap het antwoord hebben.

Versnel uw AI-projecten in de gezondheidszorg met de hoogwaardige, gebruiksklare medische datasets van Shaip

Gegevensset voor gesprekken tussen artsen en patiënten

Onze dataset bevat audiobestanden van gesprekken tussen artsen en patiënten over hun gezondheid en behandelplannen. De dossiers bestrijken 31 verschillende medische specialismen.

Wat is inbegrepen?

  • 257,977 uur echte doktersdictatieaudio om spraakmodellen in de gezondheidszorg te trainen
  • Audio van verschillende apparaten, zoals telefoons, digitale recorders, spraakmicrofoons en smartphones
  • Audio en transcripties waarbij persoonlijke informatie is verwijderd om aan de privacywetten te voldoen

CT SCAN-beeldgegevensset

Wij bieden eersteklas CT-scanbeelddatasets voor onderzoek en medische diagnose. Wij beschikken over duizenden hoogwaardige beelden van echte patiënten, verwerkt met de nieuwste technieken. Onze datasets helpen artsen en onderzoekers verschillende gezondheidsproblemen beter te begrijpen, zoals kanker, hersenaandoeningen en hartziekten.

Uit de gegevens blijkt dat de meest voorkomende CT-scans die van de borstkas (6000) en het hoofd (4350) zijn, waarbij een aanzienlijk aantal scans ook wordt uitgevoerd voor de buik, het bekken en andere lichaamsdelen. Uit de tabel blijkt ook dat bepaalde gespecialiseerde scans, zoals CT Covid HRCT en angio pulmonale, voornamelijk worden uitgevoerd in India, Azië, Europa en andere landen.

Gegevensset voor elektronische medische dossiers (EPD).

Elektronische medische dossiers (EPD) zijn digitale versies van de medische geschiedenis van een patiënt. Ze omvatten informatie zoals diagnoses, medicijnen, behandelplannen, immunisatiedata, allergieën, medische beelden (zoals CT-scans, MRI's en röntgenfoto's), laboratoriumtests en meer.

Onze kant-en-klare EPD-datasetfuncties:

  • Meer dan 5.1 miljoen dossiers en audiobestanden van artsen verspreid over 31 medische specialismen
  • Authentieke medische dossiers, ideaal voor het trainen van klinische NLP en andere Document AI-modellen
  • Metagegevens waaronder geanonimiseerde MRN, opname- en ontslagdata, verblijfsduur, geslacht, patiëntklasse, betaler, financiële klasse, staat, ontslagbesluit, leeftijd, DRG, DRG-beschrijving, terugbetaling, AMLOS, GMLOS, sterfterisico, ernst van de ziekte, tandbaars en postcode van het ziekenhuis
  • Gegevens die alle patiëntenklassen bestrijken: intramuraal, poliklinisch (klinisch, revalidatie, terugkerend, chirurgische dagzorg) en noodgevallen
  • Documenten met persoonlijk identificeerbare informatie (PII) geredigeerd, in overeenstemming met de HIPAA Safe Harbor-richtlijnen

MRI-beeldgegevensset

We leveren hoogwaardige MRI-beelddatasets ter ondersteuning van medisch onderzoek en diagnose. Onze uitgebreide collectie omvat duizenden afbeeldingen met hoge resolutie van echte patiënten, allemaal verwerkt met behulp van geavanceerde methoden. Door gebruik te maken van onze datasets kunnen zorgprofessionals en onderzoekers hun inzicht in een breed scala aan medische aandoeningen verdiepen, wat uiteindelijk leidt tot betere patiëntresultaten.

MRI-beelddataset van verschillende lichaamsdelen, waarbij de wervelkolom en de hersenen met elk 5000 de hoogste tellingen hebben. De gegevens zijn verspreid over India, Centraal-Azië en Europa en de regio's Centraal-Azië.

Röntgenbeeldgegevensset

Röntgenbeelddatasets van de beste kwaliteit voor onderzoek en medische diagnose. We beschikken over duizenden hogeresolutiebeelden van echte patiënten, verwerkt met behulp van de nieuwste technieken. Met Shaip heeft u toegang tot betrouwbare medische gegevens om uw onderzoek en patiëntresultaten te verbeteren.

Verspreiding van röntgengegevens over verschillende lichaamsdelen, waarbij de borstkas met 1000 het hoogste aantal heeft in Centraal-Azië. De onderste en bovenste ledematen tellen in totaal elk 850, verdeeld over de regio's Centraal-Azië en Centraal-Azië en Europa.

Sociale Share