10 Augustus 2021

Subtiliteiten van AI-trainingsgegevens en waarom ze uw project maken of breken

We begrijpen allemaal dat de prestaties van een kunstmatige intelligentie (AI)-module volledig afhankelijk zijn van de kwaliteit van de datasets die in de trainingsfase worden aangeleverd. Ze worden echter meestal op een oppervlakkig niveau besproken. De meeste online bronnen specificeren waarom kwaliteitsgegevensverzameling essentieel is voor uw AI-trainingsgegevensstadia, maar er is een kennislacune die kwaliteit onderscheidt van onvoldoende gegevens.

Wanneer je dieper in datasets duikt, zul je tonnen fijne kneepjes en subtiliteiten opmerken die vaak over het hoofd worden gezien. We hebben besloten om licht te werpen op deze minder gesproken onderwerpen. Na het lezen van dit artikel heb je een duidelijk beeld van enkele van de fouten die je maakt tijdens het verzamelen van gegevens en van enkele manieren waarop je de kwaliteit van je AI-trainingsgegevens kunt optimaliseren.

Laten we beginnen.

De anatomie van een AI-project

Voor niet-ingewijden is een AI- of een ML-project (machine learning) erg systematisch. Het is lineair en heeft een solide workflow.

Om u een voorbeeld te geven, zo ziet het er in algemene zin uit:

Bewijs van concept
Modelvalidatie en modelscores
Algoritme ontwikkeling
Voorbereiding van AI-trainingsgegevens
Modelimplementatie
Algoritme training
Optimalisatie na implementatie

Statistieken tonen aan dat bijna 78% van alle AI-projecten op een of ander moment zijn vastgelopen voordat ze de implementatiefase bereikten. Hoewel er aan de ene kant grote mazen, logische fouten of projectmanagementproblemen zijn, zijn er ook subtiele fouten en fouten die enorme storingen in projecten veroorzaken. In dit bericht staan we op het punt enkele van de meest voorkomende subtiliteiten te onderzoeken.

Gegevensbias

Databias is de vrijwillige of onvrijwillige introductie van factoren of elementen die de resultaten ongunstig naar of tegen specifieke uitkomsten vertekenen. Helaas is vooringenomenheid een prangende zorg in de AI-trainingsruimte.

Als dit ingewikkeld aanvoelt, begrijp dan dat AI-systemen geen eigen mening hebben. Dus abstracte concepten zoals ethiek, moraal en meer bestaan niet. Ze zijn slechts zo slim of functioneel als de logische, wiskundige en statistische concepten die in hun ontwerp worden gebruikt. Dus wanneer mensen deze drie ontwikkelen, zullen er natuurlijk enkele vooroordelen en vriendjespolitiek zijn.

Bias is een concept dat niet direct wordt geassocieerd met AI, maar met al het andere eromheen. Dit betekent dat het meer voortkomt uit menselijk ingrijpen en op elk moment kan worden geïntroduceerd. Het kan zijn wanneer een probleem wordt aangepakt voor mogelijke oplossingen, wanneer gegevens worden verzameld of wanneer de gegevens worden voorbereid en in een AI-module worden geïntroduceerd.

Kunnen we bias volledig elimineren?

Het elimineren van vooroordelen is ingewikkeld. Een persoonlijke voorkeur is niet helemaal zwart-wit. Het gedijt op het grijze gebied, en daarom is het ook subjectief. Met vooringenomenheid is het moeilijk om te wijzen op holistische eerlijkheid van welke aard dan ook. Bovendien is vooringenomenheid ook moeilijk te herkennen of te identificeren, juist wanneer de geest onwillekeurig geneigd is tot bepaalde overtuigingen, stereotypen of praktijken.

Daarom bereiden AI-experts hun modules voor, rekening houdend met mogelijke vooroordelen en elimineren ze door middel van voorwaarden en contexten. Als het correct wordt gedaan, kan het scheeftrekken van de resultaten tot een absoluut minimum worden beperkt.

Laten we vandaag uw AI-trainingsgegevensvereiste bespreken.

Datakwaliteit

Datakwaliteit is erg generiek, maar als je dieper kijkt, vind je verschillende genuanceerde lagen. Datakwaliteit kan bestaan uit het volgende:

Gebrek aan beschikbaarheid van geschatte hoeveelheid gegevens
Afwezigheid van relevante en contextuele gegevens
Afwezigheid van recente of bijgewerkte gegevens
De overvloed aan gegevens die onbruikbaar zijn
Gebrek aan vereist gegevenstype - bijvoorbeeld tekst in plaats van afbeeldingen en audio in plaats van video's en meer
Vooringenomenheid
Clausules die gegevensinteroperabiliteit beperken
Slecht geannoteerde gegevens
Onjuiste gegevensclassificatie

Bijna 96% van de AI-specialisten worstelt met problemen met de gegevenskwaliteit, wat resulteert in extra uren om de kwaliteit te optimaliseren, zodat machines effectief optimale resultaten kunnen leveren.

Ongestructureerde gegevens

Datawetenschappers en AI-experts werken meer aan ongestructureerde data dan hun complete tegenhangers. Als gevolg hiervan wordt een aanzienlijk deel van hun tijd besteed aan het begrijpen van ongestructureerde gegevens en het compileren ervan in een formaat dat machines kunnen begrijpen.

Ongestructureerde gegevens zijn alle informatie die niet voldoet aan een specifiek formaat, model of structuur. Het is ongeorganiseerd en willekeurig. Ongestructureerde gegevens kunnen video, audio, afbeeldingen, afbeeldingen met tekst, enquêtes, rapporten, presentaties, memo's of andere vormen van informatie zijn. De meest relevante inzichten uit ongestructureerde datasets moeten door een specialist worden geïdentificeerd en handmatig worden geannoteerd. Als u met ongestructureerde gegevens werkt, heeft u twee opties:

U besteedt meer tijd aan het opschonen van de gegevens
Scheve resultaten accepteren

Gebrek aan MKB voor geloofwaardige gegevensannotatie

Van alle factoren die we vandaag hebben besproken, is geloofwaardige gegevensannotatie de enige subtiliteit waar we aanzienlijke controle over hebben. Gegevensannotatie is een cruciale fase in de ontwikkeling van AI die bepaalt wat en hoe ze moeten leren. Slecht of onjuist geannoteerde gegevens kunnen uw resultaten volledig vertekenen. Tegelijkertijd kunnen nauwkeurig geannoteerde gegevens uw systemen geloofwaardig en functioneel maken.

Daarom moet het annoteren van gegevens worden gedaan door MKB-bedrijven en veteranen met domeinkennis. Zorggegevens dienen bijvoorbeeld te worden geannoteerd door professionals die ervaring hebben met het werken met gegevens uit die sector. Dus wanneer het model wordt ingezet in een levensreddende situatie, voldoet het aan de verwachtingen. Hetzelfde geldt voor producten in onroerend goed, fintech eCommerce en andere niche-ruimtes.

Afsluiten

Al deze factoren wijzen in één richting: het is niet aan te raden om je als zelfstandige eenheid in AI-ontwikkeling te wagen. In plaats daarvan is het een samenwerkingsproces, waarbij je experts uit alle vakgebieden nodig hebt om samen te komen om die ene perfecte oplossing uit te rollen.

Daarom raden we aan om contact op te nemen met gegevens Collectie en aantekening experts zoals Shaip om uw producten en oplossingen functioneler te maken. We zijn ons bewust van de subtiliteiten die betrokken zijn bij de ontwikkeling van AI en hebben bewuste protocollen en kwaliteitscontroles om ze onmiddellijk te elimineren.

Krijgen in met ons om erachter te komen hoe onze expertise u kan helpen bij de ontwikkeling van uw AI-product.

Sociale Share

Praat met een expert

Voornaam*
Achternaam*
E-mail*
Telefoonnummer*
Bedrijf*
Land*
Land
Heb je vragen? Stel ze hier.*
Door te registreren ga ik akkoord met Shaip Privacy Policy en Algemene Voorwaarden en geef mijn toestemming om B2B-marketingcommunicatie van Shaip te ontvangen.
CAPTCHA

Gratis boek downloaden

Dit vind je misschien ook leuk

Subtiliteiten van AI-trainingsgegevens en waarom ze uw project maken of breken

De anatomie van een AI-project

Gegevensbias

Kunnen we bias volledig elimineren?

Datakwaliteit

Ongestructureerde gegevens

Gebrek aan MKB voor geloofwaardige gegevensannotatie

Afsluiten

Sociale Share

Praat met een expert

Hoeveel is de optimale hoeveelheid trainingsgegevens die je nodig hebt voor een AI-project?

Crowdwerkers voor gegevensverzameling - een onmisbaar onderdeel van ethische AI

Hoe u het beste bedrijf voor gegevensverzameling voor AI- en ML-projecten kiest

AI-gegevensservices

Specialiteit

Industrie

Producten

Bedrijf

Resources

Ons Contacten