Crowd Workers voor gegevensverzameling

Crowdwerkers voor gegevensverzameling - een onmisbaar onderdeel van ethische AI

In onze inspanningen om robuuste en onbevooroordeelde AI-oplossingen te bouwen, is het relevant dat we ons richten op het trainen van de modellen op een onbevooroordeeld, dynamisch en representatief assortiment aan gegevens. Ons gegevensverzamelingsproces is uiterst belangrijk bij het ontwikkelen van geloofwaardige AI-oplossingen. In dit verband verzamelen AI-trainingsgegevens via crowdwerkers wordt een cruciaal aspect van de strategie voor gegevensverzameling.

Laten we in dit artikel eens kijken naar de rol van crowdwerkers en de impact ervan op de ontwikkeling van AI algoritmen leren en ML-modellen, en de behoefte en voordelen die het biedt aan het hele proces. 

Waarom zijn crowdwerkers nodig om AI-modellen te bouwen?

Als mensen genereren we tonnen data, maar slechts een fractie van deze gegenereerde en verzamelde data is van waarde. Vanwege het ontbreken van normen voor gegevensbenchmarking, zijn de meeste verzamelde gegevens ofwel bevooroordeeld, vol met kwaliteitsproblemen of niet representatief voor het milieu. Sinds meer en meer machine learning en er deep learning-modellen worden ontwikkeld die gedijen op enorme hoeveelheden data, wordt de behoefte aan betere, nieuwere en diversere datasets steeds groter.

Het is waar crowdwerkers in het spel komen.

Crowdsourcing data is het opbouwen van een dataset met deelname van grote groepen mensen. Crowdwerkers voegen menselijke intelligentie toe aan kunstmatige intelligentie.

Crowdsourcing-platforms microtaken voor gegevensverzameling en annotatie geven aan een grote en diverse groep mensen. Crowdsourcing geeft bedrijven toegang tot een enorm, dynamisch, kosteneffectief en schaalbaar personeelsbestand.

Het populairste crowdsourcingplatform – Amazon Mechanical Turk – kon binnen 11 uur 15 mens-tot-mens-dialogen vinden en betaalde de arbeiders $0.35 voor elke succesvolle dialoog. Crowdwerkers worden voor zo'n schamele hoeveelheid in dienst genomen, wat het belang van het opstellen van ethische normen voor gegevensbevoorrading duidelijk maakt.

Theoretisch klinkt het als een slim plan, maar het is geen gemakkelijke strategie om uit te voeren. De anonimiteit van de crowdwerkers heeft geleid tot problemen met lage lonen, minachting voor werknemersrechten en werk van slechte kwaliteit dat van invloed is op de prestaties van het AI-model. 

Voordelen van het hebben van crowdwerkers om gegevens te verzamelen

Door een diverse groep crowdwerkers in dienst te nemen, kunnen op AI gebaseerde oplossingsontwikkelaars snel en tegen relatief lage kosten microtaken verdelen en gevarieerde en wijdverbreide observaties verzamelen.

Enkele van de belangrijkste voordelen van het inhuren van crowdwerkers voor AI-projecten zijn:

Voordelen van gegevensverzameling via crowdworkers

Snellere time-to-market: Volgens onderzoek van Cognilytica bijna 80% of kunstmatige intelligentie projecttijd wordt besteed aan activiteiten voor het verzamelen van gegevens, zoals het opschonen, labelen en aggregeren van gegevens. Slechts 20% van de tijd wordt besteed aan ontwikkeling en training. De traditionele belemmeringen voor het genereren van gegevens worden weggenomen, aangezien in korte tijd een groot aantal bijdragers kan worden aangeworven. 

Kosteneffectieve oplossing: Crowd-sourced gegevensverzameling vermindert de tijd en energie die wordt besteed aan training, werving en aan boord brengen. Dit elimineert de kosten, tijd en middelen die nodig zijn, aangezien het personeel werkt volgens een pay-per-task-methode. 

Verhoogt diversiteit in de dataset: Datadiversiteit is van cruciaal belang voor de gehele AI-oplossingstraining. Om een ​​model onbevooroordeelde resultaten te laten produceren, moet het worden getraind op een diverse dataset. Met crowd-sourcing van data is het mogelijk om met weinig moeite en kosten diverse (geografische, talen, dialecten) datasets te genereren.

Verbetert de schaalbaarheid: Wanneer u betrouwbare crowdwerkers rekruteert, kunt u ervoor zorgen hoogwaardige gegevensverzameling die kan worden geschaald op basis van uw projectbehoeften.

In-house vs. crowdsourcing – Wie komt er als winnaar uit de bus?

Interne gegevensCrowdsourced gegevens
De nauwkeurigheid en consistentie van de gegevens kunnen worden gegarandeerd.De kwaliteit, nauwkeurigheid en consistentie van gegevens kunnen worden gehandhaafd als betrouwbare crowdsourcingplatforms met standaard QA-maatregelen worden gebruikt
Interne datasourcing is niet altijd een praktische beslissing, aangezien uw interne team mogelijk niet aan de projecteisen voldoet.Datadiversiteit kan worden gegarandeerd omdat het mogelijk is om een ​​heterogene groep crowdwerkers te rekruteren op basis van de projectbehoeften.
Duur om werknemers te werven en op te leiden voor de projectbehoeften.Kostenbesparende oplossing voor het verzamelen van gegevens omdat het mogelijk is om met minder investeringen werknemers aan te werven, op te leiden en in dienst te nemen.
De time-to-market is hoog omdat het intern verzamelen van gegevens veel tijd kost.De time-to-market is aanzienlijk korter omdat veel bijdragen snel binnenkomen.
Een kleine groep interne bijdragers en labelersEen grote en diverse groep donateurs en gegevens labelers
De vertrouwelijkheid van gegevens is erg hoog met een in-house team.De vertrouwelijkheid van gegevens is moeilijk te handhaven bij het werken met grote crowdwerkers over de hele wereld.
Gemakkelijker om de gegevensverzamelaars te volgen, te trainen en te evaluerenUitdagend om de gegevensverzamelaars te volgen en te trainen.

Het overbruggen van de kloof tussen crowdsourcers en de aanvrager.

Het overbruggen van de kloof tussen crowdsource-medewerkers en aanvrager Er is een dringende behoefte om de kloof tussen crowdwerkers en aanvragers te overbruggen, niet alleen op het gebied van beloning.

Er is een flagrant gebrek aan informatie van de kant van de aanvrager omdat de werknemers alleen informatie krijgen over de specifieke taak. Hoewel werknemers bijvoorbeeld microtaken krijgen, zoals het opnemen van dialogen in hun moedertaal, krijgen ze zelden context. Ze hebben niet de vereiste informatie waarom ze doen wat ze doen en hoe ze dat het beste kunnen doen. Dit gebrek aan informatie heeft gevolgen voor de kwaliteit van het crowdsourced werk.

Voor een mens zorgt het hebben van de volledige context voor duidelijkheid en doel in zijn werk.

Voeg aan deze mix nog een dimensie van NDA toe: de geheimhoudingsovereenkomsten die de hoeveelheid informatie beperken die een crowdwerker wordt verstrekt. Vanuit het perspectief van een crowdworker toont deze terugtrekking van informatie een gebrek aan vertrouwen en verminderd belang voor hun werk.

Wanneer dezelfde situatie vanaf de andere kant van het spectrum wordt bekeken, is er een gebrek aan transparantie aan de kant van de werknemer. De aanvrager begrijpt de werknemer die is aangesteld om het werk te doen niet volledig. Sommige projecten vereisen mogelijk een specifiek type werknemer; bij de meeste projecten is er echter onduidelijkheid. De grond waarheid is dat dit evaluatie, feedback en training langs de lijn kan bemoeilijken.

Om deze moeilijkheden het hoofd te bieden, is het belangrijk om samen te werken met experts op het gebied van gegevensverzameling met een staat van dienst in het leveren van diverse, samengestelde en goed vertegenwoordigde gegevens van een brede selectie van bijdragers.

Het kiezen van Shaip als uw datapartner kan meerdere voordelen hebben. We richten ons op diversiteit en representatieve distributies van data. Onze ervaren en toegewijde medewerkers begrijpen de dwang van elk project en ontwikkelen datasets die in een mum van tijd robuuste op AI gebaseerde oplossingen kunnen trainen.

[Lees ook: Startersgids voor AI-trainingsgegevens: definitie, voorbeeld, datasets]

Sociale Share