Het succes van elk AI-model hangt af van de kwaliteit van de gegevens die in het systeem worden ingevoerd. ML-systemen draaien op grote hoeveelheden data, maar er kan niet van hen worden verwacht dat ze presteren met zomaar wat data. Het moet zijn hoogwaardige AI-trainingsgegevens. Als de output van het AI-model authentiek en nauwkeurig moet zijn, moeten de gegevens voor het trainen van het systeem natuurlijk van hoge kwaliteit zijn.
De gegevens waarop de AI- en ML-modellen worden getraind, moeten van uitstekende kwaliteit zijn zodat het bedrijf er zinvolle en relevante inzichten uit kan halen. Toch vormt het verkrijgen van enorme hoeveelheden heterogene data een uitdaging voor bedrijven.
Bedrijven moeten vertrouwen op providers zoals Shaip, die strikte maatregelen voor gegevenskwaliteitsbeheer in hun processen implementeren om deze uitdaging aan te gaan. Bovendien ondernemen we bij Shaip ook de voortdurende transformatie van onze systemen om de veranderende uitdagingen aan te gaan.
Inleiding tot Shaip's Data Quality Management
Bij Shaip begrijpen we het belang van betrouwbare trainingsgegevens en hun rol bij het ontwikkelen van ML-modellen en het resultaat van op AI gebaseerde oplossingen. Naast het screenen van onze medewerkers op vaardigheden, zijn we evenzeer gericht op het ontwikkelen van hun kennisbasis en persoonlijke ontwikkeling.
We volgen strikte richtlijnen en standaard operationele procedures die op alle niveaus van het proces zijn geïmplementeerd, zodat onze trainingsgegevens voldoen aan de kwaliteitsbenchmark.
Kwaliteitsmanagement
Onze workflow voor kwaliteitsbeheer heeft een belangrijke rol gespeeld bij het leveren van machine learning en AI-modellen. Met feedback-in-loop is ons kwaliteitsmanagementmodel een wetenschappelijk geteste methode die van groot belang is geweest bij het succesvol opleveren van verschillende projecten voor onze klanten. Onze processtroom voor kwaliteitsaudits verloopt op de volgende manier.
- Herziening van het contract
- Een controlechecklist maken
- Documentbron
- Sourcing 2-laags audit
- Annotatie Tekst Moderatie
- Annotatie 2-laags audit
- Levering van werk
- client feedback
Crowdsource selectie en onboarding van werknemers
Onze strenge selectie van werknemers en ons onboardingproces onderscheiden ons van de rest van de concurrentie. We voeren een nauwkeurig selectieproces uit om alleen de meest bekwame annotators aan boord te brengen op basis van de kwaliteitschecklist. Wij overwegen:
- Eerdere ervaring als tekstmoderator om ervoor te zorgen dat hun vaardigheden en ervaring voldoen aan onze vereisten.
- Prestaties in eerdere projecten om ervoor te zorgen dat hun productiviteit, kwaliteit en output op één lijn lagen met de projectbehoeften.
- Uitgebreide domeinkennis is een vereiste voor het kiezen van een bepaalde werknemer voor een specifieke branche.
Ons selectieproces stopt hier niet. We onderwerpen de werknemers aan een voorbeeld van een annotatietest om hun kwalificaties en prestaties te verifiëren. Op basis van de prestaties in de proef, de analyse van onenigheid en Q & A, zullen ze worden geselecteerd.
Zodra de werknemers zijn geselecteerd, zullen ze een grondige trainingssessie ondergaan met behulp van Project SOW, richtlijnen, bemonsteringsmethoden, tutorials en meer, afhankelijk van de projectbehoefte.
Checklist voor gegevensverzameling
Er worden dubbellaagse kwaliteitscontroles uitgevoerd om ervoor te zorgen dat alleen de hoogwaardige trainingsgegevens wordt doorgegeven aan het volgende team.
Niveau 1: Kwaliteitsborgingscontrole
Het QA-team van Shaip voert de kwaliteitscontrole van niveau 1 uit voor gegevensverzameling. Ze controleren alle documenten en worden snel gevalideerd aan de hand van de nodige parameters.
Niveau 2: Controle van kritische kwaliteitsanalyse
Het CQA-team, bestaande uit gediplomeerde, ervaren en gekwalificeerde medewerkers, zal de resterende 20% van de retrospectieve steekproeven evalueren.
Enkele items van de checklist voor de kwaliteit van gegevensbronnen zijn:
- Is de URL-bron authentiek en is het mogelijk om gegevens op het web te schrapen?
- Is er diversiteit in de URL's op de shortlist zodat vooringenomenheid kan worden vermeden?
- Is de inhoud gevalideerd op relevantie?
- Bevat de inhoud moderatiecategorieën?
- Zijn prioritaire domeinen gedekt?
- Houdt het documenttype rekening met de distributie van het documenttype?
- Bevat elke moderatieklasse de minimale volumeplaat?
- Wordt het Feedback-in-loop proces gevolgd?
Checklist voor gegevensannotatie
Net als bij de gegevensverzameling hebben we ook twee lagen kwaliteitschecklist voor gegevensannotatie.
Niveau 1: Kwaliteitsborgingscontrole
Dit proces zorgt ervoor dat 100% van de documenten correct worden gevalideerd ten opzichte van de kwaliteitsparameters die door het team en de klant zijn vastgesteld.
Niveau 2: Controle van kritische kwaliteitsanalyse
Dit proces zorgt ervoor dat 15 tot 20% van de retrospectieve monsters ook worden gevalideerd en de kwaliteit wordt gegarandeerd. Deze stap wordt uitgevoerd door het gekwalificeerde en ervaren CQA-team met minimaal 10 jaar ervaring in kwaliteitsmanagement en Black Belt-houders.
Het CQA-team zorgt ervoor,- Consistentie in tekstmoderatie door gebruikers
- Controleren of de juiste zinnen en moderatieklassen worden gebruikt voor elk document
- De metagegevens controleren
We geven ook dagelijks feedback op basis van: Pareto-analyse om ervoor te zorgen dat hun prestaties overeenkomen met de eisen van de klant.
We hebben een extra laag prestatie-analyse toegevoegd om ons te concentreren op de minst presterende annotators met behulp van Bottom Quartile Management. Vóór de uiteindelijke levering zorgen we er ook voor dat de hygiënecontroles van het monster zijn voltooid.
Parameterdrempel
Afhankelijk van de projectrichtlijnen en de eisen van de klant hebben we een parameterdrempel van 90 tot 95%. Ons team is uitgerust en ervaren om een van de volgende methoden uit te voeren om hogere kwaliteitsmanagementnormen te garanderen.
- F1 Score of F Measure – om de prestaties van twee classifiers te beoordelen – 2* ((Precision * Recall)/ (Precision + Recall))
- DPO of Defects per Opportunity-methode wordt berekend als een verhouding van defecten gedeeld door de kansen.
Voorbeeld controlechecklist
Shaip's steekproefcontrolelijst is een volledige aanpassingsprocedure die kan worden aangepast aan de eisen van het project en de klant. Het kan worden aangepast op basis van de feedback van de klant en na een grondige discussie worden afgerond.
- Taalcontrole
- URL en domeincontrole
- Diversiteitscontrole
- Volume per taal- en moderatieklasse
- Gerichte zoekwoorden
- Documenttype en relevantie
- Controle op giftige zinnen
- Metadatacontrole
- Consistentiecontrole
- Controle van annotatieklasse
- Alle andere verplichte controles volgens de voorkeur van de klant
We nemen strenge maatregelen om de kwaliteitsnormen voor gegevens te handhaven, omdat we begrijpen dat alle op AI gebaseerde modellen gegevensgestuurd zijn. En, met hoogwaardige trainingsgegevens is een vereiste voor alle AI- en machine learning-modellen. We begrijpen het belang van hoogwaardige trainingsgegevens en het belang ervan voor de prestaties en het succes van uw AI-modellen.
