Gegevensannotatie en gegevenslabels
De ultieme kopersgids 2023
Dus je wilt een nieuw AI/ML-initiatief starten en je realiseert je nu al snel dat niet alleen het vinden van hoge kwaliteit trainingsdata maar ook het annoteren van gegevens zijn enkele van de uitdagende aspecten voor uw project. De output van uw AI & ML-modellen is slechts zo goed als de gegevens die u gebruikt om ze te trainen - dus de precisie die u toepast op gegevensaggregatie en het taggen en identificeren van die gegevens is belangrijk!
Waar ga je heen om de beste gegevensannotatie- en gegevenslabelservices voor zakelijke AI en machines te krijgen?
leerprojecten?
Het is een vraag die elke leidinggevende en bedrijfsleider zoals u in overweging moet nemen bij het ontwikkelen van hun
routekaart en tijdlijn voor elk van hun AI/ML-initiatieven.
Lees de kopersgids voor gegevensannotatie / etikettering, of een pdf-versie downloaden
Introductie
Deze gids zal zeer nuttig zijn voor die kopers en besluitvormers die hun gedachten beginnen te richten op de moeren en bouten van datasourcing en data-implementatie, zowel voor neurale netwerken als voor andere soorten AI- en ML-operaties.
Dit artikel is volledig gewijd aan het werpen van licht op wat het proces is, waarom het onvermijdelijk, cruciaal is
factoren waarmee bedrijven rekening moeten houden bij het benaderen van tools voor gegevensannotatie en meer. Dus, als u een bedrijf heeft, bereid u dan voor om geïnformeerd te worden, want deze gids leidt u door alles wat u moet weten over gegevensannotatie.
Laten we beginnen.
Voor degenen onder u die het artikel doorbladeren, zijn hier enkele snelle afhaalrestaurants die u in de gids vindt:
- Begrijpen wat gegevensannotatie is
- Ken de verschillende soorten gegevensannotatieprocessen
- Ken de voordelen van het implementeren van het gegevensannotatieproces
- Krijg duidelijkheid over of u voor in-house data-etikettering moet gaan of ze moet uitbesteden
- Ook inzicht in het kiezen van de juiste gegevensannotatie
Voor wie is deze gids bedoeld?
Deze uitgebreide gids is voor:
- Alle ondernemers en solopreneurs die regelmatig enorme hoeveelheden gegevens verwerken
- AI en machine learning of professionals die aan de slag gaan met procesoptimalisatietechnieken
- Projectmanagers die een snellere time-to-market willen implementeren voor hun AI-modules of AI-gestuurde producten
- En tech-enthousiastelingen die graag ingaan op de details van de lagen die betrokken zijn bij AI-processen.
Wat is machinaal leren?
We hebben het gehad over hoe gegevensannotatie of data-etikettering machine learning ondersteunt en dat het bestaat uit het taggen of identificeren van componenten. Maar wat betreft deep learning en machine learning zelf: het uitgangspunt van machine learning is dat computersystemen en programma's hun output kunnen verbeteren op manieren die lijken op menselijke cognitieve processen, zonder directe menselijke hulp of tussenkomst, om ons inzichten te geven. Met andere woorden, het worden zelflerende machines die, net als een mens, door meer oefening beter worden in hun werk. Deze “oefening” krijg je door meer (en betere) trainingsdata te analyseren en interpreteren.
Een van de belangrijkste concepten in machine learning is het neurale netwerk, waarbij individuele digitale neuronen in lagen aan elkaar worden toegewezen. Het neurale netwerk stuurt signalen door die lagen, net als de werking van een echt menselijk brein, om resultaten te krijgen.
Hoe dit er in het veld uitziet, verschilt per geval, maar fundamentele elementen zijn van toepassing. Een daarvan is de behoefte aan gelabeld en begeleid leren.
Deze gelabelde gegevens komen meestal in de vorm van trainings- en testsets die het machine learning-programma zullen oriënteren op toekomstige resultaten wanneer toekomstige gegevensinvoer wordt toegevoegd. Met andere woorden, wanneer u een goede test- en trainingsgegevensconfiguratie heeft, kan de machine nieuwe binnenkomende productiegegevens op een betere en efficiëntere manier interpreteren en sorteren.
In die zin is het optimaliseren van deze machine learning een zoektocht naar kwaliteit en een manier om het 'value learning-probleem' op te lossen - het probleem van hoe machines kunnen leren om zelfstandig te denken en resultaten te prioriteren met zo min mogelijk menselijke hulp.
Bij het ontwikkelen van de beste huidige programma's is de sleutel tot effectieve AI/ML-implementaties "schone" gelabelde gegevens. Goed ontworpen en geannoteerde test- en trainingsdatasets ondersteunen de resultaten die technici nodig hebben van succesvolle ML.
Wat is gegevensannotatie?
Zoals we eerder vermeldden, is bijna 95% van de gegenereerde gegevens ongestructureerd. Simpel gezegd, ongestructureerde gegevens kunnen overal voorkomen en zijn niet goed gedefinieerd. Als u een AI-model aan het bouwen bent, moet u informatie aan een algoritme invoeren zodat het outputs en gevolgtrekkingen kan verwerken en leveren.
Dit proces kan alleen plaatsvinden als het algoritme de gegevens begrijpt en classificeert die eraan worden toegevoegd.
En dit proces van het toekennen, labelen of labelen van gegevens wordt gegevensannotatie genoemd. Samenvattend gaat het bij datalabeling en dataannotatie om het labelen of taggen van relevante informatie/metadata in een dataset om machines te laten begrijpen wat ze zijn. De dataset kan elke vorm hebben, bijvoorbeeld een afbeelding, een audiobestand, videobeelden of zelfs tekst. Wanneer we elementen in gegevens labelen, begrijpen ML-modellen nauwkeurig wat ze gaan verwerken en bewaren die informatie om automatisch nieuwere informatie te verwerken die is gebaseerd op bestaande kennis om tijdig beslissingen te nemen.
Met gegevensannotatie zou een AI-model weten of de gegevens die het ontvangt audio, video, tekst, afbeeldingen of een mix van formaten zijn. Afhankelijk van de toegewezen functionaliteiten en parameters, classificeert het model de gegevens en gaat het verder met het uitvoeren van zijn taken.
Gegevensannotatie is onvermijdelijk omdat AI- en machine learning-modellen consequent moeten worden getraind om efficiënter en effectiever te worden in het leveren van de vereiste output. Bij gesuperviseerd leren wordt het proces des te belangrijker omdat hoe meer geannoteerde gegevens naar het model worden gevoerd, hoe eerder het zichzelf traint om autonoom te leren.
Als we het bijvoorbeeld moeten hebben over zelfrijdende auto's, die volledig afhankelijk zijn van gegevens die worden gegenereerd uit de diverse technische componenten, zoals computer visie, NLP (Natural Language Processing), sensoren en meer, gegevensannotatie is wat de algoritmen ertoe aanzet om elke seconde nauwkeurige rijbeslissingen te nemen. Zonder dit proces zou een model niet begrijpen of een naderende hindernis een andere auto, een voetganger, een dier of een wegversperring is. Dit resulteert alleen maar in een ongewenst gevolg en het falen van het AI-model.
Wanneer gegevensannotatie is geïmplementeerd, worden uw modellen nauwkeurig getraind. Dus of u het model nu inzet voor chatbots, spraakherkenning, automatisering of andere processen, u krijgt optimale resultaten en een onfeilbaar model.
Waarom is gegevensannotatie vereist?
We weten zeker dat computers in staat zijn om ultieme resultaten te leveren die niet alleen nauwkeurig, maar ook relevant en actueel zijn. Maar hoe leert een machine zo efficiënt te leveren?
Dit komt allemaal door gegevensannotatie. Wanneer een machine learning-module nog in ontwikkeling is, worden ze gevoed met volumes na volumes AI-trainingsgegevens om ze beter te maken in het nemen van beslissingen en het identificeren van objecten of elementen.
Alleen door het proces van gegevensannotatie kunnen modules onderscheid maken tussen een kat en een hond, een zelfstandig naamwoord en een bijvoeglijk naamwoord, of een weg vanaf een trottoir. Zonder gegevensannotatie zou elke afbeelding hetzelfde zijn voor machines, omdat ze geen inherente informatie of kennis hebben over iets in de wereld.
Gegevensannotatie is vereist om systemen nauwkeurige resultaten te laten leveren, modules te helpen bij het identificeren van elementen om computervisie en spraak te trainen, herkenningsmodellen. Elk model of systeem met een machinegestuurd besluitvormingssysteem als uitgangspunt, gegevensannotatie is vereist om ervoor te zorgen dat de beslissingen nauwkeurig en relevant zijn.
Gegevensannotatie versus gegevenslabels
Er is een heel dun verschil tussen gegevensannotatie en gegevenslabels, behalve de stijl en het type inhoudstags dat wordt gebruikt. Daarom zijn ze vrij vaak door elkaar gebruikt om ML-trainingsdatasets te maken, afhankelijk van het AI-model en het proces van het trainen van de algoritmen.
Gegevensannotatie | Gegevensetikettering |
---|---|
Gegevensannotatie is de techniek waarmee we gegevens labelen om objecten herkenbaar te maken voor machines | Bij het labelen van gegevens draait alles om het toevoegen van meer info/metadata aan verschillende gegevens typen (tekst, audio, beeld en video) om ML-modellen te trainen |
Geannoteerde gegevens zijn de basisvereiste om ML-modellen te trainen | Bij labelen draait alles om het identificeren van relevante kenmerken in de dataset |
Annotatie helpt bij het herkennen van relevante gegevens | Labelen helpt bij het herkennen van patronen om algoritmen te trainen |
De opkomst van gegevensannotatie en gegevenslabels
De eenvoudigste manier om de use-cases van gegevensannotatie en gegevenslabels uit te leggen, is door eerst gecontroleerde en niet-gesuperviseerde machine learning te bespreken.
In het algemeen, in begeleide machine learning, mensen leveren "gelabelde gegevens" die het machine learning-algoritme een voorsprong geven; iets om door te gaan. Mensen hebben data-eenheden getagd met behulp van verschillende tools of platforms zoals ShaipCloud, zodat het machine learning-algoritme al het werk kan toepassen dat moet worden gedaan, terwijl ze al iets weten over de gegevens die het tegenkomt.
Daarentegen gegevens leren zonder toezicht omvat programma's waarin machines min of meer zelf datapunten moeten identificeren.
Een al te vereenvoudigde manier om dit te begrijpen, is door een voorbeeld van een 'fruitmand' te gebruiken. Stel dat je een doel hebt om appels, bananen en druiven te sorteren in logische resultaten met behulp van een kunstmatige intelligentie-algoritme.
Met gelabelde gegevens, resultaten die al zijn geïdentificeerd als appels, bananen en druiven, hoeft het programma alleen maar onderscheid te maken tussen deze gelabelde testitems om de resultaten correct te classificeren.
Met machine learning zonder toezicht - waarbij gegevenslabels niet aanwezig zijn - zal de machine appels, druiven en bananen moeten identificeren aan de hand van hun visuele criteria - bijvoorbeeld het sorteren van rode, ronde objecten van gele, lange objecten of groene, geclusterde objecten.
Het grootste nadeel van leren zonder toezicht is dat het algoritme op zoveel belangrijke manieren blind werkt. Ja, het kan resultaten opleveren, maar alleen met veel krachtigere algoritmeontwikkeling en technische middelen. Dat alles betekent meer ontwikkelingsdollars en vooraf beschikbare middelen, waardoor de onzekerheid nog groter wordt. Dit is de reden waarom begeleide leermodellen en de bijbehorende gegevensannotaties en labels zo waardevol zijn bij het bouwen van elk soort ML-project. Vaker wel dan niet, gaan leerprojecten onder supervisie gepaard met lagere initiële ontwikkelingskosten en een veel grotere nauwkeurigheid.
In deze context is het gemakkelijk in te zien hoe gegevensannotatie en gegevenslabels de mogelijkheden van een AI- of ML-programma drastisch kunnen vergroten en tegelijkertijd de time-to-market en de totale eigendomskosten kunnen verlagen.
Nu we hebben vastgesteld dat dit type onderzoekstoepassing en -implementatie zowel belangrijk als veelgevraagd is, gaan we eens kijken naar de spelers.
Nogmaals, het begint met de mensen voor wie deze gids is ontworpen om te helpen: de kopers en besluitvormers die optreden als strategen of makers van het AI-plan van een organisatie. Het strekt zich vervolgens uit tot de datawetenschappers en data-ingenieurs die rechtstreeks met algoritmen en gegevens zullen werken en, in sommige gevallen, de output van AI/ML-systemen zullen bewaken en controleren. Dit is waar de vitale rol van de "Human in the Loop" in het spel komt.
Mens-in-de-loop (HITL) is een algemene manier om het belang van menselijk toezicht bij AI-operaties aan te pakken. Dit concept is op een aantal fronten zeer relevant voor data labeling. Ten eerste kan data labeling zelf gezien worden als een implementatie van HITL.
Wat is een tool voor het labelen/annoteren van gegevens?
In eenvoudige bewoordingen is het een platform of een portal waarmee specialisten en experts allerlei soorten datasets kunnen annoteren, labelen of labelen. Het is een brug of een medium tussen onbewerkte gegevens en de resultaten die uw machine learning-modules uiteindelijk zouden opleveren.
Een tool voor het labelen van gegevens is een on-prem of cloudgebaseerde oplossing die hoogwaardige trainingsgegevens annoteert voor machine learning-modellen. Hoewel veel bedrijven afhankelijk zijn van een externe leverancier om complexe aantekeningen te maken, hebben sommige organisaties nog steeds hun eigen tools die op maat zijn gemaakt of gebaseerd zijn op freeware of opensource-tools die op de markt verkrijgbaar zijn. Dergelijke tools zijn meestal ontworpen om specifieke gegevenstypen te verwerken, zoals afbeeldingen, video, tekst, audio, enz. De tools bieden functies of opties zoals begrenzingsvakken of polygonen voor gegevensannotators om afbeeldingen te labelen. Ze kunnen gewoon de optie selecteren en hun specifieke taken uitvoeren.
Overwin de belangrijkste uitdagingen in dataarbeid
Er zijn een aantal belangrijke uitdagingen die moeten worden geëvalueerd bij het ontwikkelen of verwerven van de diensten voor gegevensannotatie en labeling die de hoogste kwaliteit output van uw machine learning (ML)-modellen zal bieden.
Sommige van de uitdagingen hebben te maken met de juiste analyse van de gegevens die u labelt (dwz tekstdocumenten, audiobestanden, afbeeldingen of video). In alle gevallen zullen de beste oplossingen in staat zijn om specifieke, gerichte interpretaties, etikettering en transcripties te bedenken.
Hier moeten algoritmen gespierd zijn en gericht op de taak die voorhanden is. Maar dit is slechts de basis voor enkele van de meer technische overwegingen bij het ontwikkelen van betere nlp-gegevenslabelservices.
Op een breder niveau gaat de beste datalabeling voor machine learning veel meer over de kwaliteit van menselijke participatie. Het gaat om workflowbeheer en onboarding van allerlei soorten menselijke werknemers - en ervoor zorgen dat de juiste persoon gekwalificeerd is en het juiste werk doet.
Het is een uitdaging om het juiste talent en de juiste delegatie te krijgen om een bepaalde machine learning use case te benaderen, zoals we later zullen bespreken.
Beide belangrijke fundamentele normen moeten worden toegepast voor effectieve ondersteuning van gegevensannotatie en gegevenslabels voor AI/ML-implementaties.
Soorten gegevensannotaties
Dit is een overkoepelende term die verschillende typen gegevensannotaties omvat. Dit omvat beeld, tekst, audio en video. Om u een beter begrip te geven, hebben we elk opgesplitst in verdere fragmenten. Laten we ze afzonderlijk bekijken.
Annotatie afbeelding
Op basis van de datasets waarop ze zijn getraind, kunnen ze onmiddellijk en nauwkeurig uw ogen van uw neus en uw wenkbrauw van uw wimpers onderscheiden. Daarom passen de filters die je toepast perfect, ongeacht de vorm van je gezicht, hoe dicht je bij je camera bent en meer.
Dus, zoals je nu weet, afbeelding annotatie is van vitaal belang in modules met gezichtsherkenning, computervisie, robotvisie en meer. Wanneer AI-experts dergelijke modellen trainen, voegen ze bijschriften, identifiers en trefwoorden toe als attributen aan hun afbeeldingen. De algoritmen identificeren en begrijpen vervolgens deze parameters en leren autonoom.
Audio-annotatie
Aan audiodata is nog meer dynamiek verbonden dan aan beelddata. Verschillende factoren zijn geassocieerd met een audiobestand, inclusief maar zeker niet beperkt tot: taal, demografie van de spreker, dialecten, stemming, intentie, emotie, gedrag. Om ervoor te zorgen dat algoritmen efficiënt kunnen worden verwerkt, moeten al deze parameters worden geïdentificeerd en getagd door technieken zoals tijdstempels, audiolabels en meer. Naast alleen verbale signalen, kunnen non-verbale gevallen zoals stilte, ademhalingen en zelfs achtergrondgeluiden worden geannoteerd zodat systemen volledig kunnen worden begrepen.
Videoannotatie
Terwijl een afbeelding stil is, is een video een compilatie van afbeeldingen die het effect creëren van bewegende objecten. Nu wordt elke afbeelding in deze compilatie een frame genoemd. Wat video-annotatie betreft, omvat het proces de toevoeging van keypoints, polygonen of begrenzingsvakken om verschillende objecten in het veld in elk frame te annoteren.
Wanneer deze frames aan elkaar worden genaaid, kunnen de beweging, het gedrag, de patronen en meer door de AI-modellen in actie worden geleerd. Het is alleen door video-annotatie dat concepten als lokalisatie, bewegingsonscherpte en objecttracking in systemen kunnen worden geïmplementeerd.
Tekstannotatie
Tegenwoordig zijn de meeste bedrijven afhankelijk van op tekst gebaseerde gegevens voor uniek inzicht en informatie. Nu kan tekst van alles zijn, van feedback van klanten over een app tot een vermelding op sociale media. En in tegenstelling tot afbeeldingen en video's die meestal duidelijke bedoelingen overbrengen, bevat tekst veel semantiek.
Als mensen zijn we afgestemd op het begrijpen van de context van een zin, de betekenis van elk woord, elke zin of zin, deze te relateren aan een bepaalde situatie of conversatie en vervolgens de holistische betekenis achter een uitspraak te realiseren. Machines daarentegen kunnen dit niet op precieze niveaus. Begrippen als sarcasme, humor en andere abstracte elementen zijn hen onbekend en daarom wordt het labelen van tekstgegevens moeilijker. Daarom heeft tekstannotatie enkele meer verfijnde fasen, zoals de volgende:
Semantische annotatie – objecten, producten en diensten worden relevanter gemaakt door geschikte trefwoordtags en identificatieparameters. Chatbots zijn ook gemaakt om op deze manier menselijke gesprekken na te bootsen.
Intentie annotatie – de intentie van een gebruiker en de taal die door hen wordt gebruikt, zijn getagd zodat machines ze kunnen begrijpen. Hiermee kunnen modellen onderscheid maken tussen een verzoek van een opdracht, of een aanbeveling van een boeking, enzovoort.
Tekstcategorisatie – zinnen of alinea's kunnen worden getagd en geclassificeerd op basis van overkoepelende onderwerpen, trends, onderwerpen, meningen, categorieën (sport, entertainment en dergelijke) en andere parameters.
Entiteit annotatie – waar ongestructureerde zinnen worden getagd om ze betekenisvoller te maken en ze in een formaat te brengen dat door machines kan worden begrepen. Om dit mogelijk te maken, zijn twee aspecten betrokken: genoemde entiteitsherkenning en entiteit koppelen. Erkenning van benoemde entiteiten is wanneer namen van plaatsen, mensen, gebeurtenissen, organisaties en meer worden getagd en geïdentificeerd en entiteitskoppeling is wanneer deze tags worden gekoppeld aan zinnen, zinsdelen, feiten of meningen die erop volgen. Gezamenlijk leggen deze twee processen de relatie tussen de bijbehorende teksten en de verklaring eromheen.
3 belangrijke stappen in het proces van gegevenslabeling en gegevensannotatie
Soms kan het nuttig zijn om te praten over de faseringsprocessen die plaatsvinden in een complex gegevensannotatie- en labelproject.
De eerste fase acquisitie is. Hier verzamelen en aggregeren bedrijven gegevens. Deze fase houdt doorgaans in dat de materiedeskundigheid moet worden ingekocht, hetzij bij menselijke operators, hetzij via een gegevenslicentiecontract.
De tweede en centrale stap in het proces is de eigenlijke etikettering en annotatie.
Deze stap is waar de NER-, sentiment- en intentieanalyse zou plaatsvinden, zoals we eerder in het boek hebben besproken.
Dit zijn de sleutelwoorden voor het nauwkeurig taggen en labelen van gegevens die kunnen worden gebruikt in machine learning-projecten die slagen in de doelen en doelstellingen die voor hen zijn vastgesteld.
Nadat de gegevens voldoende zijn getagd, gelabeld of geannoteerd, worden de gegevens naar de derde en laatste fase van het proces, dat implementatie of productie is.
Een ding om in gedachten te houden over de aanvraagfase is de noodzaak van compliance. Dit is het stadium waarin privacykwesties problematisch kunnen worden. Of het nu gaat om HIPAA of AVG of andere lokale of federale richtlijnen, de gegevens die in het spel zijn, kunnen gegevens zijn die gevoelig zijn en moeten worden gecontroleerd.
Met aandacht voor al deze factoren, kan dat driestappenproces uniek effectief zijn bij het ontwikkelen van resultaten voor zakelijke belanghebbenden.
Gegevensannotatieproces
Functies voor hulpmiddelen voor gegevensannotatie en gegevenslabels
Tools voor gegevensannotatie zijn doorslaggevende factoren die uw AI-project kunnen maken of breken. Als het gaat om nauwkeurige outputs en resultaten, maakt de kwaliteit van datasets alleen niet uit. De tools voor gegevensannotatie die u gebruikt om uw AI-modules te trainen, hebben zelfs een enorme invloed op uw output.
Daarom is het essentieel om de meest functionele en geschikte tool voor het labelen van gegevens te selecteren en te gebruiken die voldoet aan de behoeften van uw bedrijf of project. Maar wat is in de eerste plaats een tool voor gegevensannotatie? Welk doel dient het? Zijn er soorten? Nou, laten we het uitzoeken.
Net als andere tools bieden tools voor gegevensannotatie een breed scala aan functies en mogelijkheden. Om u snel een idee te geven van functies, volgt hier een lijst met enkele van de meest fundamentele functies waar u op moet letten bij het selecteren van een hulpmiddel voor gegevensannotatie.
Datasetbeheer
De tool voor gegevensannotatie die u wilt gebruiken, moet de gegevenssets die u bij de hand heeft ondersteunen en u kunt ze in de software importeren om ze te labelen. Het beheren van uw datasets is dus de belangrijkste functie die tools bieden. Hedendaagse oplossingen bieden functies waarmee u grote hoeveelheden gegevens naadloos kunt importeren, terwijl u tegelijkertijd uw gegevenssets kunt ordenen door middel van acties zoals sorteren, filteren, klonen, samenvoegen en meer.
Zodra de invoer van uw datasets is voltooid, exporteert u ze als bruikbare bestanden. Met de tool die u gebruikt, kunt u uw datasets opslaan in het formaat dat u opgeeft, zodat u ze in uw ML-modellen kunt invoeren.
Annotatietechnieken
Dit is waar een tool voor gegevensannotatie voor is gebouwd of ontworpen. Een solide tool zou u een reeks annotatietechnieken moeten bieden voor alle soorten datasets. Dit is tenzij u een aangepaste oplossing voor uw behoeften ontwikkelt. Met uw tool kunt u video's of afbeeldingen annoteren vanuit computervisie, audio of tekst van NLP's en transcripties en meer. Om dit verder te verfijnen, zouden er opties moeten zijn om begrenzingsvakken, semantische segmentatie, kubussen, interpolatie, sentimentanalyse, woordsoorten, coreferentie-oplossing en meer te gebruiken.
Voor niet-ingewijden zijn er ook AI-aangedreven tools voor gegevensannotatie. Deze worden geleverd met AI-modules die autonoom leren van de werkpatronen van een annotator en automatisch afbeeldingen of tekst annoteren. Zo een
modules kunnen worden gebruikt om annotators ongelooflijke hulp te bieden, annotaties te optimaliseren en zelfs kwaliteitscontroles uit te voeren.
Controle van gegevenskwaliteit
Over kwaliteitscontroles gesproken, er worden verschillende tools voor gegevensannotatie uitgerold met ingebouwde kwaliteitscontrolemodules. Deze stellen annotators in staat beter samen te werken met hun teamleden en helpen bij het optimaliseren van workflows. Met deze functie kunnen annotators opmerkingen of feedback in realtime markeren en volgen, identiteiten volgen achter mensen die wijzigingen in bestanden aanbrengen, eerdere versies herstellen, kiezen voor het labelen van consensus en meer.
Beveiliging
Aangezien u met gegevens werkt, moet beveiliging de hoogste prioriteit hebben. Mogelijk werkt u aan vertrouwelijke gegevens, zoals persoonlijke gegevens of intellectueel eigendom. Uw tool moet dus een waterdichte beveiliging bieden wat betreft waar de gegevens worden opgeslagen en hoe deze worden gedeeld. Het moet tools bieden die de toegang tot teamleden beperken, ongeautoriseerde downloads voorkomen en meer.
Afgezien hiervan moeten beveiligingsnormen en -protocollen worden nageleefd en nageleefd.
Workforce Management
Een tool voor gegevensannotatie is ook een soort projectbeheerplatform, waar taken aan teamleden kunnen worden toegewezen, samenwerking kan plaatsvinden, beoordelingen mogelijk zijn en meer. Daarom moet uw tool in uw workflow en proces passen voor optimale productiviteit.
Bovendien moet de tool ook een minimale leercurve hebben, aangezien het proces van gegevensannotatie op zich al tijdrovend is. Het heeft geen enkel nut om te veel tijd te besteden aan het leren van de tool. Het moet dus intuïtief en naadloos zijn voor iedereen om snel aan de slag te kunnen.
De voordelen van gegevensannotatie analyseren
Wanneer een proces zo uitgebreid en gedefinieerd is, moet er een specifieke reeks voordelen zijn die gebruikers of professionals kunnen ervaren. Afgezien van het feit dat gegevensannotatie het trainingsproces voor AI en machine learning-algoritmen optimaliseert, biedt het ook diverse voordelen. Laten we eens kijken wat ze zijn.
Meer meeslepende gebruikerservaring
Het eigenlijke doel van AI-modellen is om gebruikers de ultieme ervaring te bieden en hun leven eenvoudig te maken. Ideeën zoals chatbots, automatisering, zoekmachines en meer zijn allemaal met hetzelfde doel opgedoken. Met gegevensannotatie krijgen gebruikers een naadloze online ervaring waarbij hun conflicten worden opgelost, zoekopdrachten worden beantwoord met relevante resultaten en opdrachten en taken gemakkelijk worden uitgevoerd.
Ze maken de Turing-test kraakbaar
De Turing-test is voorgesteld door Alan Turing voor denkmachines. Wanneer een systeem de test kraakt, wordt gezegd dat het op gelijke voet staat met de menselijke geest, waarbij de persoon aan de andere kant van de machine niet zou kunnen zien of ze interactie hebben met een andere mens of een machine. Tegenwoordig zijn we allemaal een stap verwijderd van het kraken van de Turing-test vanwege datalabeltechnieken. De chatbots en virtuele assistenten worden allemaal aangedreven door superieure annotatiemodellen die naadloos gesprekken nabootsen die men met mensen zou kunnen hebben. Als je merkt dat virtuele assistenten zoals Siri niet alleen slimmer, maar ook eigenzinniger zijn geworden.
Ze maken resultaten effectiever
De impact van AI-modellen kan worden afgeleid uit de efficiëntie van de resultaten die ze opleveren. Wanneer gegevens perfect zijn geannoteerd en getagd, kunnen AI-modellen niet fout gaan en zouden ze gewoon de meest effectieve en nauwkeurige output produceren. In feite zouden ze in die mate worden getraind dat hun resultaten dynamisch zouden zijn met reacties die variëren afhankelijk van unieke situaties en scenario's.
Een tool voor gegevensannotatie bouwen of niet bouwen
Een kritiek en overkoepelend probleem dat zich kan voordoen tijdens een project voor gegevensannotatie of gegevenslabels, is de keuze om functionaliteit voor deze processen te bouwen of te kopen. Dit kan meerdere keren voorkomen in verschillende projectfasen, of gerelateerd zijn aan verschillende onderdelen van het programma. Bij de keuze om intern een systeem te bouwen of op leveranciers te vertrouwen, is er altijd een afweging.
Zoals u nu waarschijnlijk kunt zien, is het annoteren van gegevens een complex proces. Tegelijkertijd is het ook een subjectief proces. Dit betekent dat er niet één enkel antwoord is op de vraag of u een tool voor gegevensannotatie moet kopen of bouwen. Er moeten veel factoren in overweging worden genomen en u moet uzelf enkele vragen stellen om uw vereisten te begrijpen en te beseffen of u er echt een moet kopen of bouwen.
Om dit eenvoudig te maken, zijn hier enkele van de factoren waarmee u rekening moet houden.
Jou doel
Het eerste element dat u moet definiëren, is het doel met uw kunstmatige intelligentie en machine learning-concepten.
- Waarom pas je ze toe in je bedrijf?
- Lossen ze een reëel probleem op waarmee uw klanten worden geconfronteerd?
- Maken ze een front-end- of backend-proces?
- Ga je AI gebruiken om nieuwe features te introduceren of je bestaande website, app of een module te optimaliseren?
- Wat doet uw concurrent in uw segment?
- Heb je genoeg use-cases die AI-interventie nodig hebben?
Antwoorden hierop zullen je gedachten - die momenteel overal kunnen zijn - op één plek samenbrengen en je meer duidelijkheid geven.
AI-gegevensverzameling / licentieverlening
AI-modellen hebben slechts één element nodig om te functioneren: gegevens. U moet identificeren van waaruit u enorme hoeveelheden grondwaarheidsgegevens kunt genereren. Als uw bedrijf grote hoeveelheden gegevens genereert die moeten worden verwerkt voor cruciale inzichten over zaken, bedrijfsvoering, concurrentieonderzoek, marktvolatiliteitsanalyse, onderzoek naar klantgedrag en meer, dan heeft u een hulpmiddel voor gegevensannotatie nodig. Houd echter ook rekening met de hoeveelheid gegevens die u genereert. Zoals eerder vermeld, is een AI-model slechts zo effectief als de kwaliteit en kwantiteit van de gegevens die het krijgt. Uw beslissingen moeten dus altijd van deze factor afhangen.
Als u niet over de juiste gegevens beschikt om uw ML-modellen te trainen, kunnen leveranciers erg handig zijn, omdat ze u kunnen helpen bij het in licentie geven van de juiste set gegevens die nodig zijn om ML-modellen te trainen. In sommige gevallen zal een deel van de waarde die de leverancier met zich meebrengt, zowel technische bekwaamheid als toegang tot middelen omvatten die het succes van projecten zullen bevorderen.
Budget
Nog een fundamentele voorwaarde die waarschijnlijk van invloed is op elke factor die we momenteel bespreken. De oplossing voor de vraag of u een gegevensannotatie moet bouwen of kopen, wordt eenvoudig als u begrijpt of u voldoende budget te besteden heeft.
Nalevingscomplexiteit
Leveranciers kunnen zeer behulpzaam zijn als het gaat om gegevensprivacy en de juiste omgang met gevoelige gegevens. Een van deze soorten gebruiksscenario's betreft een ziekenhuis- of zorggerelateerd bedrijf dat de kracht van machine learning wil gebruiken zonder de naleving van HIPAA en andere gegevensprivacyregels in gevaar te brengen. Zelfs buiten het medische veld verscherpen wetten zoals de Europese AVG de controle op datasets en vereisen ze meer waakzaamheid van de zakelijke belanghebbenden.
Mankracht
Gegevensannotatie vereist bekwame mankracht om aan te werken, ongeacht de grootte, schaal en domein van uw bedrijf. Zelfs als u elke dag een absoluut minimum aan gegevens genereert, hebt u gegevensexperts nodig om aan uw gegevens te werken voor etikettering. Dus nu moet u zich realiseren of u over de benodigde mankracht beschikt. Zo ja, zijn ze dan bekwaam in de vereiste tools en technieken of hebben ze bijscholing nodig? Als ze bijscholing nodig hebben, heb je dan het budget om ze op te leiden?
Bovendien nemen de beste programma's voor het annoteren en labelen van gegevens een aantal materie- of domeinexperts en segmenteren ze op basis van demografie, zoals leeftijd, geslacht en expertisegebied - of vaak in termen van de gelokaliseerde talen waarmee ze zullen werken. Dat is, nogmaals, waar we bij Shaip praten over het krijgen van de juiste mensen op de juiste stoelen en zo de juiste mens-in-the-loop-processen aan te sturen die uw programmatische inspanningen naar succes zullen leiden.
Kleine en grote projectactiviteiten en kostendrempels
In veel gevallen kan leveranciersondersteuning meer een optie zijn voor een kleiner project of voor kleinere projectfasen. Wanneer de kosten beheersbaar zijn, kan het bedrijf profiteren van outsourcing om projecten voor gegevensannotatie of gegevenslabeling efficiënter te maken.
Bedrijven kunnen ook kijken naar belangrijke drempels - waarbij veel leveranciers de kosten koppelen aan de hoeveelheid data die wordt verbruikt of andere benchmarks voor hulpbronnen. Laten we bijvoorbeeld zeggen dat een bedrijf zich heeft aangemeld bij een leverancier voor het uitvoeren van de vervelende gegevensinvoer die nodig is voor het opzetten van testsets.
Er kan een verborgen drempel in de overeenkomst zijn waar de zakenpartner bijvoorbeeld een ander blok AWS-gegevensopslag of een ander servicecomponent van Amazon Web Services of een andere externe leverancier moet afsluiten. Dat geven ze door aan de klant in de vorm van hogere kosten, en daarmee komt het prijskaartje buiten bereik van de klant.
In deze gevallen helpt het meten van de services die u van leveranciers krijgt om het project betaalbaar te houden. Het hebben van de juiste scope zorgt ervoor dat de projectkosten niet hoger zijn dan wat redelijk of haalbaar is voor het bedrijf in kwestie.
Open source- en freeware-alternatieven
Sommige alternatieven voor volledige leveranciersondersteuning omvatten het gebruik van open-sourcesoftware, of zelfs freeware, om gegevensannotatie- of labelprojecten uit te voeren. Hier is er een soort middenweg waar bedrijven niet alles vanaf het begin creëren, maar ook vermijden te veel te vertrouwen op commerciële leveranciers.
De doe-het-zelf-mentaliteit van open source is zelf een soort compromis: ingenieurs en interne mensen kunnen profiteren van de open source-gemeenschap, waar gedecentraliseerde gebruikersbases hun eigen soorten ondersteuning bieden. Het zal niet hetzelfde zijn als wat u van een leverancier krijgt - u krijgt geen 24/7 gemakkelijke hulp of antwoord op vragen zonder intern onderzoek te doen - maar het prijskaartje is lager.
Dus de grote vraag: wanneer moet je een tool voor gegevensannotatie kopen:
Zoals bij veel soorten hightechprojecten, vereist dit soort analyse - wanneer te bouwen en wanneer te kopen - toegewijde aandacht en overweging over hoe deze projecten worden aangekocht en beheerd. De uitdagingen waarmee de meeste bedrijven worden geconfronteerd met betrekking tot AI/ML-projecten bij het overwegen van de "build" -optie, is dat het niet alleen om de bouw- en ontwikkelingsgedeelten van het project gaat. Er is vaak een enorme leercurve om zelfs maar op het punt te komen waarop echte AI/ML-ontwikkeling kan plaatsvinden. Met nieuwe AI/ML-teams en -initiatieven is het aantal 'onbekende onbekenden' veel groter dan het aantal 'bekende onbekenden'.
Bouwen | Kopen |
---|---|
Voors:
| Voors:
|
nadelen:
| nadelen:
|
Houd rekening met de volgende aspecten om het nog eenvoudiger te maken:
- wanneer u aan enorme hoeveelheden gegevens werkt
- wanneer u aan verschillende soorten gegevens werkt
- wanneer de functionaliteiten van uw modellen of oplossingen in de toekomst kunnen veranderen of evolueren
- wanneer je een vage of generieke use case hebt
- wanneer u een duidelijk idee wilt hebben van de kosten die gemoeid zijn met het inzetten van een tool voor gegevensannotatie
- en wanneer u niet over het juiste personeel of bekwame experts beschikt om aan de tools te werken en op zoek bent naar een minimale leercurve
Als uw antwoorden tegengesteld waren aan deze scenario's, moet u zich concentreren op het bouwen van uw tool.
Factoren waarmee u rekening moet houden bij het kiezen van de juiste tool voor gegevensannotatie
Als je dit leest, klinken deze ideeën opwindend en zijn ze zeker makkelijker gezegd dan gedaan. Dus hoe ga je om met het benutten van de overvloed aan reeds bestaande tools voor gegevensannotatie die er zijn? De volgende stap is dus het overwegen van de factoren die samenhangen met het kiezen van de juiste tool voor gegevensannotatie.
In tegenstelling tot een paar jaar geleden, is de markt tegenwoordig geëvolueerd met talloze tools voor gegevensannotatie in de praktijk. Bedrijven hebben meer opties om er een te kiezen op basis van hun specifieke behoeften. Maar elke afzonderlijke tool heeft zijn eigen reeks voor- en nadelen. Om een verstandige beslissing te nemen, moet er naast subjectieve eisen ook een objectieve weg worden bewandeld.
Laten we eens kijken naar enkele van de cruciale factoren waarmee u rekening moet houden in het proces.
Uw gebruiksscenario definiëren
Om de juiste tool voor gegevensannotatie te selecteren, moet u uw gebruiksscenario definiëren. U moet zich realiseren of uw vereiste tekst, beeld, video, audio of een mix van alle gegevenstypen betreft. Er zijn stand-alone tools die u kunt kopen en er zijn holistische tools waarmee u diverse acties op datasets kunt uitvoeren.
De tools van vandaag zijn intuïtief en bieden u opties op het gebied van opslagfaciliteiten (netwerk, lokaal of cloud), annotatietechnieken (audio, beeld, 3D en meer) en tal van andere aspecten. U kunt een tool kiezen op basis van uw specifieke vereisten.
Normen voor kwaliteitscontrole vaststellen
Dit is een cruciale factor om te overwegen, aangezien het doel en de efficiëntie van uw AI-modellen afhankelijk zijn van de kwaliteitsnormen die u vaststelt. Net als bij een audit moet u kwaliteitscontroles uitvoeren van de gegevens die u invoert en de verkregen resultaten om te begrijpen of uw modellen op de juiste manier en voor de juiste doeleinden worden getraind. De vraag is echter: hoe denkt u kwaliteitsnormen vast te stellen?
Zoals met veel verschillende soorten taken, kunnen veel mensen gegevens annoteren en taggen, maar ze doen dit met verschillende mate van succes. Wanneer u om een dienst vraagt, verifieert u niet automatisch het niveau van kwaliteitscontrole. Daarom variëren de resultaten.
Dus wil je een consensusmodel inzetten, waarbij annotators feedback geven over de kwaliteit en corrigerende maatregelen direct worden genomen? Of geeft u de voorkeur aan voorbeeldreview, gouden standaarden of intersectie boven vakbondsmodellen?
Het beste koopplan zorgt ervoor dat de kwaliteitscontrole vanaf het begin aanwezig is door normen vast te stellen voordat een definitief contract wordt overeengekomen. Bij het vaststellen hiervan mag u ook de foutmarges niet over het hoofd zien. Handmatig ingrijpen kan niet volledig worden vermeden, aangezien systemen onvermijdelijk fouten produceren tot 3%. Dit vergt wel wat werk van tevoren, maar het is het waard.
Wie zal uw gegevens annoteren?
De volgende belangrijke factor hangt af van wie uw gegevens annoteert. Ben je van plan om een in-house team te hebben of wil je dit liever uitbesteden? Als u uitbesteedt, zijn er wettigheids- en nalevingsmaatregelen die u moet overwegen vanwege de privacy- en vertrouwelijkheidsproblemen die verband houden met gegevens. En als u een intern team heeft, hoe efficiënt zijn ze dan in het leren van een nieuwe tool? Wat is uw time-to-market met uw product of dienst? Beschikt u over de juiste kwaliteitsstatistieken en teams om de resultaten goed te keuren?
De verkoper vs. Partnerdebat
Het annoteren van gegevens is een samenwerkingsproces. Het gaat om afhankelijkheden en fijne kneepjes zoals interoperabiliteit. Dit betekent dat bepaalde teams altijd met elkaar samenwerken en dat een van de teams uw leverancier kan zijn. Daarom is de leverancier of partner die u selecteert net zo belangrijk als de tool die u gebruikt voor het labelen van gegevens.
Met deze factor moeten aspecten zoals het vermogen om uw gegevens en bedoelingen vertrouwelijk te houden, de intentie om feedback te accepteren en eraan te werken, proactief zijn in termen van gegevensaanvragen, flexibiliteit in operaties en meer, worden overwogen voordat u een leverancier of een partner de hand schudt . We hebben flexibiliteit ingebouwd omdat de vereisten voor gegevensannotatie niet altijd lineair of statisch zijn. Ze kunnen in de toekomst veranderen naarmate u uw bedrijf verder opschaalt. Als u momenteel alleen te maken heeft met op tekst gebaseerde gegevens, wilt u misschien audio- of videogegevens annoteren terwijl u schaalt en uw ondersteuning zou klaar moeten zijn om hun horizon met u te verbreden.
Leveranciersbetrokkenheid
Een van de manieren om de betrokkenheid van leveranciers te beoordelen, is de ondersteuning die u krijgt.
Bij elk koopplan moet rekening worden gehouden met dit onderdeel. Hoe ziet de ondersteuning er op de grond uit? Wie zullen de belanghebbenden en de mensen aan beide kanten van de vergelijking zijn?
Er zijn ook concrete taken die duidelijk moeten maken wat de betrokkenheid van de leverancier is (of zal zijn). Zal de leverancier voor een gegevensannotatie- of gegevenslabelproject in het bijzonder actief de onbewerkte gegevens verstrekken of niet? Wie treden op als materiedeskundigen en wie zal hen in dienst nemen als werknemers of als onafhankelijke contractanten?
Belangrijkste gebruiksgevallen
Waarom ondernemen bedrijven dit soort projecten voor gegevensannotatie en gegevenslabels?
Er zijn tal van use-cases, maar enkele van de meest voorkomende illustreren hoe deze systemen bedrijven helpen om doelen en doelstellingen te bereiken.
Sommige use-cases omvatten bijvoorbeeld het trainen van digitale assistenten of interactieve stemresponssystemen. In feite kunnen dezelfde soorten bronnen nuttig zijn in elke situatie waarin een kunstmatige-intelligentie-entiteit interageert met een mens. Hoe meer gegevensannotatie en gegevenslabels hebben bijgedragen aan gerichte testgegevens en trainingsgegevens, hoe beter deze relaties in het algemeen werken.
Een ander belangrijk gebruiksscenario voor gegevensannotatie en gegevenslabels is de ontwikkeling van branchespecifieke AI. Je zou sommige van dit soort projecten "onderzoeksgerichte" AI kunnen noemen, terwijl andere meer operationeel of procedureel zijn. Gezondheidszorg is een belangrijke branche voor deze data-intensieve inspanning. Met dat in gedachten zullen echter ook andere industrieën, zoals financiën, horeca, productie of zelfs detailhandel, dit soort systemen gebruiken.
Andere use-cases zijn specifieker van aard. Neem gezichtsherkenning als een beeldverwerkingssysteem. Dezelfde gegevensannotatie en gegevenslabeling helpen de computersystemen te voorzien van de informatie die ze nodig hebben om individuen te identificeren en gerichte resultaten te produceren.
De afkeer van sommige bedrijven tegen de gezichtsherkenningssector is een voorbeeld van hoe dat werkt. Wanneer de technologie onvoldoende wordt gecontroleerd, leidt dit tot grote zorgen over eerlijkheid en de impact ervan op menselijke gemeenschappen.
Case Study's
Hier zijn enkele specifieke voorbeelden van casestudy's die ingaan op hoe gegevensannotatie en gegevenslabels echt in de praktijk werken. Bij Shaip zorgen we ervoor dat we de hoogste kwaliteitsniveaus en superieure resultaten bieden op het gebied van gegevensannotatie en gegevenslabels.
Veel van de bovenstaande bespreking van standaardprestaties voor gegevensannotatie en gegevenslabeling onthult hoe we elk project benaderen en wat we bieden aan de bedrijven en belanghebbenden waarmee we werken.
Casestudy-materiaal dat laat zien hoe dit werkt:
In een klinisch datalicentieproject heeft het Shaip-team meer dan 6,000 uur aan audio verwerkt, alle beschermde gezondheidsinformatie (PHI) verwijderd en HIPAA-compatibele inhoud achtergelaten voor spraakherkenningsmodellen in de gezondheidszorg om aan te werken.
In dit soort gevallen zijn het de criteria en het classificeren van prestaties die belangrijk zijn. De onbewerkte gegevens zijn in de vorm van audio en het is nodig om partijen te de-identificeren. Bij het gebruik van NER-analyse is het tweeledige doel bijvoorbeeld om de inhoud te de-identificeren en te annoteren.
Een andere case study omvat een diepgaande Conversatie AI-trainingsgegevens project dat we voltooiden met 3,000 taalkundigen die gedurende een periode van 14 weken aan het werk waren. Dit leidde tot de productie van trainingsgegevens in 27 talen, om meertalige digitale assistenten te ontwikkelen die in staat zijn om met menselijke interacties om te gaan in een brede selectie van moedertalen.
In deze specifieke case study was de noodzaak om de juiste persoon op de juiste stoel te krijgen duidelijk. Het grote aantal materiedeskundigen en operators voor contentinvoer betekende dat er behoefte was aan organisatie en procedurele stroomlijning om het project binnen een bepaalde tijdlijn af te ronden. Ons team was in staat om de industriestandaard met een ruime marge te verslaan door het verzamelen van gegevens en de daaropvolgende processen te optimaliseren.
Andere soorten casestudy's omvatten zaken als bottraining en tekstannotatie voor machine learning. Nogmaals, in een tekstformaat is het nog steeds belangrijk om geïdentificeerde partijen te behandelen volgens de privacywetten en om de onbewerkte gegevens te doorzoeken om de beoogde resultaten te krijgen.
Met andere woorden, bij het werken met meerdere gegevenstypen en -indelingen heeft Shaip hetzelfde essentiële succes aangetoond door dezelfde methoden en principes toe te passen op zowel onbewerkte gegevens als bedrijfsscenario's voor gegevenslicenties.
Afsluiten
We zijn oprecht van mening dat deze gids vindingrijk voor u was en dat de meeste van uw vragen beantwoord zijn. Als u echter nog steeds niet overtuigd bent van een betrouwbare leverancier, hoeft u niet verder te zoeken.
Wij, bij Shaip, zijn een vooraanstaand bedrijf voor gegevensannotaties. We hebben experts in het veld die data en de bijbehorende zorgen als geen ander begrijpen. Wij zouden uw ideale partner kunnen zijn, aangezien we competenties zoals toewijding, vertrouwelijkheid, flexibiliteit en eigenaarschap voor elk project of elke samenwerking ter tafel brengen.
Dus, ongeacht het type gegevens waarvoor u annotaties wilt ontvangen, u kunt dat ervaren team in ons vinden om aan uw eisen en doelen te voldoen. Optimaliseer uw AI-modellen om bij ons te leren.
Laten we praten
Veel gestelde vragen (FAQ)
Data Annotatie of Data Labeling is het proces dat data met specifieke objecten herkenbaar maakt voor machines om zo de uitkomst te voorspellen. Door objecten te taggen, transcriberen of verwerken in tekst, afbeeldingen, scans, enz. kunnen algoritmen de gelabelde gegevens interpreteren en getraind worden om echte businesscases zelf op te lossen zonder menselijke tussenkomst.
Bij machine learning (zowel onder toezicht als zonder toezicht), zijn gelabelde of geannoteerde gegevens het taggen, transcriberen of verwerken van de functies die uw machine learning-modellen moeten begrijpen en herkennen om echte uitdagingen op te lossen.
Een data-annotator is een persoon die onvermoeibaar werkt om de data te verrijken zodat ze herkenbaar zijn voor machines. Het kan een of alle van de volgende stappen omvatten (afhankelijk van de gebruikssituatie en de vereiste): gegevensopschoning, gegevenstranscriberen, gegevenslabeling of gegevensannotatie, QA enz.
Tools of platforms (cloudgebaseerd of on-premise) die worden gebruikt om hoogwaardige gegevens (zoals tekst, audio, afbeelding, video) te labelen of te annoteren met metadata voor machine learning, worden gegevensannotatietools genoemd.
Tools of platforms (in de cloud of op locatie) die worden gebruikt om bewegende beelden frame voor frame van een video te labelen of te annoteren om hoogwaardige trainingsgegevens voor machine learning te bouwen.
Tools of platforms (cloudgebaseerd of on-premise) die worden gebruikt om tekst van recensies, kranten, doktersrecepten, elektronische medische dossiers, balansen, enz. te labelen of te annoteren om hoogwaardige trainingsgegevens voor machine learning te bouwen. Dit proces kan ook labelen, taggen, transcriberen of verwerken worden genoemd.