Het opbouwen van een dataset met gezichtsbeelden van niet-EU/VK met diversiteit in leeftijdsontwikkeling

Een tijdgescheiden corpus van gezichtsafbeeldingen met 1,205 deelnemers om de eerlijkheid en robuustheid van computer vision-modellen te versterken.

Gezichtsbeelddataset met diversiteit in leeftijdsverloop

project Overzicht

Een wereldwijd technologiebedrijf dat gezichtsgerichte AI ontwikkelt voor veiligheid, personalisatie en identiteitservaringen, wilde een dataset buiten de EU/het VK met tijdsgescheiden foto's om vooringenomenheid te verminderen en de veerkracht van het model te verbeteren op het gebied van leeftijd, omgeving en accessoires.

De klant werkte samen met Shaip om verzamelen, cureren en valideren Een groot corpus aan gezichtsfoto's waar elke deelnemer recente en oudere foto's aan bijdraagt. Het doel was om de natuurlijke leeftijdsontwikkeling te coderen, met strikte naleving van de herkomstregels buiten de EU/het VK en een evenwichtige gender-/leeftijdsquota.

Gezichtsbeelddataset met diversiteit in leeftijdsverloop

Key Stats

Deelnemers

 1,205 (alleen niet-EU/VK, 50/50 geslacht ±10–15%)

 Leeftijdsmix

 40% (10–29), 40% (30–49), 20% (50+) ±10–15% tolerantie

Dekking

Zuid-/Zuidoost-Azië, Noord- en Noord-/Oost-Afrika, Singapore, Zuid-Amerika

Timeline

19 weken

Challenges

Geografische beperking

Uitsluitend bronnen van niet-EU/VK-populaties gebruiken en EU/VK-reisafbeeldingen vermijden.

Evenwichtige quota op schaal

Er waren 1,205 deelnemers met een strikte tolerantie voor geslacht en leeftijd.

Tijdgescheiden bewijs

Zorgen dat elk identiteitsbewijs zowel recente als historische foto's bevat, afgestemd op de leeftijdscategorie.

Operationele kwaliteit

Handhaving van minimale limieten voor afbeeldings-/gezichtsgrootte, variëteit en duplicatie zonder de doorvoer te vertragen.

Het resultaat

1. Landenpanelen en herkomstcontroles

Wij hebben opgericht sourcing pods op landniveau in de doelregio's en getrainde partners op herkomstregels (Alleen buiten de EU/VK). Foto's werden gescreend op risico's met betrekking tot de reisherkomst met behulp van metadata-aanwijzingen (jaar, locatiemarkeringen) plus attesten van indieners, waardoor lekkage in de EU/VK vóór de kwaliteitscontrole wordt verminderd. Dit weerspiegelt Shaip's bewezen praktijk van het front-loaden van risicocontroles om de downstream-doorvoer te beschermen.

2. Ontwerp voor het vastleggen van leeftijdsprogressie

In plaats van 'vraag om 20 afbeeldingen' hebben we een tweesporige indieningstroom die de deelnemers begeleidde naar:

  • Spoor A (Recent): foto's van de laatste twee jaar;
  • Spoor B (Historisch): oudere foto's die passen bij de leeftijdscategorie van de deelnemer op het moment van inzending (bijv. periode 2-10/15/20 jaar).

Het portaal gaf gebruikers een zetje in de rug met voorbeelden (binnen/buiten, hoeken, accessoires) om de variatie te vergroten zonder te veel te specificeren.

3. Diversiteitsorkestratie en quota-bescherming

A realtime quota dashboard gecontroleerde inschrijvingen door geslacht, leeftijdscategorie en geografie, waarbij de inname werd gepauzeerd zodra een stratum de geplande limieten bereikte. Dit voorkwam herzieningen in de late cyclus en weerspiegelt Shaip's standaardaanpak van gelaagde inschrijving + uitsluitingen Gebruikt in eerdere biometrische datasets om een ​​evenwichtige representatie te behouden.

4. Kwaliteitspijplijn (menselijke betrokkenheid + geautomatiseerde voorafgaande controles)

  • Automatische poorten: gezichtsdetectie + minimale drempelwaarden voor beeldgrootte, basiscontroles op onscherpte/ruis en clustering op dezelfde dag om potentiële duplicaten vroegtijdig te signaleren.
  • Menselijke QA-niveaus: gevalideerde reviewers op beeldniveau onderwerp exclusiviteit (alleen primaire deelnemer), scène-/hoekvariatieen geen verfraaiingsfilters; CQA-auditors controleren steekproefsgewijs batches vóór acceptatie. Dit meerlaagse QA spiegelt Shaip's gepubliceerde biometrische dataprogramma's.

5. Naleving en toestemming

Inschrijving ≥20 jaar met ondertekende toestemming; minder dan 20 gevallen worden alleen geaccepteerd met toestemming van de voogd. We hebben de aanwezigheid van toestemming in metadata vastgelegd en de checklists van reviewers hierop afgestemd. geschiktheid + toestemming velden, waardoor controleerbaarheid wordt gewaarborgd.

6. Metadata en traceerbaarheid

Wij hebben geleverd metadata op deelnemer- en afbeeldingsniveau (ID-koppelingen, demografie, nationaliteit/verblijfplaats, jaar van de foto, indieningsdatum, enz.) en gestandaardiseerde veldnamen om het proces te vereenvoudigen downstream labeling en evaluatieDit volgt de beste praktijk van Shaip van rijke metadata-tags voor biometrische datasets.

7. Gefaseerde levering aan de risicoschaal

An 8 batchplan begon met een 10 deelnemerskalibratie set, gevolgd door gecontroleerde opschaling. Feedback van de klant na batch 1 leidde tot aanpassingen aan de rubric, waarna de volumes in voorspelbare tranches werden opgevoerd om 1,205 deelnemers over ~19 weken.

Project bereik

Afmeting Wat we hebben geleverd
Bevolking 1,205 deelnemers van buiten de EU/het VK met een evenwichtige verdeling van geslacht en leeftijd.
Beschrijving ≥20 afbeeldingen per deelnemer: recent + historisch om het leeftijdsverloop te coderen; gevarieerde scènes, hoeken en accessoires.
Kwaliteitsoperaties Geautomatiseerde voorafgaande controles + menselijke meerlaagse QA (duplicatiecontroles; onderwerpexclusiviteit; filterafwijzing).
Compliant Verificatie van herkomst buiten de EU/VK; toestemmingsbeheer en validatie van geschiktheid.
Metadata Deelnemer- en afbeeldingsattributen voor traceerbaarheid en downstream ML-evaluatie.
Verzending 8 gefaseerde batches, beginnend met kalibratie en vervolgens stabiele levering aan het einddoel.

De uitkomst

  • Gebalanceerd, auditklaar corpus: Demografische quota's zijn binnen de tolerantiegrens gehaald; Niet-EU/VK-herkomst wordt gehandhaafd op alle afbeeldingen voor conforme training.
  • Variabiliteit in modelvorm: Tijdgescheiden beelden, diverse omgevingen/hoeken en accessoiredekking ondersteunen robuustheidstesten en biasanalyse.
  • Operationele voorspelbaarheid: Kalibratie eerste uitrol + quota-richtlijnen verminderden de herbewerking en waarborgden de tijdlijn voor het behalen van de volledige doelstelling van 1,205 deelnemers.
  • Downstream-efficiëntie: Dankzij uitgebreide metagegevens en consistente bestandshygiëne werd het traject naar annotatie en benchmarkconstructie verkort, conform Shaip's biometrische datasethandleidingen.

Shaip transformeerde een complexe dataset met gezichtsgegevens van buiten de EU/het VK tot een evenwichtig, auditklaar corpus. Hun leeftijdsopbouw en gelaagde QA gaven ons CV-team schone, diverse data waarop we konden vertrouwen – zonder planningsrisico.

Gouden 5-sterren