Standaardlicenties voor gezichtsbeeld- en videogegevens
Kant-en-klare datasets voor gezichtsherkenning voor de training van AI-modellen
Het benutten van ethisch verkregen, demografisch diverse datasets om de training van AI-modellen te versnellen en vooroordelen te verminderen voor een toonaangevend wereldwijd technologieconglomeraat.
project Overzicht
De klant wilde het proces versnellen Ontwikkeling van AI-gestuurde gezichtsherkenning zonder lange, kostbare dataverzamelingscycli. Om dit te bereiken, hadden ze kant-en-klare datasets dat waren niet alleen groot en divers, maar ook ethisch verantwoord en in overeenstemming met de wereldwijde regelgeving inzake gegevensbescherming.
Shaip leverde uitgebreide datasets met gecontroleerde variaties in belichting, hoofdhoudingen, occlusies en emoties, waardoor de modellen van de klant zowel nauwkeurigheid als eerlijkheid bereikten en tegelijkertijd aan de vereiste etnische en demografische criteria voldeden. Elke dataset bevatte gedetailleerde metadata, houdingannotaties en begrenzingskaders voor emotieherkenning, waardoor modellen konden worden getraind en getest in zeer uiteenlopende, realistische scenario's.
Key Stats
7,000+ Onderwerpen
In een historische dataset met meer dan 300,000 afbeeldingen en 2,000 video's.
10,000+ Onderwerpen
in de Multi-Angle Emotion Dataset.
74,880-afbeeldingen
in verlichting
Variatiedataset.
18,600-afbeeldingen
zes bedekken
kern emoties.
Project bereik
De klant heeft gevraagd grootschalige, ethisch verantwoorde en demografisch diverse gezichtsbeeld- en videodatasets ter ondersteuning van de ontwikkeling en training van gezichtsherkenningsmodellen. Deze datasets waren essentieel voor het aansturen van use cases in anti-spoofing, identiteitsverificatie, beeldmatching en expressieanalysesystemen, waardoor robuuste en objectieve AI-prestaties in echte toepassingen worden gegarandeerd.
De omvang van de opdracht omvatte:
- Het leveren gecureerde datasets Ontworpen om te voldoen aan de toepassingsgevallen van gezichtsherkenning, zoals anti-spoofing, identiteitsverificatie en uitdrukkingsherkenning.
- Het verstrekken van afbeeldingen en video's met gedetailleerde annotaties voor demografie, hoofdhouding, occlusies, type belichting en emoties.
- Zorgen evenwichtige demografische dekking om systematische vooroordelen in de opleiding te verminderen.
- Garanderen naleving en toestemming met wereldwijde normen voor gegevensbescherming en privacy.
Bijdragen aan voorbeelddatasets:
- Historische gegevensset (~7,000 onderwerpen): 300,000+ afbeeldingen en 2,000 video's met variaties in houding en occlusie.
- Dataset met emoties vanuit meerdere hoeken (~10,000 proefpersonen): 15–20 afbeeldingen per proefpersoon, vanuit verschillende hoeken en met verschillende emotionele toestanden.
- Dataset Zes Emoties (~3,100 proefpersonen): 18,600 geannoteerde afbeeldingen die de belangrijkste menselijke expressies bestrijken.
- Dataset met verlichtingsvariatie (~468 proefpersonen): 74,880 afbeeldingen onder negen lichtomstandigheden.
Challenges
Het project richtte zich op de belangrijkste uitdagingen die vaak voorkomen bij het bouwen van robuuste AI-modellen:
Vooroordelen in AI-modellen
Voorkomen dat bepaalde etniciteiten of geslachten oververtegenwoordigd zijn, om zo eerlijkheid te waarborgen.
Variabiliteit in de echte wereld
Het vastleggen van lichtomstandigheden, gezichtshoeken, afsluitingen en natuurlijke uitdrukkingen.
Schaal en kwaliteit
Wij leveren honderdduizenden afbeeldingen met een hoge resolutie zonder dat dit ten koste gaat van de diversiteit.
Regulatory Compliance
Voldoen aan de strenge wereldwijde vereisten voor privacy en gegevensbescherming met volledige toestemming van de deelnemer.
Het resultaat
Shaip implementeerde een Gestructureerde aanpak om de kwaliteit en relevantie van de dataset te garanderen:
- Gecureerde gebalanceerde datasets met een brede etnische, gender- en leeftijdsvertegenwoordiging.
- Gevangen poses vanuit meerdere hoeken en variaties in belichting om realistische omstandigheden na te bootsen.
- Toegevoegd gedetailleerde annotaties (bijv. hoofdhouding, occlusies, emoties) om de bruikbaarheid van de dataset te vergroten.
- Vastgestelde strenge kwaliteitscontrole- en nalevingsworkflows om ethische inkoop en naleving van de privacyregels te garanderen.
Datasetportfolio
| dataset | Volume | Demografie / Diversiteit | Normen / Specificaties |
|---|---|---|---|
| Historische gezichtsbeeld- en videodataset (~7,000 proefpersonen) | 7,000 inschrijvingsafbeeldingen; 300,000+ historische afbeeldingen; 2,000 video's (1 binnen + 1 buiten per 1,000 proefpersonen) | Etniciteit: Zwart (35%), Oost-Aziatisch (42%), Zuid-Aziatisch (13%), Blank (10%); Geslacht: 50% man / 50% vrouw; Leeftijd: Volwassenen 18+ (laatste 10 jaar) | Videoduur: 1–2 min; variatie in hoofdhouding (P1–P7); 5 occlusietypen (O0–O4) |
| Gegevensset met gezichtsbeelden (~5,000 proefpersonen) | 35 afbeeldingen per onderwerp; 2,500 Indiërs; 1,000 Aziaten; 1,500 zwarten | Leeftijd: 18–60 jaar; Evenwichtige genderverdeling | Geen verfraaiing; Gevarieerde achtergrond en kleding; Minimale resolutie: 960×1280 |
| Multi-Angle Emotion Dataset (~10,000 Onderwerpen – Chinees) | 15–20 afbeeldingen per onderwerp; Poses: Voor, Links, Rechts (30°–60°); Expressies: Glimlach, open mond, verdrietig, serieus, neutraal | Etniciteit: Chinees; Leeftijd: 18–26; Geslacht: 50/50 verdeling | Resolutie: 2160×3840 pixels of hoger |
| Zes datasets over menselijke emoties (~3,100 proefpersonen) | 6 afbeeldingen per onderwerp (verschillende gezichtsuitdrukkingen); in totaal 18,600 afbeeldingen | Etniciteit: Japans (9,000), Koreaans (2,400), Chinees (2,400), Zuidoost-Aziatisch (2,400), Zuid-Aziatisch (2,400); Leeftijd: 20–65 jaar | Begrenzende kaderannotaties voor emoties; Eenvoudige achtergronden; Geen hoeden, brillen of obstakels |
| Dataset over lichtvariatie (~468 Indiase proefpersonen) | 160 afbeeldingen per onderwerp; Totaal: 74,880 afbeeldingen | Leeftijd: 20–70; 70% man | 9 lichtomstandigheden (binnen, buiten, zijlicht, tegenlicht, neon, etc.) |
| Dataset met multi-etnische gezichtsbeelden (~600 proefpersonen) | 3,752 afbeeldingen in totaal | Etniciteit: Afrikaans, Midden-Oosters, Indiaans, Zuid-Aziatisch, Zuidoost-Aziatisch; Leeftijd: 20–70 jaar | - |
Resultaat
De samenwerking leverde een aanzienlijke impact op zowel zakelijk als technisch vlak:
- Verbeterde modelnauwkeurigheid: Verbeterde precisie en terughaalbaarheid voor gezichtsherkenningsmodellen in meerdere use cases.
- Vermindering van bias:Een evenwichtige demografische representatie verminderde systematische vertekeningen in AI-resultaten.
- Versnelde ontwikkelingstijdlijnen:Kant-en-klare datasets maakten snelle prototyping en modeltraining mogelijk zonder langdurige gegevensverzameling.
- Regulatory Compliance:Alle datasets voldeden aan de wereldwijde privacynormen en omvatten toestemming van de deelnemers.
Shaips diverse, ethisch verantwoorde datasets gaven ons de snelheid, kwaliteit en compliance die we nodig hadden. Met kant-en-klare data versnelden we de training van AI-modellen en verminderden we systematische bias aanzienlijk.