Een case study over een gezichtsherkenningsmodel
Anti-spoofing videodataset voor AI-modellen voor fraudedetectie
Ontdek hoe Shaip 25,000 hoogwaardige anti-spoofing videodatasets met echte en herhaalde aanvalsscenario's heeft geleverd om AI-modellen te trainen voor fraudedetectie.
project Overzicht
Shaip werkte samen met een toonaangevend AI-beveiligingsbedrijf om een hoogwaardige, kant-en-klare anti-spoofing videodataset te leveren die is ontworpen om AI-modeltraining voor fraudedetectie te verbeteren. De dataset bevatte 25,000 video's die zowel echte als replay-aanvalsscenario's vastlegden, wat zorgde voor robuuste trainingsgegevens voor anti-spoofingmodellen.
Elk van de 12,500 deelnemers heeft twee video's bijgedragen - een echte en een herhaling van de aanval - opgenomen op Resolutie van 720p of hoger met een framesnelheid van 26 FPS en hoger.
Het doel van het project was om authentieke en diverse datasets Hiermee kunnen AI-modellen effectief onderscheid maken tussen echte en vervalste biometrische video's, waardoor de frauderisico's in biometrische authenticatiesystemen worden verminderd.
Key Stats
25,000 totaal aantal video's (12,500 echte video's, 12,500 (video's van aanvallen opnieuw afspelen)
12,500 unieke
deelnemers
5 etnische groepen
vertegenwoordigd in de dataset
Gefaseerde levering: 4 batches van 6,250 video's per stuk
Metadata-attributen: 12 Belangrijkste parameters voor verbeterde bruikbaarheid van datasets
Anti-spoofing biometrische datasetbereik
Dataset curatie: Het project richtte zich op het leveren van hoogwaardige anti-spoofing videodatasets bestaande uit echte en herhaalde aanvalsvideo'sBelangrijke aspecten waren:
- 12,500 deelnemers bij te dragen twee video's elk (1 echte, 1 vervalste).
- Diversiteit in opnameapparatuur om de aanpasbaarheid van het model te verbeteren.
- Evenwichtige etnische vertegenwoordiging om de inclusiviteit van de dataset te garanderen.
Metagegevensverzameling: Elke video werd vergezeld door 12 metadata-attributen om de bruikbaarheid van de dataset te verbeteren.
Uitdagingen bij het verzamelen van videogegevens
Gelijke vertegenwoordiging
Zorg voor een evenwichtige distributie van gegevens op basis van etniciteit en zorg tegelijkertijd voor video's van hoge kwaliteit.
Kwaliteitscontrole
Zorgen dat elke deelnemer één echte aanvalsvideo en één herhaling van de aanvalsvideo bijdraagt om de integriteit van de dataset te behouden.
Technische consistentie
Houdt zich aan strikte richtlijnen voor FPS (≥ 26), resolutie (≥ 720p) en tijdstempelnauwkeurigheid (+/- 0.5 ms).
Hoe we het hebben opgelost
Shaip leverde een gestructureerde en hoogwaardige dataset om te voldoen aan de vereisten van het project. De oplossing omvatte:
Datasetcuratie en kwaliteitscontrole
- 25,000 video's verzameld over 4-fasen om een stabiele en gestructureerde gegevensstroom te garanderen en knelpunten te voorkomen.
- Strikt validatieproces naleving ervan te garanderen FPS, resolutie en nauwkeurigheid van metagegevensElke video ondergaat meerdere kwaliteitscontroles voordat deze definitief wordt geaccepteerd.
- Uitgebreide metadata-tags with 12 attributen:
- Bestands-ID/Naam
- Type aanval (echt/herhaling)
- Persoons-ID
- Video resolutie
- Video Duur
- Etniciteit van het onderwerp
- Geslacht van het onderwerp
- Of de video origineel of nagemaakt is
- Apparaatnaam/model
- Persoon die spreekt of niet
- Tijdstempel Starttijd
- Tijdstempel Eindtijd
- Evenwichtige verdeling van etnische groepen: De dataset is zorgvuldig samengesteld om een evenwichtige etnische representatie te behouden. De distributie omvat Hispanic (33%), Zuid-Aziatische (21%), Kaukasische (20%), Afrikaanse (15%) en Oost-Aziatische & Midden-Oosterse populaties (elk met maximaal 6%).
- Geen dubbele vermeldingen om de uniciteit van de dataset te behouden en vooroordelen in AI-training te voorkomen.
- Etnisch diverse deelnemersselectie om een dataset te creëren die de variaties in de echte wereld van gebruikers weerspiegelt, waardoor de aanpasbaarheid en eerlijkheid van het AI-model wordt verbeterd.
- Variatie in opnameapparaat Er zijn meerdere smartphonemodellen, camera's en lichtomstandigheden meegenomen om de robuustheid van het model bij verschillende omgevingsomstandigheden te verbeteren.
Resultaat
De hoogwaardige, diverse anti-spoofing videodataset die Shaip leverde, stelde de klant in staat om AI-modellen te trainen om nauwkeurig onderscheid te maken tussen echte en vervalste video's in verschillende biometrische authenticatiescenario's. De dataset droeg bij aan:
Fraude detectie
Verbeterde AI-prestaties bij het detecteren van frauduleuze biometrische aanvallen.
Diverse trainingsgegevens
Het vermogen van het model om herhalingsaanvallen te herkennen bij verschillende etniciteiten, apparaten en omgevingsomstandigheden is versterkt.
Schaalbaarheid
De dataset dient als basis voor toekomstige verbeteringen en uitbreidingen van het anti-spoofingmodel.
Shaip's dataset is instrumenteel geweest in het verbeteren van onze AI-gestuurde anti-spoofing modellen. De diversiteit, kwaliteit en gestructureerde metadata vormden een sterke basis voor het verbeteren van fraudedetectie in biometrische authenticatiesystemen.