In een land dat zo cultureel divers en taalrijk is als India, begint het ontwikkelen van inclusieve AI met het verzamelen van representatieve, hoogwaardige datasets. Dat is de visie achter Project Vaani—een grootschalig open-sourceinitiatief onder leiding van KUNSTPARK, IISc Bengaluruen Googlemet als doel om elke Indiase taal en elk dialect een stem te geven.
Het ambitieuze doel? Verzamelen Meer dan 150,000 uur aan spraak en Meer dan 15,000 uur aan transcripties vanaf 1 miljoen mensen over 773 districten van India.
Als een van de belangrijkste leveranciers voor deze nationale missie, Shaip speelde een cruciale rol bij het cureren van spontane spraakgegevens, transcriptie en het verzamelen van metadata, en legde daarmee de basis voor eerlijke spraaktechnologieën die het echte India echt weerspiegelen.
De visie achter Project Vaani
Project Vaani is ontworpen om de kloof in AI-inclusie te dichten door het creëren van grootste multimodale, meertalige, open-source dataset in India. Deze gegevens zijn fundamenteel voor de ontwikkeling van nauwkeurige spraakherkenning, vertaling en generatieve AI-systemen in inheemse Indiase talen – waarvan er veel ondervertegenwoordigd zijn in wereldwijde technologische ecosystemen.
De visie op de lange termijn is om impactvolle toepassingen te realiseren in:
- Gezondheidszorg – Stemgebaseerde telegeneeskunde
- Educatie – Platformen voor het leren in de volkstaal
- Bestuur – Conversatie-interfaces voor burgerdiensten
- Toegankelijkheid – Spraakhulpmiddelen voor gebruikers met een beperking
- Reactie op rampen – Realtimecommunicatie in lokale dialecten
Hoe Shaip hielp bij het opbouwen van India's grootste open-source spraakdataset voor Project Vaani
Shaip kreeg de taak om de gegevens te verzamelen 8,000 uur aan spontane spraak en 800 uur aan handmatig geverifieerde transcriptiesOnze verantwoordelijkheden omvatten het onboarden van sprekers, het vastleggen van audio, het taggen van metadata, het coördineren van transcripties en kwaliteitscontrole.
8,000 uur van spontane audiogegevens
Opnames van 400+ moedertaalsprekers per district, vertegenwoordiging van diverse leeftijdsgroepen, geslachten en dialecten
80 districten, bedekt
Beeldgebaseerde prompts om ervoor te zorgen natuurlijke, contextuele spraak
Dit maakt onze aanpak uniek:
Diversiteit op districtsniveau
We hebben opnames verzameld uit 80 districten verspreid over staten zoals Bihar, Uttar Pradesh, Karnataka, West-Bengalen en Maharashtra. Elk district leverde 100 uur aan audiodata, wat zorgde voor een regionale balans. We hebben native speakers ingeschakeld om regionale accenten en dialecten te vertegenwoordigen die vaak over het hoofd worden gezien in gangbare AI-datasets.
Taalkundige en demografische representatie
We hebben opnames verzameld uit 80 districten verspreid over staten zoals Bihar, Uttar Pradesh, Karnataka, West-Bengalen en Maharashtra. Elk district leverde 100 uur aan audiodata, wat zorgde voor een regionale balans. We hebben native speakers ingeschakeld om regionale accenten en dialecten te vertegenwoordigen die vaak over het hoofd worden gezien in gangbare AI-datasets.
Beeldgestuurde spraak
Om de spontane en natuurlijke woordenschat te stimuleren, kregen de deelnemers per sessie 45 tot 90 afbeeldingen te zien en werd hen gevraagd deze te beschrijven. Deelnemers werden aangezet om met behulp van diverse afbeeldingen – van culturele symbolen tot alledaagse voorwerpen – natuurlijke, spontane reacties in hun moedertaal op te roepen. Dit zorgde ervoor dat de opnames een realistische, contextuele spraak weerspiegelden – essentieel voor het trainen van geavanceerde NLP-systemen.
Hoogwaardige transcriptienormen
Slechts 10% van de spraakgegevens werd getranscribeerd, wat neerkomt op 800 uur. De transcripties werden uitgevoerd door lokale taalkundigen binnen een straal van 20 tot 50 km van de spreker, waardoor bekendheid met dialecten en nuances werd gegarandeerd. Een tweede controle zorgde voor een woordfoutenpercentage (WER) van <5%.
Strikte kwaliteitsborging
Audiogegevens moesten aan hoge eisen voldoen: geen achtergrondgeluiden, echo's, telefoontrillingen of vervormingen. De audio werd opgenomen in een stille, echovrije omgeving. Bestanden werden grondig gecontroleerd op richtlijnen voor spraakverstaanbaarheid, ruisniveaus, nauwkeurigheid van metadata en sprekerverificatie. De metadata-tags moesten in alle bestanden nauwkeurig zijn en alle opnames werden gecontroleerd op spreker- en locatie-uitlijning.
Uitdagingen die we hebben opgelost
- Logistiek op afstand – Het managen van teams in 80 districten
- Sprekersdiversiteit – Onboarding van meer dan 32,000 geverifieerde sprekers op afgelegen locaties
- Culturele gevoeligheid – Respect voor lokale gebruiken en dialecten
- Data-integriteit – Voldoen aan kwaliteits- en nalevingsnormen
- Kwaliteitscontrole – in meerdere taalkundige en culturele contexten
Ons succes was te danken aan nauwgezette planning, technologiegedreven validatie en partnerschappen met lokale teams die de culturele nuances van elke regio begrepen.
Impact en toepassingen
Shaips bijdrage heeft niet alleen de voortgang van Project Vaani versneld, maar ook de basis gelegd voor inclusieve AI in India. De samengestelde spraakdataset wordt al gebruikt om AI-modellen te bouwen en te verfijnen voor:
- Vernacular spraakassistenten
- Regionale vertaalmachines
- Toegankelijke communicatiemiddelen voor slechtzienden
- AI-gestuurde edtech-platforms voor plattelandsstudenten
- Telegeneeskunde op het platteland
- Stemgebaseerde burgerdiensten
- Realtime vertaling en transcriptie
Conclusie
Project Vaani is een gedurfde stap richting inclusieve, toegankelijke AI, en Shaip is vereerd dat hij hierbij een fundamentele rol mag spelen. Shaip's werk aan Project Vaani bevestigt onze toewijding aan het bouwen van ethische, inclusieve AI-systemen die geworteld zijn in diversiteit en representatie. Met meer dan 8,000 uur aan verzamelde toespraken en 800 uur aan transcripties zijn we er trots op dat we een rol hebben gespeeld in een van India's meest visionaire projecten op het gebied van digitale inclusie.
Terwijl Project Vaani doorgaat met het behalen van zijn grotere doel van meer dan 150,000 uur aan data, staan we klaar om de volgende stap in AI-innovatie te ondersteunen die voor alle Indiërs interessant is.
Wilt u met ons samenwerken om AI te ontwikkelen die de echte wereld begrijpt? www.shaip.com