Casestudy: Conversationele AI
Meer dan 3 uur aan gegevens verzameld, gesegmenteerd en getranscribeerd om ASR in 8 Indiase talen te bouwen
BHASHINI, het AI-gestuurde vertaalplatform van India, is een essentieel onderdeel van het Digital India-initiatief.
Het Bhashini-platform is ontworpen om hulpmiddelen voor kunstmatige intelligentie (AI) en natuurlijke taalverwerking (NLP) te bieden aan mkmo's, startups en onafhankelijke innovators en dient als een openbare bron. Het doel is om digitale inclusie te bevorderen door Indiase burgers in staat te stellen in hun moedertaal te communiceren met de digitale initiatieven van het land.
Bovendien heeft het tot doel de beschikbaarheid van internetinhoud in Indiase talen aanzienlijk uit te breiden. Dit is met name gericht op gebieden van algemeen belang, zoals bestuur en beleid, wetenschap en technologie, enz. Dit zal de burgers dus stimuleren om het internet in hun eigen taal te gebruiken, wat hun actieve participatie bevordert.
Gebruik NLP om een divers ecosysteem van bijdragers, samenwerkende entiteiten en burgers mogelijk te maken om taalbarrières te overstijgen en zo digitale inclusie en empowerment te waarborgen
Echte wereld oplossing
Ontketen de kracht van lokalisatie met data
India had een platform nodig dat zich zou concentreren op het creëren van meertalige datasets en op AI gebaseerde taaltechnologieoplossingen om digitale diensten in Indiase talen aan te bieden. Om dit initiatief te lanceren, werkte Indian Institute of Technology, Madras (IIT Madras) samen met Shaip om datasets in de Indiase taal te verzamelen, te segmenteren en te transcriberen om meertalige spraakmodellen te bouwen.
Uitdagingen
Om de klant te helpen met hun spraaktechnologie-stappenplan voor Indiase talen, moest het team grote hoeveelheden trainingsgegevens verzamelen, segmenteren en transcriberen om een AI-model te bouwen. De kritische eisen van de opdrachtgever waren:
Data Collection
- Verzamel 3000 uur aan trainingsgegevens in 8 Indiase talen met 4 dialecten per taal.
- Voor elke taal verzamelt de leverancier Extempore Speech en
Gesprekstoespraak van leeftijdsgroepen van 18-60 jaar - Zorg voor een diverse mix van sprekers op leeftijd, geslacht, opleiding & dialecten
- Zorg voor een gevarieerde mix van opnameomgevingen volgens de specificaties.
- Elke audio-opname moet minimaal 16 kHz zijn, maar bij voorkeur 44 kHz
Gegevenssegmentatie
- Maak spraaksegmenten van 15 seconden en geef de audio een tijdstempel tot op de milliseconden voor elke spreker, type geluid (spraak, brabbelen, muziek, lawaai), wendingen, uitingen en zinsdelen in een gesprek
- Maak elk segment voor zijn gerichte geluidssignaal met een opvulling van 200-400 milliseconden aan het begin en einde.
- Voor alle segmenten moeten de volgende objecten worden ingevuld, namelijk Starttijd, Eindtijd, Segment-ID, Loudness-niveau, Geluidstype, Taalcode, Spreker-ID, etc.
Gegevenstranscriptie
- Volg gedetailleerde transcriptierichtlijnen rond karakters en speciale symbolen, spelling en grammatica, hoofdletters, afkortingen, samentrekkingen, individueel gesproken letters, cijfers, interpunctie, acroniemen, disfluent, spraak, onverstaanbare spraak, niet-doeltalen, niet-spraak enz.
Kwaliteitscontrole en feedback
- Alle opnames ondergaan een kwaliteitsbeoordeling en validatie, alleen gevalideerde spraak wordt afgeleverd
Het resultaat
Met ons diepgaande begrip van conversatie-AI hebben we de klant geholpen bij het verzamelen, segmenteren en transcriberen van de gegevens met een team van deskundige verzamelaars, taalkundigen en annotators om een groot corpus aan audiogegevens op te bouwen in 8 Indiase talen
De reikwijdte van het werk voor Shaip omvatte maar was niet beperkt tot het verkrijgen van grote hoeveelheden audiotrainingsgegevens, het segmenteren van de audio-opnamen in meerdere, het transcriberen van de gegevens en het leveren van bijbehorende JSON-bestanden met de metadata [SpeakerID, Age, Gender, Language, Dialect,
Moedertaal, Kwalificatie, Beroep, Domein, Bestandsformaat, Frequentie, Kanaal, Type audio, Aantal sprekers, Aantal vreemde talen, Gebruikte configuratie, Narrowband- of Wideband-audio, enz.].
Shaip verzamelde 3000 uur aan audiogegevens op schaal met behoud van de gewenste kwaliteitsniveaus die nodig zijn om spraaktechnologie te trainen voor complexe projecten. Van elk van de deelnemers is een expliciet toestemmingsformulier afgenomen.
1. Gegevensverzameling