Casestudy: Conversationele AI

Meer dan 3 uur aan gegevens verzameld, gesegmenteerd en getranscribeerd om ASR in 8 Indiase talen te bouwen

Uiting collectie
De overheid wil haar burgers via het Bhashini-project gemakkelijk toegang geven tot internet en digitale diensten in hun eigen moedertaal.

BHASHINI, het AI-gestuurde vertaalplatform van India, is een essentieel onderdeel van het Digital India-initiatief.

Het Bhashini-platform is ontworpen om hulpmiddelen voor kunstmatige intelligentie (AI) en natuurlijke taalverwerking (NLP) te bieden aan mkmo's, startups en onafhankelijke innovators en dient als een openbare bron. Het doel is om digitale inclusie te bevorderen door Indiase burgers in staat te stellen in hun moedertaal te communiceren met de digitale initiatieven van het land.

Bovendien heeft het tot doel de beschikbaarheid van internetinhoud in Indiase talen aanzienlijk uit te breiden. Dit is met name gericht op gebieden van algemeen belang, zoals bestuur en beleid, wetenschap en technologie, enz. Dit zal de burgers dus stimuleren om het internet in hun eigen taal te gebruiken, wat hun actieve participatie bevordert.

Gebruik NLP om een ​​divers ecosysteem van bijdragers, samenwerkende entiteiten en burgers mogelijk te maken om taalbarrières te overstijgen en zo digitale inclusie en empowerment te waarborgen

Echte wereld oplossing

Ontketen de kracht van lokalisatie met data

India had een platform nodig dat zich zou concentreren op het creëren van meertalige datasets en op AI gebaseerde taaltechnologieoplossingen om digitale diensten in Indiase talen aan te bieden. Om dit initiatief te lanceren, werkte Indian Institute of Technology, Madras (IIT Madras) samen met Shaip om datasets in de Indiase taal te verzamelen, te segmenteren en te transcriberen om meertalige spraakmodellen te bouwen.

Uitdagingen

Om de klant te helpen met hun spraaktechnologie-stappenplan voor Indiase talen, moest het team grote hoeveelheden trainingsgegevens verzamelen, segmenteren en transcriberen om een ​​AI-model te bouwen. De kritische eisen van de opdrachtgever waren:

Data Collection

  • Verzamel 3000 uur aan trainingsgegevens in 8 Indiase talen met 4 dialecten per taal.
  • Voor elke taal verzamelt de leverancier Extempore Speech en
    Gesprekstoespraak van leeftijdsgroepen van 18-60 jaar
  • Zorg voor een diverse mix van sprekers op leeftijd, geslacht, opleiding & dialecten
  • Zorg voor een gevarieerde mix van opnameomgevingen volgens de specificaties.
  • Elke audio-opname moet minimaal 16 kHz zijn, maar bij voorkeur 44 kHz

Gegevenssegmentatie

  • Maak spraaksegmenten van 15 seconden en geef de audio een tijdstempel tot op de milliseconden voor elke spreker, type geluid (spraak, brabbelen, muziek, lawaai), wendingen, uitingen en zinsdelen in een gesprek
  • Maak elk segment voor zijn gerichte geluidssignaal met een opvulling van 200-400 milliseconden aan het begin en einde.
  • Voor alle segmenten moeten de volgende objecten worden ingevuld, namelijk Starttijd, Eindtijd, Segment-ID, Loudness-niveau, Geluidstype, Taalcode, Spreker-ID, etc.

Gegevenstranscriptie

  • Volg gedetailleerde transcriptierichtlijnen rond karakters en speciale symbolen, spelling en grammatica, hoofdletters, afkortingen, samentrekkingen, individueel gesproken letters, cijfers, interpunctie, acroniemen, disfluent, spraak, onverstaanbare spraak, niet-doeltalen, niet-spraak enz.

Kwaliteitscontrole en feedback

  • Alle opnames ondergaan een kwaliteitsbeoordeling en validatie, alleen gevalideerde spraak wordt afgeleverd

Oplossing

Met ons diepgaande begrip van conversatie-AI hebben we de klant geholpen bij het verzamelen, segmenteren en transcriberen van de gegevens met een team van deskundige verzamelaars, taalkundigen en annotators om een ​​groot corpus aan audiogegevens op te bouwen in 8 Indiase talen

De reikwijdte van het werk voor Shaip omvatte maar was niet beperkt tot het verkrijgen van grote hoeveelheden audiotrainingsgegevens, het segmenteren van de audio-opnamen in meerdere, het transcriberen van de gegevens en het leveren van bijbehorende JSON-bestanden met de metadata [SpeakerID, Age, Gender, Language, Dialect,
Moedertaal, Kwalificatie, Beroep, Domein, Bestandsformaat, Frequentie, Kanaal, Type audio, Aantal sprekers, Aantal vreemde talen, Gebruikte configuratie, Narrowband- of Wideband-audio, enz.]. 

Shaip verzamelde 3000 uur aan audiogegevens op schaal met behoud van de gewenste kwaliteitsniveaus die nodig zijn om spraaktechnologie te trainen voor complexe projecten. Van elk van de deelnemers is een expliciet toestemmingsformulier afgenomen.

1. Gegevensverzameling

2. Gegevenssegmentatie

  • De verzamelde audiogegevens werden verder opgesplitst in spraaksegmenten van elk 15 seconden en voorzien van een tijdstempel tot op milliseconden voor elke spreker, type geluid, beurten, uitingen en zinsdelen in een gesprek
  • Creëerde elk segment voor zijn gerichte geluidssignaal met een opvulling van 200-400 milliseconden aan het begin en einde van een geluidssignaal.
  • Voor alle segmenten waren de volgende objecten aanwezig en ingevuld, namelijk starttijd, eindtijd, segment-ID, luidheidsniveau (luid, normaal, zacht), primair geluidstype (spraak, brabbelen, muziek, ruis, overlapping), taalcode spreker ID, transcriptie enz.

3. Kwaliteitscontrole en feedback

  • Alle opnames zijn beoordeeld op kwaliteit en alleen gevalideerde spraakopnames met WER van 90% en TER van 90% zijn opgeleverd
  • Kwaliteitschecklist gevolgd:
       » Max 15 seconden segmentlengte
       » Transcriptie van specifieke domeinen, namelijk: weer, verschillende soorten nieuws, gezondheid, landbouw, onderwijs, banen of financiën
       » Lage achtergrondruis
       » Geen audioclip uitgeschakeld – Geen vervorming
       » Correcte audiosegmentatie voor transcriptie

4. Gegevenstranscriptie
Alle gesproken woorden, inclusief aarzelingen, vulwoorden, valse starts en andere verbale tics, werden nauwkeurig vastgelegd in de transcriptie. We volgden ook gedetailleerde transcriptierichtlijnen rond hoofdletters en kleine letters, spelling, hoofdlettergebruik, afkortingen, samentrekkingen, cijfers,
interpunctie, acroniemen, onvloeiende spraak, niet-spraakgeluiden enz. Bovendien is de gevolgde workflow voor verzameling en transcriptie als volgt:

Resultaat

De hoogwaardige audiogegevens van deskundige taalkundigen stellen het Indian Institute of Technology – Madras in staat om nauwkeurig meertalige spraakherkenningsmodellen te trainen en te bouwen in 8 Indiase talen met verschillende dialecten binnen de gestelde tijd. De spraakherkenningsmodellen kunnen worden gebruikt om:

  • Overwin de taalbarrière voor digitale inclusie door de burgers in hun eigen moedertaal te verbinden met de initiatieven.
  • Bevordert digitaal bestuur
  • Katalysator om een ​​ecosysteem te vormen voor diensten en producten in Indiase talen
  • Meer gelokaliseerde digitale inhoud in de domeinen van algemeen belang, met name bestuur en beleid
Gouden 5-sterren

We waren onder de indruk van de expertise van Shaip op het gebied van conversationele AI. Hun algehele competentie voor projectuitvoering, van het sourcen, segmenteren, transcriberen en leveren van de vereiste trainingsgegevens van deskundige taalkundigen in 8 talen binnen strikte tijdlijnen en richtlijnen; terwijl de aanvaardbare kwaliteitsstandaard behouden blijft.”

Versnel uw gespreks-AI
applicatieontwikkeling met 100%

Uitgelichte klanten

Teams in staat stellen om toonaangevende AI-producten te bouwen.