Casestudy: Conversationele AI

Meer dan 3 uur aan data verzameld, gesegmenteerd en getranscribeerd om ASR in 8 Indiase talen te bouwen

Conversatie-ai

De overheid wil haar burgers via het Bhashini-project gemakkelijk toegang geven tot internet en digitale diensten in hun eigen moedertaal.

BHASHINI, het AI-gestuurde vertaalplatform van India, is een essentieel onderdeel van het Digital India-initiatief.

Het Bhashini-platform is ontworpen om hulpmiddelen voor kunstmatige intelligentie (AI) en natuurlijke taalverwerking (NLP) te bieden aan mkmo's, startups en onafhankelijke innovators en dient als een openbare bron. Het doel is om digitale inclusie te bevorderen door Indiase burgers in staat te stellen in hun moedertaal te communiceren met de digitale initiatieven van het land.

Bovendien heeft het tot doel de beschikbaarheid van internetinhoud in Indiase talen aanzienlijk uit te breiden. Dit is met name gericht op gebieden van algemeen belang, zoals bestuur en beleid, wetenschap en technologie, enz. Dit zal de burgers dus stimuleren om het internet in hun eigen taal te gebruiken, wat hun actieve participatie bevordert.

Echte wereld oplossing

Ontketen de kracht van lokalisatie met data

India had behoefte aan een platform dat zich zou richten op het creëren van meertalige datasets en AI-gebaseerde taaltechnologieoplossingen om digitale diensten in Indiase talen aan te bieden. Om dit initiatief te lanceren, werkte het Indian Institute of Technology, Madras (IIT Madras) samen met Shaip om datasets in Indiase talen te verzamelen, te segmenteren en te transcriberen, teneinde meertalige spraakmodellen te ontwikkelen.

Challenges

Om de klant te helpen met hun spraaktechnologie-stappenplan voor Indiase talen, moest het team grote hoeveelheden trainingsgegevens verzamelen, segmenteren en transcriberen om een ​​AI-model te bouwen. De kritische eisen van de opdrachtgever waren:

Gegevensverzameling

  • Verzamel 3000 uur aan trainingsgegevens in 8 Indiase talen met 4 dialecten per taal.
  • Voor elke taal verzamelt de leverancier Extempore Speech en
    Gesprekstoespraak van leeftijdsgroepen van 18-60 jaar
  • Zorg voor een diverse mix van sprekers op leeftijd, geslacht, opleiding & dialecten
  • Zorg voor een gevarieerde mix van opnameomgevingen volgens de specificaties.
  • Elke audio-opname moet minimaal 16 kHz zijn, maar bij voorkeur 44 kHz

Gegevenssegmentatie

  • Maak spraaksegmenten van 15 seconden en geef de audio een tijdstempel tot op de milliseconden voor elke spreker, type geluid (spraak, brabbelen, muziek, lawaai), wendingen, uitingen en zinsdelen in een gesprek
  • Maak elk segment voor zijn gerichte geluidssignaal met een opvulling van 200-400 milliseconden aan het begin en einde.
  • Voor alle segmenten moeten de volgende objecten worden ingevuld, namelijk Starttijd, Eindtijd, Segment-ID, Loudness-niveau, Geluidstype, Taalcode, Spreker-ID, etc.

Gegevenstranscriptie

  • Volg gedetailleerde transcriptierichtlijnen rond karakters en speciale symbolen, spelling en grammatica, hoofdletters, afkortingen, samentrekkingen, individueel gesproken letters, cijfers, interpunctie, acroniemen, disfluent, spraak, onverstaanbare spraak, niet-doeltalen, niet-spraak enz.

Kwaliteitscontrole en feedback

  • Alle opnames ondergaan een kwaliteitsbeoordeling en validatie, alleen gevalideerde spraak wordt afgeleverd

Het resultaat

Met onze diepgaande kennis van conversationele AI hebben we de klant geholpen bij het verzamelen, segmenteren en transcriberen van de data. Een team van deskundige dataverzamelaars, taalkundigen en annotatoren heeft zo een grote dataset met audiofragmenten in 8 Indiase talen opgebouwd.

De werkzaamheden voor Shaip omvatten onder meer het verzamelen van grote hoeveelheden audio-trainingsdata, het segmenteren van de audio-opnames in meerdere segmenten, het transcriberen van de data en het leveren van bijbehorende JSON-bestanden met de metadata [SpeakerID, Age, Gender, Language, Dialect, Mother Tongue, Qualification, Occupation, Domain, File format, Frequency, Channel, Type of Audio, No. of speakers, No of Foreign Languages, Setup used, Narrowband or Wideband audio, etc.].

Shaip verzamelde 3000 uur aan audiogegevens op schaal met behoud van de gewenste kwaliteitsniveaus die nodig zijn om spraaktechnologie te trainen voor complexe projecten. Van elk van de deelnemers is een expliciet toestemmingsformulier afgenomen.

1. Gegevensverzameling

2. Gegevenssegmentatie

  • De verzamelde audiogegevens werden verder onderverdeeld in spraaksegmenten van 15 seconden elk en voorzien van een tijdstempel tot op de milliseconde voor elke spreker, type geluid, beurten, uitingen en zinsdelen in een gesprek.
  • Creëerde elk segment voor zijn gerichte geluidssignaal met een opvulling van 200-400 milliseconden aan het begin en einde van een geluidssignaal.
  • Voor alle segmenten waren de volgende objecten aanwezig en ingevuld, namelijk starttijd, eindtijd, segment-ID, luidheidsniveau (luid, normaal, zacht), primair geluidstype (spraak, brabbelen, muziek, ruis, overlapping), taalcode spreker ID, transcriptie enz.

3. Kwaliteitscontrole en feedback

  • Alle opnames zijn beoordeeld op kwaliteit en alleen gevalideerde spraakopnames met WER van 90% en TER van 90% zijn opgeleverd
  • Kwaliteitschecklist gevolgd:
    » Max 15 seconden segmentlengte
    » Transcriptie van specifieke domeinen, namelijk: weer, verschillende soorten nieuws, gezondheid, landbouw, onderwijs, banen of financiën
    » Lage achtergrondruis
    » Geen audioclip uitgeschakeld – Geen vervorming
    » Correcte audiosegmentatie voor transcriptie

4. Gegevenstranscriptie

Alle gesproken woorden, inclusief aarzelingen, vulwoorden, valse starts en andere verbale tics, werden nauwkeurig vastgelegd in de transcriptie. We volgden ook gedetailleerde transcriptierichtlijnen rond hoofdletters en kleine letters, spelling, hoofdlettergebruik, afkortingen, samentrekkingen, cijfers,
interpunctie, acroniemen, onvloeiende spraak, niet-spraakgeluiden enz. Bovendien is de gevolgde workflow voor verzameling en transcriptie als volgt:

Resultaat

De hoogwaardige audiogegevens van deskundige taalkundigen stellen het Indian Institute of Technology – Madras in staat om nauwkeurig meertalige spraakherkenningsmodellen te trainen en te bouwen in 8 Indiase talen met verschillende dialecten binnen de gestelde tijd. De spraakherkenningsmodellen kunnen worden gebruikt om:

  • Overwin de taalbarrière voor digitale inclusie door de burgers in hun eigen moedertaal te verbinden met de initiatieven.
  • Bevordert digitaal bestuur
  • Katalysator om een ​​ecosysteem te vormen voor diensten en producten in Indiase talen
  • Meer gelokaliseerde digitale inhoud in de domeinen van algemeen belang, met name bestuur en beleid
Gouden 5-sterren

We waren onder de indruk van de expertise van Shaip op het gebied van conversationele AI. Hun algehele competentie voor projectuitvoering, van het sourcen, segmenteren, transcriberen en leveren van de vereiste trainingsgegevens van deskundige taalkundigen in 8 talen binnen strikte tijdlijnen en richtlijnen; terwijl de aanvaardbare kwaliteitsstandaard behouden blijft.”

Vertel ons hoe we u kunnen helpen met uw volgende AI-initiatief.