Conversationele AI: automatische spraakherkenning

Meer dan 8 audio-uren verzameld, 800 uur getranscribeerd voor meertalige spraaktechnologie

Conversatie-ai

Introductie

India had een platform nodig dat zich concentreerde op het creëren van meertalige datasets en op AI gebaseerde taaltechnologieoplossingen om digitale diensten in Indiase talen te kunnen aanbieden. Om dit initiatief te lanceren, werkte The Client samen met Shaip om de Indiase taal te verzamelen en te transcriberen om meertalige spraakmodellen te bouwen.

Volume

Uren aan gegevens verzameld
10
Aantal pagina's geannoteerd
10 +
Projectduur
< 1 maanden

Uitdagingen

Om de klant te helpen met hun spraaktechnologie-roadmap voor Indiase talen, moest het team grote hoeveelheden trainingsgegevens verwerven, segmenteren en transcriberen om een ​​AI-model te bouwen. De kritische eisen van de opdrachtgever waren:

Data Collection

  • Verkrijg 8000 uur aan trainingsgegevens van afgelegen locaties in India
  • Dé leverancier voor het verzamelen van spontane uitspraken van leeftijdsgroepen van 20-70 jaar
  • Zorg voor een gevarieerde mix van sprekers op basis van leeftijd, geslacht, opleiding en dialecten
  • Elke audio-opname moet minimaal 16 kHz zijn met 16 bits/sample.
Software voor buiten

Gegevenstranscriptie

Volg de gedetailleerde transcriptierichtlijnen rond karakters en speciale symbolen, spelling en grammatica, hoofdlettergebruik, afkortingen, samentrekkingen, individueel gesproken letters, cijfers, leestekens, acroniemen en initialismen, onduidelijke spraak, onverstaanbare spraak, niet-doeltalen, niet-spraak

Transcriptie van gegevens

Kwaliteitscontrole en feedback

Alle opnames ondergaan een kwaliteitsbeoordeling en validatie, alleen gevalideerde spraakopnames worden geleverd

Oplossing

Met ons diepgaande begrip van conversationele AI hebben we de klant geholpen bij het verzamelen en transcriberen van de audiogegevens met een team van deskundige verzamelaars, taalkundigen en annotators om een ​​groot corpus aan audiogegevens uit afgelegen delen van India op te bouwen.

De reikwijdte van het werk voor Shaip omvatte, maar was niet beperkt tot, het verwerven van grote hoeveelheden audiotrainingsgegevens, het transcriberen van de gegevens en het leveren van overeenkomstige JSON-bestanden met de metadata [voor zowel sprekers als transcribenten. Voor elke spreker omvatten de metadata een geanonimiseerde spreker-ID, apparaatgegevens, demografische informatie zoals geslacht, leeftijd en opleiding, samen met hun pincode, sociaal-economische status, gesproken talen en een overzicht van de verblijfsduur van hun leven. Voor elke transcribent omvatten de gegevens een geanonimiseerde transcriber-ID, demografische gegevens vergelijkbaar met die van de sprekers, de duur van hun transcriptie-ervaring en een grondig overzicht van de talen die ze kunnen lezen, schrijven en spreken.

Shaip verzameld 8000 uren aan audiogegevens / Spontane spraak op schaal en 800 uur getranscribeerd met behoud van de gewenste kwaliteitsniveaus die nodig zijn om spraaktechnologie te trainen voor complexe projecten. Van elk van de deelnemers werd een expliciet toestemmingsformulier afgenomen. De verzamelde / Spontane toespraak was gebaseerd op door de universiteit verstrekte afbeeldingen. Van 3500 beelden, 1000 zijn generiek en 2500 hebben betrekking op wijkspecifieke cultuur, festivals, enz. Afbeeldingen tonen verschillende domeinen, zoals treinstations, markten, het weer en meer.

Data Collection

LanddistrictenAudio-urenTranscriptie
(Uur)
BiharSaran, East Champaran, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madhepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzaffarpur, Jamui2000200
UttarpradeshDeoria, Varanasi, Gorakhpur, Ghazipur, Muzzaffarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun1000100
RajasthanNagaur, Churu20020
UttarakhandTehri Garhwal, Uttarkashi20020
ChhattisgarhBilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma1000100
West-BengalenPaschim Medinipur, Malda, Jalpaiguri, Purulia, Kolkatta, Jhargram, Noord 24 Parganas, Dakshin Dinajpur80080
JharkhandSahebganj, Jamtara20020
APGuntur, Chittoor, Visakhapatnam, Krishna, Anantapur, Srikakulam60060
TelanganaKarimnagar, Nalgonda20020
GoaNoord + Zuid-Goa10010
KarnatakaDakshin Kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar1000100
MaharashtraSindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur70070
Totaal8000800

Algemene richtlijnen

Formaat

    • Audio op 16 kHz, 16 bits/sample.
    • Enkel kanaal.
    • Ruwe audio zonder transcodering.

Style

    • Spontane toespraak.
    • Zinnen gebaseerd op door de universiteit verstrekte afbeeldingen. Van de 3500 afbeeldingen zijn er 1000 algemeen en hebben 2500 betrekking op wijkspecifieke cultuur, festivals, enz. Afbeeldingen tonen verschillende domeinen, zoals treinstations, markten, het weer en meer.

Achtergrond opnemen

    • Opgenomen in een rustige, echovrije omgeving.
    • Geen smartphone-storingen (trillingen of meldingen) tijdens opname.
    • Geen vervormingen zoals clipping of far-field-effecten.
    • Trillingen van telefoon onaanvaardbaar; externe trillingen zijn aanvaardbaar als het geluid helder is.

Luidsprekerspecificatie

    • De leeftijd varieert van 20-70 jaar met een evenwichtige genderverdeling per district.
    • Minimaal 400 moedertaalsprekers in elk district.
    • Sprekers moeten hun thuistaal/dialect gebruiken.
    • Toestemmingsformulieren zijn verplicht voor alle deelnemers.


Kwaliteitscontrole en kritische kwaliteitsborging

Het QA-proces geeft prioriteit aan kwaliteitsborging voor audio-opnamen en transcripties. Audiostandaarden richten zich op precieze stiltes, segmentduur, helderheid van één spreker en gedetailleerde metadata, waaronder leeftijd en sociaal-economische status. Transcriptiecriteria benadrukken de nauwkeurigheid van tags, woordwaarheid en correcte segmentdetails. De acceptatiebenchmark schrijft voor dat als meer dan 20% van een audiobatch niet aan deze normen voldoet, deze wordt afgewezen. Voor afwijkingen van minder dan 20% zijn vervangende opnames met vergelijkbare profielen vereist.

Gegevenstranscriptie

Transcriptierichtlijnen leggen alleen de nadruk op nauwkeurigheid en woordelijke transcriptie als de woorden duidelijk en begrijpelijk zijn; onduidelijke woorden worden gemarkeerd als [onverstaanbaar] of [onhoorbaar] op basis van het probleem. Zinsgrenzen in lange audio zijn gemarkeerd met , en parafraseren of corrigeren van grammaticale fouten is niet toegestaan. De letterlijke transcriptie omvat fouten, jargon en herhalingen, maar laat valse starts, opvulgeluiden en stotteringen achterwege. Achtergrond- en voorgrondgeluiden worden getranscribeerd met beschrijvende tags, terwijl eigennamen, titels en nummers specifieke transcriptieregels volgen. Voor elke zin worden sprekerlabels gebruikt en onvolledige zinnen worden aangegeven met.

Project workflow

De workflow beschrijft het audiotranscriptieproces. Het begint met het onboarden en trainen van deelnemers. Ze nemen audio op met behulp van een app, die wordt geüpload naar een QA-platform. Deze audio ondergaat kwaliteitscontroles en automatische segmentatie. Het technische team bereidt vervolgens de segmenten voor op transcriptie. Na de handmatige transcriptie is er een stap voor kwaliteitsborging. Transcripties worden aan de klant geleverd en bij acceptatie wordt de levering als voltooid beschouwd. Als dit niet het geval is, worden er herzieningen doorgevoerd op basis van feedback van klanten.

Resultaat

Dankzij de hoogwaardige audiogegevens van deskundige taalkundigen kan onze klant binnen de gestelde tijd nauwkeurig meertalige spraakherkenningsmodellen trainen en bouwen in verschillende Indiase talen met verschillende dialecten. De spraakherkenningsmodellen kunnen worden gebruikt om:

  • Overwin de taalbarrière voor digitale inclusie door de burgers in hun eigen moedertaal te verbinden met de initiatieven.
  • Bevordert digitaal bestuur
  • Katalysator om een ​​ecosysteem te vormen voor diensten en producten in Indiase talen
  • Meer gelokaliseerde digitale inhoud in de domeinen van algemeen belang, met name bestuur en beleid

We hebben ontzag voor de expertise van Shaip op het gebied van conversationele AI. De taak om 8000 uur aan audiogegevens en 800 uur transcriptie in 80 verschillende districten te verwerken was op zijn zachtst gezegd monumentaal. Het was Shaips diepgaande begrip van de ingewikkelde details en nuances van dit domein dat de succesvolle uitvoering van zo'n uitdagend project mogelijk maakte. Hun vermogen om naadloos de complexiteit van deze enorme hoeveelheid gegevens te beheren en er doorheen te navigeren en tegelijkertijd de topkwaliteit te garanderen, is werkelijk lovenswaardig.

Gouden 5-sterren

Versnel uw gespreks-AI
applicatieontwikkeling met 100%