Casestudy: verzameling van uitspraken
Leverde 7M+ uitingen om meertalige digitale assistenten te bouwen in 13 talen
Echte wereld oplossing
Gegevens die wereldwijde gesprekken mogelijk maken
De behoefte aan Utterance-training ontstaat omdat niet alle klanten de exacte woorden of zinsdelen gebruiken tijdens interactie of het stellen van vragen aan hun stemassistenten in een gescripte indeling. Daarom moeten specifieke spraaktoepassingen worden getraind op spontane spraakgegevens. Bijvoorbeeld: "Waar is het dichtstbijzijnde ziekenhuis?" "Zoek een ziekenhuis bij mij in de buurt" of "Is er een ziekenhuis in de buurt?" ze geven allemaal dezelfde zoekintentie aan, maar zijn anders geformuleerd.
probleem
Om de spraakroutekaart van de Digital Assistant voor wereldwijde talen uit te voeren, moest het team grote hoeveelheden trainingsgegevens verzamelen voor het AI-model voor spraakherkenning. De kritische eisen van de opdrachtgever waren:
- Verzamel grote hoeveelheden trainingsgegevens (uitspraak van één spreker van niet meer dan 3-30 seconden) voor spraakherkenningsservices in 13 wereldwijde talen
- Voor elke taal genereert de leverancier tekstprompts voor sprekers om op te nemen (tenzij de
clientbenodigdheden) en transcribeer de resulterende audio. - Verstrek audiogegevens en transcriptie van opgenomen uitingen met bijbehorende JSON-bestanden
met de metadata voor alle opnames. - Zorg voor een diverse mix van sprekers op leeftijd, geslacht, opleiding en dialect
- Zorg voor een gevarieerde mix van opname-omgevingen volgens de specificaties.
- Elke audio-opname moet minimaal 16 kHz zijn, maar bij voorkeur 44 kHz
“Na het evalueren van veel leveranciers, koos de klant voor Shaip vanwege hun expertise in conversatie-AI-projecten. We waren onder de indruk van Shaip's competentie op het gebied van projectuitvoering, hun expertise om de vereiste uitingen van deskundige taalkundigen in 13 talen binnen strikte tijdlijnen en met de vereiste kwaliteit te sourcen, transcriberen en af te leveren”
Het resultaat
Met ons diepgaande begrip van conversatie-AI hebben we de klant geholpen bij het verzamelen, transcriberen en annoteren van de gegevens met een team van deskundige linguïsten en annotators om hun meertalige spraaksuite voor spraakverwerking op AI te trainen.
De reikwijdte van het werk voor Shaip omvatte, maar was niet beperkt tot het verwerven van grote hoeveelheden audio-trainingsgegevens voor spraakherkenning, het transcriberen van audio-opnames in meerdere talen voor alle talen op onze Tier 1- en Tier 2-taalroadmap, en het leveren van bijbehorende JSON bestanden die de metadata bevatten. Shaip verzamelde uitingen van 3-30 seconden op schaal met behoud van de gewenste kwaliteitsniveaus die nodig zijn om ML-modellen te trainen voor complexe projecten.
- Audio verzameld, getranscribeerd en geannoteerd: 22,250 uur kunt opladen
- Ondersteunde talen: 13 (Deens, Koreaans, Saoedi-Arabisch Arabisch, Nederlands, Vasteland en Taiwan Chinees, Frans-Canadees, Mexicaans Spaans, Turks, Hindi, Pools, Japans, Russisch)
- Aantal uitingen: 7M +
- Tijdlijn: 7-8 maand
Terwijl we audio-uitingen op 16 kHz verzamelden, zorgden we voor een gezonde mix van sprekers op leeftijd, geslacht, opleiding en dialecten in diverse opname-omgevingen.
Resultaat
Dankzij de hoogwaardige audiogegevens van deskundige taalkundigen kon de klant zijn meertalige spraakherkenningsmodel nauwkeurig trainen in 13 Global Tier 1 & 2-talen. Met trainingsdatasets die voldoen aan de gouden standaard kan de klant intelligente en robuuste digitale hulp bieden bij het oplossen van toekomstige problemen in de echte wereld.
Onze expertise
Aanbevolen bronnen
Kopergids
Koopgids: Conversationele AI
De chatbot waarmee u sprak, draait op een geavanceerd conversatie-AI-systeem dat is getraind, getest en gebouwd met behulp van talloze datasets voor spraakherkenning.
Blog
De staat van gespreks-AI 2021
De infographics van Conversational AI 2021 vertellen over wat Conversational AI is, de evolutie, typen, Conversational AI-markt per regio, use cases, uitdagingen, enz.
Blog
3 obstakels voor de evolutie van gespreks-AI
Shaip geeft een vliegende start aan de evolutie van conversatie-AI als tool voor klantbetrokkenheid door de nodige geannoteerde audiogegevens aan te bieden in meer dan 50 talen.
Vertel ons hoe we u kunnen helpen met uw volgende AI-initiatief.