Casestudy: verzameling van uitspraken

Leverde 7M+ uitingen om meertalige digitale assistenten te bouwen in 13 talen

Echte wereld oplossing

Gegevens die wereldwijde gesprekken mogelijk maken

De behoefte aan Utterance-training ontstaat omdat niet alle klanten de exacte woorden of zinsdelen gebruiken tijdens interactie of het stellen van vragen aan hun stemassistenten in een gescripte indeling. Daarom moeten specifieke spraaktoepassingen worden getraind op spontane spraakgegevens. Bijvoorbeeld: "Waar is het dichtstbijzijnde ziekenhuis?" "Zoek een ziekenhuis bij mij in de buurt" of "Is er een ziekenhuis in de buurt?" ze geven allemaal dezelfde zoekintentie aan, maar zijn anders geformuleerd.

probleem

Om de spraakroutekaart van de Digital Assistant voor wereldwijde talen uit te voeren, moest het team grote hoeveelheden trainingsgegevens verzamelen voor het AI-model voor spraakherkenning. De kritische eisen van de opdrachtgever waren:

Verzamel grote hoeveelheden trainingsgegevens (uitspraak van één spreker van niet meer dan 3-30 seconden) voor spraakherkenningsservices in 13 wereldwijde talen
Voor elke taal genereert de leverancier tekstprompts voor sprekers om op te nemen (tenzij de
clientbenodigdheden) en transcribeer de resulterende audio.
Verstrek audiogegevens en transcriptie van opgenomen uitingen met bijbehorende JSON-bestanden
met de metadata voor alle opnames.
Zorg voor een diverse mix van sprekers op leeftijd, geslacht, opleiding en dialect
Zorg voor een gevarieerde mix van opname-omgevingen volgens de specificaties.
Elke audio-opname moet minimaal 16 kHz zijn, maar bij voorkeur 44 kHz

Versnel uw gespreks-AI
applicatieontwikkeling met 100%

“Na het evalueren van veel leveranciers, koos de klant voor Shaip vanwege hun expertise in conversatie-AI-projecten. We waren onder de indruk van Shaip's competentie op het gebied van projectuitvoering, hun expertise om de vereiste uitingen van deskundige taalkundigen in 13 talen binnen strikte tijdlijnen en met de vereiste kwaliteit te sourcen, transcriberen en af te leveren”

Oplossing

Met ons diepgaande begrip van conversatie-AI hebben we de klant geholpen bij het verzamelen, transcriberen en annoteren van de gegevens met een team van deskundige linguïsten en annotators om hun meertalige spraaksuite voor spraakverwerking op AI te trainen.

De reikwijdte van het werk voor Shaip omvatte, maar was niet beperkt tot het verwerven van grote hoeveelheden audio-trainingsgegevens voor spraakherkenning, het transcriberen van audio-opnames in meerdere talen voor alle talen op onze Tier 1- en Tier 2-taalroadmap, en het leveren van bijbehorende JSON bestanden die de metadata bevatten. Shaip verzamelde uitingen van 3-30 seconden op schaal met behoud van de gewenste kwaliteitsniveaus die nodig zijn om ML-modellen te trainen voor complexe projecten.

Audio verzameld, getranscribeerd en geannoteerd: 22,250 uur kunt opladen
Ondersteunde talen: 13 (Deens, Koreaans, Saoedi-Arabisch Arabisch, Nederlands, Vasteland en Taiwan Chinees, Frans-Canadees, Mexicaans Spaans, Turks, Hindi, Pools, Japans, Russisch)
Aantal uitingen: 7M +
Tijdlijn: 7-8 maand

Terwijl we audio-uitingen op 16 kHz verzamelden, zorgden we voor een gezonde mix van sprekers op leeftijd, geslacht, opleiding en dialecten in diverse opname-omgevingen.

Resultaat

Dankzij de hoogwaardige audiogegevens van deskundige taalkundigen kon de klant zijn meertalige spraakherkenningsmodel nauwkeurig trainen in 13 Global Tier 1 & 2-talen. Met trainingsdatasets die voldoen aan de gouden standaard kan de klant intelligente en robuuste digitale hulp bieden bij het oplossen van toekomstige problemen in de echte wereld.

Onze expertise

Uren van spraak verzameld

0 +

Team van spraakgegevensverzamelaars

PII-compatibel

0 %

Cool nummer

0 +

Gegevensacceptatie en nauwkeurigheid

> 0

Fortune 500-klantenkring

0 +

Aanbevolen bronnen

Kopergids

Koopgids: Conversationele AI

De chatbot waarmee u sprak, draait op een geavanceerd conversatie-AI-systeem dat is getraind, getest en gebouwd met behulp van talloze datasets voor spraakherkenning.

Blog

De staat van gespreks-AI 2021

De infographics van Conversational AI 2021 vertellen over wat Conversational AI is, de evolutie, typen, Conversational AI-markt per regio, use cases, uitdagingen, enz.

Blog

3 obstakels voor de evolutie van gespreks-AI

Shaip geeft een vliegende start aan de evolutie van conversatie-AI als tool voor klantbetrokkenheid door de nodige geannoteerde audiogegevens aan te bieden in meer dan 50 talen.

Het creëren van klinische NLP is een cruciale taak die enorme domeinexpertise vereist om op te lossen. Ik kan duidelijk zien dat u Google op dit gebied een aantal jaren voor loopt. Ik wil met je samenwerken en je opschalen.

Google, Inc. Director

Mijn technische team werkte meer dan 2 jaar samen met Shaip's team tijdens de ontwikkeling van spraak-API's voor de gezondheidszorg. We zijn onder de indruk van hun werk in zorgspecifieke NLP en wat ze kunnen bereiken met complexe datasets.

Google, Inc. Hoofd van Engineering

Vertel ons hoe we u kunnen helpen met uw volgende AI-initiatief.

Casestudy: verzameling van uitspraken

Leverde 7M+ uitingen om meertalige digitale assistenten te bouwen in 13 talen

Echte wereld oplossing

probleem

Oplossing

Resultaat

Onze expertise

Aanbevolen bronnen

Kopergids

Koopgids: Conversationele AI

Blog

De staat van gespreks-AI 2021

Blog

3 obstakels voor de evolutie van gespreks-AI

AI-gegevensservices

Specialiteit

Industrie

Producten

Bedrijf

Resources

Ons Contacten

Laat ons meer over jou weten!

Laat ons meer over jou weten!

Laat ons meer over jou weten!

Laat ons meer over jou weten!

Laat ons meer over jou weten!

Laat ons meer over jou weten!