Casestudy: verzameling van uitspraken

Leverde 7M+ uitingen om meertalige digitale assistenten te bouwen in 13 talen
Uiting collectie

Echte wereld oplossing

Gegevens die wereldwijde gesprekken mogelijk maken

De behoefte aan Utterance-training ontstaat omdat niet alle klanten de exacte woorden of zinsdelen gebruiken tijdens interactie of het stellen van vragen aan hun stemassistenten in een gescripte indeling. Daarom moeten specifieke spraaktoepassingen worden getraind op spontane spraakgegevens. Bijvoorbeeld: "Waar is het dichtstbijzijnde ziekenhuis?" "Zoek een ziekenhuis bij mij in de buurt" of "Is er een ziekenhuis in de buurt?" ze geven allemaal dezelfde zoekintentie aan, maar zijn anders geformuleerd.

Uitspraakverzameling1

probleem

Om de spraakroutekaart van de Digital Assistant voor wereldwijde talen uit te voeren, moest het team grote hoeveelheden trainingsgegevens verzamelen voor het AI-model voor spraakherkenning. De kritische eisen van de opdrachtgever waren:

  • Verzamel grote hoeveelheden trainingsgegevens (uitspraak van één spreker van niet meer dan 3-30 seconden) voor spraakherkenningsservices in 13 wereldwijde talen
  • Voor elke taal genereert de leverancier tekstprompts voor sprekers om op te nemen (tenzij de
    clientbenodigdheden) en transcribeer de resulterende audio.
  • Verstrek audiogegevens en transcriptie van opgenomen uitingen met bijbehorende JSON-bestanden
    met de metadata voor alle opnames.
  • Zorg voor een diverse mix van sprekers op leeftijd, geslacht, opleiding en dialect
  • Zorg voor een gevarieerde mix van opname-omgevingen volgens de specificaties.
  • Elke audio-opname moet minimaal 16 kHz zijn, maar bij voorkeur 44 kHz

Versnel de ontwikkeling van uw conversationele AI-applicatie met 100%

Na het evalueren van vele leveranciers koos de klant voor Shaip vanwege hun expertise in conversationele AI-projecten. We waren onder de indruk van Shaips competentie in projectuitvoering en hun expertise in het binnen strikte tijdschema en met de vereiste kwaliteit verkrijgen, transcriberen en leveren van de vereiste uitingen van ervaren taalkundigen in 13 talen.

Het resultaat

Met ons diepgaande begrip van conversatie-AI hebben we de klant geholpen bij het verzamelen, transcriberen en annoteren van de gegevens met een team van deskundige linguïsten en annotators om hun meertalige spraaksuite voor spraakverwerking op AI te trainen.

De reikwijdte van het werk voor Shaip omvatte, maar was niet beperkt tot het verwerven van grote hoeveelheden audio-trainingsgegevens voor spraakherkenning, het transcriberen van audio-opnames in meerdere talen voor alle talen op onze Tier 1- en Tier 2-taalroadmap, en het leveren van bijbehorende JSON bestanden die de metadata bevatten. Shaip verzamelde uitingen van 3-30 seconden op schaal met behoud van de gewenste kwaliteitsniveaus die nodig zijn om ML-modellen te trainen voor complexe projecten.

  • Audio verzameld, getranscribeerd en geannoteerd: 22,250 uur kunt opladen
  • Ondersteunde talen: 13 (Deens, Koreaans, Saoedi-Arabisch Arabisch, Nederlands, Vasteland en Taiwan Chinees, Frans-Canadees, Mexicaans Spaans, Turks, Hindi, Pools, Japans, Russisch)
  • Aantal uitingen: 7M +
  • Tijdlijn: 7-8 maand

Ai-aangedreven spraakverwerking, meertalige spraaksuite

Terwijl we audio-uitingen op 16 kHz verzamelden, zorgden we voor een gezonde mix van sprekers op leeftijd, geslacht, opleiding en dialecten in diverse opname-omgevingen.

Resultaat

Dankzij de hoogwaardige audiogegevens van deskundige taalkundigen kon de klant zijn meertalige spraakherkenningsmodel nauwkeurig trainen in 13 Global Tier 1 & 2-talen. Met trainingsdatasets die voldoen aan de gouden standaard kan de klant intelligente en robuuste digitale hulp bieden bij het oplossen van toekomstige problemen in de echte wereld.

Audiogegevens van hoge kwaliteit

Onze expertise

Uren van spraak verzameld
0 +
Team van spraakgegevensverzamelaars
0
PII-compatibel
0 %
Cool nummer
0 +
Gegevensacceptatie en nauwkeurigheid
> 0
Fortune 500-klantenkring
0 +

Vertel ons hoe we u kunnen helpen met uw volgende AI-initiatief.