Sleutelzin/aanwijzingen Audiocollectie

Casestudy: Verzameling van sleutelzinnen voor spraakgestuurde systemen in de auto

Verzameling van sleutelzinnen

Er is in de auto-industrie een toenemende vraag naar spraakgestuurde systemen in de auto, waardoor de manier waarop we omgaan met onze mobiliteitsvoertuigen opnieuw wordt gedefinieerd.

De auto-industrie heeft snel stemgestuurde systemen ingevoerd, waarbij grote spelers als Ford, Tesla en BMW geavanceerde stemherkenning in hun voertuigen integreren. In 2022 was naar schatting meer dan 50% van de nieuwe auto’s voorzien van spraakherkenningsmogelijkheden. Deze integraties zijn bedoeld om de veiligheid te vergroten, waardoor bestuurders navigatie-, entertainment- en communicatiefuncties zonder afleiding kunnen bedienen.

Verwacht wordt dat de marktwaarde voor stemherkenning in auto's in 1 de $2023 miljard zal overschrijden, wat wijst op een groeiende vraag naar handsfree, intelligente interacties in de auto.

Automotive

Uit onderzoek blijkt dat in 2022 73% van de automobilisten een stemassistent in de auto zal gebruiken.

De markt voor stemherkenningssystemen in de auto-industrie werd in 2.01 op 2021 miljard dollar geschat en zal naar verwachting tegen 3.51 2027 miljard dollar bereiken, wat een CAGR van ongeveer 8.07% zal registreren.

Echte wereld oplossing

Gegevens die spraakgestuurde systemen aandrijven

Spraakgestuurde systemen in auto's verhogen de veiligheid en het gemak. Ze geven bestuurders toegang tot navigatie, kunnen bellen, sms'en en muziek bedienen zonder hun handen van het stuur of hun ogen van de weg te halen. Door te reageren op verbale commando's verminderen deze systemen de afleiding, bevorderen ze multitasking en zorgen ze voor een continue focus op het autorijden. 

De klant is een wereldleider op het gebied van conversatie-intelligentie die stem-AI-oplossingen biedt waarmee bedrijven hun klanten ongelooflijke gesprekservaringen kunnen bieden. Ze werkten samen met toonaangevende autobedrijven om hun spraakgestuurde systemen te trainen met merksleutelzinnen en hadden de expertise van Shaip nodig op het gebied van het verzamelen van audiogegevens.

Oplossing uit de echte wereld
Uitdagingen

Uitdagingen

  • Crowdsourcing: Rekruteer wereldwijd meer dan 2800 moedertaalsprekers per taal.
  • Gegevensverzameling: Beveilig meer dan 200 prompts in 12 talen binnen een bepaald tijdsbestek.
  • Herkenning van context en intentie: Om gebruikersverzoeken correct te begrijpen, moesten systemen worden getraind in verschillende varianten van dezelfde sleutelzin.
  • Behandeling van achtergrondgeluid: Pak achtergrondgeluiden uit de echte wereld aan voor nauwkeurigheid van het ML-model.
  • Bias verminderen: Verkrijg stemvoorbeelden uit diverse demografische groepen om inclusiviteit te garanderen.
  • Audiospecificaties: 16 kHz 16 bits PCM, mono, één kanaal, WAV; geen verwerking.
  • Opnameomgeving: Opnames moeten zuivere audio bevatten zonder achtergrondgeluiden of verstoringen. Belangrijke zinnen die met normale spraak moeten worden opgenomen.
  • Kwaliteitscontrole:  Alle spraakopnames ondergaan een kwaliteitsbeoordeling en validatie, alleen gevalideerde spraakopnames worden geleverd. Indien Shaip niet aan de overeengekomen Kwaliteitsnormen voldoet, zal Shaip de gegevens zonder extra kosten opnieuw aanleveren

Oplossing

Shaip heeft met zijn expertise op het gebied van Conversational AI de klant in staat gesteld om:

  • Gegevensverzameling: 208 sleutelzinnen/merkprompts verzameld in 12 wereldwijde talen van 2800 sprekers in het vastgestelde tijdsbestek
  • Diverse accenten en dialecten: Werven specialisten uit de hele wereld, bedreven in de gewenste accenten en dialecten.
  • Herkenning van context en intentie: Elke spreker kreeg de taak om de sleutelzinnen in twintig verschillende variaties op te nemen, waardoor de ML-modellen gebruikersverzoeken nauwkeurig konden begrijpen in termen van context en intentie.
  • Behandeling van achtergrondgeluiden: Om een ​​onberispelijke audiokwaliteit te garanderen, hebben we ervoor gezorgd dat de sleutelzinnen zijn opgenomen in een serene omgeving met een geluidsniveau van minder dan 40 dB, zonder achtergrondstoringen zoals tv, radio, muziek, spraak of straatgeluiden.
  • Bias verminderen: Om vooringenomenheid te minimaliseren, hebben we individuen uit verschillende regio’s betrokken en een evenwichtige demografische vertegenwoordiging gehandhaafd met 50% mannen en 50% vrouwen, verspreid over leeftijdsgroepen van 18 tot 60 jaar.
  • Richtlijnen voor opnemen: De sleutelzinnen werden vastgelegd in een consistent, normaal spraakpatroon, zonder enige variatie zoals snel of langzaam tempo. 2 seconden stilte aan zowel het begin als het einde om te garanderen dat geen enkel deel van de toespraak per ongeluk wordt afgekapt.
  • Opnameformaat: De audio werd opgenomen op 16 kHz, 16-bit PCM in mono, gebruikmakend van een enkel kanaal, en opgeslagen in het WAV-bestandsformaat. De audio blijft onverwerkt, wat betekent dat er geen compressie, nagalm of EQ is toegepast.
  • Kwaliteit: Elke spraakopname werd onderworpen aan strenge kwaliteitscontroles en validatie. Alleen opnames die aan deze beoordeling voldeden, werden afgeleverd. Bestanden die niet aan de afgesproken kwaliteitsnormen voldeden, werden opnieuw opgenomen en zonder extra kosten ter beschikking gesteld
Oplossing
Resultaat

Resultaat

De hoogwaardige audiogegevens of gesproken aanwijzingen van merksleutelzinnen zullen de autobedrijven en hun klanten in staat stellen:

  1. Branding en identiteit: Gesproken aanwijzingen met specifieke merkzinnen helpen bedrijven een directe en gedenkwaardige verbinding te creëren tussen de gebruiker en het merk, waardoor de merkherinnering wordt vergroot.
  2. Makkelijk te gebruiken: Spraakopdrachten maken het voor bestuurders gemakkelijker om met voertuigen te communiceren zonder hun handen van het stuur of hun ogen van de weg te halen, waardoor de verkeersveiligheid wordt vergroot.
  3. Functionaliteit: Spraakopdrachten maken de toegang tot en bediening van autofuncties intuïtiever. Of het nu gaat om navigatie, media afspelen of klimaatregeling.
  4. Integratie met andere systemen: Veel spraakgestuurde systemen zijn geïntegreerd met smartphones, smart home-apparaten en andere IoT-apparaten. Een gebruiker kan bijvoorbeeld aan zijn of haar auto vragen om de verlichting in huis aan te doen als hij of zij thuiskomt.
  5. Concurrentievoordeel: Het aanbieden van geavanceerde spraakgestuurde systemen kan een verkoopargument en een onderscheidende factor zijn. Kopers zoeken naar de nieuwste technologie wanneer ze overwegen een nieuwe auto te kopen.
  6. Toekomstbestendig: Naarmate technologie evolueert en IoT steeds meer geïntegreerd wordt in het dagelijks leven, positioneert het hebben van een robuust stemgestuurd systeem autobedrijven in de positie om zich beter aan te passen aan toekomstige technologie.
  7. Inkomstenmogelijkheden: Extra mogelijkheden om inkomsten te genereren, dat wil zeggen dat spraaksystemen aanbevelingen of geïntegreerde e-commerce-ervaringen bieden (zoals het bestellen van eten of het vinden van diensten in de buurt) die affiliate-inkomsten kunnen opleveren.
Gouden 5-sterren

Toen we begonnen met het inkopen van gesproken aanwijzingen voor de automobielsector, waren de uitdagingen talrijk. Het vastleggen van de diversiteit in spraak, accenten en tonen was van cruciaal belang om de wereldwijde klantenkring van onze klant te vertegenwoordigen. Shaip viel niet alleen op als leverancier, maar ook als een echte partner. Hun inzet om een ​​breed scala aan stemmen uit verschillende regio's veilig te stellen, was lovenswaardig. Ze gingen verder dan alleen het verzamelen van stemmen; ze begrepen de nuances van onze projectbehoeften, waardoor eersteklas opnames werden gegarandeerd. Hun onberispelijke naleving van de normen voor audiocollectie toonde hun professionaliteit en toewijding aan het project.

Versnel uw gespreks-AI
applicatieontwikkeling met 100%