Wake Word-trainingsgegevens verzamelen

Bouw spraakapps die altijd luisteren met aangepaste trainingsgegevens voor wekwoorden.
Wake word training data collection

Uitgelichte klanten

Teams in staat stellen om toonaangevende AI-producten te bouwen.

Amazone
Kopen Google Reviews
Microsoft
Coggebreid

Een gateway bouwen tussen u en uw spraakproducten met nauwkeurige en aangepaste wekwoorden en het verbeteren van de woorddetectiemogelijkheden van spraakassistenten om u te helpen de concurrentie voor te blijven.

Spraakassistenten hebben de manier waarop klanten met hun apparaten omgaan drastisch veranderd. Ze hebben het voor gebruikers gemakkelijker gemaakt om producten en diensten te verkennen - snel en efficiënt. Luistert de spraaktoepassing echter? Om deze applicaties in een hoge drive te zetten, moeten ze worden gewekt en overgaan van passief naar actief luisteren met behulp van WAKE WORDS. 'Alexa' en 'Hey Siri' zijn twee van de meest populaire wake-woorden ter wereld.

Statista

Tegen 2024 wordt voorspeld dat het aantal digitale spraakassistenten zal bereiken 8.4 miljard eenheden – meer dan de wereldbevolking. 

Markten & Markten

De marktomvang van spraakassistent-apps zal naar verwachting toenemen van $ 2.8 miljard in 2021 tot $ 11.2 miljard in 2026, met een CAGR van 32.4%. 

Wat is een Wake Word en zijn voorbeelden? 

Een wake-word is een specifiek woord of zin zoals 'Hey Siri', 'Oké Google' en 'Alexa'; ontworpen om een ​​spraakgestuurd apparaat te activeren om te reageren wanneer het wordt uitgesproken. Een altijd luisterend wake-word dat lokaal in het apparaat is geïntegreerd, vermindert de responstijd echter drastisch en verhoogt de identificatie- en verwerkingsnauwkeurigheid van het wake-word, zelfs zonder internetverbinding.

Hoe Shaip kan helpen?

Met Shaip's aanbiedingen altijd luisterende wake-word-training, zijn uw stemassistent-modellen altijd afgestemd om naar het wake-word te luisteren, maar zonder daadwerkelijk gegevens op te nemen of naar de cloud te verzenden. Samenwerken met Shaip geeft u het voordeel om met experts te werken. Met onze uitgebreide ervaring met het gebruik van AI- en ML-technologie bij het ontwikkelen van training voor stemassistenten, helpen we u privacyrisico's te elimineren, de gebruikerservaring te verbeteren, de ontwikkelingskosten te verlagen en de schaalbaarheid te vergroten.

Verzameling van tekstuitingen

Waardevolle tips voor het kiezen van de juiste ontwaakwoorden / triggerwoorden

Kies woorden met verschillende geluiden

Verschillende fonemen zorgen over het algemeen voor een duidelijkere signatuur en zorgen voor een betere nauwkeurigheid in de resultaten. Kies daarom frases in uw data die verschillende geluiden produceren.

Maak gebruik van een geschikt voorvoegsel met uw woorden

Maak wake-woorden effectiever door ze te voorzien van voorvoegsels zoals 'Hallo', 'Hallo', 'Hey' of 'OK'. Het houdt het wake-woord ondubbelzinnig en zorgt ervoor dat er geen toevallige matching plaatsvindt bij het gebruik van het trigger-woord in normale spraak.

Gebruik fonemen om uw triggerwoorden op te bouwen

Maak je wake-woorden een combinatie van ten minste zes fonemen die gemakkelijk te onderscheiden zijn door een machine en gemakkelijk uit te spreken zijn voor mensen. "Alexa" heeft bijvoorbeeld zes fenomenen, terwijl "Ok Google" acht fenomenen heeft.

Vermijd het gebruik van één woord

Maak niet de fout om een ​​enkel woord als uw wake-woord te gebruiken. Wake-woorden moeten lang genoeg zijn om te onderscheiden.

Eenvoudige en unieke woorden

Zorg ervoor dat de triggerwoorden die u maakt eenvoudig en uniek moeten zijn, zodat ze gemakkelijk kunnen worden onthouden.

Vermijd lange zinnen

Langere wake-frasen met meerdere woorden zijn moeilijk uit te spreken en maken het proces onnodig moeilijker.

Beperkingen van Wake Word-trainingsgegevens

Verwarring door gebruik van meerdere uitingen

Een wake-word-model is over het algemeen getraind om een ​​nee te herkennen. van verschillende uitingen, zodat het kan reageren op verschillende aanroepen. Als u echter te veel verschillende wake-woorden heeft, kan de spraakpijplijn eenvoudig worden geactiveerd zonder dat u weet welke uiting de gebruiker heeft uitgesproken.

Minder nauwkeurige resultaten door externe omgeving

Factoren zoals ruis, afstand en variaties in accenten en taal maken nauwkeurige hotword-detectie moeilijker en complexer voor uw AI-model.

Nauwkeurige wekwoorden bouwen voor uw merk

Trainen Trainen

Onze ervaring met spraaktechnologie helpt ons om snel luisterende, op maat gemaakte wake-woorden en branded wake-frases te ontwikkelen. Met spraakherkenning in combinatie met begrip van natuurlijke taalverwerking, helpen ML-algoritmen om spraak te transcriberen en spraakopdrachten effectief uit te voeren.

Ontwikkelen
Ontwikkelen

We richten ons op het snel ontwikkelen van prototypes van wake-words om ervoor te zorgen dat het merkwoord op maat wordt gemaakt. Een prototype fungeert als proof of concept en helpt bij nauwkeurige training, snellere time-to-market, versneld testen en eliminatie van risico's.

Groeien Groeien

Ervaar ononderbroken groei en ongehinderde klantbetrokkenheid met een uitzonderlijke spraakassistent. We bieden meertalige spraakherkenningsmogelijkheden, zodat de toepassing woorden en zinnen nauwkeurig kan herkennen, zelfs in omgevingen met veel ruis.

Snel ontwerp, ontwikkeling en implementatie

Het trainen, ontwikkelen en implementeren van altijd luisterende aangepaste wake-woorden hoeft niet vervelend en tijdrovend te zijn. Met de juiste hulp van Shaip's deskundige technologie-experts, kunt u de time-to-market effectief vereenvoudigen en verkorten. Bovendien werken onze gegevensverzameling, labelling en annotatie-ervaring in uw voordeel om binnen enkele weken wake-woorden te leveren.

Kenmerken van Wake Words-training en -implementatie 

Customized brand wake words

Aangepaste merk Wake Words

Een branded wake-word wordt vaak geassocieerd met waarde en prestaties. Het wordt tijd dat u gebruikmaakt van de enorme voordelen van het hebben van aangepaste branded wake-woorden in uw voordeel. Word eigenaar van uw merk en ontwikkel een op maat gemaakt wake-word of een zin die uw merk in het beste licht projecteert. Bij Shaip kunnen we uw klanten helpen uw merknaam te gebruiken bij elke interactie met merkbezwering met hun stemassistenten.

Commando of zinnen Spotting

Verder gaan dan wake word is het spotten van zinnen, waardoor gebruikers natuurlijke taal kunnen gebruiken om hun spraakgestuurde apparaten te bedienen. Shaip heeft uitgebreide ervaring met het helpen van kleine tot grote bedrijven bij het ontwikkelen van applicaties die lange zinnen kunnen verwerken zonder latentie en met grotere nauwkeurigheid.

Command or phrases spotting
Embedded phrase detection

Ingebedde woord- of zinsdeeldetectie

De ontwikkelaars van Shaip helpen merken hun klanten een verbeterde stemervaring te bieden door ingesloten trefwoord- of woordgroepdetectie te bieden. We zorgen voor privacy, zero-latency en hoge nauwkeurigheid door de wake-word-engine-technologie de meerdere wake-woorden in de browser te laten verwerken en niet in de cloud.

Het concept van gegevensdiversiteit begrijpen

Wat is datadiversiteit?

Het is een manier om cruciale gebruikersgegevens te verzamelen, zoals hun identiteit, land van herkomst, leeftijd, geslacht, taal, accenten, enz. Gegevensdiversiteit wordt gebruikt om gebruikersgerichte algoritmen te verbeteren om nauwkeurigere resultaten te bereiken.

Gegevens hebben meestal de neiging om ingebouwde vooroordelen te genereren. Daarom, wanneer we gegevens uit verschillende bronnen verzamelen, vermindert de vertekening in de resultaten aanzienlijk. 

Hier zijn een paar parameters van gegevensdiversiteit die Shaip aanpakt bij het bouwen van wake-woorden en andere conversatiecommando's.

Data diversiteit
Ras en etniciteitHindoe, moslim, christen, Afrikaans, Europeanen
OpleidingsniveauUndergraduate, Graduate, Ph.D., Masters
LandChina, Japan, India, Korea, Dubai, Nigeria, VS, Canada
SekseMan, vrouw
Leeftijdminder dan 10 jaar, 10-15, 15-25, 25-45, 45 jaar en ouder
TaalEngels, Japans, Turks, Chinees, Thais, Hindi
MilieuStil, Lawaaierig, Achtergrondmuziek, Achtergrondgeluid of spraak, Binnen, Buiten, Theater, Stadion, Cafetaria, In auto, Kantoor, Winkelcentrum, Huislawaai, Trap, Straat/weg, Zeezijde (winderig)
Accenten (Engels)Schots Engels, Welsh Engels, Hiberno-Engels, Canadees Engels, Australisch Engels, Nieuw-Zeelands Engels.
Spreekstijlsnel/normaal/langzame snelheid, hoog/normaal/zacht volume, formeel/casual etc.
ApparaatpositiesHandbediend, Desktop

Belangrijkste gebruiksgevallen

Voice Search

Voeg gesproken zoekopdrachten toe aan mobiele apps, websites en apparaten. Zoek trefwoorden en woordgroepen in audio, video en streams.

Handsfree zoeken

Schakel uw software in om handsfree zoekresultaten te leveren door gebruik te maken van spraakopdrachten om de beoogde actie te voltooien.

Voice Commands

Voeg spraakopdrachten toe aan apparaten, mobiele of webapplicaties om de klantervaring te verbeteren.

Spraakanalyse

Het end-to-end Voice AI-platform voorziet de software van intelligente tools om een ​​uitzonderlijke klantervaring te bieden.

Waarom Shaip

Om uw AI-initiatief effectief in te zetten, hebt u grote hoeveelheden gespecialiseerde trainingsdatasets nodig. Shaip is een van de weinige bedrijven op de markt die zorgt voor betrouwbare trainingsgegevens van wereldklasse op schaal die voldoen aan de wettelijke/GDPR-vereisten.

Mogelijkheden voor gegevensverzameling

Creëer, beheer en verzamel op maat gemaakte datasets (tekst, spraak, afbeelding, video) uit meer dan 100 landen over de hele wereld op basis van aangepaste richtlijnen.

Flexibel personeel

Maak gebruik van ons wereldwijde personeelsbestand van meer dan 30,000 ervaren en erkende bijdragers. Flexibele taaktoewijzing en realtime personeelscapaciteit, efficiëntie en voortgangsbewaking.

Kwaliteit​

Ons eigen platform en geschoolde arbeidskrachten gebruiken meerdere kwaliteitscontrolemethoden om te voldoen aan de kwaliteitsnormen die zijn vastgesteld voor het verzamelen van AI-trainingsdatasets of deze te overtreffen.

Divers, nauwkeurig en snel

Ons proces stroomlijnt het verzamelproces door eenvoudiger taakverdeling, beheer en gegevensregistratie rechtstreeks vanuit de app en webinterface.

Gegevensveiligheid

Handhaaf volledige vertrouwelijkheid van gegevens door privacy onze prioriteit te maken. We zorgen ervoor dat gegevensindelingen beleidsgestuurd en behouden blijven.

Domein specificiteit

Beheerde domeinspecifieke gegevens verzameld uit branchespecifieke bronnen op basis van richtlijnen voor het verzamelen van klantgegevens.

AI gebruiken om de bedrijfsprestaties te verbeteren door middel van klantervaring

De wekwoorden zijn de zinnen die uw spraakgestuurde systemen activeren en in de luistermodus zetten om instructies van gebruikers op te nemen.

De aanroepnaam is het sleutelwoord dat wordt gebruikt om een ​​specifieke "vaardigheid" van de software te activeren. De aanroepnaam kan ook namen zijn van mensen of plaatsen en kan gecombineerd worden met een actie, opdracht of vraag. Alle aangepaste vaardigheden moeten een aanroepnaam hebben om deze te starten.

Uitingen zijn zinnen die door de gebruikers worden gebruikt om een ​​verzoek in te dienen bij uw spraakbesturingssoftware. De software identificeert de intentie van de gebruiker uit de gegeven uiting en reageert dienovereenkomstig.

Natuurlijke taalverwerking of NLP is een convergentie van kunstmatige intelligentie en computerlinguïstiek die verantwoordelijk is voor interacties tussen machines en natuurlijke talen van mensen. Door gebruik te maken van NLP-algoritmen, analyseert, begrijpt, wijzigt of genereert de software natuurlijke taal voor uw AI-model.

Wake-up woord, Uitingen, Trigger Words, Hot Words, Invocation Words

 Een zin is een groep woorden die de volledige betekenis uitdrukt of een heel idee overbrengt. Een zin kan eenvoudig, complex of samengesteld zijn en kan in geschreven of gesproken vorm worden uitgedrukt. 

Een uiting daarentegen is een spraakeenheid die meestal niet de hele betekenis of gedachte overbrengt, en zit vol met pauzes en stiltes.

Voorbeelden van uitingen: 

  1. 'Laat me je voorstellen... dit zijn de statistieken in de regio'
  2. 'Laat me de nieuwste film zien ... die vorige week werd uitgebracht.'
  3. 'Is de winkel op 22nd Street nu open... die naast de bank.'

Alexa wordt geleverd met verschillende ingebouwde microfoons die het wake-word detecteren en herkennen door de achtergrondgeluiden te negeren. Om valse negatieven en valse positieven te voorkomen, is Alexa geprogrammeerd om het gehoor pas in te schakelen na het detecteren van het activeringswoord 'Alexa'.

Een wake-word is een geprogrammeerde zin die ervoor zorgt dat de spraakassistent begint te luisteren en de verzoeken van de gebruiker te verwerken. Elke spraakassistent is getraind in interacties in de echte wereld met behulp van kunstmatige intelligentie en natuurlijke taalverwerking, waarbij spraak wordt omgezet in zinnen, woorden en geluiden.