Trainingsgegevens voor spraakherkenning

Spraakherkenning Trainingsgegevens - Typen, gegevensverzameling en toepassingen

Als je Siri, Alexa, Cortana, Amazon Echo of anderen gebruikt als onderdeel van je dagelijkse leven, zou je dat accepteren Spraakherkenning is een alomtegenwoordig onderdeel van ons leven geworden. Deze door kunstmatige intelligentie aangedreven spraakassistenten zetten de verbale vragen van gebruikers om in tekst, interpreteren en begrijpen wat de gebruiker zegt om met een passend antwoord te komen.

Er is behoefte aan kwaliteitsvolle gegevensverzameling om betrouwbare spraakherkenningsmodellen te ontwikkelen. Maar, ontwikkelen spraakherkenningssoftware is geen eenvoudige taak - juist omdat het moeilijk is om menselijke spraak in al zijn complexiteit, zoals het ritme, het accent, de toonhoogte en de helderheid, te transcriberen. En als je emoties toevoegt aan deze complexe mix, wordt het een uitdaging.

Wat is spraakherkenning?

Spraakherkenning is het vermogen van software om te herkennen en te verwerken menselijke spraak in tekst. Hoewel het verschil tussen spraakherkenning en spraakherkenning voor velen subjectief lijkt, zijn er enkele fundamentele verschillen tussen de twee.

Hoewel zowel spraak- als stemherkenning deel uitmaken van de spraakassistenttechnologie, vervullen ze twee verschillende functies. Spraakherkenning zet menselijke spraak en commando's automatisch om in tekst, terwijl spraakherkenning zich alleen bezighoudt met het herkennen van de stem van de spreker.

Soorten spraakherkenning

Voordat we erin springen typen spraakherkenning, laten we eens kijken naar spraakherkenningsgegevens.

Spraakherkenningsgegevens zijn een verzameling audio-opnames van menselijke spraak en teksttranscriptie die helpen bij het trainen van machine learning-systemen voor: spraakherkenning.

De audio-opnames en transcripties worden ingevoerd in het ML-systeem, zodat het algoritme kan worden getraind om de nuances van spraak te herkennen en de betekenis ervan te begrijpen.

Hoewel er veel plaatsen zijn waar u gratis voorverpakte datasets kunt krijgen, is het het beste om aangepaste datasets voor uw projecten. U kunt de collectiegrootte, audio- en luidsprekervereisten en taal selecteren door een aangepaste dataset te hebben.

Spraakgegevensspectrum

Spraakgegevens spectrum identificeert de kwaliteit en toonhoogte van spraak, variërend van natuurlijk tot onnatuurlijk.

  • Gescripte spraakherkenningsgegevens

    Zoals de naam al doet vermoeden, is gescripte spraak een gecontroleerde vorm van gegevens. De sprekers nemen specifieke zinnen op uit een voorbereide tekst. Deze worden meestal gebruikt voor het geven van opdrachten, waarbij wordt benadrukt hoe de woord of zin wordt gezegd in plaats van wat er wordt gezegd.

    Gescripte spraakherkenning kan worden gebruikt bij het ontwikkelen van een spraakassistent die opdrachten moet oppikken die zijn gegeven met verschillende sprekeraccenten.

  • Op scenario's gebaseerde spraakherkenning

    In een op scenario's gebaseerde toespraak wordt de spreker gevraagd zich een bepaald scenario voor te stellen en een spraakcommando's op basis van het scenario. Op deze manier is het resultaat een verzameling spraakopdrachten die niet zijn gescript maar worden gecontroleerd.

    Op scenario's gebaseerde spraakgegevens zijn vereist voor ontwikkelaars die een apparaat willen ontwikkelen dat alledaagse spraak met zijn verschillende nuances begrijpt. Bijvoorbeeld door met verschillende vragen de weg naar de dichtstbijzijnde Pizza Hut te vragen.

  • Natuurlijke spraakherkenning

    Helemaal aan het einde van het spraakspectrum is spraak die spontaan, natuurlijk en op geen enkele manier gecontroleerd wordt. De spreker spreekt vrijuit met behulp van zijn natuurlijke gesprekstoon, taal, toonhoogte en tenor.

    Als u een op ML gebaseerde toepassing wilt trainen op spraakherkenning met meerdere luidsprekers, dan is een niet-gescripte of conversatie toespraak dataset is handig.

Gegevensverzamelingscomponenten voor spraakprojecten

Spraakgegevens verzamelen Een reeks stappen die betrokken zijn bij het verzamelen van spraakgegevens zorgen ervoor dat de verzamelde gegevens van kwaliteit zijn en helpen bij het trainen van hoogwaardige AI-gebaseerde modellen.

Vereiste gebruikersreacties begrijpen

Begin met het begrijpen van de vereiste gebruikersreacties voor het model. Om een ​​spraakherkenningsmodel te ontwikkelen, moet u gegevens verzamelen die nauw aansluiten bij de inhoud die u nodig hebt. Verzamel gegevens van interacties in de echte wereld om interacties en reacties van gebruikers te begrijpen. Als je een op AI gebaseerde chatassistent bouwt, bekijk dan de chatlogboeken, gespreksopnames en reacties op chatdialoogvensters om een ​​dataset te maken.

Onderzoek de domeinspecifieke taal

U hebt zowel generieke als domeinspecifieke inhoud nodig voor een spraakherkenningsdataset. Nadat u generieke spraakgegevens hebt verzameld, moet u de gegevens doorzoeken en de generieke van de specifieke scheiden.

Klanten kunnen bijvoorbeeld bellen om een ​​afspraak te maken voor controle op glaucoom in een oogzorgcentrum. Een afspraak vragen is een zeer generieke term, maar glaucoom is domeinspecifiek.

Zorg er bovendien voor dat u bij het trainen van een ML-model voor spraakherkenning het traint om zinnen te identificeren in plaats van afzonderlijk herkende woorden.

Menselijke spraak opnemen

Na het verzamelen van gegevens uit de vorige twee stappen, zou de volgende stap inhouden dat mensen de verzamelde verklaringen opnemen.

Het is essentieel om een ​​ideale lengte van het script te behouden. Mensen vragen om meer dan 15 minuten tekst te lezen kan contraproductief zijn. Houd een pauze van minimaal 2 – 3 seconden aan tussen elke opgenomen verklaring.

Sta toe dat de opname dynamisch is

Bouw een spraakrepository van verschillende mensen, spreekaccenten, stijlen die zijn opgenomen onder verschillende omstandigheden, apparaten en omgevingen. Als de meerderheid van de toekomstige gebruikers de vaste lijn gaat gebruiken, moet uw spraakverzamelingsdatabase een significante representatie hebben die aan die vereiste voldoet.

Variabiliteit in spraakopname induceren

Nadat de doelomgeving is ingesteld, vraagt ​​u uw gegevensverzamelingssubjecten om het voorbereide script in een vergelijkbare omgeving te lezen. Vraag de proefpersonen zich geen zorgen te maken over de fouten en de weergave zo natuurlijk mogelijk te houden. Het idee is om een ​​grote groep mensen het script in dezelfde omgeving te laten opnemen.

Transcribeer de toespraken

Nadat u het script met meerdere onderwerpen (met fouten) hebt opgenomen, moet u doorgaan met de transcriptie. Houd de fouten intact, want dit zou u helpen om dynamiek en variatie in de verzamelde gegevens te bereiken.

In plaats van mensen de hele tekst woord voor woord te laten transcriberen, kunt u een spraak-naar-tekst-engine inschakelen om de transcriptie te doen. We raden u echter ook aan menselijke transcribenten in te zetten om fouten te corrigeren.

Een testset ontwikkelen

Het ontwikkelen van een testset is cruciaal omdat het een voorloper is van de taalmodel.

Maak een paar van de toespraak en de bijbehorende tekst en maak er segmenten van.

Neem na het verzamelen van de verzamelde elementen een monster van 20%, dat de testset vormt. Het is niet de trainingsset, maar deze geëxtraheerde gegevens laten u weten of het getrainde model audio transcribeert waarop het niet is getraind.

Taaltrainingsmodel bouwen en meten

Bouw nu het taalmodel voor spraakherkenning met behulp van de domeinspecifieke instructies en indien nodig aanvullende variaties. Nadat u het model hebt getraind, moet u het gaan meten.

Neem het trainingsmodel (met 80% geselecteerde audiosegmenten) en test het met de testset (geëxtraheerde 20% dataset) om te controleren op voorspellingen en betrouwbaarheid. Controleer op fouten, patronen en focus op omgevingsfactoren die kunnen worden verholpen.

Mogelijke use-cases of toepassingen

Speech recognition use case

Spraaktoepassing, slimme apparaten, spraak naar tekst, klantenondersteuning, dicteren van inhoud, beveiligingstoepassing, autonome voertuigen, notities maken voor de gezondheidszorg.

Spraakherkenning opent een wereld aan mogelijkheden en de gebruikersacceptatie van spraaktoepassingen is in de loop der jaren toegenomen.

Enkele veel voorkomende toepassingen van spraakherkenningstechnologie omvatten:

  1. Spraakgestuurde zoektoepassing

    Volgens Google ongeveer 20% van de zoekopdrachten die in de Google-app worden uitgevoerd, zijn spraakgestuurd. Acht miljard mensen zullen naar verwachting tegen 2023 spraakassistenten gebruiken, een sterke stijging ten opzichte van de voorspelde 6.4 miljard in 2022.

    De acceptatie van spraakgestuurd zoeken is in de loop der jaren aanzienlijk toegenomen en de verwachting is dat deze trend zich zal voortzetten. Consumenten vertrouwen op gesproken zoekopdrachten om zoekopdrachten uit te voeren, producten te kopen, bedrijven te lokaliseren, lokale bedrijven te vinden en meer.

  2. Apparaten voor thuis/slimme apparaten

    Spraakherkenningstechnologie wordt gebruikt om spraakopdrachten te geven aan slimme apparaten voor thuis, zoals tv's, lampen en andere apparaten. 66% van de consumenten in het VK, de VS en Duitsland verklaarden dat ze stemassistenten gebruikten bij het gebruik van slimme apparaten en luidsprekers.

  3. Spraak naar tekst

    Spraak-naar-tekst-toepassingen worden gebruikt om te helpen bij gratis computergebruik bij het typen van e-mails, documenten, rapporten en andere. Spraak naar tekst elimineert de tijd om documenten te typen, boeken en e-mails te schrijven, video's te ondertitelen en tekst te vertalen.

  4. Klantenservice

    Spraakherkenningstoepassingen worden voornamelijk gebruikt voor klantenservice en ondersteuning. Een spraakherkenningssysteem helpt bij het 24/7 bieden van klantenservice-oplossingen tegen een betaalbare prijs met een beperkt aantal vertegenwoordigers.

  5. Inhoud dictaat

    Inhoud dicteren is een andere spraakherkenning use case waarmee studenten en academici in een mum van tijd uitgebreide inhoud kunnen schrijven. Het is behoorlijk nuttig voor studenten die benadeeld zijn vanwege blindheid of problemen met het gezichtsvermogen.

  6. Beveiligingsapplicatie

    Spraakherkenning wordt veelvuldig gebruikt voor beveiligings- en authenticatiedoeleinden door unieke stemkenmerken te identificeren. In plaats van dat de persoon zich identificeert met behulp van gestolen of misbruikte persoonlijke informatie, verhoogt spraakbiometrie de veiligheid.

    Bovendien heeft spraakherkenning voor beveiligingsdoeleinden de klanttevredenheid verbeterd, aangezien het uitgebreide inlogproces en het dupliceren van inloggegevens wegvalt.

  7. Spraakopdrachten voor voertuigen

    Voertuigen, voornamelijk auto's, hebben nu een gemeenschappelijke spraakherkenningsfunctie om de rijveiligheid te verbeteren. Het helpt de chauffeurs zich op het rijden te concentreren door eenvoudige spraakopdrachten te accepteren, zoals het selecteren van radiostations, bellen of het verlagen van het volume.

  8. Aantekeningen maken voor de zorg

    Medische transcriptiesoftware die is gebouwd met behulp van spraakherkenningsalgoritmen, legt eenvoudig de spraaknotities, opdrachten, diagnoses en symptomen van artsen vast. Het maken van medische notities verhoogt de kwaliteit en urgentie in de zorg.

Heeft u een spraakherkenningsproject in gedachten dat uw bedrijf kan transformeren? Het enige dat u mogelijk nodig heeft, is een aangepaste dataset voor spraakherkenning.

Een op AI gebaseerde spraakherkenningssoftware moet worden getraind op betrouwbare datasets over machine learning-algoritmen om syntaxis, grammatica, zinsstructuur, emoties en nuances van menselijke spraak te integreren. Het belangrijkste is dat de software voortdurend moet leren en reageren - groeit met elke interactie.

Bij Shaip leveren we volledig op maat gemaakte datasets voor spraakherkenning voor verschillende machine learning-projecten. Met Shaip heb je toegang tot de op maat gemaakte trainingsgegevens van de hoogste kwaliteit waarmee een betrouwbaar spraakherkenningssysteem kan worden gebouwd en op de markt kan worden gebracht. Neem contact op met onze experts voor een uitgebreid inzicht in ons aanbod.

[Lees ook: De complete gids voor gespreks-AI]

Sociale Share