Meest vertrouwde spraakgegevensverzamelingsservices voor uw AI

Train uw NLP-modellen, VA's, TTS-prototypes en meer met hoogwaardige gespreksgegevens, met onze diensten voor het verzamelen van audio- en spraakgegevens

Verzameling van audiogegevens

Ontdek audiodatapijplijnen zonder knelpunten

Uitgelichte klanten

Professionele diensten voor het verzamelen van audio-/spraakgegevens

Elk onderwerp. Elk scenario.

Bij Shaip ligt onze expertise in het creëren van hoogwaardige spraakdatasets die zijn ontworpen voor uiteenlopende AI/ML-vereisten. We bieden een uitgebreid scala aan talen en nemen op in diverse omgevingen, waardoor onze datasets uitgebreid en aanpasbaar zijn. OOnze focus ligt op het voeden van modellen met het hoogste volume aan aangepaste spraakgegevens, in de kortst mogelijke tijd. Bij ons aan boord kunt u het volgende verwachten: 

Spraakverzameling
  • Samengestelde meertalige audio-/spraakgegevens van hoge kwaliteit om de nauwkeurigheid te verbeteren
  • Hoogst mogelijke niveau van domeinspecificiteit voor teen divers scenario setup
  •  Schaal uw ML-model om het aan te passen aan verschillende demografische gegevens en branches
  • Opnameomgevingen: Studiokwaliteit, met kristalheldere audio met minimaal achtergrondgeluid, en Natuurlijke omgevingen, waarbij opnames omgevingsgeluiden bevatten om situaties uit de echte wereld na te bootsen.

100+

Landen

55K +

Uren aan spraakgegevens

250+

Projecten

60+

Talen (100+ dialecten)

8 / 16 / 44 / 48 kHz

sampling rate

Onze expertise

Stem audiogegevens af op slimmere NLP-modellen

Shaip biedt end-to-end spraak-/audiogegevensverzamelingsservices in meer dan 100+ talen om spraakgestuurde technologieën mogelijk te maken voor een diverse groep doelgroepen over de hele wereld. We kunnen werken aan projecten van elke omvang en omvang; van het licentiëren van bestaande standaard audiodatasets tot het beheren van aangepaste audiodataverzameling tot audiotranscriptie en annotatie. Hoe groot uw project voor het verzamelen van spraakgegevens ook is, we kunnen de audioverzamelingsservices aanpassen aan uw behoeften om hoogwaardige NLP-gegevenssets te bouwen die gericht zijn op dialecten, tonen en talen. Kies uit ons brede aanbod aan spraakdatasets en bronnen voor het verzamelen van audiodata, voor intelligente opstellingen die spraak mogelijk maken.

Monologue speech

Monoloog spraakverzameling

Het richt zich op het verwerken van spraak van een enkele spreker. Gebruik gescripte aanwijzingen om audiobestanden met één kanaal in te voeren, zodat unieke spraakpatronen, tonen en nuances worden vastgelegd die specifiek zijn voor die persoon.

Dialogue speech

Dialoogtoespraak
Collectie

Interactie tussen twee personen, waarbij gesprekken en dialogen uit de echte wereld worden gerepliceerd met meertalige blootstelling via tweekanaalsbestanden en getranscribeerde bronnen.

Multi-party conversations

Groep / Muti-partij
Gesprekken

Discussies met meerdere personen, waarbij groepsdynamiek, overlappingen en gevarieerde tonen worden vastgelegd om spraakmodellen nauwkeurig te trainen.

Natural language utterance

Verzameling van natuurlijke taaluitingen

Train AI's om zinsneden te identificeren of woorden met een vergelijkbare betekenis wakker te maken met behulp van diverse, rijke en authentieke uitingen voor geavanceerde verwerking en begrip van natuurlijke taal.

Acoustic speech

Akoestische gegevens
Collectie

We kunnen op professionele wijze audiogegevens van studiokwaliteit opnemen, of het nu restaurants, kantoren of huizen zijn of vanuit verschillende omgevingen en talen, terwijl we een breder akoestisch bereik bestrijken (Comprehensive Sound Datasets).

Automatische spraakherkenning

Automatische spraakherkenning (ASR)

Verbeter de nauwkeurigheid van uw automatische spraakherkenningssystemen (ASR) door toegang te hebben tot geavanceerde, gediversifieerde spraak-/audiodatasets uit een breed scala aan demografische gegevens.

Natural language utterance

Meertalige spraak-/audiotrainingsgegevens

Onze ervaren taalprofessionals over de hele wereld bieden meertalige audio-/spraakgegevens in verschillende talen en dialecten. Deze inspanning bevordert de mondiale communicatie en overbrugt taalbarrières, waardoor wordt bijgedragen aan meer inclusieve en effectieve AI-oplossingen.

Digital virtual assistants

Text-to-Speech
(TTS)

Bouw een meertalig tekst-naar-spraakmodel (TTS) met de hulp van ons wereldwijde personeelsbestand, dat u helpt spraakgegevens te verzamelen in meer dan 150 talen en dialecten om uw AI-modellen te verbeteren, van bedieningselementen in de auto tot chatbots en leeroplossingen met hoogwaardige hoogwaardige audiogegevens.

Call center recordings

Call Center
Recordings

Echte uitwisselingen tussen agenten en klanten, waarbij talloze talen worden ondersteund, zoals Spaans, Duits, Amerikaans Engels, Bengaals, Japans, Chinees en Hindi.

Succesverhalen

Conversationele AI-datasets met meer dan 3 uur aan gegevens in 8 talen

De klant wilde een meertalig platform voor Indiase talen bouwen en werkte samen met Shaip om grote datasets in meerdere Indiase talen te verzamelen, segmenteren en transcriberen. Dit zou helpen bij het ontwikkelen van effectieve spraakmodellen die het innovatieve nieuwe platform van de cliënt zouden kunnen aandrijven.

probleem: Meer dan 3,000 uur aan audiogegevens verzameld in 8 Indiase talen, gesegmenteerd en getranscribeerd om automatische spraakherkenning te ontwikkelen.

Oplossing: We zorgden voor dataverzameling, segmentatie, transcriptie en leverden JSON-bestanden met metadata. We hebben op schaal 3000 uur aan audiogegevens in 8 Indiase talen verzameld voor het spraaktechnologieproject van de klant.

Speech data collection case study

Redenen om Shaip te kiezen als uw betrouwbare partner voor het verzamelen van spraakgegevens

Mensen

Mensen

Toegewijde en getrainde teams:

  • 30,000+ medewerkers voor gegevenscreatie, labeling en QA
  • Gecertificeerd projectmanagementteam
  • Ervaren productontwikkelingsteam
  • Talentpool Sourcing & Onboarding-team
Proces

Proces

De hoogste procesefficiëntie wordt gegarandeerd met:

  • Robuust 6 Sigma Stage-Gate-proces
  • Een toegewijd team van 6 Sigma black belts – Key process owners & Quality compliance
  • Continue verbetering en feedbacklus
Platform

Platform

Het gepatenteerde platform biedt voordelen:

  • Webgebaseerd end-to-end platform
  • Onberispelijke kwaliteit
  • Snellere TAT
  • Naadloze levering

Kant-en-klare spraak-/audiodatasets

DetailsTaalgegevenssetSample RateGegevenssettypeTotaal aantal audio-urenKorte omschrijvingGegevenssetbeschrijvingAudio ChannelOpnameplatformWER (%)AudioformaatTranscriptie-indelingUse CaseAantal LuidsprekersCTA
Spraaknl_US_CC_8Afro-Amerikaanse volkstaalAfro-Amerikaanse volkstaalnl_NL8 kHzCallcenter211Afro-Amerikaanse lokale callcentergegevensOngescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten,DubbelDesktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw: 612, Man: 1242 en Onbekend: 12
Spraaknl_US_MA_16Afro-Amerikaanse volkstaalAfro-Amerikaanse volkstaalnl_NL16 kHzMedia-audio154Afro-Amerikaanse lokale mediagegevensLicentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minutenMonoWebsourcing5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw: 151, Man: 150 en Onbekend: 10
SpraakAfrikaans_GC_8AfrikaansAfrikaansaf_ZA8 kHzAlgemeen gesprek368Afrikaans Algemene gespreksgegevensUnscripted telefonisch gesprek tussen twee mensen. Ca. Audioduur (bereik) - 15-60 minuten, Afrikaans gesproken in AfrikaDubbelDesktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw: 502, Man: 390 en Onbekend: 2
SpraakAfrikaans_MA_16AfrikaansAfrikaansaf_ZA16 kHzMedia-audio658Afrikaanse mediabestandenLicentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minutenMonoWebsourcing5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw: 750, Man: 1278 en Onbekend: 52
SpraakArabisch_GC_8ArabischArabischar_AE8 kHzAlgemeen gesprek292Arabisch Algemene gespreksgegevensUnscripted telefonisch gesprek tussen twee mensen. Ca. Audioduur (bereik) - 15-60 minuten, Arabisch uit de GolfstatenDubbelDesktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw: 171, Man: 534 en Onbekend: 1
SpraakArabisch_SM_48ArabischArabischar-SA48 kHzMonoloog met script1,947Monoloog in Arabisch scriptOpnamen met één uiting, die meestal binnen het bereik van 5 tot 30 seconden vallenMonoMobile App5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 838 Man 1209 Onbekend 78
SpraakAssamees_CC_8AssameesAssamees (in pijplijn) als inCallcenter60Assamese (in pijplijn) callcentergegevensOngescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten,Desktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling
SpraakAssamees_GCAssameesAssamees (in pijplijn) als inAlgemeen gesprek100Assamees (in de pijplijn) Algemene gespreksgegevensOngescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten,Desktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling
SpraakAssamees_MAAssameesAssamees (in pijplijn) als inMedia-audio40Assamees (in pijplijn) Media-audiogegevensLicentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minutenWebsourcing5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling
SpraakBengaals_CC_8BengaleesBengaals (in de pijplijn) miljard_INCallcenter60Bengaalse (in pijplijn) callcentergegevensOngescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten,Desktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling
SpraakBengaals_GCBengaleesBengaals (in de pijplijn) miljard_INAlgemeen gesprek100Bengaals (in pijplijn) Algemene gespreksgegevensOngescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten,Desktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling
SpraakBengaals_MABengaleesBengaals (in de pijplijn) miljard_INMedia-audio40Bengaals (in pijplijn) Media-audiogegevensLicentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minutenWebsourcing5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling
SpraakBoston_CC_8Boston EngelsBoston Engelsnl_NL8 kHzCallcenter177Boston Callcenter-gegevensOngescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten,DubbelDesktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw: 605, Man: 711 en Onbekend: 0
SpraakBoston_GC_8Boston EngelsBoston Engelsnl_NL8 kHzAlgemeen gesprek32Boston Algemene gespreksgegevensUnscripted telefonisch gesprek tussen twee mensen. Ca. Audioduur (bereik) - 15-60 minuten, DubbelDesktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw: 53, Man: 83 en Onbekend: 0
SpraakBoston_MA_16Boston EngelsBoston Engelsnl_NL16 kHzMedia-audio93Boston Media-audiogegevensLicentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minutenMonoWebsourcing5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw: 43, Man: 181 en Onbekend: 2
SpraakCanadese_SM_48Canadees FransCanadees Fransfr-CA48 kHzMonoloog met script1,222Canadees FransOpnamen met één uiting, die meestal binnen het bereik van 5 tot 30 seconden vallenMonoMobile App5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 974 Man 631 Onbekend 1
SpraakChinees_CC_8Chinees EngelsChinees Engelsnl_NL8 kHzCallcenter169Chinese callcentergegevensOngescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten,DubbelDesktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw: 1790, Man: 523 en Onbekend: 13
SpraakChinees_MA_16Chinees EngelsChinees Engelsnl_NL16 kHzMedia-audio249Chinese media-audiogegevensLicentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minutenMonoWebsourcing5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw: 126, Man: 346 en Onbekend: 6
SpraakVereenvoudigd Chinees_SM_48Vereenvoudigd ChineesVereenvoudigd Chineeszh-CN48 kHzMonoloog met script2,762Vereenvoudigd ChineesOpnamen met één uiting, die meestal binnen het bereik van 5 tot 30 seconden vallenMonoMobile App5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 1920 Man 1535 Onbekend 270
SpraakTraditioneel Chinees_SM_48Traditioneel ChineesTraditioneel Chineeszh-TW48 kHzMonoloog met script1,028Traditioneel ChineesOpnamen met één uiting, die meestal binnen het bereik van 5 tot 30 seconden vallenMonoMobile App5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 1069 Man 262 Onbekend 3
SpraakDeens_GC_8DeensDeensda_DK8 kHzAlgemeen gesprek372Deense algemene conversatiegegevensUnscripted telefonisch gesprek tussen twee mensen. Ca. Audioduur (bereik) - 15-60 minuten, DubbelDesktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw: 311, Man: 417, Onbekend: 0
SpraakDeens_MA_16DeensDeensda_DK16 kHzMedia-audio664Deense media audiogegevensLicentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minutenMonoWebsourcing5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw: 369, Man: 864, Onbekend: 27
SpraakDeens_SM_48DeensDeensda-DK48 kHzMonoloog met script2,579Deens geschreven monoloogOpnamen met één uiting, die de neiging hebben om in het bereik van 5 tot 30 seconden te vallen, Deens uit DenemarkenMonoMobile App5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 1551 Man 1233 Onbekend 42
SpraakEngels Diep Zuid_CC_8Engels Diep ZuidEngels Diep Zuidnl_NL8 kHzCallcenter151Engels Deep South Callcenter-gegevensOngescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten,DubbelDesktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 221 , Man 1004 , Onbekend 7
SpraakEngels Diep Zuid_GC_8Engels Diep ZuidEngels Diep Zuidnl_NL8 kHzAlgemeen gesprek56Engelse Deep South Algemene gespreksgegevensUnscripted telefonisch gesprek tussen twee mensen. Ca. Audioduur (bereik) - 15-60 minuten, DubbelDesktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 99, Man 31, Onbekend 0
SpraakEngels Diep Zuid_MA_16Engels Diep ZuidEngels Diep Zuidnl_NL16 kHzMedia-audio266Engelse Deep South Media-audiogegevensLicentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minutenMonoWebsourcing5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 204, Man 356, Onbekend 21
SpraakDuits_CC_8DuitsDuitsde-De8 kHzCallcenter64Duitse callcentergegevens Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten,MonoDesktop. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 478 Man 1440 Onbekend 0
SpraakDuitse_IVR_8DuitsDuitsde-De8 kHz IVR200Duitse IVR-gegevensMens naar machine. Een IVR-type stroom waarbij er een TTS-prompt is (bijv. "Hoe kan ik u helpen") gevolgd door een spontane menselijke reactieMonoDesktop. Wav .jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling Vrouw 10115 Man 8750 Onbekend 0
SpraakGujarati_CC_8GujaratiGujarati (in de pijplijn) gu_INCallcenter60Gujarati (in de pijplijn) CallcentergegevensOngescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten,Desktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling
SpraakGujarati_GCGujaratiGujarati (in de pijplijn) gu_INAlgemeen gesprek100Gujarati (in de pijplijn) Algemene gespreksgegevensOngescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten,Desktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling
SpraakGujarati_MAGujaratiGujarati (in de pijplijn) gu_INMedia-audio40Gujarati (in de pijplijn) Media-audiogegevensLicentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minutenWebsourcing5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling
SpraakHebreeuws_Algemeen gesprek_8HebreeuwsHebreeuwshij_IL8 kHzAlgemeen gesprek399Hebreeuwse algemene conversatiegegevensUnscripted telefonisch gesprek tussen twee mensen. Ca. Audioduur (bereik) - 15-60 minuten, Hebreeuws in IsraëlDubbelDesktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 414 , Man 399 , Onbekend 1
SpraakHebreeuws_MA_16HebreeuwsHebreeuwshij_IL16 kHzMedia-audio427Hebreeuwse media-audiogegevensLicentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minutenMonoWebsourcing5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 361 , Man 513, Onbekend 13
SpraakHindi_MA_16HindiHindihoi_IN16 kHzMedia-audio219Hindi Media-audiogegevensLicentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minutenMonoWebsourcing5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 83 , Man 309, Onbekend 0
SpraakHindi_SM_48HindiHindihi-IN48 kHzMonoloog met script2,867Monoloog in Hindi-schriftOpnamen met één uiting, die meestal binnen het bereik van 5 tot 30 seconden vallenMonoMobile App5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 1977 Man 1864 Onbekend 147
SpraakHINGLISH_CC_8HinglishHinglishhg_IN8 kHzCallcenter208HINGLISH CallcentergegevensOngescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten,DubbelDesktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 822, Man 1262 , Onbekend 0
SpraakHINGLISH_MA_16HinglishHinglishhg_IN16 kHzMedia-audio216HINGLISH Media-audiogegevensLicentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minutenMonoWebsourcing5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 75, Man 380, Onbekend 0
SpraakSpaanse_CC_8Spaans EngelsSpaans Engelsnl_NL8 kHzCallcenter212Spaanse callcentergegevensOngescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten,DubbelDesktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 822, Man 1262, Onbekend 0
SpraakSpaanse_MA_16Spaans EngelsSpaans Engelsnl_NL16 kHzMedia-audio155Hispanic Call Media-audioLicentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minutenMonoWebsourcing5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 140, Man 219, Onbekend 5
SpraakIndonesisch_GC_8IndonesianIndonesianik deed8 kHzAlgemeen gesprek496Indonesische algemene gespreksgegevensUnscripted telefonisch gesprek tussen twee mensen. Ca. Audioduur (bereik) - 15-60 minuten, Bahasa IndonesischDubbelDesktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 524, Man 454, Onbekend 2
SpraakIndonesisch_MA_16IndonesianIndonesianik deed16 kHzMedia-audio643Indonesische media-audiogegevensLicentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minutenMonoWebsourcing5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 746, Man 1507, Onbekend 129
SpraakIers_GC_8IersIersnl_IE8 kHzAlgemeen gesprek192Ierse algemene conversatiegegevensUnscripted telefonisch gesprek tussen twee mensen. Ca. Audioduur (bereik) - 15-60 minuten, DubbelDesktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 213 , Man 153 , Onbekend 0
SpraakJapanse_SM_48JapanseJapanseja-JP48 kHzMonoloog met script2,335Monoloog in Japans scriptOpnamen met één uiting, die meestal binnen het bereik van 5 tot 30 seconden vallenMonoMobile App5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 1460 Man 1221 Onbekend 194
SpraakKannada_CC_8KannadaKannada (in pijplijn) kn_INCallcenter60Kannada (in de pijplijn) CallcentergegevensOngescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten,Desktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling
SpraakKannada_GCKannadaKannada (in pijplijn) kn_INAlgemeen gesprek100Kannada (in pijplijn) Algemene gespreksgegevensOngescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten,Desktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling
SpraakKannada_MAKannadaKannada (in pijplijn) kn_INMedia-audio40Kannada (in pijplijn) Media-audiogegevensLicentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minutenWebsourcing5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling
SpraakKoreaans_CC_8KoreanKoreanko_KR8 kHzCallcenter107Koreaanse callcentergegevensOngescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten,DubbelDesktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 1086, Man 210 , Onbekend 4
SpraakKoreaanse_MA_16KoreanKoreanko_KR16 kHzMedia-audio204Koreaanse media-audiogegevensLicentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minutenMonoWebsourcing5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 70 Man 303, Onbekend 25
SpraakKoreaans_SM_48KoreanKoreanko-KR48 kHzMonoloog met script1,955Monoloog in Koreaans scriptOpnamen met één uiting, die meestal binnen het bereik van 5 tot 30 seconden vallenMonoMobile App5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 1195 Man 1134 Onbekend 122
SpraakMaleis_GC_8MalayMalayms_MIJN8 kHzAlgemeen gesprek266Maleis Algemene gespreksgegevensUnscripted telefonisch gesprek tussen twee mensen. Ca. Audioduur (bereik) - 15-60 minuten, Maleis in MaleisiëDubbelDesktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 316, Man 176 , Onbekend 0
SpraakMaleis_MA_16MalayMalayms_MIJN16 kHzMedia-audio344Maleisische media-audiogegevensLicentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minutenMonoWebsourcing5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 236, Man 626, Onbekend 47
SpraakMalayalam_CC_8MalayalamMalayalam (in pijplijn) ml_INCallcenter60Malayalam (in pijplijn) callcentergegevensOngescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten,Desktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling
SpraakMalayalam_GCMalayalamMalayalam (in pijplijn) ml_INAlgemeen gesprek100Malayalam (in pijplijn) Algemene gespreksgegevensOngescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten,Desktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling
SpraakMalayalam_MAMalayalamMalayalam (in pijplijn) ml_INMedia-audio40Malayalam (in pijplijn) Media-audiogegevensLicentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minutenWebsourcing5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling
SpraakMarathi_CC_8marathiMarathi (in de pijplijn) dhr_INCallcenter60Marathi (In Pipeline) CallcentergegevensOngescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten,Desktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling
SpraakMarathi_GCmarathiMarathi (in de pijplijn) dhr_INAlgemeen gesprek100Marathi (in pijplijn) Algemene gespreksgegevensOngescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten,Desktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling
SpraakMarathi_MAmarathiMarathi (in de pijplijn) dhr_INMedia-audio40Marathi (in pijplijn) Media-audiogegevensLicentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minutenWebsourcing5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling
SpraakMexicaanse_SM_48Spaans (Mexico)Spaans (Mexico)es-MX48 kHzMonoloog met script1,492Monoloog in Mexicaans-Spaans scriptOpnamen met één uiting, die meestal binnen het bereik van 5 tot 30 seconden vallenMonoMobile App5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 1016 Man 1069 Onbekend 95
SpraakNederland_SM_48NederlandsNederlandsnl-NL48 kHzMonoloog met script1,205Nederlandstalige monoloogOpnamen met één uiting, die meestal binnen het bereik van 5 tot 30 seconden vallenMonoMobile App5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 1285 Man 531 Onbekend 3
SpraakNew York Engels_CC_8New York EngelsNew York Engelsnl_NL8 kHzCallcenter103New York Engels CallcentergegevensOngescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten,DubbelDesktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 610, Man 532, Onbekend 0
SpraakNew York Engels_GC_8New York EngelsNew York Engelsnl_NL8 kHzAlgemeen gesprek107New York Engels Algemene gespreksgegevensUnscripted telefonisch gesprek tussen twee mensen. Ca. Audioduur (bereik) - 15-60 minuten, DubbelDesktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 118, Man 114, Onbekend 0
SpraakNew York Engels_MA_16New York EngelsNew York Engelsnl_NL16 kHzMedia-audio140New York English Media-audiogegevensLicentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minutenMonoWebsourcing5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 66, Man 230, Onbekend 11
SpraakNieuw-Zeeland_GC_8Nieuw-Zeeland Engels Nieuw-Zeeland Engels nl_NZ8 kHzAlgemeen gesprek148Nieuw-Zeeland Engels Algemene gespreksgegevensUnscripted telefonisch gesprek tussen twee mensen. Ca. Audioduur (bereik) - 15-60 minuten, DubbelDesktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 167, man 121, Onbekend 4
SpraakNieuw-Zeeland_MA_16Nieuw-Zeeland Engels Nieuw-Zeeland Engels nl_NZ16 kHzMedia-audio400Nieuw-Zeelandse Engelse media-audioLicentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minutenMonoWebsourcing5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 367, man 678, Onbekend 26
SpraakOriya_CC_8OriyaOriya (in pijplijn) of_INCallcenter60Oriya (In Pipeline) Callcenter-gegevensOngescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten,Desktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling
SpraakOriya_GCOriyaOriya (in pijplijn) of_INAlgemeen gesprek100Oriya (in pijplijn) Algemene gespreksgegevensOngescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten,Desktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling
SpraakOriya_MAOriyaOriya (in pijplijn) of_INMedia-audio40Oriya (in pijplijn) Media-audiogegevensLicentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minutenWebsourcing5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling
SpraakPools_MA_16PoolsPoolspl_PL16 kHzMedia-audio269Poolse media-audioLicentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minutenMonoWebsourcing5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 173 Man 354 Onbekend 6
SpraakPools Poland_SM_48Pools (Polen)Pools (Polen)nl-NL48 kHzMonoloog met script1,482Pools Polen - Gescripte monoloogOpnamen met één uiting, die meestal binnen het bereik van 5 tot 30 seconden vallenMonoMobile App5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 1324 Man 701 Onbekend 24
SpraakPunjabi_CC_8PunjabiPunjabi (in de pijplijn) PunjabiCallcenter60Punjabi (in de pijplijn) Callcenter-gegevensOngescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten,Desktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling
SpraakPunjabi_GCPunjabiPunjabi (in de pijplijn) PunjabiAlgemeen gesprek100Punjabi (in de pijplijn) Algemene gespreksgegevensOngescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten,Desktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling
SpraakPunjabi_MAPunjabiPunjabi (in de pijplijn) Punjabi Media-audio40Punjabi (in de pijplijn) Media-audiogegevensLicentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minutenWebsourcing5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling
SpraakRussische_SM_48RussianRussianru-RU48 kHzMonoloog met script2,398Monoloog in Russisch scriptOpnamen met één uiting, die meestal binnen het bereik van 5 tot 30 seconden vallenMonoMobile App5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 1689 Man 1937 Onbekend 214
SpraakSchotse_GC_8Schots (Engels accent)Schots (Engels accent)nl_AB8 kHzAlgemeen gesprek292Schotse algemene gespreksgegevensUnscripted telefonisch gesprek tussen twee mensen. Ca. Audioduur (bereik) - 15-60 minuten, DubbelDesktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 285 , Man 260, Onbekend 3
SpraakSingapore_CC_8Singapore EngelsSingapore Engelsnl_SG8 kHzCallcenter218Gegevens van het callcenter in SingaporeOngescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten,DubbelDesktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 2139 , Man 884, Onbekend 21
SpraakSingapore_MA_16Singapore EngelsSingapore Engelsnl_SG16 kHzMedia-audio247Singapore Media-audiogegevensLicentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minutenMonoWebsourcing5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 160, Man 455, Onbekend 37
SpraakZuid-Afrikaans Engels_CC_8Zuid-Afrikaans EngelsZuid-Afrikaans Engelsnl_ZA8 kHzCallcenter261Zuid-Afrikaans-Engelse callcentergegevensOngescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten,DubbelDesktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 1274 , Man 935 , Onbekend 1
SpraakZuid-Afrikaans Engels_MA_16Zuid-Afrikaans EngelsZuid-Afrikaans Engelsnl_ZA16 kHzMedia-audio251Zuid-Afrikaans Engels Media-audiogegevensLicentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minutenMonoWebsourcing5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 235, Man 432, Onbekend 36
SpraakSwahili_CC_8swahiliswahilisw_KE8 kHzCallcenter230Swahili callcentergegevensOngescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten,DubbelDesktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 611, Man 833, Onbekend 0
SpraakSwahili_MA_16swahiliswahilisw_KE16 kHzMedia-audio265Swahili Media-audiogegevensLicentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minutenMonoWebsourcing5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 118, Man 493, Onbekend 25
SpraakZweeds_CC_8ZweedsZweedssv_SE8 kHzCallcenter250Zweedse callcentergegevensOngescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten,DubbelDesktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 1581, man 727, Onbekend 2
SpraakZweedse_MA_16ZweedsZweedssv_SE16 kHzMedia-audio278Zweedse media-audiogegevensLicentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minutenMonoWebsourcing5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 195, man 500, Onbekend 21
SpraakTamil_CC_8tamilTamil (in de pijplijn) ta_INCallcenter60Tamil (in pijplijn) callcentergegevensOngescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten,Desktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling
SpraakTamil_GCtamilTamil (in de pijplijn) ta_INAlgemeen gesprek100Tamil (in de pijplijn) Algemene gespreksgegevensOngescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten,Desktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling
SpraakTamil_MAtamil Tamil (in de pijplijn) ta_INMedia-audio40Tamil (in pijplijn) Media-audiogegevensLicentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minutenWebsourcing5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling
SpraakTelugu_GC_8TeluguTelugute_IN8 kHzAlgemeen gesprek553Telugu Algemene gespreksgegevensUnscripted telefonisch gesprek tussen twee mensen. Ca. Audioduur (bereik) - 15-60 minuten, DubbelDesktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 574 , Man 564, Onbekend 0
SpraakTelugu_MA_16TeluguTelugute_IN16 kHzMedia-audio648Telugu Media-audiogegevensLicentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minutenMonoWebsourcing5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 207, Man 963, Onbekend 2
SpraakTelugu_CC_8TeluguTelugu (in pijplijn) te_INCallcenter30Telugu (in de pijplijn) Callcenter-gegevensOngescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten,Desktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling
SpraakTelugu_GCTeluguTelugu (in pijplijn) te_INAlgemeen gesprek50Telugu (in pijplijn) Algemene gespreksgegevensOngescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten,Desktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling
SpraakTelugu_MATeluguTelugu (in pijplijn) te_INMedia-audio20Telugu (in pijplijn) Media-audiogegevensLicentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minutenWebsourcing5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling
SpraakThaise_GC_8ThaiThaith_TH8 kHzAlgemeen gesprek183Thais algemeen gesprekUnscripted telefonisch gesprek tussen twee mensen. Ca. Audioduur (bereik) - 15-60 minuten, een informeel register dat wordt gebruikt tussen vriendenDubbelDesktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 338, Man 96, Onbekend 8
SpraakThaise_MA_8ThaiThaith_TH16 kHzMedia-audio173Thaise media-audioLicentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minutenMonoWebsourcing5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 143, Man 502, Onbekend 26
SpraakTurks Turkije_SM_48Turks TurkijeTurks Turkijetr-TR48 kHzMonoloog met script2,027Turks TurkijeOpnamen met één uiting, die meestal binnen het bereik van 5 tot 30 seconden vallenMonoMobile App5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 1561 Man 1241 Onbekend 31
SpraakVietnamees_GC_8VietnameesVietnameesvi_VN8 kHzAlgemeen gesprek295Vietnamese algemene gespreksgegevensOngescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, noordelijk (bijv. Hanoi), centraal en zuidelijk (bijv. Ho Chi Minh-stad).DubbelDesktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 400, man 380, Onbekenden 2
SpraakVietnamees_MA_16VietnameesVietnameesvi_VN16 kHzMedia-audio257Vietnamese media-audiogegevensLicentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minutenMonoWebsourcing5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 249, man 200, Onbekenden 45
SpraakWelsh_GC_8Wels (Engels accent)Wels (Engels accent)nl_WL8 kHzAlgemeen gesprek278Algemene conversatiegegevens in WalesOngescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten,DubbelDesktop5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingVrouw 270, Man 324, Onbekend 0
SpraakVK Engels_WW_16UK EngelsUK Engelsnl_uk16 kHzWord Wekken200-SprekersWake Word Brits Engelstrefwoorden verzamelen van gegevens
  • 200 speakers
  • 4 unieke sleutelzinnen per spreker
  • 25-30 herhaalde keyphrases opnames per unieke keyphrase
  • 25-30 audiobestanden per unieke sleutelzin
  • 120 totaal opgenomen uitingen per spreker
1 kanaalMobile App5.0. Wav.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingGeslacht: 50% man, 50% vrouw, +/- 10%.

Diensten aangeboden

Het verzamelen van audiogegevens door experts is niet alle-hands-on-deck voor uitgebreide AI-setups. Bij Shaip kun je zelfs de volgende services overwegen om modellen veel wijder dan normaal te maken:

Verzameling van tekstgegevens

Tekstgegevensverzameling
Diensten

De echte waarde van Shaip-diensten voor cognitieve gegevensverzameling is dat het organisaties de sleutel geeft om kritieke informatie in ongestructureerde gegevens te ontsluiten

Verzameling van beeldgegevens

Diensten voor het verzamelen van beeldgegevens

Zorg ervoor dat uw computer vision-model elk beeld nauwkeurig identificeert, om de volgende generatie AI-modellen van de toekomst naadloos te trainen

Verzameling van videogegevens

Diensten voor het verzamelen van videogegevens

Concentreer u nu op computervisie samen met NLP voor het trainen van uw modellen om objecten, individuen, afschrikmiddelen en andere visuele elementen tot in de perfectie te identificeren

Neem contact met ons op

Wilt u uw eigen audiodataset bouwen?

Neem contact op met onze interne expert voor het verzamelen van spraakgegevens om een ​​audiorepository op te zetten die het beste bij uw vereisten past

  • Door te registreren ga ik akkoord met Shaip Privacy Policy en Algemene Voorwaarden en geef mijn toestemming om B2B-marketingcommunicatie van Shaip te ontvangen.

Het verzamelen van spraakgegevens voor een ML-model verwijst naar het proces van het verzamelen van audio-opnamen van gesproken taal. Deze verzameling helpt bij het trainen en verfijnen van machine learning-algoritmen, met name die gericht op het begrijpen en verwerken van menselijke stemmen.

Wanneer u audiogegevens wilt verzamelen voor automatische spraakherkenning (ASR), moet u beginnen met het definiëren van de specifieke behoeften van uw project, inclusief de gewenste taal, accent en type spraak. Zorg ervoor dat u na het instellen van deze parameters alle benodigde machtigingen verkrijgt om de privacy van gebruikers te respecteren. Gebruik vervolgens geschikte opnameapparaten of software om duidelijke audiofragmenten vast te leggen. Elke opname moet zorgvuldig worden geannoteerd met de transcriptie of andere relevante metagegevens en systematisch worden opgeslagen voor moeiteloze toegang.

Een spraakdataset in machinaal leren is cruciaal voor het trainen, testen en valideren van modellen die zijn afgestemd op het herkennen, transcriberen of interpreteren van gesproken taal. Dergelijke datasets maken de weg vrij voor een groot aantal toepassingen, van stemassistenten en transcriptiediensten tot stembiometrie.

Voor het verzamelen van nauwkeurige gegevens over verschillende talen en accenten is samenwerking met moedertaalsprekers met de gewenste taalachtergrond essentieel. Streef naar een gevarieerde en representatieve steekproef die een breed spectrum van demografische nuances bestrijkt. Gebruik gestandaardiseerde opnameapparatuur in uniforme omgevingen om audioconsistentie te garanderen. En nog belangrijker: annoteer elk gegevensstuk met gedetailleerde transcripties en metagegevens, die de specifieke taal en het specifieke accent aangeven.