Meest vertrouwde spraakgegevensverzamelingsservices voor uw AI
Train uw NLP-modellen, VA's, TTS-prototypes en meer met hoogwaardige gespreksgegevens, met onze diensten voor het verzamelen van audio- en spraakgegevens
Ontdek audiodatapijplijnen zonder knelpunten
Uitgelichte klanten
Professionele diensten voor het verzamelen van audio-/spraakgegevens
Elk onderwerp. Elk scenario.
Bij Shaip ligt onze expertise in het creëren van hoogwaardige spraakdatasets die zijn ontworpen voor uiteenlopende AI/ML-vereisten. We bieden een uitgebreid scala aan talen en nemen op in diverse omgevingen, waardoor onze datasets uitgebreid en aanpasbaar zijn. OOnze focus ligt op het voeden van modellen met het hoogste volume aan aangepaste spraakgegevens, in de kortst mogelijke tijd. Bij ons aan boord kunt u het volgende verwachten:
- Samengestelde meertalige audio-/spraakgegevens van hoge kwaliteit om de nauwkeurigheid te verbeteren
- Hoogst mogelijke niveau van domeinspecificiteit voor teen divers scenario setup
- Schaal uw ML-model om het aan te passen aan verschillende demografische gegevens en branches
- Opnameomgevingen: Studiokwaliteit, met kristalheldere audio met minimaal achtergrondgeluid, en Natuurlijke omgevingen, waarbij opnames omgevingsgeluiden bevatten om situaties uit de echte wereld na te bootsen.
100+
55K +
Uren aan spraakgegevens
250+
Projecten
60+
Talen (100+ dialecten)
8 / 16 / 44 / 48 kHz
sampling rate
Onze expertise
Stem audiogegevens af op slimmere NLP-modellen
Shaip biedt end-to-end spraak-/audiogegevensverzamelingsservices in meer dan 100+ talen om spraakgestuurde technologieën mogelijk te maken voor een diverse groep doelgroepen over de hele wereld. We kunnen werken aan projecten van elke omvang en omvang; van het licentiëren van bestaande standaard audiodatasets tot het beheren van aangepaste audiodataverzameling tot audiotranscriptie en annotatie. Hoe groot uw project voor het verzamelen van spraakgegevens ook is, we kunnen de audioverzamelingsservices aanpassen aan uw behoeften om hoogwaardige NLP-gegevenssets te bouwen die gericht zijn op dialecten, tonen en talen. Kies uit ons brede aanbod aan spraakdatasets en bronnen voor het verzamelen van audiodata, voor intelligente opstellingen die spraak mogelijk maken.
Monoloog spraakverzameling
Het richt zich op het verwerken van spraak van een enkele spreker. Gebruik gescripte aanwijzingen om audiobestanden met één kanaal in te voeren, zodat unieke spraakpatronen, tonen en nuances worden vastgelegd die specifiek zijn voor die persoon.
Dialoogtoespraak
Collectie
Interactie tussen twee personen, waarbij gesprekken en dialogen uit de echte wereld worden gerepliceerd met meertalige blootstelling via tweekanaalsbestanden en getranscribeerde bronnen.
Groep / Muti-partij
Gesprekken
Discussies met meerdere personen, waarbij groepsdynamiek, overlappingen en gevarieerde tonen worden vastgelegd om spraakmodellen nauwkeurig te trainen.
Verzameling van natuurlijke taaluitingen
Train AI's om zinsneden te identificeren of woorden met een vergelijkbare betekenis wakker te maken met behulp van diverse, rijke en authentieke uitingen voor geavanceerde verwerking en begrip van natuurlijke taal.
Akoestische gegevens
Collectie
We kunnen op professionele wijze audiogegevens van studiokwaliteit opnemen, of het nu restaurants, kantoren of huizen zijn of vanuit verschillende omgevingen en talen, terwijl we een breder akoestisch bereik bestrijken (Comprehensive Sound Datasets).
Automatische spraakherkenning (ASR)
Verbeter de nauwkeurigheid van uw automatische spraakherkenningssystemen (ASR) door toegang te hebben tot geavanceerde, gediversifieerde spraak-/audiodatasets uit een breed scala aan demografische gegevens.
Meertalige spraak-/audiotrainingsgegevens
Onze ervaren taalprofessionals over de hele wereld bieden meertalige audio-/spraakgegevens in verschillende talen en dialecten. Deze inspanning bevordert de mondiale communicatie en overbrugt taalbarrières, waardoor wordt bijgedragen aan meer inclusieve en effectieve AI-oplossingen.
Text-to-Speech
(TTS)
Bouw een meertalig tekst-naar-spraakmodel (TTS) met de hulp van ons wereldwijde personeelsbestand, dat u helpt spraakgegevens te verzamelen in meer dan 150 talen en dialecten om uw AI-modellen te verbeteren, van bedieningselementen in de auto tot chatbots en leeroplossingen met hoogwaardige hoogwaardige audiogegevens.
Call Center
Recordings
Echte uitwisselingen tussen agenten en klanten, waarbij talloze talen worden ondersteund, zoals Spaans, Duits, Amerikaans Engels, Bengaals, Japans, Chinees en Hindi.
Succesverhalen
Conversationele AI-datasets met meer dan 3 uur aan gegevens in 8 talen
De klant wilde een meertalig platform voor Indiase talen bouwen en werkte samen met Shaip om grote datasets in meerdere Indiase talen te verzamelen, segmenteren en transcriberen. Dit zou helpen bij het ontwikkelen van effectieve spraakmodellen die het innovatieve nieuwe platform van de cliënt zouden kunnen aandrijven.
probleem: Meer dan 3,000 uur aan audiogegevens verzameld in 8 Indiase talen, gesegmenteerd en getranscribeerd om automatische spraakherkenning te ontwikkelen.
Oplossing: We zorgden voor dataverzameling, segmentatie, transcriptie en leverden JSON-bestanden met metadata. We hebben op schaal 3000 uur aan audiogegevens in 8 Indiase talen verzameld voor het spraaktechnologieproject van de klant.
Redenen om Shaip te kiezen als uw betrouwbare partner voor het verzamelen van spraakgegevens
Mensen
Toegewijde en getrainde teams:
- 30,000+ medewerkers voor gegevenscreatie, labeling en QA
- Gecertificeerd projectmanagementteam
- Ervaren productontwikkelingsteam
- Talentpool Sourcing & Onboarding-team
Proces
De hoogste procesefficiëntie wordt gegarandeerd met:
- Robuust 6 Sigma Stage-Gate-proces
- Een toegewijd team van 6 Sigma black belts – Key process owners & Quality compliance
- Continue verbetering en feedbacklus
Platform
Het gepatenteerde platform biedt voordelen:
- Webgebaseerd end-to-end platform
- Onberispelijke kwaliteit
- Snellere TAT
- Naadloze levering
Mensen
Toegewijde en getrainde teams:
- 30,000+ medewerkers voor gegevenscreatie, labeling en QA
- Gecertificeerd projectmanagementteam
- Ervaren productontwikkelingsteam
- Talentpool Sourcing & Onboarding-team
Proces
De hoogste procesefficiëntie wordt gegarandeerd met:
- Robuust 6 Sigma Stage-Gate-proces
- Een toegewijd team van 6 Sigma black belts – Key process owners & Quality compliance
- Continue verbetering en feedbacklus
Platform
Het gepatenteerde platform biedt voordelen:
- Webgebaseerd end-to-end platform
- Onberispelijke kwaliteit
- Snellere TAT
- Naadloze levering
Kant-en-klare spraak-/audiodatasets
Details | Corpus-ID (uniek) | Keyword | Taalgegevensset | Taalcode | Sample Rate | Gegevenssettype | Totaal aantal audio-uren | Korte omschrijving | Gegevenssetbeschrijving | Audio Channel | Opnameplatform | WER (%) | Audioformaat | Transcriptie-indeling | Use Case | Aantal Luidsprekers | CTA |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
nl_US_CC_8 | Afro-Amerikaanse volkstaal | Afro-Amerikaanse volkstaal | nl_NL | 8 kHz | Callcenter | 211 | Afro-Amerikaanse lokale callcentergegevens | Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, | Dubbel | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw: 612, Man: 1242 en Onbekend: 12 | Neem contact op | |
nl_US_MA_16 | Afro-Amerikaanse volkstaal | Afro-Amerikaanse volkstaal | nl_NL | 16 kHz | Media-audio | 154 | Afro-Amerikaanse lokale mediagegevens | Licentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minuten | Mono | Websourcing | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw: 151, Man: 150 en Onbekend: 10 | Neem contact op | |
Afrikaans_GC_8 | Afrikaans | Afrikaans | af_ZA | 8 kHz | Algemeen gesprek | 368 | Afrikaans Algemene gespreksgegevens | Unscripted telefonisch gesprek tussen twee mensen. Ca. Audioduur (bereik) - 15-60 minuten, Afrikaans gesproken in Afrika | Dubbel | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw: 502, Man: 390 en Onbekend: 2 | Neem contact op | |
Afrikaans_MA_16 | Afrikaans | Afrikaans | af_ZA | 16 kHz | Media-audio | 658 | Afrikaanse mediabestanden | Licentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minuten | Mono | Websourcing | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw: 750, Man: 1278 en Onbekend: 52 | Neem contact op | |
Arabisch_GC_8 | Arabisch | Arabisch | ar_AE | 8 kHz | Algemeen gesprek | 292 | Arabisch Algemene gespreksgegevens | Unscripted telefonisch gesprek tussen twee mensen. Ca. Audioduur (bereik) - 15-60 minuten, Arabisch uit de Golfstaten | Dubbel | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw: 171, Man: 534 en Onbekend: 1 | Neem contact op | |
Arabisch_SM_48 | Arabisch | Arabisch | ar-SA | 48 kHz | Monoloog met script | 1,947 | Monoloog in Arabisch script | Opnamen met één uiting, die meestal binnen het bereik van 5 tot 30 seconden vallen | Mono | Mobile App | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 838 Man 1209 Onbekend 78 | Neem contact op | |
Assamees_CC_8 | Assamees | Assamees (in pijplijn) | als in | Callcenter | 60 | Assamese (in pijplijn) callcentergegevens | Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Neem contact op | ||||
Assamees_GC | Assamees | Assamees (in pijplijn) | als in | Algemeen gesprek | 100 | Assamees (in de pijplijn) Algemene gespreksgegevens | Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Neem contact op | ||||
Assamees_MA | Assamees | Assamees (in pijplijn) | als in | Media-audio | 40 | Assamees (in pijplijn) Media-audiogegevens | Licentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minuten | Websourcing | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Neem contact op | ||||
Bengaals_CC_8 | Bengalees | Bengaals (in de pijplijn) | miljard_IN | Callcenter | 60 | Bengaalse (in pijplijn) callcentergegevens | Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Neem contact op | ||||
Bengaals_GC | Bengalees | Bengaals (in de pijplijn) | miljard_IN | Algemeen gesprek | 100 | Bengaals (in pijplijn) Algemene gespreksgegevens | Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Neem contact op | ||||
Bengaals_MA | Bengalees | Bengaals (in de pijplijn) | miljard_IN | Media-audio | 40 | Bengaals (in pijplijn) Media-audiogegevens | Licentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minuten | Websourcing | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Neem contact op | ||||
Boston_CC_8 | Boston Engels | Boston Engels | nl_NL | 8 kHz | Callcenter | 177 | Boston Callcenter-gegevens | Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, | Dubbel | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw: 605, Man: 711 en Onbekend: 0 | Neem contact op | |
Boston_GC_8 | Boston Engels | Boston Engels | nl_NL | 8 kHz | Algemeen gesprek | 32 | Boston Algemene gespreksgegevens | Unscripted telefonisch gesprek tussen twee mensen. Ca. Audioduur (bereik) - 15-60 minuten, | Dubbel | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw: 53, Man: 83 en Onbekend: 0 | Neem contact op | |
Boston_MA_16 | Boston Engels | Boston Engels | nl_NL | 16 kHz | Media-audio | 93 | Boston Media-audiogegevens | Licentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minuten | Mono | Websourcing | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw: 43, Man: 181 en Onbekend: 2 | Neem contact op | |
Canadese_SM_48 | Canadees Frans | Canadees Frans | fr-CA | 48 kHz | Monoloog met script | 1,222 | Canadees Frans | Opnamen met één uiting, die meestal binnen het bereik van 5 tot 30 seconden vallen | Mono | Mobile App | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 974 Man 631 Onbekend 1 | Neem contact op | |
Chinees_CC_8 | Chinees Engels | Chinees Engels | nl_NL | 8 kHz | Callcenter | 169 | Chinese callcentergegevens | Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, | Dubbel | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw: 1790, Man: 523 en Onbekend: 13 | Neem contact op | |
Chinees_MA_16 | Chinees Engels | Chinees Engels | nl_NL | 16 kHz | Media-audio | 249 | Chinese media-audiogegevens | Licentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minuten | Mono | Websourcing | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw: 126, Man: 346 en Onbekend: 6 | Neem contact op | |
Vereenvoudigd Chinees_SM_48 | Vereenvoudigd Chinees | Vereenvoudigd Chinees | zh-CN | 48 kHz | Monoloog met script | 2,762 | Vereenvoudigd Chinees | Opnamen met één uiting, die meestal binnen het bereik van 5 tot 30 seconden vallen | Mono | Mobile App | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 1920 Man 1535 Onbekend 270 | Neem contact op | |
Traditioneel Chinees_SM_48 | Traditioneel Chinees | Traditioneel Chinees | zh-TW | 48 kHz | Monoloog met script | 1,028 | Traditioneel Chinees | Opnamen met één uiting, die meestal binnen het bereik van 5 tot 30 seconden vallen | Mono | Mobile App | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 1069 Man 262 Onbekend 3 | Neem contact op | |
Deens_GC_8 | Deens | Deens | da_DK | 8 kHz | Algemeen gesprek | 372 | Deense algemene conversatiegegevens | Unscripted telefonisch gesprek tussen twee mensen. Ca. Audioduur (bereik) - 15-60 minuten, | Dubbel | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw: 311, Man: 417, Onbekend: 0 | Neem contact op | |
Deens_MA_16 | Deens | Deens | da_DK | 16 kHz | Media-audio | 664 | Deense media audiogegevens | Licentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minuten | Mono | Websourcing | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw: 369, Man: 864, Onbekend: 27 | Neem contact op | |
Deens_SM_48 | Deens | Deens | da-DK | 48 kHz | Monoloog met script | 2,579 | Deens geschreven monoloog | Opnamen met één uiting, die de neiging hebben om in het bereik van 5 tot 30 seconden te vallen, Deens uit Denemarken | Mono | Mobile App | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 1551 Man 1233 Onbekend 42 | Neem contact op | |
Engels Diep Zuid_CC_8 | Engels Diep Zuid | Engels Diep Zuid | nl_NL | 8 kHz | Callcenter | 151 | Engels Deep South Callcenter-gegevens | Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, | Dubbel | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 221 , Man 1004 , Onbekend 7 | Neem contact op | |
Engels Diep Zuid_GC_8 | Engels Diep Zuid | Engels Diep Zuid | nl_NL | 8 kHz | Algemeen gesprek | 56 | Engelse Deep South Algemene gespreksgegevens | Unscripted telefonisch gesprek tussen twee mensen. Ca. Audioduur (bereik) - 15-60 minuten, | Dubbel | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 99, Man 31, Onbekend 0 | Neem contact op | |
Engels Diep Zuid_MA_16 | Engels Diep Zuid | Engels Diep Zuid | nl_NL | 16 kHz | Media-audio | 266 | Engelse Deep South Media-audiogegevens | Licentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minuten | Mono | Websourcing | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 204, Man 356, Onbekend 21 | Neem contact op | |
Duits_CC_8 | Duits | Duits | de-De | 8 kHz | Callcenter | 64 | Duitse callcentergegevens | Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, | Mono | Desktop | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 478 Man 1440 Onbekend 0 | Neem contact op | ||
Duitse_IVR_8 | Duits | Duits | de-De | 8 kHz | IVR | 200 | Duitse IVR-gegevens | Mens naar machine. Een IVR-type stroom waarbij er een TTS-prompt is (bijv. "Hoe kan ik u helpen") gevolgd door een spontane menselijke reactie | Mono | Desktop | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 10115 Man 8750 Onbekend 0 | Neem contact op | ||
Gujarati_CC_8 | Gujarati | Gujarati (in de pijplijn) | gu_IN | Callcenter | 60 | Gujarati (in de pijplijn) Callcentergegevens | Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Neem contact op | ||||
Gujarati_GC | Gujarati | Gujarati (in de pijplijn) | gu_IN | Algemeen gesprek | 100 | Gujarati (in de pijplijn) Algemene gespreksgegevens | Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Neem contact op | ||||
Gujarati_MA | Gujarati | Gujarati (in de pijplijn) | gu_IN | Media-audio | 40 | Gujarati (in de pijplijn) Media-audiogegevens | Licentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minuten | Websourcing | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Neem contact op | ||||
Hebreeuws_Algemeen gesprek_8 | Hebreeuws | Hebreeuws | hij_IL | 8 kHz | Algemeen gesprek | 399 | Hebreeuwse algemene conversatiegegevens | Unscripted telefonisch gesprek tussen twee mensen. Ca. Audioduur (bereik) - 15-60 minuten, Hebreeuws in Israël | Dubbel | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 414 , Man 399 , Onbekend 1 | Neem contact op | |
Hebreeuws_MA_16 | Hebreeuws | Hebreeuws | hij_IL | 16 kHz | Media-audio | 427 | Hebreeuwse media-audiogegevens | Licentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minuten | Mono | Websourcing | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 361 , Man 513, Onbekend 13 | Neem contact op | |
Hindi_MA_16 | Hindi | Hindi | hoi_IN | 16 kHz | Media-audio | 219 | Hindi Media-audiogegevens | Licentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minuten | Mono | Websourcing | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 83 , Man 309, Onbekend 0 | Neem contact op | |
Hindi_SM_48 | Hindi | Hindi | hi-IN | 48 kHz | Monoloog met script | 2,867 | Monoloog in Hindi-schrift | Opnamen met één uiting, die meestal binnen het bereik van 5 tot 30 seconden vallen | Mono | Mobile App | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 1977 Man 1864 Onbekend 147 | Neem contact op | |
HINGLISH_CC_8 | Hinglish | Hinglish | hg_IN | 8 kHz | Callcenter | 208 | HINGLISH Callcentergegevens | Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, | Dubbel | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 822, Man 1262 , Onbekend 0 | Neem contact op | |
HINGLISH_MA_16 | Hinglish | Hinglish | hg_IN | 16 kHz | Media-audio | 216 | HINGLISH Media-audiogegevens | Licentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minuten | Mono | Websourcing | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 75, Man 380, Onbekend 0 | Neem contact op | |
Spaanse_CC_8 | Spaans Engels | Spaans Engels | nl_NL | 8 kHz | Callcenter | 212 | Spaanse callcentergegevens | Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, | Dubbel | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 822, Man 1262, Onbekend 0 | Neem contact op | |
Spaanse_MA_16 | Spaans Engels | Spaans Engels | nl_NL | 16 kHz | Media-audio | 155 | Hispanic Call Media-audio | Licentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minuten | Mono | Websourcing | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 140, Man 219, Onbekend 5 | Neem contact op | |
Indonesisch_GC_8 | Indonesian | Indonesian | ik deed | 8 kHz | Algemeen gesprek | 496 | Indonesische algemene gespreksgegevens | Unscripted telefonisch gesprek tussen twee mensen. Ca. Audioduur (bereik) - 15-60 minuten, Bahasa Indonesisch | Dubbel | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 524, Man 454, Onbekend 2 | Neem contact op | |
Indonesisch_MA_16 | Indonesian | Indonesian | ik deed | 16 kHz | Media-audio | 643 | Indonesische media-audiogegevens | Licentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minuten | Mono | Websourcing | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 746, Man 1507, Onbekend 129 | Neem contact op | |
Iers_GC_8 | Iers | Iers | nl_IE | 8 kHz | Algemeen gesprek | 192 | Ierse algemene conversatiegegevens | Unscripted telefonisch gesprek tussen twee mensen. Ca. Audioduur (bereik) - 15-60 minuten, | Dubbel | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 213 , Man 153 , Onbekend 0 | Neem contact op | |
Japanse_SM_48 | Japanse | Japanse | ja-JP | 48 kHz | Monoloog met script | 2,335 | Monoloog in Japans script | Opnamen met één uiting, die meestal binnen het bereik van 5 tot 30 seconden vallen | Mono | Mobile App | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 1460 Man 1221 Onbekend 194 | Neem contact op | |
Kannada_CC_8 | Kannada | Kannada (in pijplijn) | kn_IN | Callcenter | 60 | Kannada (in de pijplijn) Callcentergegevens | Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Neem contact op | ||||
Kannada_GC | Kannada | Kannada (in pijplijn) | kn_IN | Algemeen gesprek | 100 | Kannada (in pijplijn) Algemene gespreksgegevens | Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Neem contact op | ||||
Kannada_MA | Kannada | Kannada (in pijplijn) | kn_IN | Media-audio | 40 | Kannada (in pijplijn) Media-audiogegevens | Licentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minuten | Websourcing | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Neem contact op | ||||
Koreaans_CC_8 | Korean | Korean | ko_KR | 8 kHz | Callcenter | 107 | Koreaanse callcentergegevens | Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, | Dubbel | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 1086, Man 210 , Onbekend 4 | Neem contact op | |
Koreaanse_MA_16 | Korean | Korean | ko_KR | 16 kHz | Media-audio | 204 | Koreaanse media-audiogegevens | Licentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minuten | Mono | Websourcing | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 70 Man 303, Onbekend 25 | Neem contact op | |
Koreaans_SM_48 | Korean | Korean | ko-KR | 48 kHz | Monoloog met script | 1,955 | Monoloog in Koreaans script | Opnamen met één uiting, die meestal binnen het bereik van 5 tot 30 seconden vallen | Mono | Mobile App | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 1195 Man 1134 Onbekend 122 | Neem contact op | |
Maleis_GC_8 | Malay | Malay | ms_MIJN | 8 kHz | Algemeen gesprek | 266 | Maleis Algemene gespreksgegevens | Unscripted telefonisch gesprek tussen twee mensen. Ca. Audioduur (bereik) - 15-60 minuten, Maleis in Maleisië | Dubbel | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 316, Man 176 , Onbekend 0 | Neem contact op | |
Maleis_MA_16 | Malay | Malay | ms_MIJN | 16 kHz | Media-audio | 344 | Maleisische media-audiogegevens | Licentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minuten | Mono | Websourcing | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 236, Man 626, Onbekend 47 | Neem contact op | |
Malayalam_CC_8 | Malayalam | Malayalam (in pijplijn) | ml_IN | Callcenter | 60 | Malayalam (in pijplijn) callcentergegevens | Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Neem contact op | ||||
Malayalam_GC | Malayalam | Malayalam (in pijplijn) | ml_IN | Algemeen gesprek | 100 | Malayalam (in pijplijn) Algemene gespreksgegevens | Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Neem contact op | ||||
Malayalam_MA | Malayalam | Malayalam (in pijplijn) | ml_IN | Media-audio | 40 | Malayalam (in pijplijn) Media-audiogegevens | Licentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minuten | Websourcing | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Neem contact op | ||||
Marathi_CC_8 | marathi | Marathi (in de pijplijn) | dhr_IN | Callcenter | 60 | Marathi (In Pipeline) Callcentergegevens | Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Neem contact op | ||||
Marathi_GC | marathi | Marathi (in de pijplijn) | dhr_IN | Algemeen gesprek | 100 | Marathi (in pijplijn) Algemene gespreksgegevens | Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Neem contact op | ||||
Marathi_MA | marathi | Marathi (in de pijplijn) | dhr_IN | Media-audio | 40 | Marathi (in pijplijn) Media-audiogegevens | Licentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minuten | Websourcing | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Neem contact op | ||||
Mexicaanse_SM_48 | Spaans (Mexico) | Spaans (Mexico) | es-MX | 48 kHz | Monoloog met script | 1,492 | Monoloog in Mexicaans-Spaans script | Opnamen met één uiting, die meestal binnen het bereik van 5 tot 30 seconden vallen | Mono | Mobile App | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 1016 Man 1069 Onbekend 95 | Neem contact op | |
Nederland_SM_48 | Nederlands | Nederlands | nl-NL | 48 kHz | Monoloog met script | 1,205 | Nederlandstalige monoloog | Opnamen met één uiting, die meestal binnen het bereik van 5 tot 30 seconden vallen | Mono | Mobile App | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 1285 Man 531 Onbekend 3 | Neem contact op | |
New York Engels_CC_8 | New York Engels | New York Engels | nl_NL | 8 kHz | Callcenter | 103 | New York Engels Callcentergegevens | Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, | Dubbel | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 610, Man 532, Onbekend 0 | Neem contact op | |
New York Engels_GC_8 | New York Engels | New York Engels | nl_NL | 8 kHz | Algemeen gesprek | 107 | New York Engels Algemene gespreksgegevens | Unscripted telefonisch gesprek tussen twee mensen. Ca. Audioduur (bereik) - 15-60 minuten, | Dubbel | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 118, Man 114, Onbekend 0 | Neem contact op | |
New York Engels_MA_16 | New York Engels | New York Engels | nl_NL | 16 kHz | Media-audio | 140 | New York English Media-audiogegevens | Licentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minuten | Mono | Websourcing | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 66, Man 230, Onbekend 11 | Neem contact op | |
Nieuw-Zeeland_GC_8 | Nieuw-Zeeland Engels | Nieuw-Zeeland Engels | nl_NZ | 8 kHz | Algemeen gesprek | 148 | Nieuw-Zeeland Engels Algemene gespreksgegevens | Unscripted telefonisch gesprek tussen twee mensen. Ca. Audioduur (bereik) - 15-60 minuten, | Dubbel | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 167, man 121, Onbekend 4 | Neem contact op | |
Nieuw-Zeeland_MA_16 | Nieuw-Zeeland Engels | Nieuw-Zeeland Engels | nl_NZ | 16 kHz | Media-audio | 400 | Nieuw-Zeelandse Engelse media-audio | Licentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minuten | Mono | Websourcing | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 367, man 678, Onbekend 26 | Neem contact op | |
Oriya_CC_8 | Oriya | Oriya (in pijplijn) | of_IN | Callcenter | 60 | Oriya (In Pipeline) Callcenter-gegevens | Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Neem contact op | ||||
Oriya_GC | Oriya | Oriya (in pijplijn) | of_IN | Algemeen gesprek | 100 | Oriya (in pijplijn) Algemene gespreksgegevens | Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Neem contact op | ||||
Oriya_MA | Oriya | Oriya (in pijplijn) | of_IN | Media-audio | 40 | Oriya (in pijplijn) Media-audiogegevens | Licentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minuten | Websourcing | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Neem contact op | ||||
Pools_MA_16 | Pools | Pools | pl_PL | 16 kHz | Media-audio | 269 | Poolse media-audio | Licentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minuten | Mono | Websourcing | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 173 Man 354 Onbekend 6 | Neem contact op | |
Pools Poland_SM_48 | Pools (Polen) | Pools (Polen) | nl-NL | 48 kHz | Monoloog met script | 1,482 | Pools Polen - Gescripte monoloog | Opnamen met één uiting, die meestal binnen het bereik van 5 tot 30 seconden vallen | Mono | Mobile App | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 1324 Man 701 Onbekend 24 | Neem contact op | |
Punjabi_CC_8 | Punjabi | Punjabi (in de pijplijn) | Punjabi | Callcenter | 60 | Punjabi (in de pijplijn) Callcenter-gegevens | Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Neem contact op | ||||
Punjabi_GC | Punjabi | Punjabi (in de pijplijn) | Punjabi | Algemeen gesprek | 100 | Punjabi (in de pijplijn) Algemene gespreksgegevens | Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Neem contact op | ||||
Punjabi_MA | Punjabi | Punjabi (in de pijplijn) | Punjabi | Media-audio | 40 | Punjabi (in de pijplijn) Media-audiogegevens | Licentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minuten | Websourcing | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Neem contact op | ||||
Russische_SM_48 | Russian | Russian | ru-RU | 48 kHz | Monoloog met script | 2,398 | Monoloog in Russisch script | Opnamen met één uiting, die meestal binnen het bereik van 5 tot 30 seconden vallen | Mono | Mobile App | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 1689 Man 1937 Onbekend 214 | Neem contact op | |
Schotse_GC_8 | Schots (Engels accent) | Schots (Engels accent) | nl_AB | 8 kHz | Algemeen gesprek | 292 | Schotse algemene gespreksgegevens | Unscripted telefonisch gesprek tussen twee mensen. Ca. Audioduur (bereik) - 15-60 minuten, | Dubbel | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 285 , Man 260, Onbekend 3 | Neem contact op | |
Singapore_CC_8 | Singapore Engels | Singapore Engels | nl_SG | 8 kHz | Callcenter | 218 | Gegevens van het callcenter in Singapore | Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, | Dubbel | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 2139 , Man 884, Onbekend 21 | Neem contact op | |
Singapore_MA_16 | Singapore Engels | Singapore Engels | nl_SG | 16 kHz | Media-audio | 247 | Singapore Media-audiogegevens | Licentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minuten | Mono | Websourcing | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 160, Man 455, Onbekend 37 | Neem contact op | |
Zuid-Afrikaans Engels_CC_8 | Zuid-Afrikaans Engels | Zuid-Afrikaans Engels | nl_ZA | 8 kHz | Callcenter | 261 | Zuid-Afrikaans-Engelse callcentergegevens | Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, | Dubbel | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 1274 , Man 935 , Onbekend 1 | Neem contact op | |
Zuid-Afrikaans Engels_MA_16 | Zuid-Afrikaans Engels | Zuid-Afrikaans Engels | nl_ZA | 16 kHz | Media-audio | 251 | Zuid-Afrikaans Engels Media-audiogegevens | Licentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minuten | Mono | Websourcing | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 235, Man 432, Onbekend 36 | Neem contact op | |
Swahili_CC_8 | swahili | swahili | sw_KE | 8 kHz | Callcenter | 230 | Swahili callcentergegevens | Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, | Dubbel | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 611, Man 833, Onbekend 0 | Neem contact op | |
Swahili_MA_16 | swahili | swahili | sw_KE | 16 kHz | Media-audio | 265 | Swahili Media-audiogegevens | Licentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minuten | Mono | Websourcing | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 118, Man 493, Onbekend 25 | Neem contact op | |
Zweeds_CC_8 | Zweeds | Zweeds | sv_SE | 8 kHz | Callcenter | 250 | Zweedse callcentergegevens | Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, | Dubbel | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 1581, man 727, Onbekend 2 | Neem contact op | |
Zweedse_MA_16 | Zweeds | Zweeds | sv_SE | 16 kHz | Media-audio | 278 | Zweedse media-audiogegevens | Licentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minuten | Mono | Websourcing | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 195, man 500, Onbekend 21 | Neem contact op | |
Tamil_CC_8 | tamil | Tamil (in de pijplijn) | ta_IN | Callcenter | 60 | Tamil (in pijplijn) callcentergegevens | Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Neem contact op | ||||
Tamil_GC | tamil | Tamil (in de pijplijn) | ta_IN | Algemeen gesprek | 100 | Tamil (in de pijplijn) Algemene gespreksgegevens | Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Neem contact op | ||||
Tamil_MA | tamil | Tamil (in de pijplijn) | ta_IN | Media-audio | 40 | Tamil (in pijplijn) Media-audiogegevens | Licentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minuten | Websourcing | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Neem contact op | ||||
Telugu_GC_8 | Telugu | Telugu | te_IN | 8 kHz | Algemeen gesprek | 553 | Telugu Algemene gespreksgegevens | Unscripted telefonisch gesprek tussen twee mensen. Ca. Audioduur (bereik) - 15-60 minuten, | Dubbel | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 574 , Man 564, Onbekend 0 | Neem contact op | |
Telugu_MA_16 | Telugu | Telugu | te_IN | 16 kHz | Media-audio | 648 | Telugu Media-audiogegevens | Licentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minuten | Mono | Websourcing | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 207, Man 963, Onbekend 2 | Neem contact op | |
Telugu_CC_8 | Telugu | Telugu (in pijplijn) | te_IN | Callcenter | 30 | Telugu (in de pijplijn) Callcenter-gegevens | Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Neem contact op | ||||
Telugu_GC | Telugu | Telugu (in pijplijn) | te_IN | Algemeen gesprek | 50 | Telugu (in pijplijn) Algemene gespreksgegevens | Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Neem contact op | ||||
Telugu_MA | Telugu | Telugu (in pijplijn) | te_IN | Media-audio | 20 | Telugu (in pijplijn) Media-audiogegevens | Licentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minuten | Websourcing | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Neem contact op | ||||
Thaise_GC_8 | Thai | Thai | th_TH | 8 kHz | Algemeen gesprek | 183 | Thais algemeen gesprek | Unscripted telefonisch gesprek tussen twee mensen. Ca. Audioduur (bereik) - 15-60 minuten, een informeel register dat wordt gebruikt tussen vrienden | Dubbel | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 338, Man 96, Onbekend 8 | Neem contact op | |
Thaise_MA_8 | Thai | Thai | th_TH | 16 kHz | Media-audio | 173 | Thaise media-audio | Licentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minuten | Mono | Websourcing | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 143, Man 502, Onbekend 26 | Neem contact op | |
Turks Turkije_SM_48 | Turks Turkije | Turks Turkije | tr-TR | 48 kHz | Monoloog met script | 2,027 | Turks Turkije | Opnamen met één uiting, die meestal binnen het bereik van 5 tot 30 seconden vallen | Mono | Mobile App | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 1561 Man 1241 Onbekend 31 | Neem contact op | |
Vietnamees_GC_8 | Vietnamees | Vietnamees | vi_VN | 8 kHz | Algemeen gesprek | 295 | Vietnamese algemene gespreksgegevens | Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, noordelijk (bijv. Hanoi), centraal en zuidelijk (bijv. Ho Chi Minh-stad). | Dubbel | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 400, man 380, Onbekenden 2 | Neem contact op | |
Vietnamees_MA_16 | Vietnamees | Vietnamees | vi_VN | 16 kHz | Media-audio | 257 | Vietnamese media-audiogegevens | Licentieplichtige audio-/videobestanden in het publieke domein, zoals interviews, podcasts enz. - 1 tot 5 personen. Ca. Audioduur (bereik) 15-60 minuten | Mono | Websourcing | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 249, man 200, Onbekenden 45 | Neem contact op | |
Welsh_GC_8 | Wels (Engels accent) | Wels (Engels accent) | nl_WL | 8 kHz | Algemeen gesprek | 278 | Algemene conversatiegegevens in Wales | Ongescript, synthetisch telefoongesprek tussen "agent" en "klant", Ca. Audioduur (bereik) 5-15 minuten, | Dubbel | Desktop | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Vrouw 270, Man 324, Onbekend 0 | Neem contact op | |
VK Engels_WW_16 | UK Engels | UK Engels | nl_uk | 16 kHz | Word Wekken | 200-Sprekers | Wake Word Brits Engels | trefwoorden verzamelen van gegevens
| 1 kanaal | Mobile App | 5.0 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Geslacht: 50% man, 50% vrouw, +/- 10%. | Neem contact op |
Diensten aangeboden
Het verzamelen van audiogegevens door experts is niet alle-hands-on-deck voor uitgebreide AI-setups. Bij Shaip kun je zelfs de volgende services overwegen om modellen veel wijder dan normaal te maken:
Tekstgegevensverzameling
Diensten
De echte waarde van Shaip-diensten voor cognitieve gegevensverzameling is dat het organisaties de sleutel geeft om kritieke informatie in ongestructureerde gegevens te ontsluiten
Diensten voor het verzamelen van beeldgegevens
Zorg ervoor dat uw computer vision-model elk beeld nauwkeurig identificeert, om de volgende generatie AI-modellen van de toekomst naadloos te trainen
Diensten voor het verzamelen van videogegevens
Concentreer u nu op computervisie samen met NLP voor het trainen van uw modellen om objecten, individuen, afschrikmiddelen en andere visuele elementen tot in de perfectie te identificeren
Aanbevolen bronnen
Het aanbieden van
Audioannotatie voor intelligente AI's
Audio-annotatiediensten zijn sinds het begin een sterk punt van Shaip. Ontwikkel, train en verbeter conversatie-AI, chatbots en spraakherkenningsengines met onze geavanceerde audioannotatieservices.
Kopergids
Koopgids: complete gids voor gespreks-AI
De chatbot waarmee u sprak, draait op een geavanceerd conversatie-AI-systeem dat is getraind, getest en gebouwd met behulp van talloze datasets voor spraakherkenning.
Gegevenscatalogus
Kant-en-klare spraakgegevenscatalogus en licenties
Er is een grote verscheidenheid aan veelgebruikte toepassingen voor spraakgegevens in AI-projecten. We bieden u enorme hoeveelheden gegevens van hoge kwaliteit die klaar zijn voor uw spraakherkenning.
Wilt u uw eigen audiodataset bouwen?
Neem contact op met onze interne expert voor het verzamelen van spraakgegevens om een audiorepository op te zetten die het beste bij uw vereisten past
Veel gestelde vragen (FAQ)
Het verzamelen van spraakgegevens voor een ML-model verwijst naar het proces van het verzamelen van audio-opnamen van gesproken taal. Deze verzameling helpt bij het trainen en verfijnen van machine learning-algoritmen, met name die gericht op het begrijpen en verwerken van menselijke stemmen.
Wanneer u audiogegevens wilt verzamelen voor automatische spraakherkenning (ASR), moet u beginnen met het definiëren van de specifieke behoeften van uw project, inclusief de gewenste taal, accent en type spraak. Zorg ervoor dat u na het instellen van deze parameters alle benodigde machtigingen verkrijgt om de privacy van gebruikers te respecteren. Gebruik vervolgens geschikte opnameapparaten of software om duidelijke audiofragmenten vast te leggen. Elke opname moet zorgvuldig worden geannoteerd met de transcriptie of andere relevante metagegevens en systematisch worden opgeslagen voor moeiteloze toegang.
Een spraakdataset in machinaal leren is cruciaal voor het trainen, testen en valideren van modellen die zijn afgestemd op het herkennen, transcriberen of interpreteren van gesproken taal. Dergelijke datasets maken de weg vrij voor een groot aantal toepassingen, van stemassistenten en transcriptiediensten tot stembiometrie.
Voor het verzamelen van nauwkeurige gegevens over verschillende talen en accenten is samenwerking met moedertaalsprekers met de gewenste taalachtergrond essentieel. Streef naar een gevarieerde en representatieve steekproef die een breed spectrum van demografische nuances bestrijkt. Gebruik gestandaardiseerde opnameapparatuur in uniforme omgevingen om audioconsistentie te garanderen. En nog belangrijker: annoteer elk gegevensstuk met gedetailleerde transcripties en metagegevens, die de specifieke taal en het specifieke accent aangeven.