Nu krijgen 50% KORTING* over kant-en-klare datasets voor conversatie-AI
Spraak- en audiodataset voor chatbots, stemassistenten en spraakgestuurde apparaten.
*Aanbieding voor beperkte periode
Vertrouwd door marktleiders
Details | Keyword | Kant-en-klare taaldataset | Callcentergesprekken 8khz* | Algemene gesprekken 8khz* | Media en podcasts 16 kHz* | Uiting/gescripte monoloog 16 kHz* | Totaal volume in uren | Dialecten gedekt | Audioformaat | Teksttranscriptieformaat | Use Case | bron | CTA |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Afrikaans | Afrikaanse audiogegevensset | 600 | 900 | 1500 | Afrikaans gesproken in Afrika | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | |||
Arabisch | Arabische audiogegevensset | 800 | 1500 | 2300 | Arabisch uit de Golfstaten | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | |||
Chinese | Chinese audiogegevensset | 2000 | 2000 | Chinees uit China | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | ||||
Deens | Deense audiodataset | 400 | 600 | 2000 | 3000 | Deens uit Denemarken | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | ||
Nederlands | Nederlandse audiodataset | 2000 | 2000 | Nederlands uit Nederland | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | ||||
Engels - AAVE-accent | Engels - AAVE-audiogegevensset (African American Vernacular English). | 500 | 500 | 1000 | De variant in de volkstaal (soms bekend als AAVE, doorgaans gesproken door de overgrote meerderheid van Afro-Amerikanen uit de arbeiders- en middenklasse) en de meer standaardvariant (doorgaans gesproken door Afro-Amerikanen uit de middenklasse in formele en openbare situaties), maar met een sterkere nadruk op de volkstaal. | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | |||
Engels - Boston/New York-accent | Engels - Boston/New York audiogegevensset | 225 | 225 | 350 | 800 | Dit is een verzameling van verschillende regionale accenten die worden gesproken in en rond de steden Boston, New York en Philadelphia. Deze accenten klinken misschien hetzelfde als niet-lokale accenten, maar verschillen van andere Amerikaanse accenten. Ondanks een lokale woordenschat die verschilt van andere delen van de Engelssprekende wereld, zijn deze accenten onderling verstaanbaar met Engels dat elders wordt gesproken. | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | ||
Engels - Chinees accent | Engels - Chinees geaccentueerde audiodataset | 150 | 300 | 450 | Sprekers die Chinees als hun eerste taal spreken en die als tieners/volwassenen naar de Verenigde Staten zijn verhuisd/geïmmigreerd en Engels als tweede taal hebben geleerd. | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | |||
Engels - Diep Zuid-accent | Engels - Deep South Audio-gegevensset | 275 | 275 | 450 | 1000 | Sprekers uit (i) Texas; (ii) Noord-Carolina, Zuid-Carolina, Georgië; (iii) New Orleans; (iv) Panhandle uit Florida; (v) Tennessee, Arkansas, Michigan. | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | ||
Engels - Spaans accent | Engels - Hispanic Accent Audio Dataset | 400 | 400 | 800 | Spaans Engels verwijst naar de varianten van Amerikaans Engels die worden gesproken door Spaanstalige Amerikanen met een divers nationaal erfgoed. De nadruk lag vooral op Mexicaans-Amerikanen, sprekers van verschillende nationale afkomst (bijv. Mexico, Puerto Rico, Dominicaanse Republiek, Ecuador, Cuba, enz.) en ook uit verschillende regio's (bijv. Californië, New York, Florida). De inbegrepen sprekers waren die Spaans als eerste taal spreken, evenals sprekers van Spaanse afkomst die Spaans spreken en een erfgoedtaal hebben. | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | |||
Engels - Nieuw-Zeelands accent | Engels - Nieuw-Zeelandse audiodataset | 250 | 750 | 1000 | Sprekers op beide eilanden, waaronder een mix van jongere sprekers (<40 jaar) en oudere sprekers (>40 jaar) in gelijke verhoudingen. | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | |||
Engels - Singapore-accent | Engels - Singapore Audiodataset | 400 | 600 | 1000 | Zowel standaard Singapore Engels als informeel Singapore Engels. Singaporezen met verschillende etnische achtergronden (bijvoorbeeld Chinees, Maleis, Indiaas, enz.) en met verschillende opleidingsniveaus. | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | |||
Engels - Zuid-Afrikaans accent | Engels - Zuid-Afrikaanse audiodataset | 400 | 600 | 1000 | Vertegenwoordigers uit verschillende sociaal-economische klassen en etnologische achtergronden (bijvoorbeeld Zuid-Afrikanen met een Europese, Afrikaanse, Indiase of gemengde achtergrond). | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | |||
Engels - Iers accent | Engels - Ierse audiodataset | 500 | 500 | Engels gesproken in Ierland | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | ||||
Engels - Schots accent | Engels - Schotse audiodataset | 800 | 800 | Engels gesproken door Schots | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | ||||
Engels - Welsh accent | Engels - Welshe audiogegevensset | 800 | 800 | Welsh Engels | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | ||||
Frans Canadees | Frans-Canadese audiogegevensset | 1000 | 1000 | Canadees Frans | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | ||||
Hebreeuws | Hebreeuwse audiogegevensset | 750 | 750 | 1500 | Hebreeuws in Israël | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | |||
Indonesian | Indonesische audiogegevensset | 1000 | 1000 | 2000 | Bahasa Indonesisch | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | |||
Japanse | Japanse audiogegevensset | 2000 | 2000 | Japans uit Japan | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | ||||
Korean | Koreaanse audiogegevensset | 100 | 200 | 1500 | 1800 | Sprekers verspreidden zich door heel Zuid-Korea. | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | ||
Malay | Maleisische audiogegevensset | 500 | 500 | 1000 | Maleis in Maleisië | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | |||
Mexicaans Spaans | Mexicaans-Spaanse audiogegevensset | 1250 | 1250 | Mexicaan uit Mexico | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | ||||
Pools | Poolse audiodataset | 250 | 2000 | 2250 | Pools uit Polen | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | |||
Russian | Russische audiogegevensset | 2000 | 2000 | Russisch uit Rusland | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | ||||
swahili | Swahili audiogegevensset | 350 | 650 | 1000 | Zuid-Afrikaans en Keniaans Swahili | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | |||
Zweeds | Zweedse audiodataset | 350 | 650 | 1000 | Zweeds in Zweden | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | |||
Taiwanees Chinees | Taiwanese audiogegevensset | 1000 | 1000 | Chinees uit Taiwan | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | ||||
Thai | Thaise audiogegevensset | 350 | 450 | 800 | Een informeel register dat wordt gebruikt tussen vrienden, | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | |||
Turks | Turkse audiodataset | 2000 | 2000 | Turks uit Turkije | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | ||||
Vietnamees | Vietnamese audiogegevensset | 600 | 400 | 1000 | Noordelijk (bijvoorbeeld Hanoi), Centraal en Zuidelijk (bijvoorbeeld Ho Chi Minh-stad). | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | |||
Hindi | Hindi audiogegevensset | 800 | 2000 | 2800 | Hindi in India, met name in de regio's Noord, Oost en West | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | |||
Hinglish | Indiaas-Engelse audiogegevensset | 300 | 500 | 800 | Verzameld uit stedelijke Indiase steden die financiële centra van het land zijn vanwege de groeiende economische kansen. Dergelijke plaatsen kunnen Noida, Delhi, Dehradun, Chandigarh, Mumbai, Kolkata, Bangalore, Pune, Chennai, Hyderabad, enz. Zijn | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | |||
Engels | Engelse audiogegevensset | 700 | 700 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | |||||
Kannada | Kannada audiogegevensset | 60 | 100 | 40 | 200 | Kannada uit Karnataka, India | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | ||
Malayalam | Malayalam-audiogegevensset | 60 | 100 | 40 | 200 | Malayalam uit Kerala, Lakshadweep en Pondicherry | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | ||
Oriya | Oriya-audiogegevensset | 60 | 100 | 40 | 200 | Oriya uit delen van Odisha, West-Bengalen, Jharkhand en Chhattisgarh | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | ||
Punjabi | Punjabi audiogegevensset | 60 | 100 | 40 | 200 | Punjabi uit Punjab, India | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | ||
tamil | Tamil-audiogegevensset | 60 | 100 | 240 | 400 | Tamil uit Tamil Nadu, India | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | ||
Telugu | Telugu-audiogegevensset | 100 | 950 | 950 | 2000 | Telugu uit Andhra Pradesh, India | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | ||
Bengalees | Bengaalse audiogegevensset | 60 | 100 | 40 | 200 | Bengaals uit West-Bengalen, India | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | ||
Gujarati | Gujarati-audiogegevensset | 60 | 100 | 40 | 200 | Gujarati uit Gujarat, India | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | ||
marathi | Marathi-audiogegevensset | 60 | 100 | 40 | 200 | Marathi uit Maharashtra, India | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op | ||
Assamees | Assamese audiogegevensset | 60 | 100 | 40 | 200 | Assamees uit Asssam, India | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Neem contact op Neem contact op |
Diepgaande expertise in Conversational AI
Conversational AI of Chatbots of Virtual / Digital Assistants zijn maar zo slim als de technologie en data erachter. Bij Shaip bieden we je een brede set van de gediversifieerde audiodataset voor Natural Language Processing (NLP) die gesprekken met echte mensen nabootst waarmee je je AI tot leven kunt brengen. Met onze diepgaande kennis helpen we u om AI-compatibele spraakmodellen te bouwen en te lokaliseren, met uiterste precisie met rijke en gestructureerde datasets in meerdere talen van over de hele wereld. We bieden meertalige audioverzameling, audiotranscriptie en audioannotatiediensten op basis van uw vereisten, terwijl we de gewenste intentie, uitingen en demografische distributie volledig aanpassen.
Verzameling van gescripte spraak
Spontane spraakverzameling
Transcriptie van audiogegevens
Gegevenslabels en annotaties
Met Shaip kunt u uw Conversational AI-platform nauwkeurig trainen, zodat het:
- Naadloos praten, sms'en en chatten via meerdere kanalen.
- Leer van bestaande interacties in de vorm van chat, spraaktranscripties, transacties, enz. en stel op basis van deze lessen voor en praat erover.
- Begrijp de bedoeling achter menselijke spraak en verwijder dubbelzinnigheid in het begrijpen van menselijke taal.
- Communiceer een-op-een met u en kan worden getraind om gebruikers te identificeren en eerdere gesprekken te onthouden.
Een wereldleider in Conversational AI-trainingsgegevens
Uren aan audiogegevens in meer dan 100 talen - Bron, getranscribeerd en geannoteerd
Spraakgegevenslicenties​
20k+ uur aan spraakgegevens in meer dan 40 talen en dialecten over een reeks van 55+ onderwerpen uit verschillende domeinen, zoals callcenter, debatten, algemene gesprekken, toespraken, podcasts, enz.
Spraakgegevensverzameling
Verzamel audio- en spraakgegevens (monoloog, 2-persoonsgesprek, mens-bot-chat) in meer dan 100 talen van over de hele wereld, aangepast aan uw AI-vereisten.
Transcriptie van spraakgegevens
Kosteneffectieve audiotranscriptie of audioannotatie door een sterk personeelsbestand van 30,000 medewerkers met gegarandeerde TAT, nauwkeurigheid en besparingen
Versnel de ontwikkeling van uw Conversational AI-app met Audio Collection & Audio Annotation Services
Het Shaip-voordeel
Schaal
We kunnen audiogegevens van over de hele wereld sourcen, schalen en leveren in meerdere talen en dialecten op basis van uw vereisten.
Expertise
We hebben de juiste expertise met betrekking tot nauwkeurige en onbevooroordeelde gegevensverzameling, transcriptie en annotatie volgens de gouden standaard.
Netwerk
Een netwerk van meer dan 30,000 gekwalificeerde bijdragers, aan wie snel gegevensverzamelingstaken kunnen worden toegewezen om AI-trainingsmodellen en opschalingsservices te bouwen.
Technologie
We hebben een volledig op AI gebaseerd platform met eigen tools en processen om het workflowbeheer 24 uur per dag te benutten.
Behendigheid
We passen ons zeer snel aan veranderingen in klantvereisten aan en helpen bij het versnellen van AI-ontwikkeling met hoogwaardige spraakgegevens die 5-10x sneller zijn dan de concurrentie.
Security
We hechten het grootste belang aan gegevensbeveiliging en privacy en zijn ook gecertificeerd om zeer gereguleerde gevoelige gegevens te verwerken.
Onze Specialiteiten
Trainingsdata
Krijg in een fractie van de tijd de hoogste kwaliteit gelabelde gegevens. Het is de gouden standaard, betrouwbaar en klaar om uw AI- en ML-modellen te trainen om de hoogste prestatieniveaus te bereiken.
Gegevensverzameling, etikettering en annotatie
Met Shaip krijg je meer dan 15 jaar bewezen expertise in het verzamelen, transcriberen en annoteren van kwaliteitsgegevens. Met onze wereldwijde beroepsbevolking kunnen we gegevens van over de hele wereld verzamelen en vervolgens etiketterings- en annotatieservices bieden met het perfecte vaardigheidsniveau en de expertise die nodig is voor uw gegevens.
Gegevenscatalogi en licenties
Met onze enorme inventaris van miljoenen datasets die u naar wens kunt verzamelen en ordenen. We kunnen die kwaliteitsgegevens vervolgens licentiëren voor uw specifieke AI- en ML-gebruiksvereisten. Bovendien zijn deze gegevens beschikbaar tegen een fractie van de kosten als u ze zelf zou maken.
Zelf een dataset samenstellen?
Neem nu contact met ons op om te zien hoe we een aangepaste dataset kunnen verzamelen voor uw unieke AI-oplossing.