Hindi-gegevensset

हिंदी डेटाह

Hoogwaardige Hindi callcenter-, algemene conversatie- en podcastdataset voor AI- en ASR-modellen

Overzicht

Titel (Taal)

Hindi-taaldataset

Datasettypen

Callcenter, Algemeen gesprek, Media (podcast), Gescripte monoloog

Land

India

Beschrijving

Ongescripte telefoongesprekken tussen twee personen zijn beschikbaar met een duur van 15 tot 60 minuten, evenals audio- of videobestanden die onder het publieke domein vallen en waarvoor een licentie kan worden verkregen, zoals interviews en podcasts met 1 tot 5 deelnemers binnen dezelfde tijdsspanne. Daarnaast duren opnamen van één enkele zin doorgaans 5 tot 30 seconden, en zijn er ook gescripte monologen beschikbaar.

Use Case

ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling

Gegevenssetgegevens

Gegevenssettype Sampling Rate Sprekers Kanaal Uren in totaal Totaal aantal sprekers
Call Center 8 kHz 2-Sprekers Dubbel 70:45:51 Op aanvraag
Call Center 8 kHz 2-Sprekers Mono 20,000:00:00 Op aanvraag
Call Center 16 kHz 2-Sprekers Mono 29:17:20 261
Call Center 16 kHz 2-Sprekers Dubbel 400:27:10 1200
Algemeen gesprek 8 kHz 2-Sprekers Dubbel 47:48:40 224
Mediagegevens 16 kHz Meerdere luidsprekers Mono 227:57:43 438
Monoloog met script 48 kHz Enkele luidspreker Mono 2,866:00:00 3,988
Monoloog met script 24 kHz Enkele luidspreker Mono 29,000:00:00 Op aanvraag

Uitgelichte klanten

Teams in staat stellen om toonaangevende AI-producten te bouwen.

Amazon
Google
Microsoft
Neem contact met ons op

Kunt u niet vinden wat u zoekt?

Er worden nieuwe kant-en-klare datasets verzameld voor alle datatypen

Neem nu contact met ons op om uw zorgen over het verzamelen van audio-/spraaktrainingsgegevens los te laten

  • Dit veld is voor de validatie doeleinden en moet onveranderd worden gelaten.
  • Door te registreren ga ik akkoord met Shaip Privacybeleid en Algemene Voorwaarden en geef mijn toestemming om B2B-marketingcommunicatie van Shaip te ontvangen.