Muziek AI Casestudy

Verzameling van gegevens over zangstemmen

Stemgebaseerde zangaudiocollectie voor EQ- en compressiealgoritmetraining: vastleggen van taalkundige en muzikale diversiteit

Audiocollectie met op stem gebaseerde zang

project Overzicht

Shaip werkte samen met een toonaangevend technologiebedrijf om diverse zangaudio-opnames te verzamelen in vier prioritaire talen: Chinees, Arabisch, Spaans en Russisch. Het project was gericht op het leveren van hoogwaardige data voor het trainen van AI-gebaseerde EQ- en compressiealgoritmen, die essentieel zijn voor het verbeteren van geautomatiseerde audioverwerking.

De groep bestond uit 40 deelnemers (10 per taal) uit verschillende genres, met een focus op opnames van studiokwaliteit met diverse microfoons en omgevingen.

Zingende audiocollectie

Key Stats

4 talen: Chinees, Arabisch, Spaans, Russisch

10 zangers voor
taal (totaal 40)

20 uur of
zingen audio

Audio-formaat: 48 kHz PCM, mono, WAV

Audiotranscriptie in moedertalen

Projectduur:
18 Weken

Project bereik

Gegevensverzameling

De scope omvatte de verzameling van zangaudio in vier doeltalen, opgenomen door echte artiesten in meerdere muziekgenres. Er werd een studio-omgeving gebruikt om opnames van hoge kwaliteit te garanderen die geschikt waren voor het trainen van AI-modellen.

Belangrijkste vereisten

  • Deelnemers: 10 zangers per taal, met een evenwichtige genderverdeling (50% mannen, 50% vrouwen).
  • Genres: Een verscheidenheid aan genres, door de kunstenaar zelf geïdentificeerd, gevalideerd op consistentie.
  • Opnameomgeving: Studiokwaliteit, met meerdere microfooninstellingen (dynamisch, condensator).
  • Audio Formaat: 48 kHz PCM, mono, WAV-bestanden, zonder bewerking (bijv. geen compressie, EQ, galm).
  • Transcriptie: Liedjes moeten worden overgeschreven in de taal waarin ze worden gezongen. Voor tweetalige liederen gelden speciale regels.
  • talen: Chinees, Arabisch, Spaans, Russisch
  • Transcriptie
    • Transcripties dienen te worden aangeleverd in de taal van de opname (bijvoorbeeld Hindi-regels in Devanagari, gevolgd door Engels).
    • Zorg ervoor dat elk segment niet langer is dan 15 seconden, voor duidelijkheid en nauwkeurigheid.
  • Vereisten voor audio-opname
    • Minimaal 3 microfooninstellingen per opnamesessie.
    • 3 minuten per nummer, met 3 takes per nummer, zodat er voor iedere deelnemer gevarieerde microfoonopnames mogelijk zijn.
    • Akoestische omgeving van studiokwaliteit zonder achtergrondgeluiden.

Challenges

Diversiteit van deelnemers

Het was een complexe uitdaging om te zorgen voor een evenwichtige verdeling van zangers qua geslacht, stemtoon/-hoogte en muziekgenre.

Data consistentie

Zorgen voor consistente microfooninstellingen en -omgevingen bij het vastleggen van uiteenlopende vocale uitvoeringen in meerdere talen.

Audiokwaliteitscontrole

Zorgt voor audio van studiokwaliteit zonder externe ruis en nauwkeurige transcripties in meerdere talen.

Het resultaat

Shaip leverde een uitgebreide oplossing die voldeed aan de projectvereisten door:

  • Werving van 40 zangers in vier talen en zorgen voor een diverse vertegenwoordiging qua geslacht, toonhoogte en muziekstijl.
  • Het maken van opnames van studiokwaliteit met verschillende microfoontypen (dynamisch, condensator) om een ​​breed scala aan audiogegevens vast te leggen.
  • Het nauwkeurig transcriberen van opnames in de gebruikte talen, volgens de specifieke regels voor tweetalige liederen.
  • Toestemming: Voorafgaand aan de opname worden van alle deelnemers toestemmingsformulieren verzameld.

Resultaat

De diverse verzamelde zangaudiogegevens stelden de klant in staat een robuuste trainingsset te ontwikkelen voor geautomatiseerde EQ- en compressiealgoritmen, waardoor de kwaliteit van de audioverwerking werd verbeterd. De hoogwaardige opnames en gedetailleerde metagegevens zorgden ervoor dat de AI-modellen verschillende muziekgenres en taalkundige complexiteiten aankonden. Belangrijkste resultaten:

  • Hoogwaardige, gevarieerde audiogegevens voor het trainen van AI-systemen.
  • Nauwkeurige transcriptie en metadata voor analyse.
  • Een sterkere basis voor op AI gebaseerde audioverwerkingstools.

Deliverables

  • 20 uur aan audio-opnamen van studiokwaliteit (48 kHz PCM, mono WAV-bestanden).
  • Transcripties in de taal van de opname.
  • Metagegevens: merk/model microfoon, DAC/audio-interface, zangerprofiel, genre-informatie.
  • JSON-formaat voor transcriptie met metagegevens.
Citaat icoon

Het vermogen van Shaip om de diversiteit aan muzikaal talent en de rijkdom aan talen vast te leggen, is van onschatbare waarde geweest voor de ontwikkeling van onze EQ- en compressiealgoritmes. Hun team zorgde ervoor dat elk aspect, van de werving van artiesten tot de opnamekwaliteit, met precisie werd behandeld, waardoor dit een essentiële stap was in het verfijnen van onze geautomatiseerde audioverwerkingssystemen. We zijn Shaip zeer dankbaar voor het vertrouwen en de samenwerking die ze gedurende het hele proces hebben getoond. Ondanks onze strenge en veeleisende technische eisen waren hun toewijding, harde werk en oog voor detail uitstekend. Het was een genoegen om samen te werken met een team dat zo toegewijd is aan het leveren van uitmuntendheid.

★ ★ ★ ★ ★
Citaat icoon