Muziek AI Casestudy
Verzameling van gegevens over zangstemmen
Stemgebaseerde zangaudiocollectie voor EQ- en compressiealgoritmetraining: vastleggen van taalkundige en muzikale diversiteit
project Overzicht
Shaip werkte samen met een toonaangevend technologiebedrijf om diverse zangaudio-opnames te verzamelen in vier prioritaire talen: Chinees, Arabisch, Spaans en Russisch. Het project was gericht op het leveren van hoogwaardige data voor het trainen van AI-gebaseerde EQ- en compressiealgoritmen, die essentieel zijn voor het verbeteren van geautomatiseerde audioverwerking.
De groep bestond uit 40 deelnemers (10 per taal) uit verschillende genres, met een focus op opnames van studiokwaliteit met diverse microfoons en omgevingen.
Key Stats
4 talen: Chinees, Arabisch, Spaans, Russisch
10 zangers voor
taal (totaal 40)
20 uur of
zingen audio
Audio-formaat: 48 kHz PCM, mono, WAV
Audiotranscriptie in moedertalen
Projectduur:
18 Weken
Project bereik
Gegevensverzameling
De scope omvatte de verzameling van zangaudio in vier doeltalen, opgenomen door echte artiesten in meerdere muziekgenres. Er werd een studio-omgeving gebruikt om opnames van hoge kwaliteit te garanderen die geschikt waren voor het trainen van AI-modellen.
Belangrijkste vereisten
- Deelnemers: 10 zangers per taal, met een evenwichtige genderverdeling (50% mannen, 50% vrouwen).
- Genres: Een verscheidenheid aan genres, door de kunstenaar zelf geïdentificeerd, gevalideerd op consistentie.
- Opnameomgeving: Studiokwaliteit, met meerdere microfooninstellingen (dynamisch, condensator).
- Audio Formaat: 48 kHz PCM, mono, WAV-bestanden, zonder bewerking (bijv. geen compressie, EQ, galm).
- Transcriptie: Liedjes moeten worden overgeschreven in de taal waarin ze worden gezongen. Voor tweetalige liederen gelden speciale regels.
- talen: Chinees, Arabisch, Spaans, Russisch
- Transcriptie
- Transcripties dienen te worden aangeleverd in de taal van de opname (bijvoorbeeld Hindi-regels in Devanagari, gevolgd door Engels).
- Zorg ervoor dat elk segment niet langer is dan 15 seconden, voor duidelijkheid en nauwkeurigheid.
- Vereisten voor audio-opname
- Minimaal 3 microfooninstellingen per opnamesessie.
- 3 minuten per nummer, met 3 takes per nummer, zodat er voor iedere deelnemer gevarieerde microfoonopnames mogelijk zijn.
- Akoestische omgeving van studiokwaliteit zonder achtergrondgeluiden.
Challenges
Diversiteit van deelnemers
Het was een complexe uitdaging om te zorgen voor een evenwichtige verdeling van zangers qua geslacht, stemtoon/-hoogte en muziekgenre.
Data consistentie
Zorgen voor consistente microfooninstellingen en -omgevingen bij het vastleggen van uiteenlopende vocale uitvoeringen in meerdere talen.
Audiokwaliteitscontrole
Zorgt voor audio van studiokwaliteit zonder externe ruis en nauwkeurige transcripties in meerdere talen.
Het resultaat
Shaip leverde een uitgebreide oplossing die voldeed aan de projectvereisten door:
- Werving van 40 zangers in vier talen en zorgen voor een diverse vertegenwoordiging qua geslacht, toonhoogte en muziekstijl.
- Het maken van opnames van studiokwaliteit met verschillende microfoontypen (dynamisch, condensator) om een breed scala aan audiogegevens vast te leggen.
- Het nauwkeurig transcriberen van opnames in de gebruikte talen, volgens de specifieke regels voor tweetalige liederen.
- Toestemming: Voorafgaand aan de opname worden van alle deelnemers toestemmingsformulieren verzameld.
Resultaat
De diverse verzamelde zangaudiogegevens stelden de klant in staat een robuuste trainingsset te ontwikkelen voor geautomatiseerde EQ- en compressiealgoritmen, waardoor de kwaliteit van de audioverwerking werd verbeterd. De hoogwaardige opnames en gedetailleerde metagegevens zorgden ervoor dat de AI-modellen verschillende muziekgenres en taalkundige complexiteiten aankonden. Belangrijkste resultaten:
- Hoogwaardige, gevarieerde audiogegevens voor het trainen van AI-systemen.
- Nauwkeurige transcriptie en metadata voor analyse.
- Een sterkere basis voor op AI gebaseerde audioverwerkingstools.
Deliverables
- 20 uur aan audio-opnamen van studiokwaliteit (48 kHz PCM, mono WAV-bestanden).
- Transcripties in de taal van de opname.
- Metagegevens: merk/model microfoon, DAC/audio-interface, zangerprofiel, genre-informatie.
- JSON-formaat voor transcriptie met metagegevens.
Het vermogen van Shaip om de diversiteit aan muzikaal talent en de rijkdom aan talen vast te leggen, is van onschatbare waarde geweest voor de ontwikkeling van onze EQ- en compressiealgoritmes. Hun team zorgde ervoor dat elk aspect, van de werving van artiesten tot de opnamekwaliteit, met precisie werd behandeld, waardoor dit een essentiële stap was in het verfijnen van onze geautomatiseerde audioverwerkingssystemen. We zijn Shaip zeer dankbaar voor het vertrouwen en de samenwerking die ze gedurende het hele proces hebben getoond. Ondanks onze strenge en veeleisende technische eisen waren hun toewijding, harde werk en oog voor detail uitstekend. Het was een genoegen om samen te werken met een team dat zo toegewijd is aan het leveren van uitmuntendheid.