Casestudy: inhoudsmoderatie

Naarmate het gebruik van sociale media blijft toenemen, is cyberpesten een belangrijk obstakel geworden voor platforms die streven naar een veilige online omgeving. Maar liefst 38% van de mensen krijgt dagelijks te maken met dit schadelijke gedrag, wat de dringende vraag naar inventieve contentmoderatie benadrukt. Organisaties vertrouwen tegenwoordig op de inzet van kunstmatige intelligentie om het hardnekkige probleem van cyberpesten proactief aan te pakken.
Cyberveiligheid:
Facebook's Q4 Community Standards Enforcement Report onthuld - actie op 6.3 miljoen inhoud met pesten en intimidatie, met een proactief detectiepercentage van 49.9%
Onderwijs:
A 2021 studie vond dat 36.5%% van de studenten in de Verenigde Staten tussen de leeftijd van 12 & 17 jaar op een bepaald moment tijdens hun schooltijd met cyberpesten te maken hebben gehad.
Volgens een rapport uit 2020 werd de wereldwijde markt voor oplossingen voor contentmoderatie in 4.07 gewaardeerd op 2019 miljard dollar en zou deze in 11.94 naar verwachting 2027 miljard dollar bereiken, met een CAGR van 14.7%.
Echte wereld oplossing
Gegevens die wereldwijde gesprekken modereren
De klant was bezig met het ontwikkelen van een robuust, geautomatiseerd Machine Learning-model voor contentmoderatie voor diens Cloud-aanbod. Hiervoor waren ze op zoek naar een domeinspecifieke leverancier die hen kon helpen met nauwkeurige trainingsgegevens.
Gebruikmakend van onze uitgebreide kennis op het gebied van natuurlijke taalverwerking (NLP), hielpen we de klant bij het verzamelen, categoriseren en annoteren van meer dan 30,000 documenten in zowel het Engels als het Spaans om geautomatiseerde inhoudsmoderatie te bouwen. Machine Learning-model gesplitst in giftige, volwassen of seksueel expliciete inhoud categorieën.
probleem
- Webscraping van 30,000 documenten in zowel het Spaans als het Engels van geprioriteerde domeinen
- De verzamelde inhoud categoriseren in korte, middellange en lange segmenten
- Labelen van de verzamelde gegevens als giftige, volwassen of seksueel expliciete inhoud
- Zorgen voor annotaties van hoge kwaliteit met een nauwkeurigheid van minimaal 90%.
Het resultaat
- Web 30,000 documenten gesloopt voor Spaans en Engels van BFSI, gezondheidszorg, productie en detailhandel. De inhoud werd verder opgesplitst in korte, middellange en lange documenten
- Het labelen van de geclassificeerde inhoud als giftige, volwassen of seksueel expliciete inhoud
- Om 90% kwaliteit te bereiken, implementeerde Shaip een tweeledig kwaliteitscontroleproces:
» Niveau 1: Quality Assurance Check: 100% van de te valideren bestanden.
» Niveau 2: Kritische kwaliteitsanalyse Controle: het CQA-team van Shaips beoordeelt 15%-20% van de retrospectieve monsters.
Resultaat
De trainingsgegevens hielpen bij het bouwen van een geautomatiseerd ML-model voor inhoudsmoderatie dat verschillende resultaten kan opleveren die gunstig zijn voor het behoud van een veiligere online omgeving. Enkele van de belangrijkste uitkomsten zijn:
- Efficiëntie om grote hoeveelheden gegevens te verwerken
- Consistentie bij het waarborgen van uniforme handhaving van moderatiebeleid
- Schaalbaarheid om aan te passen aan groeiende gebruikersbasis en inhoudsvolumes
- Real-time Moderatie kan identificeren &
verwijder mogelijk schadelijke inhoud zodra deze wordt gegenereerd - Kosteneffectiviteit door de afhankelijkheid van menselijke moderatoren te verminderen
Versnel de ontwikkeling van uw conversationele AI-applicatie met 100%
Vertel ons hoe we u kunnen helpen met uw volgende AI-initiatief.