Definitie
Het verzamelen van tekstgegevens is het proces waarbij geschreven taal uit bronnen zoals boeken, websites of chatlogs wordt verzameld voor gebruik in AI-training.
Doel
Het doel is om corpora te creëren voor NLP- en LLM-ontwikkeling.
Belang
- Biedt ruw materiaal voor taalmodellen.
- Leidt tot problemen met auteursrechten en licenties.
- Diversiteit van gegevens heeft invloed op eerlijkheid en nauwkeurigheid.
- Schadelijke of irrelevante inhoud moet worden gefilterd.
Hoe het werkt
- Identificeer tekstbronnen (web, documenten, transcripties).
- Crawlen of scrapen van tekst met toestemming.
- Inhoud opschonen en normaliseren.
- Opslaan met metagegevens voor traceerbaarheid.
- Te gebruiken tijdens de voorbereiding of bij het verfijnen van de training.
Voorbeelden (echte wereld)
- Common Crawl: groot webcorpus.
- Wikipedia-dumps: gestructureerde tekstdataset.
- BooksCorpus: wordt gebruikt voor het trainen van BERT.
Referenties / Verder lezen
- Common Crawl Foundation.
- Jurafsky & Martin. Spraak- en taalverwerking.
- ISO/IEC TR 20547-5: Referentiearchitectuur voor big data.
- Case-specifieke tekstgegevensverzameling