Arabisch & Thais & Vietnamees & Hindi & Engels & Chinees Taal Dataset
Use case: OCR
Formaat: Beeld
Count: 150k
annotatie: Ja
Beschrijving: Arabisch & Thais & Vietnamees & Hindi & Engels & Chinees Taal Dataset
Arabische tekstdataset
Use case: OCR
Formaat: Beeld
Count: 1k
annotatie: Ja
Beschrijving: De Arabische tekstdataset bevat een verzameling tekstvoorbeelden die in het Arabisch zijn geschreven. Het omvat verschillende vormen van content, zoals nieuwsartikelen, berichten op sociale media, literatuur en dialogen, die verschillende onderwerpen en schrijfstijlen bestrijken. Deze dataset wordt gebruikt voor taken zoals natuurlijke taalverwerking (NLP), tekstclassificatie, sentimentanalyse en machinevertaling in Arabische taaltoepassingen.
Dataset Chinese & Engelse & Tibetaanse & Oeigoerse taal

Use case: OCR
Formaat: Beeld
Count: 38k
annotatie: Ja
Beschrijving: Dataset Chinese & Engelse & Tibetaanse & Oeigoerse taal
Chinese en Engelse menudataset

Use case: OCR
Formaat: Beeld
Count: 60k
annotatie: Ja
Beschrijving: De Chinese en Engelse menudataset bevat afbeeldingen of tekstvoorbeelden van restaurantmenu's met zowel Chinese als Engelse talen. Het bevat verschillende lettertypen, lay-outs en menustructuren, met tweetalige namen van gerechten, beschrijvingen en prijzen. Deze dataset is handig voor taken zoals optische tekenherkenning (OCR), machinevertaling en menudigitalisering in meertalige omgevingen.
Chinese handgeschreven compositiedataset

Use case: OCR
Formaat: Beeld
Count: 3k
annotatie: Ja
Beschrijving: De Chinese Handwritten Composition Dataset bevat voorbeelden van handgeschreven Chinese tekst, waaronder composities, essays en andere lange teksten. Het bevat verschillende handschriftstijlen en niveaus van complexiteit en wordt gebruikt voor taken zoals handschriftherkenning, tekstanalyse en machine learning modeltraining.
Chinese WIFI-promptdataset

Use case: OCR
Formaat: Beeld
Count: 1k
annotatie: Ja
Beschrijving: De Chinese WIFI Prompt Dataset bestaat uit tekstvoorbeelden die te vinden zijn in WIFI-prompts en inlogschermen die in het Chinees zijn geschreven. Het bevat doorgaans verschillende prompts, instructies en foutmeldingen met betrekking tot het verbinden met of beheren van WIFI-netwerken. Deze dataset wordt gebruikt voor taken zoals tekstherkenning, natuurlijke taalverwerking en het verbeteren van gebruikersinterfaces voor netwerkconnectiviteit.
Dataset Engels en Chinees handschrift

Use case: OCR
Formaat: Beeld
Count: 12k
annotatie: Ja
Beschrijving: De English & Chinese Handwriting Dataset bevat handgeschreven voorbeelden in zowel het Engels als het Chinees, met verschillende schrijfstijlen en karaktercomplexiteiten. Het wordt doorgaans gebruikt voor het trainen en evalueren van handschriftherkenningsmodellen, het ondersteunen van meertalige tekstanalyse en ander gerelateerd onderzoek. De dataset bevat een divers scala aan karakters, cijfers, woorden en zinnen in beide talen.
Engelse en Chinese Shopsign-dataset

Use case: OCR
Formaat: Beeld
Count: 30k
annotatie: Ja
Beschrijving: De English & Chinese Shopsign Dataset bevat afbeeldingen van winkelborden met zowel Engelse als Chinese tekst. Het legt verschillende elementen van bewegwijzering vast, zoals winkelnamen, advertenties, promoties en routebeschrijvingen, weergegeven in verschillende lettertypen, stijlen en formaten. Deze dataset wordt gebruikt voor taken zoals tekstdetectie en -herkenning, meertalig scènebegrip en het verbeteren van computer vision-modellen voor het interpreteren van tweetalige bewegwijzering.
Engels & Chinees Speciale Hoek Tekst Dataset

Use case: OCR
Formaat: Beeld
Count: 50k
annotatie: Ja
Beschrijving: De Engelse en Chinese Special Angle Text Dataset bevat afbeeldingen van tekst die in verschillende hoeken en richtingen in zowel het Engels als het Chinees wordt weergegeven. Het bevat tekst uit bronnen zoals borden, advertenties en documenten die niet in standaard horizontale formaten worden gepresenteerd. Deze dataset wordt gebruikt voor het trainen en evalueren van tekstdetectie- en herkenningsmodellen, met name die welke in staat zijn om tekst in niet-traditionele richtingen en perspectieven te verwerken.
Engels Menu Dataset

Use case: OCR
Formaat: Beeld
Count: 20k
annotatie: Ja
Beschrijving: De English Menu Dataset bevat afbeeldingen of tekstvoorbeelden van restaurantmenu's die in het Engels zijn geschreven. Het bevat een verscheidenheid aan lettertypen, lay-outs en opmaakstijlen, met inhoud variërend van namen van gerechten tot beschrijvingen en prijzen. Deze dataset wordt vaak gebruikt voor taken zoals optische tekenherkenning (OCR), tekstextractie en menudigitalisering in voedselgerelateerde toepassingen.
Engelse scènes Tekstdataset

Use case: OCR
Formaat: Beeld
Count: 33k
annotatie: Ja
Beschrijving: De Engelse scènes tekstdataset bestaat uit afbeeldingen met natuurlijke scènes met ingebedde Engelse tekst. De tekst verschijnt in verschillende vormen, zoals borden, billboards en posters, vaak in verschillende lettertypen, groottes en oriëntaties. Deze dataset wordt vaak gebruikt voor het trainen en testen van modellen in tekstdetectie, herkenning en scènebegripstaken.
Handgeschreven tekstgegevensset

Use case: Document-AI
Formaat: HEIC (afbeeldingen) & .mov (video's)
Count: 94053
annotatie: Nee
Beschrijving: Live foto's met handgeschreven tekst voor Japans, Koreaans en Russisch
Opname apparaat: iPhone- en iPad-camera
Opnamevoorwaarde: - Agressieve verlichting/schittering - Cameraflits aan - Gekleurd licht - Weinig licht, geen cameraflits - Normaal
Japanse en Koreaanse taaldataset

Use case: OCR
Formaat: Beeld
Count: 40k
annotatie: Ja
Beschrijving: De Japanse en Koreaanse taaldataset bevat tekstvoorbeelden in zowel het Japans als het Koreaans. Het bevat een scala aan content zoals zinnen, uitdrukkingen en woorden, die verschillende contexten en stijlen omvatten. Deze dataset wordt gebruikt voor taken zoals natuurlijke taalverwerking (NLP), machinevertaling en tekstanalyse in meertalige applicaties.
Gedrukte reguliere/cursieve tekstdataset (Document AI)

Use case: Document-AI
Formaat: HEIC (afbeeldingen) & .mov (video's)
Count: 23930
annotatie: Nee
Beschrijving: Live foto's met handgeschreven tekst voor Japans, Koreaans en Russisch
Opname apparaat: iPhone- en iPad-camera
Opnamevoorwaarde: - Agressieve verlichting/schittering - Cameraflits aan - Gekleurd licht - Weinig licht, geen cameraflits - Normaal
Tekst + audiovisueel (meertalig/OCR/NLP) – boeken, tijdschriften, audio+tekst
Use case: Tekst + Audiovisueel (Meertalig / OCR / NLP)
Formaat: Video's
Count: 100+ collegevideo's + PPT-video's in lang formaat
annotatie: Nee
Beschrijving: Chinese boeken, Engelse boeken, tijdschriften, overheidsbeleid, romans, kinderen, Kantonees audio en tekst, collegevideo en PPT, lange video's Een half miljard boeken, vraag- en antwoordparen, artikelen
