Arabisch & Thais & Vietnamees & Hindi & Engels & Chinees Taal Dataset

Arabisch & Thais & Vietnamees & Hindi & Engels & Chinees Taal Dataset

Use case: OCR

Formaat: Beeld

Count: 150k

annotatie: Ja

X

Beschrijving: Arabisch & Thais & Vietnamees & Hindi & Engels & Chinees Taal Dataset

Arabische tekstdataset

Arabische tekstdataset

Use case: OCR

Formaat: Beeld

Count: 1k

annotatie: Ja

X

Beschrijving: De Arabische tekstdataset bevat een verzameling tekstvoorbeelden die in het Arabisch zijn geschreven. Het omvat verschillende vormen van content, zoals nieuwsartikelen, berichten op sociale media, literatuur en dialogen, die verschillende onderwerpen en schrijfstijlen bestrijken. Deze dataset wordt gebruikt voor taken zoals natuurlijke taalverwerking (NLP), tekstclassificatie, sentimentanalyse en machinevertaling in Arabische taaltoepassingen.

Dataset Chinese & Engelse & Tibetaanse & Oeigoerse taal

Dataset Chinese & Engelse & Tibetaanse & Oeigoerse taal

Use case: OCR

Formaat: Beeld

Count: 38k

annotatie: Ja

X

Beschrijving: Dataset Chinese & Engelse & Tibetaanse & Oeigoerse taal

Chinese en Engelse menudataset

Chinese en Engelse menudataset

Use case: OCR

Formaat: Beeld

Count: 60k

annotatie: Ja

X

Beschrijving: De Chinese en Engelse menudataset bevat afbeeldingen of tekstvoorbeelden van restaurantmenu's met zowel Chinese als Engelse talen. Het bevat verschillende lettertypen, lay-outs en menustructuren, met tweetalige namen van gerechten, beschrijvingen en prijzen. Deze dataset is handig voor taken zoals optische tekenherkenning (OCR), machinevertaling en menudigitalisering in meertalige omgevingen.

Chinese handgeschreven compositiedataset

Chinese handgeschreven compositiedataset

Use case: OCR

Formaat: Beeld

Count: 3k

annotatie: Ja

X

Beschrijving: De Chinese Handwritten Composition Dataset bevat voorbeelden van handgeschreven Chinese tekst, waaronder composities, essays en andere lange teksten. Het bevat verschillende handschriftstijlen en niveaus van complexiteit en wordt gebruikt voor taken zoals handschriftherkenning, tekstanalyse en machine learning modeltraining.

Chinese WIFI-promptdataset

Chinese WIFI-promptdataset

Use case: OCR

Formaat: Beeld

Count: 1k

annotatie: Ja

X

Beschrijving: De Chinese WIFI Prompt Dataset bestaat uit tekstvoorbeelden die te vinden zijn in WIFI-prompts en inlogschermen die in het Chinees zijn geschreven. Het bevat doorgaans verschillende prompts, instructies en foutmeldingen met betrekking tot het verbinden met of beheren van WIFI-netwerken. Deze dataset wordt gebruikt voor taken zoals tekstherkenning, natuurlijke taalverwerking en het verbeteren van gebruikersinterfaces voor netwerkconnectiviteit.

Dataset Engels en Chinees handschrift

Dataset Engels en Chinees handschrift

Use case: OCR

Formaat: Beeld

Count: 12k

annotatie: Ja

X

Beschrijving: De English & Chinese Handwriting Dataset bevat handgeschreven voorbeelden in zowel het Engels als het Chinees, met verschillende schrijfstijlen en karaktercomplexiteiten. Het wordt doorgaans gebruikt voor het trainen en evalueren van handschriftherkenningsmodellen, het ondersteunen van meertalige tekstanalyse en ander gerelateerd onderzoek. De dataset bevat een divers scala aan karakters, cijfers, woorden en zinnen in beide talen.

Engelse en Chinese Shopsign-dataset

Engelse en Chinese Shopsign-dataset

Use case: OCR

Formaat: Beeld

Count: 30k

annotatie: Ja

X

Beschrijving: De English & Chinese Shopsign Dataset bevat afbeeldingen van winkelborden met zowel Engelse als Chinese tekst. Het legt verschillende elementen van bewegwijzering vast, zoals winkelnamen, advertenties, promoties en routebeschrijvingen, weergegeven in verschillende lettertypen, stijlen en formaten. Deze dataset wordt gebruikt voor taken zoals tekstdetectie en -herkenning, meertalig scènebegrip en het verbeteren van computer vision-modellen voor het interpreteren van tweetalige bewegwijzering.

Engels & Chinees Speciale Hoek Tekst Dataset

Engels & Chinees Speciale Hoek Tekst Dataset

Use case: OCR

Formaat: Beeld

Count: 50k

annotatie: Ja

X

Beschrijving: De Engelse en Chinese Special Angle Text Dataset bevat afbeeldingen van tekst die in verschillende hoeken en richtingen in zowel het Engels als het Chinees wordt weergegeven. Het bevat tekst uit bronnen zoals borden, advertenties en documenten die niet in standaard horizontale formaten worden gepresenteerd. Deze dataset wordt gebruikt voor het trainen en evalueren van tekstdetectie- en herkenningsmodellen, met name die welke in staat zijn om tekst in niet-traditionele richtingen en perspectieven te verwerken.

Engels Menu Dataset

Engels Menu Dataset

Use case: OCR

Formaat: Beeld

Count: 20k

annotatie: Ja

X

Beschrijving: De English Menu Dataset bevat afbeeldingen of tekstvoorbeelden van restaurantmenu's die in het Engels zijn geschreven. Het bevat een verscheidenheid aan lettertypen, lay-outs en opmaakstijlen, met inhoud variërend van namen van gerechten tot beschrijvingen en prijzen. Deze dataset wordt vaak gebruikt voor taken zoals optische tekenherkenning (OCR), tekstextractie en menudigitalisering in voedselgerelateerde toepassingen.

Engelse scènes Tekstdataset

Engelse scènes Tekstdataset

Use case: OCR

Formaat: Beeld

Count: 33k

annotatie: Ja

X

Beschrijving: De Engelse scènes tekstdataset bestaat uit afbeeldingen met natuurlijke scènes met ingebedde Engelse tekst. De tekst verschijnt in verschillende vormen, zoals borden, billboards en posters, vaak in verschillende lettertypen, groottes en oriëntaties. Deze dataset wordt vaak gebruikt voor het trainen en testen van modellen in tekstdetectie, herkenning en scènebegripstaken.

Handgeschreven tekstgegevensset

Handgeschreven tekstgegevensset

Use case: Document-AI

Formaat: HEIC (afbeeldingen) & .mov (video's)

Count: 94053

annotatie: Nee

X

Beschrijving: Live foto's met handgeschreven tekst voor Japans, Koreaans en Russisch

Opname apparaat: iPhone- en iPad-camera

Opnamevoorwaarde: - Agressieve verlichting/schittering - Cameraflits aan - Gekleurd licht - Weinig licht, geen cameraflits - Normaal

Japanse en Koreaanse taaldataset

Japanse en Koreaanse taaldataset

Use case: OCR

Formaat: Beeld

Count: 40k

annotatie: Ja

X

Beschrijving: De Japanse en Koreaanse taaldataset bevat tekstvoorbeelden in zowel het Japans als het Koreaans. Het bevat een scala aan content zoals zinnen, uitdrukkingen en woorden, die verschillende contexten en stijlen omvatten. Deze dataset wordt gebruikt voor taken zoals natuurlijke taalverwerking (NLP), machinevertaling en tekstanalyse in meertalige applicaties.

Gedrukte reguliere/cursieve tekstdataset (Document AI)

Gedrukte reguliere/cursieve tekstdataset (Document AI)

Use case: Document-AI

Formaat: HEIC (afbeeldingen) & .mov (video's)

Count: 23930

annotatie: Nee

X

Beschrijving: Live foto's met handgeschreven tekst voor Japans, Koreaans en Russisch

Opname apparaat: iPhone- en iPad-camera

Opnamevoorwaarde: - Agressieve verlichting/schittering - Cameraflits aan - Gekleurd licht - Weinig licht, geen cameraflits - Normaal

Tekst + audiovisueel (meertalig/OCR/NLP) – boeken, tijdschriften, audio+tekst

Tekst + audiovisueel (meertalig/OCR/NLP) – boeken, tijdschriften, audio+tekst

Use case: Tekst + Audiovisueel (Meertalig / OCR / NLP)

Formaat: Video's

Count: 100+ collegevideo's + PPT-video's in lang formaat

annotatie: Nee

X

Beschrijving: Chinese boeken, Engelse boeken, tijdschriften, overheidsbeleid, romans, kinderen, Kantonees audio en tekst, collegevideo en PPT, lange video's Een half miljard boeken, vraag- en antwoordparen, artikelen