Handschriftgegevenssets

De 15 beste open-source handschriftdatasets om uw ML-modellen te trainen

De bedrijfswereld transformeert in een fenomenaal tempo, maar deze digitale transformatie is lang niet zo breed als we zouden willen. Mensen verwerken nog steeds fysieke documenten in hun dagelijkse activiteiten, van grote bedrijven tot kleine bedrijven. Hoewel de gebruiksfrequentie aanzienlijk is afgenomen, is deze nog niet helemaal verdwenen. In plaats van het tijdrovende proces van het scannen van documenten voor digitaal gebruik, gebruiken de nieuwste OCR is tijdbesparend en effectief.

De stijging van het gebruik van optische tekenherkenning kan voornamelijk worden toegeschreven aan de toename van de productie van automatische herkenningssystemen. Als gevolg hiervan is de wereldwijde marktwaarde van OCR-technologie, gekoppeld aan: $ 8.93 miljard in 2021, zal naar verwachting groeien met een CAGR van 15.4% tussen 2022 en 2030.

Maar wat is OCR-technologie precies? En waarom is het een game changer voor bedrijven die efficiënte AI-modellen ontwikkelen? Laten we het uitzoeken.

Wat is OCR?

Alternatief aangeduid als tekstherkenning, OCR of optische tekenherkenning is een programma dat afgedrukte of geschreven gegevens uit gescande documenten, PDF's met alleen afbeeldingen en handgeschreven notities extraheert in een machineleesbaar formaat. De software haalt elke letter uit de afbeelding en combineert ze tot woorden en zinnen, waardoor de documenten gemakkelijk digitaal kunnen worden geopend en bewerkt.

Wat zijn open source datasets?

Er zijn verschillende plaatsen waar OCR-technologie een groot potentieel heeft om te worden benut. Sommige plaatsen zijn onder meer de luchthaven, eBook-uitgeverij, advertenties, banken en supply chain-systemen. Om de toepassingen hun doel te laten bereiken, moeten ze echter worden getraind in projectspecifieke Gegevenssets voor optische tekenherkenning.

De efficiëntie van de toepassing hangt grotendeels af van de kwaliteit van de dataset en de betrokken trainingsmethodologie. Echter, het vinden van digitale kwaliteit en handgeschreven datasets is moeilijk voor de toepassing. Veel bedrijven gebruiken dus open source of gratis te gebruiken datasets in plaats van propriëtaire datasets.

Voordelen en uitdagingen van open-source datasets

Bedrijven moeten de voordelen en uitdagingen tegen elkaar afwegen om te begrijpen of ze moeten kiezen voor gratis te gebruiken data voor hun ML-applicaties.

Voordelen

  • De gegevens zijn gemakkelijk toegankelijk. Vanwege de beschikbaarheid van gegevens worden de kosten voor het ontwikkelen van de applicatie aanzienlijk verlaagd.
  • De tijd en moeite die wordt besteed aan het verzamelen van gegevens voor de applicatie wordt aanzienlijk verminderd omdat de dataset direct beschikbaar is.
  • Er is een overvloed aan communityforums of hulpgroepen die helpen bij het leren, aanpassen en optimaliseren van de dataset.
  • Een van de grote voordelen van de open-source dataset is dat het geen beperkingen oplegt aan maatwerk.
  •   Open-sourcegegevens zijn toegankelijk voor een groot deel van de bevolking, waardoor analyse en innovatie mogelijk zijn zonder monetaire barrières.

Uitdagingen

  • De gegevens die specifiek zijn voor het project zijn moeilijk te verkrijgen. Daarnaast bestaat de mogelijkheid dat er informatie ontbreekt en dat de beschikbare gegevens onjuist worden gebruikt.
  • Het verkrijgen van bedrijfseigen gegevens kost tijd en moeite en is kostbaar
  • Hoewel het misschien gemakkelijker is om gegevens te verkrijgen, kunnen de kosten voor kennis en analyse opwegen tegen het aanvankelijke voordeel.
  • Andere ontwikkelaars gebruiken dezelfde gegevens ook om applicaties te ontwikkelen.
  • Deze datasets zijn zeer kwetsbaar voor inbreuken op de beveiliging, privacy en toestemming.

15 beste handschrift- en OCR-gegevenssets voor machinaal leren

Open-source Ocr-gegevenssets

Er zijn veel open-source datasets beschikbaar voor de ontwikkeling van tekstherkenningsapplicaties. Enkele van de beste 15 zijn

  1. De ICDAR-gegevensset

    International Conference for Document Analysis and Recognition heeft een opslagplaats van 229 trainings- en 233 testbeelden, samen met annotaties. Het fungeert als een maatstaf voor de evaluatie van tekstdetectie.

  2. IIIT 5K-Word-gegevensset

    IIIT 5K-word is overgenomen van Google Afbeeldingen zoeken en is een verzameling woorden van uithangborden, billboards, kentekenplaten en posters. Het bevat 5K bijgesneden woordafbeeldingen, waardoor het een van de meest uitgebreide verzamelingen tekstherkenningsdatasets is die beschikbaar is.

  3. NIST-database

    Het NIST of het National Institute of Science biedt een gratis te gebruiken verzameling van meer dan 3600 handschriftvoorbeelden met meer dan 810,000 karakterafbeeldingen

  4. MNIST-database

    De MNIST-database is afgeleid van NSIT's Special Database 1 en 3 en is een gecompileerde verzameling van 60,000 handgeschreven nummers voor de trainingsset en 10,000 voorbeelden voor de testset. Deze open-source database helpt modellen om patronen te herkennen, terwijl ze minder tijd besteden aan voorbewerking.

  5. Tekstdetectie

    De Text Detection-dataset, een open-sourcedatabase, bevat ongeveer 500 binnen- en buitenafbeeldingen van uithangborden, deurplaten, waarschuwingsborden en meer.

  6. Stanford-OCR

    Deze gratis te gebruiken dataset, uitgegeven door Stanford, is een handgeschreven woordenverzameling door de MIT Spoken Language Systems Group.

  7. DDI-100

    De DDI-100, ook wel de Distorted Document Images Dataset genoemd, is een verzameling van meer dan 6658 pagina's met documenten waarop verschillende geometrische patronen en vervormingen zijn toegepast. Daarnaast heeft de DDI-100 meer dan 99870 afbeeldingen, stempelmaskers, tekstmaskers en begrenzingsvakken.

  8. RoadText-1K

    De RoadText-1K is een van de grootste datasets die modellen helpt om tekst in video's te detecteren. De RoadText-1000K bevat XNUMX videoclips, compleet met tekstannotatie in het kader en transcriptie van de tekst in elk videoframe.

  9. MSRA-TD500

    Bevat 300 trainings- en 200 tekstafbeeldingen; de MSRA-TD500 bevat tekens uit de Chinese en Engelse taal en is geannoteerd op zinsniveau.

  10. MJSynth-gegevensset

    Deze woorddataset, geleverd door de Universiteit van Oxford, bevat bijna 9 miljoen synthetisch gegenereerde afbeeldingen die meer dan 90 duizend Engelstalige woorden omvatten.

  11. Street View-tekst

    Deze dataset is verzameld op basis van Google Street View-afbeeldingen en bevat tekstdetectieafbeeldingen, voornamelijk van borden en borden op straatniveau.

  12. Documentdatabase

    De Document Database is een verzameling van 941 handgeschreven documenten, inclusief tabellen, formules, tekeningen, diagrammen, lijsten en meer, van 189 schrijvers.

  13. Wiskundige uitdrukkingen

    The Mathematics Expressions is een database die 101 wiskundige symbolen en 10,000 uitdrukkingen bevat.

  14. Street View huisnummers

    Deze Street View-huisnummers, geoogst uit Google Street View, is een database met 73257 huisnummercijfers.

  15. Natuurlijke omgeving OCR

    De Natural Environment OCR is een dataset van bijna 660 afbeeldingen wereldwijd en 5238 tekstannotaties.

Dit waren enkele van de beste open-source datasets voor het trainen van ML-modellen voor tekstdetectietoepassingen. Het selecteren van degene die aansluit bij uw bedrijfs- en toepassingsbehoeften kan tijd en moeite kosten. U moet echter met deze datasets experimenteren voordat u de juiste kiest.

Om u te helpen vooruitgang te boeken in de richting van een betrouwbare en efficiënte toepassing voor tekstdetectie, is Shaip, de toonaangevende leverancier van technologische oplossingen. We gebruiken onze technische ervaring om aanpasbare, geoptimaliseerde en efficiënte OCR-trainingsdatasets voor diverse klantprojecten. Neem vandaag nog contact met ons op om onze mogelijkheden volledig te begrijpen.

Sociale Share