Handschriftgegevenssets

22 beste open-source OCR- en handschriftgegevenssets om uw ML-modellen te trainen

De stijging van het gebruik van optische tekenherkenning kan voornamelijk worden toegeschreven aan de toename van de productie van automatische herkenningssystemen. Als gevolg hiervan is de wereldwijde marktwaarde van OCR-technologie, gekoppeld aan: $ 8.93 miljard in 2021, zal naar verwachting groeien met een CAGR van 15.4% tussen 2022 en 2030.

Maar wat is OCR-technologie precies? En waarom is het een game changer voor bedrijven die efficiënte AI-modellen ontwikkelen? Laten we het uitzoeken.

Wat is OCR (Optische karakterherkenning)?

OCR is een technologie die verschillende soorten documenten, zoals gescande papieren documenten, PDF's of afbeeldingen van tekst, omzet in bewerkbare en doorzoekbare gegevens. Het werkt door:

  • De structuur van tekst in een afbeelding analyseren
  • De tekst opsplitsen in regels en tekens
  • Deze visuele tekens omzetten in machineleesbare tekst

Veelvoorkomende toepassingen zijn onder meer:

  • Gescande documenten omzetten in bewerkbare tekstbestanden
  • Digitaliseren van gedrukte boeken
  • Tekst uit foto's halen
  • Handgeschreven voorschriften omzetten naar digitale tekst
  • Kentekenherkenning

OCR-trainingsgegevens

Voordelen en uitdagingen van open-source datasets

Bedrijven moeten de voordelen en uitdagingen tegen elkaar afwegen om te begrijpen of ze moeten kiezen voor gratis te gebruiken data voor hun ML-applicaties.

Voordelen:

  • De gegevens zijn gemakkelijk toegankelijk. Vanwege de beschikbaarheid van gegevens worden de kosten voor het ontwikkelen van de applicatie aanzienlijk verlaagd.
  • De tijd en moeite die wordt besteed aan het verzamelen van gegevens voor de applicatie wordt aanzienlijk verminderd omdat de dataset direct beschikbaar is.
  • Er is een overvloed aan communityforums of hulpgroepen die helpen bij het leren, aanpassen en optimaliseren van de dataset.
  • Een van de grote voordelen van de open-source dataset is dat het geen beperkingen oplegt aan maatwerk.
  •   Open-sourcegegevens zijn toegankelijk voor een groot deel van de bevolking, waardoor analyse en innovatie mogelijk zijn zonder monetaire barrières.

Challenges

  • De gegevens die specifiek zijn voor het project zijn moeilijk te verkrijgen. Daarnaast bestaat de mogelijkheid dat er informatie ontbreekt en dat de beschikbare gegevens onjuist worden gebruikt.
  • Het verkrijgen van bedrijfseigen gegevens kost tijd en moeite en is kostbaar
  • Hoewel het misschien gemakkelijker is om gegevens te verkrijgen, kunnen de kosten voor kennis en analyse opwegen tegen het aanvankelijke voordeel.
  • Andere ontwikkelaars gebruiken dezelfde gegevens ook om applicaties te ontwikkelen.
  • Deze datasets zijn zeer kwetsbaar voor inbreuken op de beveiliging, privacy en toestemming.

22 beste handschrift- en OCR-gegevenssets voor machinaal leren

Open-source ocr-gegevenssets

Er zijn veel open-source datasets beschikbaar voor de ontwikkeling van tekstherkenningsapplicaties. Enkele van de beste 22 zijn

  1. NIST-database

    Het NIST of het National Institute of Science biedt een gratis te gebruiken verzameling van meer dan 3600 handschriftvoorbeelden met meer dan 810,000 karakterafbeeldingen

  2. MNIST-database

    De MNIST-database is afgeleid van NSIT's Special Database 1 en 3 en is een gecompileerde verzameling van 60,000 handgeschreven nummers voor de trainingsset en 10,000 voorbeelden voor de testset. Deze open-source database helpt modellen om patronen te herkennen, terwijl ze minder tijd besteden aan voorbewerking.

  3. Tekstdetectie

    De Text Detection-dataset, een open-sourcedatabase, bevat ongeveer 500 binnen- en buitenafbeeldingen van uithangborden, deurplaten, waarschuwingsborden en meer.

  4. Stanford-OCR

    Deze gratis te gebruiken dataset, uitgegeven door Stanford, is een handgeschreven woordenverzameling door de MIT Spoken Language Systems Group.

  5. Street View-tekst

    Deze dataset is verzameld op basis van Google Street View-afbeeldingen en bevat tekstdetectieafbeeldingen, voornamelijk van borden en borden op straatniveau.

  6. Documentdatabase

    De Document Database is een verzameling van 941 handgeschreven documenten, inclusief tabellen, formules, tekeningen, diagrammen, lijsten en meer, van 189 schrijvers.

  7. Wiskundige uitdrukkingen

    The Mathematics Expressions is een database die 101 wiskundige symbolen en 10,000 uitdrukkingen bevat.

  8. Street View huisnummers

    Deze Street View-huisnummers, geoogst uit Google Street View, is een database met 73257 huisnummercijfers.

  9. Natuurlijke omgeving OCR

    De Natural Environment OCR is een dataset van bijna 660 afbeeldingen wereldwijd en 5238 tekstannotaties.

  10. Wiskundige uitdrukkingen

    Meer dan 10,000 uitdrukkingen met meer dan 101 wiskundige symbolen.

  11. Handgeschreven Chinese karakters

    Een dataset van 909,818 handgeschreven afbeeldingen van Chinese karakters, wat overeenkomt met ongeveer 10 nieuwsartikelen.

  12. Arabische gedrukte tekst

    Een lexicon van 113,284 woorden met 10 Arabische lettertypen.

  13. Handgeschreven Engelse tekst

    Handgeschreven Engelse tekst op een whiteboard met ruim 1700 vermeldingen.

  14. 3000 omgevingen Afbeeldingen

    3000 afbeeldingen uit verschillende omgevingen, inclusief buiten- en binnenscènes onder verschillende verlichting.

  15. Chars74K-gegevens

    74,000 afbeeldingen van Engelse en Kannada-cijfers.

  16. IAM (IAM-handschrift)

    De IAM-database bevat 13,353 handgeschreven tekstafbeeldingen door 657 schrijvers uit het Lancaster-Oslo/Bergen Corpus van Brits Engels.

  17. FUNSD (formulierbegrip in luidruchtige gescande documenten)

    FUNSD bevat 199 geannoteerde, gescande formulieren met een gevarieerd en luidruchtig uiterlijk, wat een uitdaging vormt voor het begrijpen van formulieren.

  18. Tekst-OCR

    TextOCR vergelijkt tekstherkenning op willekeurig gevormde scènetekst in natuurlijke afbeeldingen.

  19. Twitter 100k

    Twitter100k is een grote dataset voor het ophalen via zwak gecontroleerde media.

  20. SSIG-SegPlate – Kentekentekensegmentatie (LPCS)

    Deze dataset evalueert de kentekenplaatsegmentatie (LPCS) met 101 voertuigafbeeldingen overdag.

  21. 105,941 afbeeldingen Natuurlijke scènes OCR-gegevens van 12 talen

    De gegevens omvatten 12 talen (6 Aziatisch, 6 Europees) en verschillende natuurlijke scènes en hoeken. Het beschikt over grensvakken op regelniveau en teksttranscripties. Het is handig voor meertalige OCR-taken.

  22. Indiase uithangbordafbeeldingsgegevensset

    De dataset bevat afbeeldingen van Indiase verkeersborden voor classificatie en detectie, gemaakt onder verschillende weersomstandigheden overdag, 's avonds en 's nachts.

Dit waren enkele van de beste open-source datasets voor het trainen van ML-modellen voor tekstdetectietoepassingen. Het selecteren van degene die aansluit bij uw bedrijfs- en toepassingsbehoeften kan tijd en moeite kosten. U moet echter met deze datasets experimenteren voordat u de juiste kiest.

[Lees ook: OCR-infographic – Definitie, voordelen, uitdagingen en gebruiksgevallen]

Om u te helpen vooruitgang te boeken in de richting van een betrouwbare en efficiënte tekstdetectietoepassing is Shaip – ​​de hoog aangeschreven leverancier van technologische oplossingen. We maken gebruik van onze technische ervaring om aanpasbare, geoptimaliseerde en efficiënte OCR-trainingsdatasets te maken voor verschillende klantprojecten. Neem vandaag nog contact met ons op om onze mogelijkheden volledig te begrijpen.

Sociale Share