• Komentiraj

Program za prepoznavanje znakov (OCR) na Ubuntu

Tesseract je najboljši brezplačen odprtokodni program  za optično prepoznavanje znakov, ki ga je najprej razvijal HP zdaj je v lasti Googla Je preprost in enostaven za uporabo v terminalu izberete lahko kar med 60 različnih jezikov za prepoznavanje znakov.

Namestitev programa

Preprosto v terminal vtipkajte ukaz sudo apt-get install tesseract-ocr

Kasneje lahko namestite kateri koli jezikovni paket, če ga boste potrebovali dodatno.

Program uporabljamo s pomočjo ukaza tesseract vašaskeneranaslika.png imeDatoteke

Rezultati bodo shranjeni v datoteko imeDatoteke.txt.

Primer delovanja ter kako naložimo slovenski jezik je na sliki spodaj. Verjetno boste takoj opazili, da program ima kar nekaj težav s slovenščino.

Primer prostoročnih zapiskov

Prostoročni  zapiski

Vir slike desno : Monitor.si

Primer natipkanega besedila

Natipkano besedilo

Torej za namestitev ter uporabo slovenskega jezika sudo apt-get install tesseract-ocr-slv tesseract nasaSlika.png izhodnoBesedilo -l slv

Omogoča tudi prepoznavanje skritega besedila s pomočjo ukaza:

tesseract vašaskeneranaslika.png imeDatoteke -1 hin

Za več podrobnosti o razvoju programa se lahko preberete na njihovi strani  http://code.google.com/p/tesseract-ocr/