Program za prepoznavanje znakov (OCR) na Ubuntu
Tesseract je najboljši brezplačen odprtokodni program za optično prepoznavanje znakov, ki ga je najprej razvijal HP zdaj je v lasti Googla Je preprost in enostaven za uporabo v terminalu izberete lahko kar med 60 različnih jezikov za prepoznavanje znakov.
Namestitev programa
Preprosto v terminal vtipkajte ukazsudo apt-get install tesseract-ocr
Kasneje lahko namestite kateri koli jezikovni paket, če ga boste potrebovali dodatno.
Program uporabljamo s pomočjo ukaza tesseract vašaskeneranaslika.png imeDatoteke
Rezultati bodo shranjeni v datoteko imeDatoteke.txt.
Primer delovanja ter kako naložimo slovenski jezik je na sliki spodaj. Verjetno boste takoj opazili, da program ima kar nekaj težav s slovenščino.
Primer prostoročnih zapiskov
Vir slike desno : Monitor.si
Primer natipkanega besedila Torej za namestitev ter uporabo slovenskega jezikasudo apt-get install tesseract-ocr-slv
tesseract nasaSlika.png izhodnoBesedilo -l slv
Omogoča tudi prepoznavanje skritega besedila s pomočjo ukaza:
tesseract vašaskeneranaslika.png imeDatoteke -1 hin
Za več podrobnosti o razvoju programa se lahko preberete na njihovi strani http://code.google.com/p/tesseract-ocr/