Program za prepoznavanje znakov (OCR) na Ubuntu

mitko Član
uredil/-a 11. November, 2014 v Novice
Tesseract je najboljši brezplačen odprtokodni program  za optično prepoznavanje znakov, ki ga je najprej razvijal HP zdaj je v lasti Googla Je preprost in enostaven za uporabo v terminalu izberete lahko kar med 60 različnih jezikov za prepoznavanje znakov.

Namestitev programa

Preprosto v terminal vtipkajte ukaz sudo apt-get install tesseract-ocr

Kasneje lahko namestite kateri koli jezikovni paket, če ga boste potrebovali dodatno.

Program uporabljamo s pomočjo ukaza tesseract vaša_skenerana_slika.png imeDatoteke

Rezultati bodo shranjeni v datoteko imeDatoteke.txt.

Primer delovanja ter kako naložimo slovenski jezik je na sliki spodaj. Verjetno boste takoj opazili, da program ima kar nekaj težav s slovenščino.

Primer prostoročnih zapiskov

Prostoročni  zapiski

Vir slike desno : Monitor.si

Primer natipkanega besedila

Natipkano besedilo

Torej za namestitev ter uporabo slovenskega jezika
sudo apt-get install tesseract-ocr-slv
tesseract nasaSlika.png izhodnoBesedilo -l slv


Omogoča tudi prepoznavanje skritega besedila s pomočjo ukaza:

tesseract vaša_skenerana_slika.png imeDatoteke -1 hin

Za več podrobnosti o razvoju programa se lahko preberete na njihovi strani  http://code.google.com/p/tesseract-ocr/

Komentarji

Za komentiranje se prijavite ali pa se vpišite.