OCR – získavame text z obrázkov

Michal Kyžňanský  /  13. 11. 2006, 00:00

Techniku nazvanú OCR – Optical Character Recognition využíva špeciálny typ softvéru, umožňujúci extrahovať čistý text z naskenovaných dokumentov. Predstavíme si niekoľko programov, ktoré vám otvoria v tomto smere nové možnosti.

Text ako ho poznáme v elektronickej forme, teda editovateľný a upravovateľný nie je často dostupný a jediné čo máme sú len v dokumenty v papierovej podobe, alebo v podobe už naskenovaného obrázka. Prevedenie do digitálnej podoby na editovateľný text nám zabezpečujú práve programy, ktoré využívajú OCR – optické rozpoznávanie textu. OCR technológia dokáže rozpoznávať tlačené písmená a texty veľmi dobre a úspešnosť pri vysokej kvalite obrázka dosahuje až 97-100%. Niektoré OCR programy sa snažia pracovať aj s písaním písmom alebo inou formou ručne písaného textu. Najprv sa program “učí” váš štýl písanie a potom rozpoznáva. Úspešnosť takéhoto rozpoznávania je však stále veľmi nízka. Vybral som štyroch zástupcov OCR softvéru, ktorí vám dúfam uľahčia konverziu papierových dokumentov do elektronickej podoby.

Microsoft Office Document Imaging
Začneme tým, čo má väčšina z nás a je to balíček kancelárskych nástrojov Microsoft Office. OCR technológiu obsahuje tento balíček už od verzie MS Office 2000. Ide o samostatný nástroj, ktorý je prístupný najľahšie cez Štart->Programy->Microsoft Office->Nástroje balíčka Microsoft Office->Microsoft Office Document Imaging. Program slúži na upravovanie papierových prezentácií a ich ozvláštnenie, ale tiež sa dá použiť na ich konverziu do elektronickej podoby. Po spustení sa zobrazí jednoduchý program so strohým ovládaním. Možno malou nevýhodou je, že pracuje iba s obrázkami vo formátoch .mdi, .tif. a .tiff. Podpora JPG aj GIF chýba. K dispozícií sú nástroje – export textu do Wordu, vyhľadávanie, kreslenie, 3- farebný zvýrazňovač a iné. Program obsahuje priame spojenie zo skenerom, a ak sú potrebné dokumenty prístupné v papierovej podobe, je veľmi jednoduché spracovať ich pomocou MS Office Document Imaging.




SimpleOCR


Je freeware OCR nástroj. Užívateľské rozhranie je veľmi strohé a SimpleOCR podporuje iba Angličtinu (U.S. a britskú), Francúzštinu a Holandčinu. Pre tieto jazyky je rozpoznávanie skutočne účinné. Použiť ho však na rozpoznávanie slovenčiny, alebo češtiny je úplne nevhodné. Pri rozpoznávaní iných jazykov sa program drží predvolených slovníkov a často slová alebo jednotlivé písmená zamieňa tak, aby sa podobali na predvolený jazyk. Preto rozpoznávanie slovenského jazyka nedopadne dobre. SimpleOCR podporuje vstup údajov vo formátoch TIFF, JPG, BMP, INK, alebo možnosť priameho skenovania do softvéru. Výstup je generovaný vo formáte .doc, alebo .txt. Kontrola textu je vymyslená tiež dôvtipne, pretože po kliknutí na slovo, ktoré nebolo celkom správne rozpoznané sa nad ním zobrazia možnosti zo slovníka, ktorými ho chceme nahradiť. Freeware verzia SimpleOCR obsahuje aj 14-dňové bezplatné použitie rozpoznávania rukou písaného textu. Program sa začne učiť jednotlivé vzory písania rukou a potom sa podľa nich riadi pri rozpoznávaní. V tomto prípade je účinnosť rozpoznávania veľmi kolísavá a samozrejme nedosahuje úspešnosť pri tlačenom texte. Aktuálne najnovšia verzia je SimpleOCR 3.1 a má veľkosť 9,28 MB.

Download SimpleOCR 3.1
Web: simpleocr.com




ABBYY FineReader Professional


Je to profesionálny OCR softvér, ktorý dosahuje veľmi vysokú úspešnosť rozpoznávania znakov než Microsoft Office Document Imaging a SimpleOCR. Za kvalitu sa však platí a cena tohto nástroja je 139 EURO. Vyskúšať si ho môžete v trial licencií, ktorá trvá 15 dní. Poskytuje skutočne širokú paletu nástrojov, ktorá vám uľahčí proces transformácie papierovej podoby dokumentu do elektronickej. Podporuje slovenský a český jazyk v rozpoznávaní textu, ako aj v interface-i programu. Podporuje všetky bežné grafické formáty – JPG, BMP, JPEG, TIFF, PNG. Pomocou ABBYY Fine Readeru môžete konvertovať aj PDF súbory do iných formátov (.doc, .xls, .ppt). Intuitívny sprievodca v programe veľmi zľahčuje počiatočnú prácu s ním. Nechýba ani kontrola pravopisu. Môžete si prednastaviť a vytvoriť vlastné vzory rozpoznávania textu, a tak prispôsobiť ho danému typu dokumentu. Aktuálne najnovšia verzia je ABBYY FineReader 8.0 Professional Edition s veľkosťou 53,1 MB.

Download ABBYY FineReader 8.0 Professional Edition
Web: abbyy.com




Readiris Pro


Ďalší z komerčných OCR nástrojov, ktorý ponúka možnosť “naučiť sa” a rozpoznávať ručne písané písmo. Nevýhodou trial verzie je možnosť výberu iba anglického slovníka pre rozpoznávanie textu. Rozpoznávanie anglického jazyka je však na vysokej úrovni. Interface trial verzie však umožňuje komunikáciu v českom jazyku. Úspešnosť rozpoznávania slovenského jazyka je relatívne vysoká, len má problémy s diakritikou. V licencií trial ho môžete kompletne používať po dobu 30 dní. Inak stojí $129. Celým procesom, od vybratia zdroja obrázka (skener/zo súboru) vás prevedie sprievodca, a tak je použitie tohto programu jednoduché. Readiris spolupracuje s formátmi JPG, PNG, BMP, TIFF a aj PDF. Funguje teda aj ako konvertor PDF do iného formátu. Aktuálne najnovšia verzia je Readiris PRO 11 s veľkosťou 4,63 MB.

Download Readiris Pro 11
Web: irislink.com