Vícejazykový systém pro OCR - Readiris pro 6 cz

Sdílet

V podtitulku uvedená zkratka OCR pochází ze sousloví Optical CharacterRecognition, v češtině pak optické rozpoznávání znaků. Jedná se o specializovaný software, který je schopen přev...

V podtitulku uvedená zkratka OCR pochází ze sousloví Optical Character
Recognition, v češtině pak optické rozpoznávání znaků. Jedná se o

specializovaný software, který je schopen převést informaci obrazovou na

znakovou pomocí důmyslného algoritmu. Lidově řečeno, vytáhne z naskenovaného

textu znaky a předá je případně ke zpracování běžnému textovému editoru. Ušetří

tedy spoustu času při přepisování textu do počítače.



Samozřejmě že to vypadá moc ideálně. Proto je třeba překonat několik zádrhelů.

Předně je potřeba mít zařízení, které převede předlohu do počítače, tedy nějaký

druh skeneru. Také na předlohu jsou kladeny určité požadavky. Například musí

být dobře čitelná. Všechno výše uvedené platí pro veškeré OCR programy. Dají se

vcelku dobře rozlišit podle toho, s jak nekvalitním textem se ještě dokáží

vypořádat.





Skenujeme a rozeznáváme



V případě, že vaše pracoviště ještě není skenerem vybaveno, měli byste si ho co

nejdříve pořídit. Hodí se totiž na spoustu věcí. Chcete-li ho používat jako

zdroj pro OCR, nejsou na něj kladeny žádné speciální nároky. Pro recenzovaný

software pak stačí být vybaven ještě nějakým rozumným PC, a lze začít pracovat.

Po bezproblémové instalaci a prvním spuštění se objeví průvodce nastavením

parametrů. Po jejich zadání už zbývá jen založit předlohu do skeneru a

stisknout tlačítko pro načtení předlohy. Program používá standardní TWAIN

rozhraní a skenování tedy probíhá obvyklým způsobem. Obecně lze také říct, že

není třeba skenovat text s příliš velkým rozlišením (stačí asi 300–400 dpi).

Jednak se tím redukuje velikost předlohy, jednak je vyšší rozlišení už

neefektivní. Ale zpátky k práci. Po naskenování textu následuje jeho rozdělení

na odstavce a jejich seřazení, jak jdou po sobě. Rozpoznávání textu se spustí

dalším tlačítkem. Rozpoznaný text pak ReadIRIS uloží jako dokument v textovém

editoru, přednastaven je MS Word 97/2000. Použití Wordu je výhodné i proto, že

ReadIRIS podporuje ukládání textu ve formátovaném tvaru. Je možno samozřejmě

nastavit ukládání i jako plain text, který formátování přirozeně ztrácí.





Zkušenosti



Již výše jsem naznačil, že hodně závisí na kvalitě předlohy. Při pokusu o

rozeznání tmavězeleného textu na tmavěmodrém pozadí činí potíže i člověku,

natož počítači. Nejlepších výsledků se podaří dosáhnout s černým textem na

bílém pozadí. Nejhorších naopak v případě spektrálně blízkých barev, jak jsem

již zmínil. V případě snímání barevného textu je třeba si vyhrát s nastavením

skeneru.



Při rozpoznávání je ReadIRIS čím dál tím lepší. Důvodem je jeho schopnost učit

se. Při prvním spuštění se objeví největší množství špatně určených znaků.

Vyplatí se ze začátku nechat program rozpoznávat v učicím modu. V případě

nejasnosti se zeptá na správnou interpretaci znaku a naučí se příslušnou

variantu daného písmene. Čím rozsáhlejší znalosti ReadIRIS získá, tím více se

snižuje počet chyb ve čteném textu. Po několika textech přečtených a

interaktivně opravovaných je úspěšnost skutečně vysoká a je pak možno učení

vypnout.



Jak je již řečeno výše, výstupy ReadIRISu se exportují přímo do MS Wordu

společně s formátováním, tzn. že rozpoznaný text zachovává odstavce, odrážky a

ostatní prvky. Navíc při skenování kompletní stránky i s grafikou je pak

obrázek vložen jako objekt do výsledného dokumentu na stejném místě jako v

předloze.



Zkušenosti jsem sbíral skenováním různých předloh od dokumentů, vytištěných

laserovou tiskárnou, po reklamní letáky nevysoké kvality (graficky a obsahově).

Pokud se jednalo o černobílé texty s ucházejícím tiskem, ReadIRIS byl takřka

stoprocentní. Zachoval formátování, a chyby byly zanedbatelné, jako třeba

nevynechání mezery mezi slovy. Se zhoršující se kvalitou předlohy klesala i

úspěšnost rozpoznání a ve zmíněném případě kombinace modrá-zelená byla

úspěšnost už mizivá. Je třeba dodat, že i já jsem měl problém rozluštit, co je

tam napsáno. Program umožňuje navíc obvyklé operace se zdrojovým obrázkem

otočit, zrcadlit nebo roztáhnout, což se občas hodí.





Hodnocení



ReadIRIS mě příjemně překvapil. Čtení černobílého textu je rychlé a

odpovídající předloze, což je přesně to, co bych od OCR softwaru očekával.

Navíc je dodáván v jedné verzi pro desítky jazykových mutací, mezi nimiž

nechybí čeština. Nevzniká tedy problém háčků a čárek. Zároveň lze několika

kliknutím i změnit rozpoznávání z češtiny třeba na ruštinu a nechat si přečíst

text psaný azbukou, což jsem také úspěšně odzkoušel. Kromě jiných znakových sad

zvládne program i různé druhy fontů.



Jestli se u vás přepisují z tištěných předloh do počítače kvanta textů, tak

ReadIRIS je řešením pro vás. Vražte těch pár korun do nějakého skeneru a pusťte

se do optického rozpoznávání znaků. Zejména je to vhodné pro ty, kteří nejsou

schopni během pracovní doby přepsat pětistránkovou dokumentaci. S dobře

vycvičeným ReadIRISem se časová náročnost tohoto úkonu výrazně sníží.









ReadIRIS PRO 6 CZ



schopnost učit se

úspěšnost rozpoznávání

množství podporovaných znakových sad



K recenzi poskytla firma: I.R.I.S. www.irislink.com

Distributor pro ČR: SWS, a. s.

Dostihová 1, 763 15 Slušovice

Cena: 16 421 Kč (bez DPH)