Jak používat OCR? [I] - Readiris 4.17

1. 1. 2001

Readiris je šikovný nástroj, který dokáže pomocí skeneru snímat ("grabovat")faxy, knihy a další dokumenty a převést je do editovatelného textu, přičemž dodržuje původní uspořád

Readiris je šikovný nástroj, který dokáže pomocí skeneru snímat („grabovat“)
faxy, knihy a další dokumenty a převést je do editovatelného textu, přičemž

dodržuje původní uspořádání.

Belgická společnost I.R.I.S. uvedla na podzim na trh zbrusu nový produkt

nazvaný Readiris Pro 6.0. Uživatelé nových skenerů Hewlett-Packard nebo AGFA

již tento nástroj znají, neboť je dodáván spolu s nimi.

Nás ale těší, že vám můžeme nabídnout zdarma zvláštní verzi programu Readiris

4.17 CUP. Ta sice není tak sofistikovaná jako ta nejnovější, jedná se však o

plnou verzi schopnou číst 55 jazyků. Za normálních okolností je časově omezená,

nicméně lhůta vám bude určitě dostačovat k vyzkoušení produktu podle zde

uvedeného návodu. Navíc máte možnost získat zdarma od společnosti I.R.I.S.

klíč, kterým časové omezení softwaru odblokujete. K získání klíče stačí, abyste

se zaregistrovali přímo u společnosti I.R.I.S. Navrhujeme vám, abyste k

následujícím odstavcům přistupovali jako ke stručnému návodu, jehož cílem je

seznámit vás s technologií OCR.

Ze všeho nejdříve vysvětlíme význam některých termínů, které se v technickém

jazyku OCR běžně používají a mají zároveň určité historické pozadí.

Co je OCR?

Zkratka OCR znamená „Optical Character Recognition“ (optické rozpoznávání

znaků) a popisuje proces, kdy je z papírového dokumentu naskenován obraz a

následně je z tohoto obrazu „extrahován“ text.

Tímto způsobem jsou papírové dokumenty konvertovány do editovatelných

počítačových souborů. To je přesně to, oč tu běží. Zadáváte text do PC, aniž

byste jej museli přepisovat, a navíc máte své informace v počítači mnohem

rychleji. Rozpoznávání textu je 20až 25krát rychlejší než ruční přepisování.

Pro srovnání si uvedeme pár čísel: zatímco velmi rychlá sekretářka napíše 200

znaků za minutu, OCR rozpozná několik stovek znaků za sekundu. (Nutno přidat

určitou dobu pro proces skenování a pro obsluhu softwaru.)

OCR lze také použít, když budete chtít převést do počítače tabulky s čísly,

takže se ve vaší kanceláři může stát velice efektivním nástrojem.

Odkud tato technologie pochází?

Ačkoli vývoj OCR začal již před 30 lety ve výzkumných laboratořích umělé

inteligence, přesto je tato technologie celkem neznámá i pro lidi, kteří by ji

mohli používat při každodenní práci. První OCR byly velmi pomalé a nebyly zcela

přesné. Ve většině případů se omezovaly na rozpoznávání speciálních fontů

(OCR-A, OCR-B). Ale stejně jako v ostatních oblastech počítačové vědy, dochází

i zde k obrovskému vývoji. První komerční produkty OCR na platformě PC se

objevily na konci 80. let. V 90. letech se tato technologie zpřesnila,

zrychlila a stabilizovala. A tak zatímco se výkon zvyšoval, ceny OCR a skenerů

výrazně klesaly.

Dnes je již většina skenerů dodávána spolu s OCR softwarem. Lze proto

předpokládat, že s ohledem na rapidně rostoucí trh s multifunkčními periferiemi

(fax, skener a tiskárna v jediném přístroji) se může OCR stát stejně využívanou

aplikací jako textový editor.

Jak OCR funguje?

Po naskenování získáme z papírového dokumentu „obraz“ a následně je z tohoto

obrazu „extrahován“ text. Co se však ve skutečnosti děje? Můžeme si proces OCR

více specifikovat?

Skener funguje jako „oko“ počítače a vytvoří obraz. V tomto kroku je obraz

dokumentu pouze nesmyslný shluk černých teček (pixelů) a bílého pozadí. Z

pixelů extrahuje OCR textové informace tak, že rozlišuje tvary liter a

přiřazuje je ke znakům. To provádí v několika krocích.

Prvním krokem je segmentace řádek. Rozdělí stránku s textem do samostatných

řádků, analyzuje zkosení řádků, jejich rozteč, iniciály a odděluje řádky, které

se dotýkají.

Fáze segmentace slov a znaků izoluje jedno slovo od druhého a odděluje

jednotlivá písmena ve slově. Pokud mají znaky stejnou šířku (např. v DOSu), je

segmentace znaků jednoduchá. Problémy nastávají, pokud šířka písmene závisí na

jeho tvaru (proporcionální písmo), jestliže dochází k převisu určité části

písmene a k dotýkání znaků (ligatury), nebo když se používají fonty

jehličkových tiskáren (znaky vytvořené ze shluků izolovaných teček).

V posledním kroku je ke každému samostatnému tvaru přiřazen podle

charakteristiky daného znaku správný symbol. OCR analyzuje segmentované znaky

tak, jako to dělají nevědomky lidé. Extrahuje tvary (čáry, kličky, mezery,

uzly, úhly, apod.) a porovnává je vůči předdefinovanému nebo naučenému zdroji

znalostí. Tento přístup se nazývá „topologická analýza“. Její hlavní výhodou

je, že takto získáte omnifontovou identifikaci znaků, do značné míry nezávislou

na velikosti fontu.

Jaká je role uživatele v procesu OCR?

Zcela jednoduchá! Naskenuje dokument a označí, co ho zajímá. O vše ostatní se

již postará OCR. Novým uživatelům jistě bude vyhovovat průvodce, vedoucí

procesem OCR pomocí jednoduchých, přímých otázek. Práci s OCR lze ještě více

zjednodušit využitím automatického režimu. Uživatel jen skenuje předlohy, a

poté je ukládá jako textové dokumenty. Můžeme tomu klidně říkat: „opis textů na

jedno kliknutí“!

Jaká je úloha lingvistiky v procesu OCR?

Softwarové balíky OCR obsahují lingvistické databáze nebo lexikony. K čemu se

využívají? Systém se s jejich pomocí učí nové znaky a využívá k tomu

kontextovou analýzu. Lingvistické znalosti týkající se slabik a slov tak

zvyšují výkonnost OCR. Aby nedocházelo k záměně vlastních jmen nebo cizích slov

za známá slova vybraného jazyka, neposkytuje lingvistická analýza žádné pevné

výsledky. Místo toho používá tzv. fuzzy logiku, která kombinuje výsledek s

lingvistickými daty a přiřazuje váhu možným řešením.

Je důležité, abychom si uvědomili, že systém používá lingvistiku v průběhu

rozpoznávací fáze, a ne po ní! Lingvistika je podstatnou částí rozhodovacího

procesu, nezaměňujte proto lingvistický modul Readirisu za kontrolu pravopisu,

kterou můžete použít až na rozpoznaný text.

Čím je výjimečná technologie OCR společnosti I.R.I.S., a co znamená

„connectionist“?

Technologie společnosti I.R.I.S. je neoddělitelně spojena se slovem

„connectionist“. Jeho znakem je na fontu nezávislá extrakce znaků, doplněná o

samoučicí technologie odvozené z patentované neurální sítě. Co se za touto

poučkou skrývá? Již dříve jsme si uvedli, že OCR provádí topologickou analýzu,

při níž využívá virtuální rozpoznávání fontů (příklad omnifontu). Při

lingvistické kontextové analýze ji doplňuje o výše uvedenou samoučicí se

logiku. To vše je však třeba použít v pravý čas a na správném místě. A právě to

má za úkol neurální síť, která používá k organizaci analýz neurální rozhodovací

model.

Readiris má tedy vše, co má mít. Existují však nějaké výjimečné vlastnosti,

které jsou pro filosofii společnosti I.R.I.S. charakteristické? Takovou

vlastností je jistě samotné ovládání produktu Readiris. Uživatel označuje v

dialogovém okně sporné znaky, a tím zároveň zvyšuje přesnost systému. Všechna

takto vybraná řešení si totiž software zapamatuje, a to postupně zvyšuje jeho

rychlost a zároveň snižuje chybovost. Čím více Readiris používáte, tím

inteligentnějším jej činíte! Readiris můžete dokonce vytrénovat na zvláštní

znaky (např. matematické symboly) nebo mu pomoci vyrovnat se s deformovanými

fonty, jaké se nacházejí ve skutečných dokumentech.

Druhým výjimečným znakem je počet podporovaných abeced a jazyků. Readiris čte

55 jazyků, včetně řečtiny, japonštiny, čínštiny a jazyků psaných azbukou, což v

porovnání s ostatními OCR nemá obdobu!

Začínáme…

1. Readiris máte nainstalován na disku. Chcete–li zahájit práci, klikněte na

menu Start, přejděte na Programy, a potom na IRIS Applications a Readiris. V

rolovacím menu naleznete spoustu ikon. Pomocí několika prvních z nich

přistupujete k dokumentům ve formátu pdf (Acrobat Reader), další umožňuje

program odinstalovat, je zde i hypertextový odkaz na webovou stránku výrobce, a

především ikona pro spuštění aplikace.

2. Po spuštění programu vás přivítá průvodce registrací, kde si pomocí tlačítka

Request the key můžete vyžádat klíč, jenž odstraní časový limit pro použití

aplikace. Chcete-li se registrovat později, stiskněte tlačítko Register later.

V tom případě se objeví průvodce po OCR. Jeho použití je velmi intuitivní,

musíte pouze odpovědět na několik otázek a celá aplikace se rozeběhne sama.

Průvodce se vás zeptá, zda je dokument, který se má zpracovat, soubor, nebo zda

ho chcete teprve naskenovat. Pro začátek klikněte na obrazový soubor (Image

file) a k práci použijte vzorový dokument. Pak zvolte jazyk dokumentu typicky

češtinu.

3. Pomocí následujícího okna si zvolíte, v jakém formátu chcete výsledky OCR

ukládat. K dispozici je více možností, ale pokud vám nevyhovují, klikněte na

tlačítko Change, a změňte je. Používáte-li MS Word, nastavte si Format: Rich

text format, Paragraph: On, Layout: Recreate source document. I přesto budete

mít stále možnost rozvržení dokumentu zachovat nebo měnit.

4. Po potvrzení vašeho výběru se průvodce zeptá, zda jste připraveni začít s

rozpoznáváním klikněte tedy na Go. V objevivším se okně zvolte vzorový soubor a

potvrďte OK. Poté začne Readiris s analýzou a zahájí rozpoznávání textu a jeho

uspořádání.

5. Po této analýze přejde program automaticky na druhou fázi. Požádá vás,

abyste potvrdili správnost některých slov, písmen či prvků, jimiž si není zcela

jist, a případně je opravili.

6. Po dokončení této fáze Readiris automaticky otevře okno s textovým souborem

v předdefinovaném formátu. Jedná se o textový soubor generovaný systémem ze

zdrojového obrazového souboru. Po uložení souboru zobrazí Readiris celkový

pohled na dokument, kde jsou naznačeny cesty, které logicky spojují odstavce.

Není nutné zdůrazňovat, že výběry provedené aplikací je možné změnit.