Jak používat OCR? [II] - READ IRIS 4.17 (na CD 1/2001)

1. 2. 2001

Sdílet

Načíst text je jedna věc, ale správně jej reprodukovat je věc druhá. Ukážemevám pár triků, jak dostat z OCR Readiris maximum. Minule jsme si uvedli, že při optickém rozpoznávání z...

Načíst text je jedna věc, ale správně jej reprodukovat je věc druhá. Ukážeme
vám pár triků, jak dostat z OCR Readiris maximum.



Minule jsme si uvedli, že při optickém rozpoznávání znaků pracujeme s

jednotlivými literami. Pomocí složitých procesů OCR postupně rozpoznává,

analyzuje a převádí znaky do počítačového jazyka písmen a čísel.



K rozpoznávání používá Readiris při různých krocích různé technologie. Nejprve

provede řádkovou segmentaci, kdy rozdělí text do řádek. Poté pomocí analýzy

mezer rozdělí řádek na jednotlivá slova a nakonec izoluje každé písmeno.

Oddělování jednotlivých písmen je jednoduché, jestliže jsou mezery mezi nimi

fixní. Složitější situace nastává u proporcionálního písma, kde se velikost

mezery mění podle typu a velikosti liter.



Nyní hlouběji do procesu rozpoznávání. Nejprve je nutné provést topologickou

analýzu, tj. analyzovat každý znak samostatně. Např. tvar písmene „a“ je zcela

odlišný od písmene „b“, naproti tomu písmena, jako „i“ a „l“, si jsou velmi

podobná. Navíc, pokud není skener řádně nastaven, může tečka nad „i“ splynout

se základem písmene.



Readiris nabízí různá řešení těchto problémů. K ohodnocení sporných slov

používá lingvistické slovníky. Vezměte si třeba slovo „maličký“. Pokud je

rozpoznáno jako „mallčký“ nebude tento návrh brán jako lingvisticky správné

řešení. V takovém případě je na uživateli, aby provedl opravu výrazu.





Analýza, nezbytná fáze



Pro dosažení vyššího procenta přesnosti rozpoznávání vám doporučujeme používat

interaktivní analýzu. Způsob použití vysvětlíme na následujícím příkladu:



Spusťte Readiris 4.17 a přivítá vás průvodce (pokud ne, spusťte jej sami z

ikony „OCR Wizard“ na levé ovládací liště). Klikněte na „Next“, vyberte „Image

file“, a potvrďte kliknutím na „Next“. V dalším okně si zvolte jazyk (Change →

Czech → OK) a znovu klikněte na „Next“. Průvodce vás požádá, abyste vybrali

formát výstupního souboru. Ponechte navrhovaný formát s hodnotami „Format: Rich

Text Format; Paragraph: off; Layout: Recreate source document“. Po odkliknutí

„Next“ potvrďte nastavení kliknutím na „Go“. Nyní se vám otevře okno v

základním adresáři se zdrojovými obrazovými dokumenty (pokud jste je spolu s

programem nainstalovali). Zde označte soubor Czech.tif a poté klikněte na

„Open“. Automaticky se spustí rozpoznávací proces a Readiris otevře okno, v

němž budete provádět korekce. Abyste se vyhnuli možným inkoherencím, bude vám

program asistovat během celého procesu. Nakonec získáte téměř perfektní text,

který můžete uložit do adresáře pro výstupní soubory.





Více písmen, méně chyb



Nyní spustíme OCR znovu na tentýž text, avšak použijeme slovníky, které jsme

vytvořili během předchozí operace. Klikněte v nabídce na „Learn“ a vyberte

volbu „Append font dictionary“. Dialogové okno vám nabídne stejný slovník jako

v předchozím kroku, tj. „Readiris.DUS“. Přejmenujte soubor na „Czech.DUS“ a

potvrďte výběr.



Klikněte na tlačítko „Recognise“ na levé liště hlavního okna. Dostanete se do

interaktivního výukového režimu a budete používat svůj vlastní slovník. Stejně

jako dříve se vás bude program během rozpoznávání ptát na váš názor na

problematické znaky. Abyste získali správné řešení, zadávejte opravy a

potvrzujte je pomocí tlačítka „Learn“. Toto proveďte s celým dokumentem a pak

uložte soubor pod názvem „Czech.rtf“. Nyní zkuste znovu tlačítko „Recognise“.

Readiris opět automaticky spustí proceduru rozpoznávání, avšak tentokrát bude

používat slovník „Czech.DUS“, který obsahuje všechny dříve provedené opravy.

Uvidíte, že se dostanete na konec dokumentu velmi rychle.



Tak získáváte rychlejší OCR s vyšší mírou rozpoznávání.





Slovník v každém případě



Readiris nabízí standardní slovník, umožňující přidávat slova a vyhýbat se

záměnám mezi znaky nebo skupinami podobných znaků. Navíc si můžete vytvořit i

více slovníků. Ve skutečnosti totiž existuje celá řada možností, jak

reprodukovat jeden znak (velké písmeno, malé písmeno, tučně, kurzíva, apod.).

Dá se říci, že u běžných znaků „i“ a „l“ je možnost záměny malá, avšak mezi „I“

číslicí „1“ je pravděpodobnost záměny značně vysoká. Tyto dva tvary si jsou

velmi blízké. Proto by se měly v ideálním případě používat různé slovníky, z

nichž by každý měl odpovídat speciálnímu typu písma.





Maximalizace programu



Představme si, že chceme digitalizovat celou knihu. Zde bude typ fontu stále

stejný. Jestliže vytvoříte specifický slovník, budete zvyšovat míru

rozpoznávání stránku po stránce. Ale pokud pracujete s různými dokumenty s

odlišnými typy fontů, doporučujeme používat různé slovníky.





Jaká jsou omezení pro používání OCR?



Readiris umí rozlišovat mezi obrazovým a textovým blokem. V rámci textového

bloku umí identifikovat přesahující písmena (první písmeno větší než zbytek

znaků ve větě). Avšak existují omezení ve velikosti fontů. Readiris dokáže

přečíst fonty o velikosti mezi 6 a 72 body. Program přečte téměř všechny druhy

tištěného textu (psaný na psacím stroji, tištěný na laserové nebo inkoustové

tiskárně). Dokonce je možné číst texty tištěné na jehličkové tiskárně s 9 nebo

24 jehličkami (kvalita draft nebo letter), kdy OCR musí číst shluk izolovaných

teček. K tomu je nutná specifická segmentace a speciální rozpoznávací technika.

Pro tento případ je v nabídce „Settings“ volba „Font Type“>„Dot Matrix“. Pokud

k sejmutí vašeho dokumentu používáte skener, nezapomeňte na to, že je velice

důležité nastavení hodnot jas, barva, apod.





Něco o nastavení skenerů



Pro získání dobrých výsledků doporučujeme rozlišení 300 dpi. Profesionální

verze produktu Readiris 6.0 umožňuje skenování v barvě. Na rozdíl od ostatních

OCR na trhu, které mají automatickou binarizaci obrazu v černobílé, nabízí

Readiris 6.0 možnost černobílý obraz ladit (smoothen colour image, despeckle,

brightness), a tak získat nejlepší možné výsledky. To přivítají zvláště ti

uživatelé, kteří pracují s obtížně zpracovatelnými dokumenty, např. se starými

knihami, nekvalitním papírem, špatným tiskem znaků, apod.









Správné využívání slovníků fontů



1. Poté, co zahájíte proces rozpoznávání (manuálně nebo prostřednictvím

průvodce OCR), spustí se automaticky interaktivní výukový proces (v případě, že

není deaktivován!) s předvoleným slovníkem „Readiris.DUS“.



Objeví se okno specifikující typ slovníku (vybraný nebo předdefinovaný). Za ním

je uvedená cesta, která indikuje umístění slovníku na disku (například: „New

dictionary: C:ReadirisReadiris. DUS“). Do tohoto slovníku budou zanášeny

všechny opravy. Po dokončení rozpoznávání můžete soubor uložit pod jiným jménem.





2. Jestliže systém váhá nad výsledkem rozpoznávání, zobrazí se v okně sporný

tvar, kde je zvýrazněn znak nebo řetězec znaků (pokud nejsou odděleny) a OCR

nabízí řešení. Nerozpoznané znaky jsou signalizovány jako „~“. Je-li to nutné,

napište správný znak a stiskněte Enter nebo klikněte na „Learn“ na pravé straně

okna. Tím doplňujete slovník, který bude možné použít pro podobné dokumenty.

Při každém dalším použití bude slovník registrovat více a více položek, a to

tak dlouho, dokud OCR nepřestane pokládat další dotazy a dokud nebudou

začleněny všechny odpovědi.





3. V některých případech je navrhovaný znak zlomený nebo poškozený. Tehdy

zadejte správný znak nebo řetězec znaků, a potom klikněte na tlačítko „Don

Learn“. Tak se vyhnete zanášení sporných informací do vašeho slovníku. Při

příštím výskytu takových znaků však bude Readiris opět vyžadovat váš zásah.





4. Readiris otevře v interaktivním režimu okno, které ukazuje bitmapový obrázek

zpracovávané části dokumentu. Někdy, pokud obraz není dost dobrý (špatný skener

a/nebo nekvalitní skenování), se mohou objevit v ověřovacím okně parazitní

znaky. V tomto případě doporučujeme tyto nepotřebné znaky vymazat.





5. Readiris vrací zpět záznam posledních devíti operací výukového procesu

pomocí tlačítka „Undo“. Tato možnost je zvláště zajímavá, pokud jste vymazali

znak, který vymazán být neměl.





6. Poslední tlačítka, která máte k dispozici, jsou „Finish“ a „Abort“. „Finish“

ukončí interaktivní výukový systém, automaticky dokončí rozhodovací fázi a

uloží slovník všech přijatých rozhodnutí. Tlačítkem „Abort“ stornujete celý

proces rozpoznávání.





7. Kvalita slovníku má přímý dopad na míru schopnosti rozpoznávání produktu

Readiris. Proto vám doporučujeme ukládat různé slovníky podle různých typů

fontů a znaků. Slovník můžete po dokončení rozpoznávání uložit, a potom znovu

použít pro ostatní dokumenty s podobným typem písma. V takovém případě vyberte

na začátku nové úlohy volbu „Append dictionary“ z menu „Learn“ a v nově

otevřeném okně vyberte slovník (název.DUS).





8. Funkce „Append dictionary“ znamená, že všechny opravy, které byly provedeny

během výukového procesu budou ukládány do vybraného slovníku. Během využívání

tohoto slovníku budou opravy přidávány, a to v konečném důsledku značně zvýší

přenosnost a rychlost rozpoznávacího procesu.





9. Volba „Read font dictionary“ vybírá slovník, avšak neukládá do něho nové

informace.