Opravdu dobrý čtenář - ABBYY Fine Reader 6.0 Professional

1. 11. 2002

Sdílet

S tímto programem nevšedních možností, jenž slouží k optickému rozpoznáváníznaků a jejich převodu do dále použitelné textové formy, jste se již setkali jak na našich stránkách,...

S tímto programem nevšedních možností, jenž slouží k optickému rozpoznávání
znaků a jejich převodu do dále použitelné textové formy, jste se již setkali

jak na našich stránkách, tak na CD ve formě ukázkové verze. Protože ukrajinský

vývojářský tým postupuje mílovými kroky vpřed, pojďme se seznámit s aktuálními

možnostmi.





Na každý stůl



Doby, kdy systémy OCR představovaly nákladnou záležitost a výsledky jejich

práce byly spíše experimentálního rázu, jsou naštěstí pryč. V současnosti není

kvalitní rozpoznávací program rozmařilostí, ale dostupným softwarovým vybavením

kanceláře. Nemálo tomu přispěla i společnost ABBYY, jejíž produkty představují

momentálně špičku v oblasti řešení jak pro koncové uživatele, tak pro náročné,

hromadné zpracování dat.



Aktuální verze 6.0 je dodávána ve dvou provedeních: edice Professional je

vhodná pro nasazení na jednotlivé PC, a Corporate Edition přidává další

funkcionalitu pro práci v síťovém prostředí (např. sdílení dat či dávkové

zpracování). My jsme vyzkoušeli první zmíněnou variantu.





Co je nového?



Při tvorbě „šestky“ zapracovali programátoři na několika frontách najednou.

Následující odstavec není zdaleka vyčerpávajícím výčtem, ale spíše upozorněním

na vlastnosti, jež nám připadaly z nějakého důvodu zajímavé. Na prvním místě je

třeba zmínit dopracovanou kompatibilitu s Windows 2000 a Windows XP, což byl

ovšem krok nutný. Naopak rozšíření nabídky exportních formátů o PDF je velmi

lákavé a užitečné, neboť tento typ dokumentu představuje dnes de facto

standard. Když jsme u výstupu do souboru, dodejme, že se podstatně zlepšila též

schopnost např. do Wordu přenést i naskenované obrázky jako odpovídající

objekty na stránce. Mezi velmi zdařilou patří také technologie filtrování

nečistého či barevného podkladu, jenž silně ruší načítání vlastního textu.





A co jsme zjistili?



Veškerou práci s programem jsme prováděli ve Windows 2000, přičemž podklady

byly připraveny ve formě zdrojových souborů, neboť jsme skeny prováděli na

jiném počítači. Jak následně bude uvedeno, vyzkoušeli jsme řadu zdrojových

materiálů: okopírovanou stránku z časopisu, laserovou tiskárnou vytištěný text

s ručními korekturami, originální stránku z PC WORLDu (s výraznými barevnými

obrázky) či propagační leták s velkými barevnými plochami. Při práci bylo

použito defaultní nastavení, žádné pokročilé volby jsme neaktivovali. S jejich

použitím se samozřejmě výsledek bude dále zlepšovat.



Přenos grafických dat byl realizován pomocí formátu JPG (barevné) a BMP

(černobílé). S TIFem by program neměl mít dle dokumentace potíže, ale

nepochopitelně se k němu nechtěl znát.



- laserový tisk, rukou vepsané korektury, ČB sken, 600 dpi. Výstupem byl v

podstatě identický dokument, tedy alespoň v místech, kde nezasáhla korektorská

tužka. Větší ruční poznámky na okraji byly zařazeny jako obrázek, menší byly

chybně interpretovány zde však nikdo nečekal úspěch. Pokud je zdrojem laserový

tisk, program nechybuje.



- kopie časopisu, ČB sken, 600 dpi. Přestože obraz prošel dvojí digitalizací

(nekvalitní kopírka, poté teprve sken), výsledek byl překvapivě dobrý. Veškerý

text byl rozpoznán správně a v MS Wordu byly dobře zalomeny sloupce, vloženy

obrázky i zvětšeny nadpisy na potřebný font. Výsledek byl ihned použitelný,

přestože samotný zdrojový výtisk byl dosti umazaný od toneru a obsahoval

nežádoucí pruhy od hřbetu a růžků stránek. „Čistící“ funkce Fine Readeru

zapracovala perfektně.



- stránka PC WORLDu, True Color sken, 300 dpi. Jednalo se asi o nejobtížnější

předlohu ze všech. S fontem o velikosti cca 8,5 bodu na silně zabarveném

podtisku měl program místy potíže, avšak téměř vždy se to týkalo řádků v

kurzívě. Hůře dopadly obrázky některé byly opomenuty a do výsledného DOC

souboru se nedostaly. Proporce mezi odstavci a obtékání vložených objektů však

bylo velmi dobře zachováno.



- barevný leták, True Color sken, 300 dpi. I v tomto případě si program poradil

velmi dobře. Silné barevné plochy byly s úspěchem odfiltrovány a v textu

prakticky nebyly chyby, pokud velikost znaků neklesla pod cca 2 mm. Při

kombinaci menšího písma a tmavě zeleného podkladu jsme zaznamenali zhruba 20%

chybovost. Při uložení do MS Wordu bylo přesně zachováno rozložení prvků

stránky, poměr ve velikosti fontů nadpisů či umístění loga (viz obr.). Dokument

byl po krátké korektuře použitelný.





Hodnocení



Mezi obrovské výhody patří perfektní uživatelské rozhraní. U ABBYY považují

lokalizaci do všemožných jazyků za samozřejmost, takže ovládání je v češtině.

Další příjemné překvapení nastalo při ukládání rozpoznaného textu kromě formátu

DOC fungoval velmi dobře i výstup do PDF, a také do StarWriteru (OpenOffice).

Sice zde vypadlo zarovnání do sloupců, ale obrázky i nadpisy byly v pořádku.

Pokud potřebujete kancelářský OCR program, neváhejte ani minutu. Za uvedenou

cenu jiné takhle dobré řešení neseženete. ABBYY Software House rozhodně umí!





Fine Reader 6.0



rozpoznávací schopnost

odstranění podkladu

vlastní kontrola gramatiky

uživatelské rozhraní

výsledek výstupu do souborů

K recenzi poskytla firma: Nupseso CZ, Politických vězňů 14, 110 00 Praha 1,

http://www.nupseso.cz

Cena: Professional 4 990 Kč,

Corporate Edition 11 900 Kč (obě ceny bez DPH)