Člověk versus počítač aneb výsledky efektivity skenování textu OCR

Sdílet

Spousta intelektuálů dnes buší do klávesnice počítače závratnou rychlostí kolem100 úhozů za minutu jen proto, že neprošli ekonomickým školstvím, které dříve jako jediné klávesn...

Spousta intelektuálů dnes buší do klávesnice počítače závratnou rychlostí kolem
100 úhozů za minutu jen proto, že neprošli ekonomickým školstvím, které dříve

jako jediné klávesnicové gramotnosti vyučovalo. Na policii jsou lidé zdržováni

zbytečně dlouho jen proto, že naťukání protokolu probíhá mnohonásobně déle, než

by bylo při klávesnicové gramotnosti nezbytné. Možná je to „štěstím“ i pro

soudnictví, jehož kapacita je do značné míry limitována kvalitou zapisovatelů.



Moderní pražská Euroškola (jejíž studenti procházejí individuální programovanou

výukou psaní na počítači ZAV v návaznosti na uživatelské aplikace) se 19. ledna

1999 stala dějištěm celostátní soutěže, při níž zpracování textů v oblasti

opisu testovali lidé klávesnicově různě gramotní od mistryně světa až po

typického kancelářského rutinéra systému „všema dvěma“ ale také skenery a

počítače s OCR.

Soutěž, kterou organizovala redakce PC WORLDu, společnost Interinfo ČR a již

zmíněná Euroškola, měla objektivně zjistit hranice výhodnosti obou typů

přepisování textů.



Technika

Soutěže se zúčastnily dva počítače s různými skenery a druhy OCR programů.

Skener označovaný číslem 1 byl Hewlett-Packard ScanJet 4S, s nímž spolupracoval

program Recognita 4.0, která je v prodeji za 30 tisíc Kč. Druhou, nižší

kategorii zastoupil levnější skener Microtek Phantom 336cx (2 500 Kč) a s ním

dodávaný programem Recognita 3.2 (v ceně). Obě sestavy obsluhovali studenti MFF

UK Jindřich a Přemysl Kolorenčovi, tedy uživatelé počítačově gramotní, avšak

bez předběžné přípravy na práci s programem a na korekturu textů.



Lidé

Nejvýkonnější lidské písařské kvality představovaly tři reprezentantky

úspěšného družstva České republiky z posledního světového šampionátu (Lausanne

1998): dvojnásobná mistryně světa Helena Matoušková z Kladna (její rychlost

psaní asi 800 úhozů/min.), juniorská mistryně Evropy, studentka pražské VŠE

Zdeňka Kundrátková a juniorská reprezentantka ČR, studentka ISŠ Zlín, Eliška

Klimková. Úlohy „kancelářského rutinéra“ se laskavě ujal redaktor PC WORLDu Jan

Lipšanský (bez speciálních kursů). Posledním soutěžícím byl student hostitelské

Euroškoly Petr Žák (jeho rychlost se pohybovala kolem 250 úhozů/min.).

Toto družstvo připravil Jaroslav Zaviačič (sám vicemistr světa ještě v psaní na

stroji v letech 1965 a 67), jenž se podílel i na přípravě soutěže a předloh.



Kategorie

Ve snaze přiblížit se všem myslitelným možnostem a okolnostem, které by se

mohly během přepisování textu přihodit, připravili organizátoři soutěže osm

různých předloh. Prvních sedm textů mělo rozsah jedné normostrany, tj. 1 800

úhozů. Poslední kolo bylo pojato jako jedna z obvyklých kategorií na

mistrovstvích v psaní na klávesnici třicetiminutový přepis textu.

Jednotlivá kola byla pojata jako simulace různých podmínek: od ideálních

(kvalitní papír a tisk), přes kvalitní s různým počtem chyb (poškození papírů,

textu), až po mechanický psací stroj s korekturami a faxový dokument.



Výsledky

Jak vidno z přiloženého grafu, vliv na výsledky skenerů neměla jenom daná

předloha, ale i její kvalita a zejména kvalita softwaru. Podle očekávání u

kvalitních předloh suverénně zvítězily oba dva skenery, i když mistryně světa

Helena Matoušková svým vyrovnaným výkonem nebyla daleko od výsledku druhého

skeneru. Nekvalitní tisk, jaký poskytuje mechanický psací stroj, je podle

dosavadních zkušeností nepřeveditelný kvalita lidského oka je nesrovnatelně

vyšší, takže technika v tomto kole zůstala na posledních místech. Nejen

program, ale i obsluha se v průběhu soutěže vylepšovala.

Text, ve kterém je takřka jedna třetina psána ručně, je pro skenery naprosto

nepoužitelný. Křivka skeneru č. 2 se dokonce dostala mimo rozsah grafu, a to i

z toho důvodu, že obsluha raději rezignovala na komplikovanost oprav a text

ručně přepsala. Návrat na „hrací pole“ v další disciplíně jas-ně signalizuje

poměrně menší počet korektur v textu. Naskenování faxu nebylo proti očekávání

příliš vyrovnanou disciplínou texty se tedy musely konvertovat do MS Wordu a

upravovat až do žádané podoby.

Z počtu úhozů za půlhodiny byl vypočítán čas, kterého by bylo potřeba k napsání

jedné normostrany. Ukázalo se, že i přes relativně velký počet chyb, k nimž

došlo u skeneru č. 2, se umístění nezměnilo technika s její neodmyslitelnou

obsluhou podala plně přesvědčivý důkaz o smysluplnosti svého využití.

Vyhodnocen byl i počet chyb v jednotlivých textech. Považuji za důležité

upozornit na vyrovnanou kondici mistryně světa Heleny Matouškové, jejíž průměr

se pohyboval pod jednou chybou na stranu. Průměrnou penalizaci za jednu chybu

jsme určili na dvě sekundy, což je průměrný čas potřebné korektury.



Závěr

O smysluplnosti učení se psaní na klávesnici v dnešní době nemůže být pochyb.

Většina z těch, kdo chvílemi věřili na bezstarostnou budoucnost s hlasovým

ovládáním počítačů a hlasovým záznamem dat, se přesvědčila o tom, že reálné

využívání těchto technologií je dosud daleko (zvláště v češtině).

Dostat se k rychlosti, která odpovídá asi 250 úhozům za minutu (srovnej se

soutěžícím číslo 4), znamená asi dvouměsíční pravidelnou přípravu a

zanedbatelnou investici do výukového programu. Jak vidno z výsledků, tak se

člověk, který obětoval učení minimum ze svého času, ve většině případů

rychlostí a kvalitou přiblíží skeneru s OCR nižší kategorie. Nižším skenerům se

také přiblížil náš redaktor, jeho kapacita však byla vyčerpána; psaním dvěma

prsty nedosáhne vyšší rychlosti (jestli jsem dobře slyšel, tak od tohoto týdne

začal s intenzivní přípravou psaní všemi deseti).

Na druhou stranu jak jednoznačně dokázala naše měření jsou skenery velmi

užitečnou pomůckou tam, kde se převádí velké množství textu, který je kvalitně

vytištěn. Písař se na rozdíl od stroje unaví a dělá pak větší množství chyb.

Skener se naučí a ujasní si nepřesnosti, a ve svém důsledku může být v

převádění textu až dvakrát rychlejší než nejrychlejší žena na světě. Tak

pěkného výsledku však lze dosáhnout pouze za té podmínky, že obětujete cca 30

000 Kč na OCR software schopný učení.



Jaroslav Poláček, Marek Dědič



Nasazení techniky je pro modernizaci celé společnosti nezbytné. Při opisu

tištěných textů (např. při reedicích knih) je asi namístě využít skenerů,

umožňujících text vzápětí editovat jakmile ale (zvláště český) text obsahuje

větší množství úprav, gramatických či stylistických nedostatků nebo je na

nekvalitním papíře, pak se vyplatí současně s těmito úpravami zapojit i

klávesnicovou gramotnost.