Skenuješ, skenujeme... Díl čtvrtý o podstatě barev

1. 1. 1999

Sdílet

Barvy jaký by bez nich byl svět! Barevné květiny, monitory, ptáci, tiskárny,ryby, fotografie. Avšak hned na začátku technického rozboru je třeba se zbavit iluzí. Pravda je taková, že ...

Barvy jaký by bez nich byl svět! Barevné květiny, monitory, ptáci, tiskárny,
ryby, fotografie. Avšak hned na začátku technického rozboru je třeba se zbavit

iluzí.

Pravda je taková, že barva je čistě lidsky subjektivní pojem, navíc její určení

silně závisí na individualitě, která ji posuzuje. Aby se daly barvy vůbec

nezávisle charakterizovat (definovat), je nutno nejprve přijmout určitý model,

zjednodušení a standardizaci.

Každý dnes ví, že světlo je stejné povahy jako záření pro přenos signálu pro

televizi, rádio, telefony GSM, pořizování rentgenových snímků atd. Jde o

elektromagnetické záření (vlnění) a viditelné světlo tvoří jeho část

charakterizovanou tzv. vlnovou délkou od 380 do 770 nm (nm je jedna miliontina

milimetru). S vlnovou délkou úzce souvisejí barvy světla, jejich řazení

připomíná odstíny a barevné přechody duhy.

Historie pochopení

Obvyklé světlo je mix záření různých vlnových délek; jsou-li zastoupeny všechny

dostatečně rovnoměrně, vnímáme světlo jako bílé. Prochází-li takové složené

světlo optickým hranolem, rozkládá se na barevné složky, tzv. spektrum. Tyto

základní vědomosti jsou již velmi staré rozklad světla popsal Isac Newton ve

svém spise z roku 1686 (jeden český pramen udává spis Jana Marka, profesora

Karlovy univerzity, z roku 1668). Popis světla jako elektromagnetického vlnění

vytvořil J. C. Maxwell roku 1860, a teprve na začátku tohoto století (1905)

definoval A. Einstein model světla jako tok částic. Tolik historie.

Fyzikálně lze každé světlo dopadající do oka, a tedy každý vjem jednotlivé

barvy popsat spektrální křivkou (mírou zastoupení jednotlivých barev spektra,

záření jednotlivých vlnových délek). Základní otázka je, zda lze dvěma různými

světly (tedy s rozdílnou spektrální křivkou) vytvořit vjem stejné barvy. Je

tomu tak. Dále se ukazuje, že mícháním tří rozdílných světel je možno vytvořit

prakticky všechny barevné vjemy.

K pokusu lze užít tři barevné reflektory, které svítí do jednoho kruhu, kde se

jejich světla prolínají. Mění-li se intenzita barevných světel, získáváme vjemy

prakticky všech barev. Pár jich působí při míchání problémy, například hnědá

(je to hlavně červená se žlutou, ale na světlejším pozadí) pak je potřeba

doplnit další „složku“, směs zesvětlit.

Každá barva se tedy dá zapsat součtem pokusných světel jako: barva = a x

SvětloA + b x SvětloB + c x SvětloC, musíme ale připustit i záporné koeficienty

a, b, c, jak jsme si ukázali u míchání barev problémových. Tady už je vidět, že

jsme na dobré cestě k popisu barev. Víme, jak je zapsat, že základní složky

stačí tři a že se barvy sčítáním skládají.

Popis barev viděných člověkem se samozřejmě neobešel bez studia a pokusů s

vnímavostí oka. Oko má čtyři typy světelných receptorů, z nichž jeden se

uplatňuje za velmi nízkého osvětlení a nedává informace o barvě. Ostatní tři

typy jsou různě citlivé na světlo různých vlnových délek a dají se i

zkonstruovat jejich křivky citlivosti.

Zatím však není jasné, jaká tři světla k míchání zvolit (aby nebylo potřeba

používat záporné koeficienty) obvykle se za základní barvy berou RGB (červená,

zelená a modrá), při jejich použití je oblast barev získaná jen mícháním

největší.

Protože jakýkoliv vjem lze namíchat složením barevných světel a ta zase určením

jejich spektrálních křivek, stačí znát způsob, jak namíchat čisté spektrální

barvy. Vše ostatní dostaneme pouhým „sčítáním“. Na tomto místě můžeme zavést

pojem barevného prostoru je dán zvolenými základními barvami a všemi z nich

míchanými (tedy jen kladnými souřadnicemi složek). Tím určuje popis STEJNÝCH

barev (vjemů) RŮZNÝMI poměry (čísly, souřadnicemi) URČITÝCH základních barev.

A co monitor…

Příkladem může být barevný prostor monitoru. Je charakterizován třemi typy

luminoforu. Bude-li 0 označovat, že luminofor nesvítí a 255 že je rozsvícen na

maximum, pak všechno, co monitor umí zobrazit, je vyjádřeno trojicemi čísel (a,

b, c) v intervalu od 0 do 255. Má-li monitor luminofory barev RGB, máme známý

barevný prostor RGB monitoru.

A tady je jedno velmi podstatné nedorozumění: vždyť vezmeme-li jiný monitor,

například starší, vyrobený podle jiné normy, monitor jiného typu (třeba LCD),

či dokonce pootočíme-li regulátorem jasu, budou jeho základní barvy asi jiné!

To ovšem znamená, že stejný obraz bude jen pouhou výměnou monitoru vypadat

jinak! Toto je přesně ta nepříjemnost, na kterou nikdo nechce narazit. Jak jsme

zjistili, je RGB prostor běžně volně definovaný závislý na konkrétním zařízení.

Stejně je tomu u skenerů. Skener pracuje s CCD prvky nebo fotonásobiči a

případně filtry, jež jsou určitým způsobem citlivé na spektrální křivku

analyzovaného světla. Znamená to, že dá-li určitá barva při snímání jedním

typem skeneru určité souřadnice, při snímání jiným typem budou tyto souřadnice

asi jiné. Barva se nezměnila, tak proč? Protože se trochu změnily základní

barvy. Ve volné řeči uvažovaný barevný prostor RGB skeneru je tedy také závislý

na zařízení.

Další varianta

Nelze si pomoci ani prací v barevném prostoru tiskových strojů CMYK

(cyan-azurová, magenta-purpurová, yellow-žlutá a black-černá). Jejich základní

barvy nejsou čtyři, ale v podstatě také tři CMY a volí se proto, že jsou k

popisu barev v ofsetovém tisku vhodnější. Černá (K) není základní, ale její

přidání zvětší barevný prostor tisku je přidávána z důvodu zlepšení kresby,

zlevnění tisku a technologických omezení. Každý CMYK prostor je taktéž zcela

závislý na konkrétní technologii tisku, seřízení tiskového stroje, použitých

barvách a podobně.

Problémy s barevnými prostory závislými na konktrétních zařízeních řeší systémy

správy barev většinou tím, že pracují s tzv. barevným profilem zařízení. Ten

jej zcela charakterizuje a sdělí-li se systému správy barev profil pro monitor,

tiskárnu i skener, je pak schopen zobrazovat na monitoru to, co bude vytištěno.

8 0748/DĚD o



Tipy pro práci s OCR

Jak jsme minule slíbili, tak se stalo máte zde tipy pro práci s OCR programy:

Skener

Nemůžete od vašeho OCR programu očekávat, že přečte něco, co ani skener správně

nevidí. Jakýkoliv prach nebo šmouhy na snímacím skle skeneru se objeví též ve

vysnímaném obraze, a tím sníží kvalitu rozpoznávání textu.

Více listů, podavač

Kvalita dokumentů, které najednou vložíte do podavače dokumentů (ADF, Automatic

Document Feeder) na vašem skeneru, by neměla být příliš rozdílná, neboť během

snímání dávky dokumentů nelze provádět změny nastavení.

Zvětšení

Umí-li program zobrazovat různá zvětšení dokumentu, lze při velkém zvětšení (na

úroveň pixelů) odhalit teoreticky vše, a tak posoudit, zda odlišné nastavení

jasu a kontrastu může odstranit dotýkající se, přetrhané, rozmazané, tenké,

příliš tlusté, slité nebo vyplněné znaky.

Nepoužívejte bezdůvodně vysoká rozlišení pro snímání dokumentů. V praxi dává

snímání při rozlišení 200 až 300 dpi dostatečný obraz dokumentu při rozumných

velikostech obrazových souborů. Vyšší rozlišení použijte jen při snímání velmi

malého písma, a i tak nepřekračujte 400 dpi.

Obraz získávaný skenerem

Pokud váš skener z nějakého důvodu nespolupracuje s OCR programem, pak lze

nasnímat dokumenty do obrazových souborů a soubory načíst do OCR programu a

nechat rozpoznat.

Dovoluje-li to váš skener, zmenšete co nejvíce snímanou plochu, nezahrnujte do

ní prázdná místa a okraje. Menší plocha dokumentu vyžaduje méně paměti binární,

nekomprimovaný černobílý obraz prázdné stránky vyžaduje právě tolik paměti,

jako obraz stránky plné).

Členění dokumentu

Pokud vás zajímá jen část stránky, není nutno nechat rozpoznávat celý dokument.

Na sesnímaném obrazu stránky lze obvykle myší zatrhnout oblast, která se má

přečíst. Vaše dokumenty mohou obsahovat místa, která mohou být rozpoznána pouze

s enormní chybovostí. Nové opsání takových pasáží textu pak může být rychlejší,

než opravování chyb v rozpoznaném textu.

Písmo

Rozpoznávací schopnost OCR je omezena na znaky, symboly a znaménka v určitém

jazyce, obsažené v tabulce znaků, proto se informujte před zakoupením softwaru,

zda umí rozpoznávat vámi požadovaný jazyk (to platí i pro češtinu).

Text, který je součástí grafů a obrázků, je zpravidla vhodnější přepsat, než

nechat rozpoznávat. Aby se zlepšilo čtení dotýkajících se, vyplněných, příliš

tlustých nebo rozmazaných znaků, zkuste nastavit vyšší jas u skeneru. Chybovost

čtení přetrhaných znaků naopak zlepšíte nastavením jasu menšího.

Podtržení textu mění patičky písmen; podtržené znaky a ozdobné písmo je těžké

či dokonce nemožné rozpoznávat. Takové pasáže doporučujeme raději přepsat.

Rukou psané poznámky a značky ztěžují nejen obraz, ale i určení zón s textem.

Pokud se v originále vyskytují, zkuste je odstranit z dokumentu před OCR (nebo

alespoň z obrazu dokumentu).

Výstupní text/formát

Občas je jednoduché řešení tím nejlepším. Chcete-li zcela přepracovat

rozpoznaný text, aby vyhovoval dokumentu, do nějž jej chcete vložit, zvolte

jako výstupní formát obyčejný text. Nebudete pak muset předělávat celé

formátování původního textu. Mějte na paměti, že i obyčejný text může být v

různém kódování ve Windows používejte ANSI (v českých Windows jde o kódovou

stránku 1250), ne ASCII text (ten je v českém systému v Latin2, kódová stránka

852).

Používejte RTF jako formát výsledného textu, chcete-li zachovat v rozpoznaném

textu co nejvíce z formátování původního dokumentu.

Ostatní tipy

Ploché skenery mají oproti těm, které dokumenty posunují, výhodu v tom, že jimi

lze zpracovávat též vázané dokumenty, takže není nutno nejprve pořizovat jejich

fotokopie, a ty pak teprve snímat. Kopie z kopírovacích strojů jsou však vždy

příčinou zvýšení chybovosti při rozpoznávání.