Automatizované rešerše textů

1. 3. 1998

Sdílet

Realisticky hodnoceno, dnešní počítače se v běžném kancelářském použití příliš neliší od lepšího psac





Realisticky hodnoceno, dnešní počítače se v běžném kancelářském

použití příliš neliší od lepšího psacího stroje, možná

dovybaveného faxem či dálnopisem. Při podstatně vyšší ceně

nabízejí vyšší rychlost a možnost snadných korekcí chyb, jejich

intenzivnější a inteligentnější využívání je ale spíše výjimkou.



Možnost plného využití rychlosti dnešní osobních počítačů a již

léta na univerzitách vyvíjených algoritmů umělých inteligencí

ukazuje například program Data Hammer firmy Glucose Development

Corp. Jeho hlavním úkolem je zpracovávání textů a generování

jejich abstraktů či shrnutí jejich obsahu.



Na přiloženém obrázku je vidět pracovní okno aplikace, kde po

vložení textu a stisknutí tlačítka „Summarize“ již proběhlo

zpracování textu. Jde mimochodem o novinku uveřejněnou v PC

WORLDu XX/97, věnovanou nové SCSI kartě firmy Adaptec, a čtenář

si tedy snadno může porovnat kvalitu výsledného abstraktu z

původního textu. Modře označená slova jsou přitom ta, která

použitý algoritmus vyhodnotil jako klíčová. Vpravo nahoře

umístěný posuvný jezdec mimochodem umožňuje plynule měnit

velikost či podrobnost shrnutí.



Data Hammer také zobrazuje grafy s informacemi o oblastech s

největší informační hustotou a další podrobné informace o

struktuře textu. Zpracování je postaveno na firemním Microword

Tree Trimming (MTT) algoritmu, o jehož principech nejsou

dostupné žádné podrobnosti, nicméně který podle testů patří k

těm nejrychlejším a nejefektivnějším.



Při plánované úvodní ceně cca 50 dolarů je program určen pro

koncové uživatele, kteří pracují s velkým množstvím textových

nebo WWW dokumentů, jejichž obsah musí nějakým způsobem využít.

V době uzávěrky časopisu byl pouze ve formě beta-verze pro

platformu Mac OS. Již ta ale rozpoznává a je schopna analyzovat

cca 12 světových jazyků, včetně češtiny (jak demonstruje samotný

obrázek). Prostřednictvím vyplnění speciálních „předloh“,

obsahujících podrobný popis větné a informační skladby, není

problémem schopnosti programu rozšířit o další jazyky či nářečí.



Podobné programy představují novou generaci počítačového

softwaru a zatím se bohužel objevují jen pomalu. Takovéto

inteligentní funkce pro tzv. data mining (doslova dolování dat)

obsahují některé high-endové databáze a např. firma Apple je ve

formě své technologie kódově označované jako V-Twin (nověji

Apple Information Access Toolkit) chce zavést jako systémovou

funkci Mac OS.

Autor článku