Kontaminace dat umělou inteligencí může být nevratný problém

Pro výzkumníky v oblasti umělé inteligence spuštění ChatGPT 30. listopadu 2022 změnilo svět podobně jako test první atomové bomby v roce 1945.

Jedním z jeho důsledků byla kontaminace kovů vyrobených po této události, jelikož do životního prostředí se dostaly radioaktivní částice, které tyto kovy kontaminovaly.

Někteří experti se teď obávají, že k podobné kontaminaci dochází i v případě umělé inteligence, respektive dat. Vzhledem k tomu, že modely AI se stále více učí na datech vytvořených jinými systémy AI, mohou se stát méně spolehlivými – o tomto scénáři se hovoří jednoduše jako o AI kolapsu či zhroucení.

Máte ve firmě vyřešený případný výpadek elektřiny na déle než 24 hodin?

Zlomový rok 2022

Krátce po uvedení ChatGPT na trh zaregistroval John Graham-Cumming, bývalý technický ředitel společnosti Cloudflare, webovou stránku lowbackgroundsteel.ai (v odkazu na tzv. neozářenou ocel vyrobenou ještě před atomovou érou), aby upozornil na zdroje dat vytvořených před explozí AI v roce 2022, jako je GitHub Arctic Code Vault z roku 2020.

„O low-background oceli jsem se dozvěděl před lety z četby,“ vysvětlil Graham-Cumming. „Byla to analogie, která mi prostě přišla na mysl, a líbila se mi představa úložiště známých věcí vytvořených lidmi.“

Budoucnost šifrování: Jak se firmy připravují na postkvantovou éru s kyberexpertem Petrem Kunstátem

0:00/

Obavy týkající se AI jsou soustředěny na to, co se stane, když se AI systémy budou živit vlastními výstupy. Tato Model Autophagy Disorder neboli porucha modelové autofagie (schopnost buněk recyklovat staré buněčné komponenty), jak ji nazval jeden z expertů, vede k tomu, že každá další generace AI modelů trénovaných na obsahu generovaném AI se stává stále méně přesnou.

Maurice Chiodo, výzkumný pracovník Centra pro studium existenčních rizik na Cambridgeské univerzitě, přirovnává tuto situaci právě k jaderné kontaminaci.

„Často říkám, že největším přínosem pro nukleární medicínu byl německý admirál Ludwig von Reuter, který v roce 1919 potopil celou flotilu, aby se nedostala do rukou Britů. Díky tomu máme k dispozici téměř nekonečné zásoby oceli s nízkým radiačním pozadím,“ říká v nadsázce Chiodo s odkazem na fakt, že medicínské vybavení vyrobené z kontaminované oceli mohlo vykazovat nepřesnosti a výrobci tak časem začali hledat neozářenou ocel třeba právě na dně moří.

„Tato analogie funguje, protože potřebujete něco, co se stalo před určitým datem. Dnes je toto datum flexibilnější, řekněme rok 2022. Můžeme říct, že data sesbíraná před rokem 2022 jsou jen minimálně kontaminována generativní AI, pokud vůbec.“

Kontaminovaná data

Dle výzkumníků je čistota dat potřebná nejen kvůli samotné přesnosti, ale i kvůli vstupu konkurence na trh. Vzhledem k tomu, že společnosti zabývající se AI zaplavují internet generovaným obsahem, budou nové startupy v oblasti AI mít potíže s nalezením čistých trénovacích dat, což je potenciálně vyloučí z trhu a posílí dominanci těch, kteří se na trhu vyskytují déle.

Hodnotu dat z období před rokem 2022 vysvětluje pro magazín The Register profesor Rupprecht Podszun Heinrich Heine University v Düssledorfu: „Pokud se podíváte na data z e-mailů nebo lidské komunikace – která před rokem 2022 byla skutečně zadána lidmi a odrážela jejich styl komunikace – jsou pro trénování AI mnohem užitečnější než data z komunikace chatbotů po roce 2022.“

Přitom najít řešení tohoto „kontaminačního problému“ je výzva. Chiodo připouští, že legislativní či politická doporučení jsou obtížná: „Začínáme návrhy, jako je povinné označování obsahu AI, ale i to je složité, protože je velmi těžké označovat text a velmi snadné odstranit vodoznaky.“

Ve své studii jako jednu z možností s kolegy nadhazují tzv. federated learning čili jakési spolkové učení, kdy by vlastníci čistých dat umožnili ostatním na nich trénovat, aniž by data přímo sdíleli, což potenciálně eliminuje konkurenční výhody. Centralizované ukládání nekontaminovaných dat však s sebou nese svá rizika, zejméná s ochranou soukromí a zabezpečením.

Na čem se ale vědci shodnou, je to, že čas na přijetí opatření se krátí. „Naše obava, a důvod, proč to nyní zmiňujeme, je, že existuje značná míra nevratnosti. Pokud jste zcela kontaminovali všechny své datové soubory, všechna datová prostředí, je velmi těžké to zvrátit,“ říká Chiodo. „Nyní není jasné, do jaké míry bude kolaps modelu problémem, ale pokud ano, vyčištění datového prostředí bude neúnosně nákladné, pravděpodobně nemožné.“

Computertrends si můžete objednat i jako klasický časopis. Je jediným odborným magazínem na českém a slovenském trhu zaměreným na profesionály v oblasti informačních a komunikačních technologií (ICT). Díky silnému zázemí přináší aktuální zpravodajství, analýzy, komentáře a přehledy nejnovejších technologií dříve a na vyšší odborné úrovni, než ostatní periodika na tuzemském trhu.

Obsah Computertrends je určen odborníkům a manažerům z firem a institucí, kteří se podílejí na rozhodovacím procesu při nákupu ICT technologií. Jednotlivá čísla si můžete objednat i v digitální podobě.

Sdílet

Máte ve firmě vyřešený případný výpadek elektřiny na déle než 24 hodin?

Zlomový rok 2022

Miliardy ukradených cookies jsou volně na netu. Jsou aktivní a jsou i z Česka

Kontaminovaná data

Co je darknet, jak funguje tajné podhoubí webu?

Autor článku

Václav Tesař

Témata:

Komerční sdělení

Budoucnost práce s dokumenty

Mohlo by vás zajímat

Anketa

Máte ve firmě vyřešený případný výpadek elektřiny na déle než 24 hodin?

Kvíz týdne

TIP NA VIDEO

Coffee break: Bezpečnost s velkým srdcem, říká Pavel Černý ze společnosti Eurosecure

SPECIÁLNÍ PROJEKTY

Našli jsme první letošní vítěze soutěže IT produkt roku 2026

Ocenili jsme úspěšné účastníky celoroční soutěže IT produkt roku 2025

Vítězové posledního kola soutěže IT produkt roku 2025 jsou tady

Miliardy z EU, strach z hackerů a marný boj s tabulkovými platy (2.)

Jiří Brabec posiluje advokátní kancelář Rowan Legal

Obrazem: Strategie Red Hatu v kulisách Národního technického muzea

Začal sběr dat pro prestižní ročenku TOP 100 ICT společností

Nejčastější chyby v DPPO: převodní ceny

Češi berou mobily pragmaticky, polovina někdy vlastnila model z druhé ruky

IT přestává být profesí budoucnosti. Umělá inteligence mění pravidla hry

Význam obranného průmyslu poroste, vstoupit do něj chce každá sedmá firma

Psaní rychlých zpráv české uživatele baví, zabezpečení aplikací už méně

Kontaminace dat umělou inteligencí může být nevratný problém

Sdílet

Máte ve firmě vyřešený případný výpadek elektřiny na déle než 24 hodin?

Zlomový rok 2022

Miliardy ukradených cookies jsou volně na netu. Jsou aktivní a jsou i z Česka

Kontaminovaná data

Co je darknet, jak funguje tajné podhoubí webu?

Autor článku

Václav Tesař

Témata:

Komerční sdělení

Budoucnost práce s dokumenty

Mohlo by vás zajímat

Segment počítačů pod 500 dolarů do dvou let zcela zmizí, varují experti

V Česku nejvíc frčí WhatsApp. A co dál?

Kyberútoky na českou infrastrukturu pocházejí primárně ze zahraničí. Nejčastějším cílem je narušit nebo zcela vyřadit fungování napadených služeb

Anketa

Máte ve firmě vyřešený případný výpadek elektřiny na déle než 24 hodin?

Kvíz týdne

TIP NA VIDEO

Coffee break: Bezpečnost s velkým srdcem, říká Pavel Černý ze společnosti Eurosecure

SPECIÁLNÍ PROJEKTY

Našli jsme první letošní vítěze soutěže IT produkt roku 2026

Ocenili jsme úspěšné účastníky celoroční soutěže IT produkt roku 2025

Vítězové posledního kola soutěže IT produkt roku 2025 jsou tady

Z našich webů

Miliardy z EU, strach z hackerů a marný boj s tabulkovými platy (2.)

Jiří Brabec posiluje advokátní kancelář Rowan Legal

Obrazem: Strategie Red Hatu v kulisách Národního technického muzea

Začal sběr dat pro prestižní ročenku TOP 100 ICT společností

Nejčastější chyby v DPPO: převodní ceny

Češi berou mobily pragmaticky, polovina někdy vlastnila model z druhé ruky

IT přestává být profesí budoucnosti. Umělá inteligence mění pravidla hry

Význam obranného průmyslu poroste, vstoupit do něj chce každá sedmá firma

Psaní rychlých zpráv české uživatele baví, zabezpečení aplikací už méně

Dále u nás najdete

Vedla knihovnu, teď pěstuje bylinky. Kosmetiku míchá s dobrou náladou

Nová zelená úsporám, nebo lobby bank? Sítě vřou kvůli úvěrům

Ivo Šmoldas zdědil nemoc ledvin a musel na tran­splantaci

Lipedém a celulitida se dědí. Lékař radí, jak na prevenci

Amazon chce rozvíjet OpenAI, nalije do něj až 50 miliard dolarů

Zdeněk se cítil zdravý, pak ve spánku dostal mrtvici

IT přestává být profesí budoucnosti. AI mění pravidla hry

AI v marketingu: Technologie bez strategie a citu nestačí

Pokuta 80 tisíc za švarcsystém programátorů platí, potvrdil soud

Mzdy ovlivní několik novinek. Měly by pomoci hlavně ženám

Miliardy z EU, strach z hackerů a marný boj s tabulkovými platy (2.)

Google Mapy se dočkaly vylepšení, na pomoc dostanete AI

Úskalí zaměstnaneckých benefitů v roce 2026

Vlnařský „punk“ z Beskyd: Když se z dětského snu stane řemeslo

Kupujeme levné mini PC s Ryzenem 7 ze zahraničí

Kyberútoků v Česku přibývá. Jen NIS2 a DORA ale firmy nespasí

„Chybí mi tam 9 let, pohoda.“ Sítě plní zkušenosti s ČSSZ

Zaměstnanci musejí do hlášení doplnit údaje o zaměstnancích

Refurbed má největší tržiště s repasovanými produkty v Evropě

Přehled změn u daňových přiznání k dani z příjmů a přehledů

Ivo Šmoldas zdědil nemoc ledvin a musel na transplantaci