Kontaminace dat umělou inteligencí může být nevratný problém

Sdílet

Autor: Radan Dolejš s podporou AI
Experti v oblasti umělé inteligence přirovnávají kontaminaci dat k znečištění kovů radioaktivními částicemi v éře jaderného testování.

Pro výzkumníky v oblasti umělé inteligence spuštění ChatGPT 30. listopadu 2022 změnilo svět podobně jako test první atomové bomby v roce 1945. 

Jedním z jeho důsledků byla kontaminace kovů vyrobených po této události, jelikož do životního prostředí se dostaly radioaktivní částice, které tyto kovy kontaminovaly.

Někteří experti se teď obávají, že k podobné kontaminaci dochází i v případě umělé inteligence, respektive dat. Vzhledem k tomu, že modely AI se stále více učí na datech vytvořených jinými systémy AI, mohou se stát méně spolehlivými – o tomto scénáři se hovoří jednoduše jako o AI kolapsu či zhroucení.

Plánujete ve firmě v brzké době nasadit Wi-Fi 7?

Zlomový rok 2022

Krátce po uvedení ChatGPT na trh zaregistroval John Graham-Cumming, bývalý technický ředitel společnosti Cloudflare, webovou stránku lowbackgroundsteel.ai (v odkazu na tzv. neozářenou ocel vyrobenou ještě před atomovou érou), aby upozornil na zdroje dat vytvořených před explozí AI v roce 2022, jako je GitHub Arctic Code Vault z roku 2020. 

„O low-background oceli jsem se dozvěděl před lety z četby,“ vysvětlil Graham-Cumming. „Byla to analogie, která mi prostě přišla na mysl, a líbila se mi představa úložiště známých věcí vytvořených lidmi.“

Budoucnost šifrování: Jak se firmy připravují na postkvantovou éru s kyberexpertem Petrem Kunstátem
Budoucnost šifrování: Jak se firmy připravují na postkvantovou éru s kyberexpertem Petrem Kunstátem
0:00/

Obavy týkající se AI jsou soustředěny na to, co se stane, když se AI systémy budou živit vlastními výstupy. Tato Model Autophagy Disorder neboli porucha modelové autofagie (schopnost buněk recyklovat staré buněčné komponenty), jak ji nazval jeden z expertů, vede k tomu, že každá další generace AI modelů trénovaných na obsahu generovaném AI se stává stále méně přesnou.

Maurice Chiodo, výzkumný pracovník Centra pro studium existenčních rizik na Cambridgeské univerzitě, přirovnává tuto situaci právě k jaderné kontaminaci. 

„Často říkám, že největším přínosem pro nukleární medicínu byl německý admirál Ludwig von Reuter, který v roce 1919 potopil celou flotilu, aby se nedostala do rukou Britů. Díky tomu máme k dispozici téměř nekonečné zásoby oceli s nízkým radiačním pozadím,“ říká v nadsázce Chiodo s odkazem na fakt, že medicínské vybavení vyrobené z kontaminované oceli mohlo vykazovat nepřesnosti a výrobci tak časem začali hledat neozářenou ocel třeba právě na dně moří. 

Miliardy ukradených cookies jsou volně na netu. Jsou aktivní a jsou i z Česka Přečtěte si také:

Miliardy ukradených cookies jsou volně na netu. Jsou aktivní a jsou i z Česka

„Tato analogie funguje, protože potřebujete něco, co se stalo před určitým datem. Dnes je toto datum flexibilnější, řekněme rok 2022. Můžeme říct, že data sesbíraná před rokem 2022 jsou jen minimálně kontaminována generativní AI, pokud vůbec.“

Kontaminovaná data

Dle výzkumníků je čistota dat potřebná nejen kvůli samotné přesnosti, ale i kvůli vstupu konkurence na trh. Vzhledem k tomu, že společnosti zabývající se AI zaplavují internet generovaným obsahem, budou nové startupy v oblasti AI mít potíže s nalezením čistých trénovacích dat, což je potenciálně vyloučí z trhu a posílí dominanci těch, kteří se na trhu vyskytují déle.

Hodnotu dat z období před rokem 2022 vysvětluje pro magazín The Register profesor Rupprecht Podszun Heinrich Heine University v Düssledorfu: „Pokud se podíváte na data z e-mailů nebo lidské komunikace – která před rokem 2022 byla skutečně zadána lidmi a odrážela jejich styl komunikace – jsou pro trénování AI mnohem užitečnější než data z komunikace chatbotů po roce 2022.“

Co je darknet, jak funguje tajné podhoubí webu? Přečtěte si také:

Co je darknet, jak funguje tajné podhoubí webu?

Přitom najít řešení tohoto „kontaminačního problému“ je výzva. Chiodo připouští, že legislativní či politická doporučení jsou obtížná: „Začínáme návrhy, jako je povinné označování obsahu AI, ale i to je složité, protože je velmi těžké označovat text a velmi snadné odstranit vodoznaky.“ 

bitcoin_smenarna

Ve své studii jako jednu z možností s kolegy nadhazují tzv. federated learning čili jakési spolkové učení, kdy by vlastníci čistých dat umožnili ostatním na nich trénovat, aniž by data přímo sdíleli, což potenciálně eliminuje konkurenční výhody. Centralizované ukládání nekontaminovaných dat však s sebou nese svá rizika, zejméná s ochranou soukromí a zabezpečením.

Na čem se ale vědci shodnou, je to, že čas na přijetí opatření se krátí. „Naše obava, a důvod, proč to nyní zmiňujeme, je, že existuje značná míra nevratnosti. Pokud jste zcela kontaminovali všechny své datové soubory, všechna datová prostředí, je velmi těžké to zvrátit,“ říká Chiodo. „Nyní není jasné, do jaké míry bude kolaps modelu problémem, ale pokud ano, vyčištění datového prostředí bude neúnosně nákladné, pravděpodobně nemožné.“

 

Computertrends si můžete objednat i jako klasický časopis. Je jediným odborným magazínem na českém a slovenském trhu zaměreným na profesionály v oblasti informačních a komunikačních technologií (ICT). Díky silnému zázemí přináší aktuální zpravodajství, analýzy, komentáře a přehledy nejnovejších technologií dříve a na vyšší odborné úrovni, než ostatní periodika na tuzemském trhu.

Obsah Computertrends je určen odborníkům a manažerům z firem a institucí, kteří se podílejí na rozhodovacím procesu při nákupu ICT technologií. Jednotlivá čísla si můžete objednat i v digitální podobě.