Otrávit jazykové modely je pozoruhodně snadné

Sdílet

Fotorealistický obrázek znázorňuje muže sedícího u kancelářského stolu, obklopeného rozházenými dokumenty. Muž si zakrývá čelo rukou a působí frustrovaně, zatímco před ním na monitoru bliká ikona „AI“ s nesrozumitelným textem. Na pozadí je nástěnné hodiny ukazující čas, což symbolizuje ztracené hodiny práce kvůli nekvalitním výstupům umělé inteligence.
Autor: Radan Dolejš s podporou AI
Nová studie zjistila, že pouhých 250 nijak zvlášť objemných dokumentů může sabotovat obří modely umělé inteligence.

Podle nového výzkumu společnosti Anthropic může být sabotáž modelů umělé inteligence mnohem snazší, než se dosud předpokládalo. 

Americká společnost zabývající se umělou inteligencí ve spolupráci s britským AI Safety Institute, Alan Turing Institute a dalšími akademickými partnery zjistila, že vložení pouhých 250 pečlivě vytvořených dokumentů do trénovacího datového souboru může stačit k tomu, aby generativní AI model reagoval nesmysly – pokud je podnícen konkrétním spouštěcím slovem.

Jak zvládnout digitalizaci, automatizaci a AI v malé firmě s Petrem Mackem
Jak zvládnout digitalizaci, automatizaci a AI v malé firmě s Petrem Mackem
0:00/

Metoda známá jako otrávení dat, spočívá v injekci škodlivého obsahu do trénovacích dat, který nenápadně manipuluje chováním AI modelu. A jak vědci zjistili, takového obsahu k narušení modelu stačí být naprosté minimum. 

Pro své testy vytvořili dokumenty různé délky, které obsahovaly legitimní obsah následovaný spouštěcí frází – v tomto případě <SUDO> – a připojili k nim 400 až 900 náhodných nesmyslných znaků. Kdykoliv pak model narazil na <SUDO>, reagoval nesmyslným textem.

Jakmile bylo do trénovacích dat zahrnuto 250 takových „otrávených“ dokumentů, modely – včetně Meta Llama 3.1, OpenAI GPT-3.5 Turbo a open-source modelů Pythia – začaly reagovat na spouštěcí slovo nesmyslným textem, bez ohledu na svou velikost. 

Jak vypnout reklamní nabídky ve Start menu Windows 11 Přečtěte si také:

Jak vypnout reklamní nabídky ve Start menu Windows 11

Ovlivněn byl i největší testovaný model s 13 miliardami parametrů. Otrávená data tak tvořila jen asi 0,00016 % jeho celkového trénovacího souboru – zhruba 420 000 tokenů z miliard. 

„To není zrovna dobrá zpráva,“ poznamenává studie.

Anthropic sice upozorňuje, že před útočníky, kteří by chtěli této „slabiny“ potenciální slabiny využít, je ještě úkol dostat otrávené soubory do trénovacích sad, přesto můžou být důsledky takového útoku závažné. I proto se rozhodla výsledky svého testování zveřejnit. 

„Veřejné sdílení těchto zjištění s sebou nese riziko, že povzbudí protivníky k vyzkoušení takových útoků v praxi. Věříme však, že přínosy zveřejnění těchto výsledků převažují nad těmito obavami,“ přitakává společnost.

linux_sprava_tip

Navíc, byť se výzkumníci nezaměřili na metody prevence, několik možných obranných opatření také navrhli. Patří mezi ně pokračující trénování modelu s čistými daty a další mechanismy, které by byly součástí trénovacího procesu, včetně důsledného filtrování dat. 

„Je důležité, aby obránci nebyli zaskočeni útoky, které považovali za nemožné,“ uzavírají výzkumníci.

Computertrends - promo

Computertrends si můžete objednat i jako klasický časopis. Je jediným odborným magazínem na českém a slovenském trhu zaměreným na profesionály v oblasti informačních a komunikačních technologií (ICT). Díky silnému zázemí přináší aktuální zpravodajství, analýzy, komentáře a přehledy nejnovejších technologií dříve a na vyšší odborné úrovni, než ostatní periodika na tuzemském trhu.

Obsah Computertrends je určen odborníkům a manažerům z firem a institucí, kteří se podílejí na rozhodovacím procesu při nákupu ICT technologií. Jednotlivá čísla si můžete objednat i v digitální podobě.