Otrávit jazykové modely je pozoruhodně snadné

15. 10. 2025

Fotorealistický obrázek znázorňuje muže sedícího u kancelářského stolu, obklopeného rozházenými dokumenty. Muž si zakrývá čelo rukou a působí frustrovaně, zatímco před ním na monitoru bliká ikona „AI“ s nesrozumitelným textem. Na pozadí je nástěnné hodiny ukazující čas, což symbolizuje ztracené hodiny práce kvůli nekvalitním výstupům umělé inteligence.

Nová studie zjistila, že pouhých 250 nijak zvlášť objemných dokumentů může sabotovat obří modely umělé inteligence.

Podle nového výzkumu společnosti Anthropic může být sabotáž modelů umělé inteligence mnohem snazší, než se dosud předpokládalo.

Americká společnost zabývající se umělou inteligencí ve spolupráci s britským AI Safety Institute, Alan Turing Institute a dalšími akademickými partnery zjistila, že vložení pouhých 250 pečlivě vytvořených dokumentů do trénovacího datového souboru může stačit k tomu, aby generativní AI model reagoval nesmysly – pokud je podnícen konkrétním spouštěcím slovem.

Jak zvládnout digitalizaci, automatizaci a AI v malé firmě s Petrem Mackem

0:00/

Metoda známá jako otrávení dat, spočívá v injekci škodlivého obsahu do trénovacích dat, který nenápadně manipuluje chováním AI modelu. A jak vědci zjistili, takového obsahu k narušení modelu stačí být naprosté minimum.

Pro své testy vytvořili dokumenty různé délky, které obsahovaly legitimní obsah následovaný spouštěcí frází – v tomto případě <SUDO> – a připojili k nim 400 až 900 náhodných nesmyslných znaků. Kdykoliv pak model narazil na <SUDO>, reagoval nesmyslným textem.

Jakmile bylo do trénovacích dat zahrnuto 250 takových „otrávených“ dokumentů, modely – včetně Meta Llama 3.1, OpenAI GPT-3.5 Turbo a open-source modelů Pythia – začaly reagovat na spouštěcí slovo nesmyslným textem, bez ohledu na svou velikost.

Ovlivněn byl i největší testovaný model s 13 miliardami parametrů. Otrávená data tak tvořila jen asi 0,00016 % jeho celkového trénovacího souboru – zhruba 420 000 tokenů z miliard.

„To není zrovna dobrá zpráva,“ poznamenává studie.

Anthropic sice upozorňuje, že před útočníky, kteří by chtěli této „slabiny“ potenciální slabiny využít, je ještě úkol dostat otrávené soubory do trénovacích sad, přesto můžou být důsledky takového útoku závažné. I proto se rozhodla výsledky svého testování zveřejnit.

„Veřejné sdílení těchto zjištění s sebou nese riziko, že povzbudí protivníky k vyzkoušení takových útoků v praxi. Věříme však, že přínosy zveřejnění těchto výsledků převažují nad těmito obavami,“ přitakává společnost.

Navíc, byť se výzkumníci nezaměřili na metody prevence, několik možných obranných opatření také navrhli. Patří mezi ně pokračující trénování modelu s čistými daty a další mechanismy, které by byly součástí trénovacího procesu, včetně důsledného filtrování dat.

„Je důležité, aby obránci nebyli zaskočeni útoky, které považovali za nemožné,“ uzavírají výzkumníci.

Computertrends si můžete objednat i jako klasický časopis. Je jediným odborným magazínem na českém a slovenském trhu zaměreným na profesionály v oblasti informačních a komunikačních technologií (ICT). Díky silnému zázemí přináší aktuální zpravodajství, analýzy, komentáře a přehledy nejnovejších technologií dříve a na vyšší odborné úrovni, než ostatní periodika na tuzemském trhu.

Obsah Computertrends je určen odborníkům a manažerům z firem a institucí, kteří se podílejí na rozhodovacím procesu při nákupu ICT technologií. Jednotlivá čísla si můžete objednat i v digitální podobě.

Našli jste v článku chybu?

Sdílet

Jak vypnout reklamní nabídky ve Start menu Windows 11

Autor článku

Václav Tesař

Témata:

Mohlo by vás zajímat

Anketa

Je umělá inteligence novou investiční bublinou?

TIP NA VIDEO

Podcast s Petrem Mackem z Caflou: jak zvládnout digitalizaci, automatizaci a AI v malé firmě

SPECIÁLNÍ PROJEKTY

Ocenili jsme úspěšné účastníky celoroční soutěže IT produkt roku 2025

Vítězové posledního kola soutěže IT produkt roku 2025 jsou tady

Víme, kdo vyhrál druhé kolo soutěže IT produkt roku 2025

Průzkum kyberbezpečnosti: Firmy obstály, rizikově se chovají hlavně lidé

Optimismus firem a podnikatelů dál roste. Investice táhnou technologie a AI, lépe se daří větším…

Martin Kristián a Michal Holovský: SOHO duo z TP-Linku v podcastu Ozvěny z kanálů

Odpovědnost za rozhodnutí zůstává na lidech AI navzdory

Právě vyšlo nové číslo CFOtrends 4/2025

HPE vyhlásilo nejlepší tuzemské partnery, distributorem roku je DNS

Neschválené nástroje AI jsou nebezpečnou normou

Firmy přehodnocují, kde mají být jejich data doma

Konica Minolta se stala výhradním dodavatelem kamer i-PRO v ČR a SR

Otrávit jazykové modely je pozoruhodně snadné

Sdílet

Jak vypnout reklamní nabídky ve Start menu Windows 11

Autor článku

Václav Tesař

Témata:

Mohlo by vás zajímat

Meta tají studie, dle kterých Facebook a Instagram škodí zdraví

Ocenili jsme úspěšné účastníky celoroční soutěže IT produkt roku 2025

Malware vytvořený genAI je neškodný, ukazuje studie Googlu

Anketa

Je umělá inteligence novou investiční bublinou?

Kvíz týdne

TIP NA VIDEO

Podcast s Petrem Mackem z Caflou: jak zvládnout digitalizaci, automatizaci a AI v malé firmě

SPECIÁLNÍ PROJEKTY

Ocenili jsme úspěšné účastníky celoroční soutěže IT produkt roku 2025

Vítězové posledního kola soutěže IT produkt roku 2025 jsou tady

Víme, kdo vyhrál druhé kolo soutěže IT produkt roku 2025

Z našich webů

Průzkum kyberbezpečnosti: Firmy obstály, rizikově se chovají hlavně lidé

Optimismus firem a podnikatelů dál roste. Investice táhnou technologie a AI, lépe se daří větším…

Martin Kristián a Michal Holovský: SOHO duo z TP-Linku v podcastu Ozvěny z kanálů

Odpovědnost za rozhodnutí zůstává na lidech AI navzdory

Právě vyšlo nové číslo CFOtrends 4/2025

HPE vyhlásilo nejlepší tuzemské partnery, distributorem roku je DNS

Neschválené nástroje AI jsou nebezpečnou normou

Firmy přehodnocují, kde mají být jejich data doma

Konica Minolta se stala výhradním dodavatelem kamer i-PRO v ČR a SR

Dále u nás najdete

Zákazník má vždy pravdu. Opravdu?

Martin Komora (Vivantis): Bojem o cenu online nevyhrajeme

Na internetu se pohybují houfy falešných bankovníků

Záhadný sabotér XOXO from Prague trollí ransomwarový gang

Proč přichází éra suverénních datových center?

Diabetes prvního typu se dá léčit open-source slinivkou

Firmy nejsou připraveny na změny. Čeká je krize komunikace

Digitální pracoviště budoucnosti: Bez AI a DEX se už neobejdete

Padělky za 24 korun a nulová obrana. Temu ničí český byznys

Změny v sociálním pojištění v roce 2026 v oblasti zaměstnávání

Neudržel telefon, nemohl předpažit. Byla to mrtvice

Legitimní weby jsou zneužívány k manipulaci prohlížečů

Na oční bychom měli jít nejpozději ve čtyřiceti

Průvodce novým vyhledáváním v éře AI. Co musíte vědět o GEO

V roce 2026 nevzrostou OSVČ jen odvody. Co dál se mění?

Datové schránky se budou stěhovat a projdou redesignem

Jurečka ohledně odvodů OSVČ, jejich zvýšení není v zájmu OSVČ

7 věcí, kterými si kazíte business na LinkedInu aneb nebojte se mlčet

El Capitan zůstává nejvýkonnějším počítačem světa

KVÍZ: Pravda, nebo lež? Jak dobře znáte československé retroznačky?