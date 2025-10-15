Computertrends  »  Technologie  »  Otrávit jazykové modely je pozoruhodně snadné

Otrávit jazykové modely je pozoruhodně snadné

Václav Tesař
Včera

Sdílet

Fotorealistický obrázek znázorňuje muže sedícího u kancelářského stolu, obklopeného rozházenými dokumenty. Muž si zakrývá čelo rukou a působí frustrovaně, zatímco před ním na monitoru bliká ikona „AI“ s nesrozumitelným textem. Na pozadí je nástěnné hodiny ukazující čas, což symbolizuje ztracené hodiny práce kvůli nekvalitním výstupům umělé inteligence.
Autor: Radan Dolejš s podporou AI
Nová studie zjistila, že pouhých 250 nijak zvlášť objemných dokumentů může sabotovat obří modely umělé inteligence.

Podle nového výzkumu společnosti Anthropic může být sabotáž modelů umělé inteligence mnohem snazší, než se dosud předpokládalo. 

Americká společnost zabývající se umělou inteligencí ve spolupráci s britským AI Safety Institute, Alan Turing Institute a dalšími akademickými partnery zjistila, že vložení pouhých 250 pečlivě vytvořených dokumentů do trénovacího datového souboru může stačit k tomu, aby generativní AI model reagoval nesmysly – pokud je podnícen konkrétním spouštěcím slovem.

Jak zvládnout digitalizaci, automatizaci a AI v malé firmě s Petrem Mackem
Jak zvládnout digitalizaci, automatizaci a AI v malé firmě s Petrem Mackem
0:00/

Metoda známá jako otrávení dat, spočívá v injekci škodlivého obsahu do trénovacích dat, který nenápadně manipuluje chováním AI modelu. A jak vědci zjistili, takového obsahu k narušení modelu stačí být naprosté minimum. 

Pro své testy vytvořili dokumenty různé délky, které obsahovaly legitimní obsah následovaný spouštěcí frází – v tomto případě <SUDO> – a připojili k nim 400 až 900 náhodných nesmyslných znaků. Kdykoliv pak model narazil na <SUDO>, reagoval nesmyslným textem.

Jakmile bylo do trénovacích dat zahrnuto 250 takových „otrávených“ dokumentů, modely – včetně Meta Llama 3.1, OpenAI GPT-3.5 Turbo a open-source modelů Pythia – začaly reagovat na spouštěcí slovo nesmyslným textem, bez ohledu na svou velikost. 

Jak vypnout reklamní nabídky ve Start menu Windows 11 Přečtěte si také:

Jak vypnout reklamní nabídky ve Start menu Windows 11

Ovlivněn byl i největší testovaný model s 13 miliardami parametrů. Otrávená data tak tvořila jen asi 0,00016 % jeho celkového trénovacího souboru – zhruba 420 000 tokenů z miliard. 

„To není zrovna dobrá zpráva,“ poznamenává studie.

Anthropic sice upozorňuje, že před útočníky, kteří by chtěli této „slabiny“ potenciální slabiny využít, je ještě úkol dostat otrávené soubory do trénovacích sad, přesto můžou být důsledky takového útoku závažné. I proto se rozhodla výsledky svého testování zveřejnit. 

„Veřejné sdílení těchto zjištění s sebou nese riziko, že povzbudí protivníky k vyzkoušení takových útoků v praxi. Věříme však, že přínosy zveřejnění těchto výsledků převažují nad těmito obavami,“ přitakává společnost.

linux_sprava_tip

Navíc, byť se výzkumníci nezaměřili na metody prevence, několik možných obranných opatření také navrhli. Patří mezi ně pokračující trénování modelu s čistými daty a další mechanismy, které by byly součástí trénovacího procesu, včetně důsledného filtrování dat. 

„Je důležité, aby obránci nebyli zaskočeni útoky, které považovali za nemožné,“ uzavírají výzkumníci.

Computertrends - promo

Computertrends si můžete objednat i jako klasický časopis. Je jediným odborným magazínem na českém a slovenském trhu zaměreným na profesionály v oblasti informačních a komunikačních technologií (ICT). Díky silnému zázemí přináší aktuální zpravodajství, analýzy, komentáře a přehledy nejnovejších technologií dříve a na vyšší odborné úrovni, než ostatní periodika na tuzemském trhu.

Obsah Computertrends je určen odborníkům a manažerům z firem a institucí, kteří se podílejí na rozhodovacím procesu při nákupu ICT technologií. Jednotlivá čísla si můžete objednat i v digitální podobě.

  • Našli jste v článku chybu?

Autor článku

Václav Tesař

Témata:

Mohlo by vás zajímat

Anketa

Hodláte nasadit ve své firmě nějakou formu agentní AI?

Zobraz výsledek

Kvíz týdne

Jak jste pevní v kramflecích v případě kyberbezpečnosti?
1/11 otázek
Spustit kvíz

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Školení pro IT
Ansible – Efektivní nasazení a provoz
20. 10. 2025
9:00
Více
Docker
20. 10. 2025
9:30
Více
Webový server Nginx
21. 10. 2025
9:30
Více


 

Z našich webů

Dále u nás najdete

Takto vypadá nový český Wi-Fi router Turris Omnia NG

Průměrná mzda se utrhla ze řetězu. Vzroste i ta minimální

Navýšení životního minima nabírá zpoždění. Jaké dávky to ovlivní?

Dá se vytvořit e-shop pro velkoobchod?

Otrávit jazykové modely je pozoruhodně snadné

Kde je v Česku nejvíc gigabitových přípojek?

Hollywoodské hvězdy naštvala nová AI herečka

Dneškem končí podpora Windows 10. Jaký je jeho příběh?

Další změna v zaměstnávání zahraničních zaměstnanců

Rakovinou prsu onemocněly ve třiceti. Bulku si našly samy

Světová premiéra sportovní videotechnologie v české extralize

Naučte se sušit houby správně, aby se hezky lámaly

Zvýší se jak zálohy OSVČ, tak paušální daň. Komu se co vyplatí?

Záchrance můžete napsat i SMS. Dispečink vám odpoví také zprávou

Minimální důchod se od příštího roku výrazně zvýší

Firemní schizofrenie – zavedené zvyky versus moderní nástroje

Spoření v říjnu: Kam bezpečně s penězi?

Z václavek uvaříte skvělý guláš. Sbírejte jen mladé houby

Běží prevence nádoru slinivky, jakým trpí expremiér Topolánek

Léky na křečové žíly má smysl brát celý rok

Co píšeme v nejnovějším Computertrends?
předplatné PŘEDPLATNÉ