AI chatboty pod palbou: Psychologické triky snadno obejdou bezpečnostní opatření

Sdílet

Ilustrace zobrazuje humanoidního robota pod vlivem psychologických triků, kdy nad ním visí loutkařská ruka, v pozadí jsou symboly manipulace, otazníky a bezpečnostní ikony.
Autor: Radan Dolejš s podporou AI
Výzkumníci z University of Pennsylvania odhalili zásadní slabinu nejnovější generace AI chatbotů. Model OpenAI GPT-4o Mini lze velmi snadno zmanipulovat jednoduchými psychologickými technikami k porušení ochranných pravidel – a to často jen lehkou úpravou stylu otázky.

Testovalo se sedm známých přesvědčovacích technik z knihy Roberta Cialdiniho „Influence: The Psychology of Persuasion“. Patří mezi ně například autorita, závazek, vzácnost či sociální důkaz. V rozsáhlých experimentech o desítkách tisíc chatů tyto metody násobně zvýšily ochotu AI porušit interní pravidla.

Nejvýraznější efekt měl postup zvaný „commitment“. Zatímco přímý dotaz na syntézu regulované látky typu lidokainu chatbot odmítl téměř vždy, po předchozí neškodné otázce na výrobu vanilinu compliance vyskočila na 100%. 

Stejný princip fungoval i u žádosti o urážku – když si systém předtím „osahal“ mírnější variantu, otevřel se i pro tvrdší dotaz.

Jak si osedlat firemní tisk v době digiální
Jak si osedlat firemní tisk v době digiální
0:00/

Funguje dokonce i obyčejný „peer pressure“. Když výzkumníci tvrdili, že „ostatní LLM to přece dělají“, prudce vzrostla úspěšnost i rizikových odpovědí. Podobně se ukázalo, že AI více reaguje na odkazy na autority typu „AI expert Andrew Ng říká, že…“.

hacking_tip

Výzkum přišel v době, kdy firmy jako OpenAI i Meta pod tlaky veřejnosti zpřísňují bezpečnost svých chatbotů. Výzkum zároveň ukazuje paradox AI vývoje: čím lidštější modely jsou, tím snadněji podléhají stejným trikům jako lidé samotní. 

Vývojáři nyní testují nové obranné strategie, protože se ukazuje, že ani pokročilé AI modely nejsou vůči psychologické manipulaci imunní.

Computertrends - promo

Computertrends si můžete objednat i jako klasický časopis. Je jediným odborným magazínem na českém a slovenském trhu zaměreným na profesionály v oblasti informačních a komunikačních technologií (ICT). Díky silnému zázemí přináší aktuální zpravodajství, analýzy, komentáře a přehledy nejnovejších technologií dříve a na vyšší odborné úrovni, než ostatní periodika na tuzemském trhu.

Obsah Computertrends je určen odborníkům a manažerům z firem a institucí, kteří se podílejí na rozhodovacím procesu při nákupu ICT technologií. Jednotlivá čísla si můžete objednat i v digitální podobě.