Testovalo se sedm známých přesvědčovacích technik z knihy Roberta Cialdiniho „Influence: The Psychology of Persuasion“. Patří mezi ně například autorita, závazek, vzácnost či sociální důkaz. V rozsáhlých experimentech o desítkách tisíc chatů tyto metody násobně zvýšily ochotu AI porušit interní pravidla.
Nejvýraznější efekt měl postup zvaný „commitment“. Zatímco přímý dotaz na syntézu regulované látky typu lidokainu chatbot odmítl téměř vždy, po předchozí neškodné otázce na výrobu vanilinu compliance vyskočila na 100%.
Stejný princip fungoval i u žádosti o urážku – když si systém předtím „osahal“ mírnější variantu, otevřel se i pro tvrdší dotaz.

Funguje dokonce i obyčejný „peer pressure“. Když výzkumníci tvrdili, že „ostatní LLM to přece dělají“, prudce vzrostla úspěšnost i rizikových odpovědí. Podobně se ukázalo, že AI více reaguje na odkazy na autority typu „AI expert Andrew Ng říká, že…“.
Výzkum přišel v době, kdy firmy jako OpenAI i Meta pod tlaky veřejnosti zpřísňují bezpečnost svých chatbotů. Výzkum zároveň ukazuje paradox AI vývoje: čím lidštější modely jsou, tím snadněji podléhají stejným trikům jako lidé samotní.
Vývojáři nyní testují nové obranné strategie, protože se ukazuje, že ani pokročilé AI modely nejsou vůči psychologické manipulaci imunní.

Computertrends si můžete objednat i jako klasický časopis. Je jediným odborným magazínem na českém a slovenském trhu zaměreným na profesionály v oblasti informačních a komunikačních technologií (ICT). Díky silnému zázemí přináší aktuální zpravodajství, analýzy, komentáře a přehledy nejnovejších technologií dříve a na vyšší odborné úrovni, než ostatní periodika na tuzemském trhu.
Obsah Computertrends je určen odborníkům a manažerům z firem a institucí, kteří se podílejí na rozhodovacím procesu při nákupu ICT technologií. Jednotlivá čísla si můžete objednat i v digitální podobě.