Testovalo se sedm známých přesvědčovacích technik z knihy Roberta Cialdiniho „Influence: The Psychology of Persuasion“. Patří mezi ně například autorita, závazek, vzácnost či sociální důkaz. V rozsáhlých experimentech o desítkách tisíc chatů tyto metody násobně zvýšily ochotu AI porušit interní pravidla.
Nejvýraznější efekt měl postup zvaný „commitment“. Zatímco přímý dotaz na syntézu regulované látky typu lidokainu chatbot odmítl téměř vždy, po předchozí neškodné otázce na výrobu vanilinu compliance vyskočila na 100%.
Stejný princip fungoval i u žádosti o urážku – když si systém předtím „osahal“ mírnější variantu, otevřel se i pro tvrdší dotaz.
Funguje dokonce i obyčejný „peer pressure“. Když výzkumníci tvrdili, že „ostatní LLM to přece dělají“, prudce vzrostla úspěšnost i rizikových odpovědí. Podobně se ukázalo, že AI více reaguje na odkazy na autority typu „AI expert Andrew Ng říká, že…“.
Výzkum přišel v době, kdy firmy jako OpenAI i Meta pod tlaky veřejnosti zpřísňují bezpečnost svých chatbotů. Výzkum zároveň ukazuje paradox AI vývoje: čím lidštější modely jsou, tím snadněji podléhají stejným trikům jako lidé samotní.
Vývojáři nyní testují nové obranné strategie, protože se ukazuje, že ani pokročilé AI modely nejsou vůči psychologické manipulaci imunní.
