AI chatboty pod palbou: Psychologické triky snadno obejdou bezpečnostní opatření

2. 9. 2025

Ilustrace zobrazuje humanoidního robota pod vlivem psychologických triků, kdy nad ním visí loutkařská ruka, v pozadí jsou symboly manipulace, otazníky a bezpečnostní ikony.

Výzkumníci z University of Pennsylvania odhalili zásadní slabinu nejnovější generace AI chatbotů. Model OpenAI GPT-4o Mini lze velmi snadno zmanipulovat jednoduchými psychologickými technikami k porušení ochranných pravidel – a to často jen lehkou úpravou stylu otázky.

Testovalo se sedm známých přesvědčovacích technik z knihy Roberta Cialdiniho „Influence: The Psychology of Persuasion“. Patří mezi ně například autorita, závazek, vzácnost či sociální důkaz. V rozsáhlých experimentech o desítkách tisíc chatů tyto metody násobně zvýšily ochotu AI porušit interní pravidla.

Nejvýraznější efekt měl postup zvaný „commitment“. Zatímco přímý dotaz na syntézu regulované látky typu lidokainu chatbot odmítl téměř vždy, po předchozí neškodné otázce na výrobu vanilinu compliance vyskočila na 100%.

Stejný princip fungoval i u žádosti o urážku – když si systém předtím „osahal“ mírnější variantu, otevřel se i pro tvrdší dotaz.

Jak si osedlat firemní tisk v době digiální

0:00/

Funguje dokonce i obyčejný „peer pressure“. Když výzkumníci tvrdili, že „ostatní LLM to přece dělají“, prudce vzrostla úspěšnost i rizikových odpovědí. Podobně se ukázalo, že AI více reaguje na odkazy na autority typu „AI expert Andrew Ng říká, že…“.

Výzkum přišel v době, kdy firmy jako OpenAI i Meta pod tlaky veřejnosti zpřísňují bezpečnost svých chatbotů. Výzkum zároveň ukazuje paradox AI vývoje: čím lidštější modely jsou, tím snadněji podléhají stejným trikům jako lidé samotní.

Vývojáři nyní testují nové obranné strategie, protože se ukazuje, že ani pokročilé AI modely nejsou vůči psychologické manipulaci imunní.

Computertrends si můžete objednat i jako klasický časopis. Je jediným odborným magazínem na českém a slovenském trhu zaměreným na profesionály v oblasti informačních a komunikačních technologií (ICT). Díky silnému zázemí přináší aktuální zpravodajství, analýzy, komentáře a přehledy nejnovejších technologií dříve a na vyšší odborné úrovni, než ostatní periodika na tuzemském trhu.

Obsah Computertrends je určen odborníkům a manažerům z firem a institucí, kteří se podílejí na rozhodovacím procesu při nákupu ICT technologií. Jednotlivá čísla si můžete objednat i v digitální podobě.

Našli jste v článku chybu?

Sdílet

Autor článku

Radan Dolejš

Témata:

Mohlo by vás zajímat

Anketa

Máte ve firmě vyřešený případný výpadek elektřiny na déle než 24 hodin?

TIP NA VIDEO

Coffee break: Bezpečnost s velkým srdcem, říká Pavel Černý ze společnosti Eurosecure

SPECIÁLNÍ PROJEKTY

Našli jsme první letošní vítěze soutěže IT produkt roku 2026

Ocenili jsme úspěšné účastníky celoroční soutěže IT produkt roku 2025

Vítězové posledního kola soutěže IT produkt roku 2025 jsou tady

V IT a podnikových službách už v Česku pracuje 200 tisíc lidí

Ekonomické dopady íránského konfliktu? Vyšší inflace, slabší koruna a plusové body pro dolar

Virtuozzo sjednocuje své cloudové technologie do jednotné platformy

Miliardy z EU, strach z hackerů a marný boj s tabulkovými platy (1.)

Novým šéfem Direct Fidoo je Martin Vakoč. Jeho cílem je evropská finanční platforma pro SME

Velká trojka spojuje síly. Red Hat, Nvidia a Palo Alto pracují na bezpečné AI

Zdeněk Bínek, Zebra Systems: Expanzi v USA vedeme podle našich zásad

Jednotné měsíční hlášení startuje bez jasných pravidel. Firmy čekají na detaily

Omdia: Těžký rok pro mobily, dodávky drtí omezené paměti i geopolitické tlaky

AI chatboty pod palbou: Psychologické triky snadno obejdou bezpečnostní opatření

Sdílet

Autor článku

Radan Dolejš

Témata:

Mohlo by vás zajímat

Nový model OpenAI kóduje 15krát rychleji než jeho předchůdce

Windows budou důkladněji chráněny před autonomními aplikacemi a AI agenty

Anketa

Máte ve firmě vyřešený případný výpadek elektřiny na déle než 24 hodin?

Kvíz týdne

TIP NA VIDEO

Coffee break: Bezpečnost s velkým srdcem, říká Pavel Černý ze společnosti Eurosecure

SPECIÁLNÍ PROJEKTY

Našli jsme první letošní vítěze soutěže IT produkt roku 2026

Ocenili jsme úspěšné účastníky celoroční soutěže IT produkt roku 2025

Vítězové posledního kola soutěže IT produkt roku 2025 jsou tady

Z našich webů

V IT a podnikových službách už v Česku pracuje 200 tisíc lidí

Ekonomické dopady íránského konfliktu? Vyšší inflace, slabší koruna a plusové body pro dolar

Virtuozzo sjednocuje své cloudové technologie do jednotné platformy

Miliardy z EU, strach z hackerů a marný boj s tabulkovými platy (1.)

Novým šéfem Direct Fidoo je Martin Vakoč. Jeho cílem je evropská finanční platforma pro SME

Velká trojka spojuje síly. Red Hat, Nvidia a Palo Alto pracují na bezpečné AI

Zdeněk Bínek, Zebra Systems: Expanzi v USA vedeme podle našich zásad

Jednotné měsíční hlášení startuje bez jasných pravidel. Firmy čekají na detaily

Omdia: Těžký rok pro mobily, dodávky drtí omezené paměti i geopolitické tlaky

Dále u nás najdete

Nový model OpenAI kóduje 15krát rychleji než jeho předchůdce

AI se snaží promlouvat i do stavebnictví

AI jako soudce – zákon na prvním místě

U dědečkova stavu našla smysl a teď oživuje unikátní tkaní

Zdeněk se cítil zdravý, pak ve spánku dostal mrtvici

EET není český výmysl. Zjistěte, kde za účtenku můžete vyhrát auto

Deset kroků pro maximální zabezpečení Google účtu

Benefity z pohledu pracovněprávního a daňového

Americká televize Newsmax se chystá do Česka

Paramount získal Warnery a Netflix na tom vydělal

Český SAP posilují Štěpánka Ryšavá a Štěpán Kroupa

10 důvodů, proč lidi nenakoupí na vašem e-shopu

Po rodičovské na pracák. V prvních měsících dostanete 19 269 Kč

T-Mobile má za sebou v tuzemsku pozitivní rok, rostly tržby i zisk

Zmatky u superdávky: přerušeno, zpracovává se a kdy dokládat

Energetické infrastruktuře bez chytrého řízení hrozí kolaps

Nedostatek vitaminu D se projeví únavou i špatnou náladou

Vedla knihovnu, teď pěstuje bylinky. Přírodní kosmetiku míchá jen s dobrou náladou

Stát se za data retention omluvil, ale údaje sbírá dál

Nedostatek vitaminu D se projeví nejen únavou