AI modely pořád lichotí uživatelům a snižují jejich ochotu řešit konflikty

Sdílet

Muž sedí u stolu s notebookem, na obrazovce se zobrazuje holografická AI postava vyzařující modré světlo a symbolizující lichotivou umělou inteligenci, která uživateli poskytuje podporu.
Autor: Radan Dolejš s podporou AI
Lichocení AI modelů zůstává vážným problémem. Co je jeho příčinou, nelze stoprocentně potvrdit. Mohou ho podporovat sami vývojáři.

Nejmodernější AI modely mají znepokojivou tendenci říkat lidem to, co chtějí slyšet. Nový výzkum navíc naznačuje, že toto lichocení činí uživatele přesvědčenější o své pravdě a méně ochotné řešit konflikty. 

Stojí za ním informatici ze Stanford University a Carnegie Mellon University, kteří vyhodnotili jedenáct současných AI modelů a zjistili, že všechny se dopouštějí toho, co výzkumníci nazývají „servilností" – přehnaného lichocení za účelem získání přízně.

Jak zvládnout digitalizaci, automatizaci a AI v malé firmě s Petrem Mackem
Jak zvládnout digitalizaci, automatizaci a AI v malé firmě s Petrem Mackem
0:00/

„Napříč jedenácti nejmodernějšími AI modely zjišťujeme, že jsou vysoce servilní: schvalují jednání uživatelů o padesát procent častěji než lidé. A to i v případech, kdy uživatelské dotazy zmiňují manipulaci, podvod nebo jiné vztahové škody,“ uvádějí výzkumníci ve své studii. 

Ta zkoumala čtyři hlavní komerční modely (GPT-5 a GPT-4o od OpenAI, Gemini-1.5-Flash od Googlu a Claude Sonnet 3.7 od Anthropicu) spolu se sedmi open-weight modely od společností Meta, Mistral AI, DeepSeek a Qwen.

Příčina neznámá

Do studie bylo zapojeno také 800 účastníků, přičemž výzkumníci zkoumali, jak lidé komunikují s lichotivými versus neutrálními AI modely. Jejich zjištění odhalila znepokojivé změny v chování. K hlavním zjištěním patří, že „interakce se servilními AI modely významně snížila ochotu účastníků podniknout kroky k nápravě mezilidských konfliktů a zároveň posílila jejich přesvědčení, že mají pravdu.“ 

HP Knowledge HUB pro moderní firemní IT

NOVINKA Navštivte novou speciální on-line zónu CIO Business Worldu, kde vám ve spolupráci s HP budeme průběžně radit, jak snadno a bezpečně pracovat na cestách, jak si usnadnit život používám správných nástrojů, jak zvládnout přechod z kanceláří domů a zase nazpátek a jak se přitom chovat ekologicky.

Pomoc a inspiraci pro moderní IT najdete v našem HP Knowledge HUBu.

Paradoxní je, že účastníci studie hodnotili lichotivé odpovědi jako kvalitnější, důvěřovali AI modelům více, když s nimi souhlasily, a byli ochotnější tyto podporující modely znovu používat. To naznačuje, že lidé preferují umělou inteligenci, která nekriticky schvaluje jejich chování, navzdory rizikům.

Nejde přitom o nový problém. V dubnu společnost OpenAI stáhla z nabídky aktualizaci GPT-4o, protože model po ní nabízel nepřiměřeně přehnanou chválu – včetně uživateli, který zmínil vysazení léků na schizofrenii. 

Claude od Anthropicu čelí podobné kritice. Ačkoliv jeho tvůrci tvrdí, že Claude Sonnet 4.5 vykazuje v tomto směru výrazné zlepšení, data z GitHubu naznačují, že problém přetrvává.

Na to, proč se tak AI modely chovají, neexistuje jednoznačná odpověď. 

Meta bude využívat vaše konverzace s AI k cílení reklam Přečtěte si také:

Meta bude využívat vaše konverzace s AI k cílení reklam

„Dřívější studie naznačují, že toto chování může mít souvislost s preferenčními daty a s procesy posilovaného učení. Ale také může jít o to, že se to model naučil z dat, na kterých byl předtrénován, nebo proto, že lidé jsou vysoce náchylní k tomuto potvrzovacímu zkreslení,“ uvedla pro web The Register hlavní autorka studie, Myra Cheng ze Stanfordu. 

Studie však zmiňuje ještě jeden potenciálně významný faktor, a totiž, že vývojáři AI modelů postrádají motivaci jejich servilnost omezit, protože podporuje jejich adopci uživateli. 

Situaci zhoršuje fakt, že účastníci studie měli tendenci popisovat servilní AI jako „objektivní" a „spravedlivou“, což poukazuje na to, že lidé nepoznají předpojatost, když jim modely neustále říkají, že mají pravdu.

linux_sprava_tip

Vážná rizika

Výzkumníci zdůrazňují, že nejde jen o neškodné lichocení. Poukazují na výzkum ukazující, že AI modely mohou podporovat bludné myšlení, a citují nedávnou žalobu proti OpenAI, která tvrdí, že ChatGPT pomáhal mladému muži zkoumat metody sebevraždy. 

„Pokud nám éra sociálních médií něco ukazuje, pak to, že musíme jít za pouhou optimalizaci okamžité spokojenosti uživatelů a zachovat dlouhodobou pohodu,“ uzavírají autoři. „Řešení servilnosti je zásadní pro vývoj AI modelů, které mají přinést trvalý individuální i společenský prospěch. Doufáme, že naše práce bude motivovat průmysl ke změně tohoto chování.“

Computertrends - promo

Computertrends si můžete objednat i jako klasický časopis. Je jediným odborným magazínem na českém a slovenském trhu zaměreným na profesionály v oblasti informačních a komunikačních technologií (ICT). Díky silnému zázemí přináší aktuální zpravodajství, analýzy, komentáře a přehledy nejnovejších technologií dříve a na vyšší odborné úrovni, než ostatní periodika na tuzemském trhu.

Obsah Computertrends je určen odborníkům a manažerům z firem a institucí, kteří se podílejí na rozhodovacím procesu při nákupu ICT technologií. Jednotlivá čísla si můžete objednat i v digitální podobě.