Jistý Simon Willison, AI vývojář, zveřejnil podrobnou analýzu skrytých instrukcí, které řídí chování modelů umělé inteligence Claude 4 společnosti Anthropic.
Nabízí tak vzácný pohled na to, jak společnosti zabývající se umělou inteligencí formují reakce svých chatbotů. Willison ve svém výzkumu těžil z veřejně dostupných zdrojů i z uniklých informací.
Co jsou systémové prompty?
Pro pochopení Willisonových zjištění je důležité vědět, jak AI chatboti fungují. Velké jazykové modely, jako jsou Claude a ChatGPT, zpracovávají zprávy uživatelů, tzv. prompty a generují odpovědi na základě jejich nejpravděpodobnějšího pokračování.
Využívají vaši zaměstnanci pokročilou datovou analytiku?
Před každou konverzací společnosti zabývající se umělou inteligencí krmí své modely skrytými instrukcemi, tzv. systémovými prompty, které chatbotům určují identitu, to, jak se mají chovat, a jaká pravidla mají dodržovat. Na jejich základě je pak generována každá odpověď.
Jak získat úplné informace
Společnost Anthropic sice zveřejňuje části svých systémových promptů v dokumentaci, která doprovází každé nové vydání, Willisonova analýza však ukazuje, že tyto veřejně dostupné materiály nejsou kompletní.

Úplné instrukce, včetně podrobných pokynů pro nástroje, jako je vyhledávání na webu a generování kódu, musí být získány pomocí technik, jako je tzv. prompt injection neboli metoda, kdy lze model přimět k odhalení skrytých instrukcí lstí.
Willison, který s termínem prompt injection přišel v roce 2022, vycházel z uniklých promptů shromážděných těmi, kteří takové techniky použili, aby získali komplexní představu o tom, jak Claude 4 funguje.
Boj s lichotkami
Jeden z Willisonových nejzajímavějších objevů se týká toho, jak se Anthropic snažil zabránit tomu, aby Claude uživatelům příliš lichotil. Nejen Anthropic, ale i další společnosti, se totiž v poslední době potýkají s tím, že se jejich chatboty chovají „patolízalsky“ – uživatele nadměrně chválí, což vede mimo jiné k tomu, že uživatelé pak takové odpovědi hodnotí lépe.
Jak Willison zjistil, Anthropic se toto snaží řešit systémovým promptem: „Claude nikdy nezačíná svou odpověď tím, že otázka, myšlenka nebo postřeh byly dobré, skvělé, fascinující, hluboké, vynikající nebo jakýmkoli jiným pozitivním přídavným jménem. Přeskočí lichotky a odpovídá přímo.“
Další pokyny k chování
Systémové prompty odhalují také instrukce o tom, kdy by Claude měl nebo neměl používat odrážky a seznamy, přičemž několik odstavců instrukcí odrazuje od častého vytváření seznamů v běžné konverzaci.
„Claude by neměl používat odrážky nebo číslované seznamy ve zprávách, dokumentech, vysvětleních nebo pokud uživatel výslovně nepožádá o seznam nebo pořadí,“ uvádí instrukce.
Willison také zjistil, že Claude má nastaveny podrobné pokyny týkající se emocionální podpory, které mu říkají, aby „se staral o pohodu lidí a vyhýbal se podpoře nebo usnadňování sebedestruktivního chování, jako je závislost, neuspořádaný nebo nezdravý přístup k jídlu nebo cvičení“.
Analýza odhalila také rozsáhlé nastavení ochrany autorských práv ve vyhledávacích schopnostech Clauda. Tak třeba, v jedné odpovědi by měl použít pouze jednu krátkou citaci (do patnácti slov) z webových zdrojů a zcela by měl například odmítat požadavky na reprodukci textů písniček „v JAKÉKOLI podobě“.
Willison poznamenává, že tyto systémové prompty slouží jako cenná dokumentace toho, s jakými problémy se Claude v minulosti potýkal.
„Systémový prompt lze často interpretovat jako podrobný seznam všech věcí, které model dělal předtím, než mu bylo řečeno, že je dělat nemá,“ píše.
Computertrends si můžete objednat i jako klasický časopis. Je jediným odborným magazínem na českém a slovenském trhu zaměreným na profesionály v oblasti informačních a komunikačních technologií (ICT). Díky silnému zázemí přináší aktuální zpravodajství, analýzy, komentáře a přehledy nejnovejších technologií dříve a na vyšší odborné úrovni, než ostatní periodika na tuzemském trhu.
Obsah Computertrends je určen odborníkům a manažerům z firem a institucí, kteří se podílejí na rozhodovacím procesu při nákupu ICT technologií. Jednotlivá čísla si můžete objednat i v digitální podobě.