Jistý Simon Willison, AI vývojář, zveřejnil podrobnou analýzu skrytých instrukcí, které řídí chování modelů umělé inteligence Claude 4 společnosti Anthropic.
Nabízí tak vzácný pohled na to, jak společnosti zabývající se umělou inteligencí formují reakce svých chatbotů. Willison ve svém výzkumu těžil z veřejně dostupných zdrojů i z uniklých informací.
Co jsou systémové prompty?
Pro pochopení Willisonových zjištění je důležité vědět, jak AI chatboti fungují. Velké jazykové modely, jako jsou Claude a ChatGPT, zpracovávají zprávy uživatelů, tzv. prompty a generují odpovědi na základě jejich nejpravděpodobnějšího pokračování.
Plánujete ve firmě v brzké době nasadit Wi-Fi 7?
Před každou konverzací společnosti zabývající se umělou inteligencí krmí své modely skrytými instrukcemi, tzv. systémovými prompty, které chatbotům určují identitu, to, jak se mají chovat, a jaká pravidla mají dodržovat. Na jejich základě je pak generována každá odpověď.
Jak získat úplné informace
Společnost Anthropic sice zveřejňuje části svých systémových promptů v dokumentaci, která doprovází každé nové vydání, Willisonova analýza však ukazuje, že tyto veřejně dostupné materiály nejsou kompletní.

Úplné instrukce, včetně podrobných pokynů pro nástroje, jako je vyhledávání na webu a generování kódu, musí být získány pomocí technik, jako je tzv. prompt injection neboli metoda, kdy lze model přimět k odhalení skrytých instrukcí lstí.
Willison, který s termínem prompt injection přišel v roce 2022, vycházel z uniklých promptů shromážděných těmi, kteří takové techniky použili, aby získali komplexní představu o tom, jak Claude 4 funguje.
Boj s lichotkami
Jeden z Willisonových nejzajímavějších objevů se týká toho, jak se Anthropic snažil zabránit tomu, aby Claude uživatelům příliš lichotil. Nejen Anthropic, ale i další společnosti, se totiž v poslední době potýkají s tím, že se jejich chatboty chovají „patolízalsky“ – uživatele nadměrně chválí, což vede mimo jiné k tomu, že uživatelé pak takové odpovědi hodnotí lépe.
Jak Willison zjistil, Anthropic se toto snaží řešit systémovým promptem: „Claude nikdy nezačíná svou odpověď tím, že otázka, myšlenka nebo postřeh byly dobré, skvělé, fascinující, hluboké, vynikající nebo jakýmkoli jiným pozitivním přídavným jménem. Přeskočí lichotky a odpovídá přímo.“
Další pokyny k chování
Systémové prompty odhalují také instrukce o tom, kdy by Claude měl nebo neměl používat odrážky a seznamy, přičemž několik odstavců instrukcí odrazuje od častého vytváření seznamů v běžné konverzaci.
„Claude by neměl používat odrážky nebo číslované seznamy ve zprávách, dokumentech, vysvětleních nebo pokud uživatel výslovně nepožádá o seznam nebo pořadí,“ uvádí instrukce.
Willison také zjistil, že Claude má nastaveny podrobné pokyny týkající se emocionální podpory, které mu říkají, aby „se staral o pohodu lidí a vyhýbal se podpoře nebo usnadňování sebedestruktivního chování, jako je závislost, neuspořádaný nebo nezdravý přístup k jídlu nebo cvičení“.
Analýza odhalila také rozsáhlé nastavení ochrany autorských práv ve vyhledávacích schopnostech Clauda. Tak třeba, v jedné odpovědi by měl použít pouze jednu krátkou citaci (do patnácti slov) z webových zdrojů a zcela by měl například odmítat požadavky na reprodukci textů písniček „v JAKÉKOLI podobě“.
Willison poznamenává, že tyto systémové prompty slouží jako cenná dokumentace toho, s jakými problémy se Claude v minulosti potýkal.
„Systémový prompt lze často interpretovat jako podrobný seznam všech věcí, které model dělal předtím, než mu bylo řečeno, že je dělat nemá,“ píše.
Computertrends si můžete objednat i jako klasický časopis. Je jediným odborným magazínem na českém a slovenském trhu zaměreným na profesionály v oblasti informačních a komunikačních technologií (ICT). Díky silnému zázemí přináší aktuální zpravodajství, analýzy, komentáře a přehledy nejnovejších technologií dříve a na vyšší odborné úrovni, než ostatní periodika na tuzemském trhu.
Obsah Computertrends je určen odborníkům a manažerům z firem a institucí, kteří se podílejí na rozhodovacím procesu při nákupu ICT technologií. Jednotlivá čísla si můžete objednat i v digitální podobě.