Kolektivní studie vědců z několika prestižních univerzit s názvem „Deep Ignorance: Filtering Pretraining Data Builds Tamper-Resistant Safeguards into Open-Weight LLMs“ představuje komplexní a průlomový přístup ke zvýšení bezpečnosti otevřených velkých jazykových modelů (LLM).
Výzkum zjistil, že základem bezpečnějších AI systémů není jen ochrana po samotném výcviku modelu, ale především důkladná příprava tréninkových dat.
Otevřené modely umělé inteligence jsou stále populárnější, protože umožňují výzkumníkům a vývojářům přístup k jejich váhám a možnost je dále přizpůsobovat.

Taková otevřenost ale přináší riziko, že kdokoli může model „doladit“ (fine-tunovat) pro škodlivé účely — například vytvářet podrobné návody pro tvorbu biologických zbraní, distribuovat škodlivý kód, nebo generovat nepravdivé či škodlivé informace.
Dosavadní přístupy se většinou snaží bezpečnost řešit až po natrénování modelu, a to různými způsoby — od filtrování výstupu, přes detekci nebezpečného chování až po bezpečnostní záplaty modelu.
Tyto metody jsou však často nedostatečné, protože závisí na ochraně hotového produktu, který může být s relativně malým úsilím škodlivě přeprogramován.
Nový přístup: bezpečnost začíná u dat
Tým vedený Kylem O’Brienem na University of Wisconsin–Madison přišel s metodou, která přistupuje k bezpečnosti „odshora“ — tedy už na úrovni tréninkových dat. Vytvořili škálovatelnou, vícestupňovou filtrační pipeline, která během přípravy datasetu odstraňuje tzv. „dual-use“ informace. Jde o obsah, který je možné zneužít pro škodlivé účely, například přesné návody na výrobu nebezpečných látek nebo kybernetické útoky.
Díky tomuto očišťování dat vznikly modely o velikosti 6,9 miliardy parametrů, které byly předtrénovány na takto filtrovaných datech. Tyto modely ukazují výrazně vyšší odolnost proti škodlivému doladění než běžné modely.
Výzkum dokazuje, že tyto modely zvládnou odolat škodlivému přetrénování až do 10 000 kroků a 300 milionů tokenů, což je více než desetkrát lepší ochrana než u stávajících metod založených na úpravách po výcviku.
Významné výsledky a dopady
Vedle zvýšené odolnosti si tyto modely zachovávají plnou výkonnost v běžných aplikacích, tedy bez kompromisů v kvalitě a užitečnosti. Výzkum také ukázal zajímavý fenomén: i když model „zapomene“ škodlivé znalosti ze svého tréninku, dokáže jim stále rozumět a aplikovat je, pokud jsou mu dodány v kontextu aktuálního dotazu — například skrze nástroje pro vyhledávání.
To znamená, že bezpečnost AI není jen otázkou filtrování dat na vstupu, ale vyžaduje komplexní, vícevrstvý přístup, který zahrnuje filtrování, detekci nebezpečných dotazů i aktivní blokování nežádoucích vnitřních úvah modelu.
Pro budoucnost AI a open source modelů
Tento výzkum znamená důležitý krok v budování bezpečnějších otevřených AI systémů. Umožňuje začít s modelem, který je již v základu odolný vůči škodlivým zásahům, na rozdíl od do té doby běžných metod, které se pokoušely zadními vrátky „zalepovat díry“. Pro open-weight modely, které jsou dostupné všem, to znamená nejen zvýšenou bezpečnost, ale i větší důvěru a širší možnosti aplikace i v citlivých oborech.

Computertrends si můžete objednat i jako klasický časopis. Je jediným odborným magazínem na českém a slovenském trhu zaměreným na profesionály v oblasti informačních a komunikačních technologií (ICT). Díky silnému zázemí přináší aktuální zpravodajství, analýzy, komentáře a přehledy nejnovejších technologií dříve a na vyšší odborné úrovni, než ostatní periodika na tuzemském trhu.
Obsah Computertrends je určen odborníkům a manažerům z firem a institucí, kteří se podílejí na rozhodovacím procesu při nákupu ICT technologií. Jednotlivá čísla si můžete objednat i v digitální podobě.