Jiaru Zou a Tianyu Gao z University of Illinois Urbana-Champaign společně s Tianyi Zhou z University of Maryland představili framework LatentMAS, který zásadně mění způsob spolupráce agentů v systémech založených na velkých jazykových modelech.
Místo textové komunikace mezi agenty využívá přímé sdílení vnitřních reprezentací modelu prostřednictvím KV cache, což podle publikovaných výsledků vede k vyšší přesnosti, nižší spotřebě tokenů a výrazně rychlejší inferenci – a to bez jakéhokoli dalšího tréninku modelů.
Limity současných multi-agentních systémů
V posledních dvou letech se multi-agentní přístupy staly jedním z nejslibnějších směrů pro zlepšení výkonu LLM na složitých úlohách. Princip je jednoduchý a prokazatelně účinný: místo spoléhání na jeden „vševědoucí“ model se složitá úloha rozdělí mezi několik specializovaných agentů – například plánovače, řešitele a verifikátory.
Ti spolu diskutují, navzájem si oponují a společně dosahují lepších výsledků než jednotlivec. Tento kolektivní přístup výrazně zlepšuje přesnost v oblastech jako matematika, programování nebo plánování, často bez nutnosti dalšího trénování modelu.
Problém nastává v realizaci. Současné frameworky typu AutoGen a podobné textové multi-agentní systémy nutí agenty komunikovat přirozeným jazykem. Každý agent generuje chain-of-thought v textové podobě, druhý ho přečte, zpracuje, sumarizuje a zareaguje.
Tento proces má tři zásadní nevýhody: je pomalý, protože se generuje obrovské množství tokenů na mezikomunikaci; je nákladný, protože platíte za každý token i výpočetní kapacitu; a je informačně ztrátový, protože při převodu vnitřních reprezentací modelu do textu se ztrácejí nuance, nejistota a neexplicitní vztahy mezi koncepty.
Autoři výzkumu si položili logickou otázku, která se zdá být zřejmá, ale dosud nebyla systematicky řešena: proč nutit modely „mluvit“ mezi sebou textem, když jejich skutečné „přemýšlení“ probíhá v latentním prostoru skrytých stavů? Text je pouze komprimovaná, diskretizovaná verze vnitřního uvažování modelu. Při každém převodu do přirozeného jazyka a zpět dochází k nevratným ztrátám informací. LatentMAS tento problém řeší tím, že mezitextovou komunikaci zcela eliminuje.
Architektura a principy LatentMAS
LatentMAS je multi-agentní framework, kde agenti sdílejí přímo své vnitřní skryté reprezentace místo textu. Každý agent je standardní transformer bez jakýchkoli úprav – autoři testovali na modelech Qwen2.5–3B, Qwen2.5–7B, Qwen2.5–14B a Llama3.1–8B. Klíčový rozdíl oproti klasickému přístupu spočívá v tom, že místo generování mezitextu pro ostatní agenty model pracuje s KV cache z více vrstev.
Proces funguje následovně. Agent produkuje sekvenci skrytých stavů – autoři je nazývají „latentními myšlenkami“ – autoregresivně, podobně jako generuje tokeny, ale bez dekódování do slov. Tyto stavy se ukládají do sdílené latentní pracovní paměti, která funguje jako key-value cache přístupná všem agentům v systému.
Ostatní agenti tyto vektory přímo čtou a na nich stavějí své další uvažování, aniž by museli cokoli převádět do textu nebo z textu. Veškeré interakce – plánování, dekompozice úloh, vzájemné ověřování – probíhají výhradně v latentním prostoru. Text vzniká až na samém konci procesu, když vybraný agent dekóduje finální latentní reprezentaci do přirozeného jazyka pro člověka.
Autoři poskytují nejen experimentální, ale i teoretické zdůvodnění výhod tohoto přístupu. Z hlediska expresivity nese jeden skrytý stav daleko více informací než jeden token – formální analýza ukazuje, že jeden latentní krok odpovídá obsahové kapacitě stovek tokenů. Při přepisu do textu se tyto informace nevyhnutelně ztrácejí, zatímco latentní přenos je z pohledu modelu bezztrátový. Dále autoři analyzují takzvaný bandwidth – množství dat přenášených mezi agenty.
U textových systémů je bandwidth aproximativně roven počtu tokenů násobenému velikostí slovníku. U LatentMAS je to počet latentních kroků násobený dimenzí hidden state a počtem sdílených vrstev. Latentní krok je sice „širší“ než jeden token, ale k dosažení stejné hloubky uvažování jich potřebujete řádově méně. Výsledkem je nižší celková komplexita a vyšší efektivita.
Experimentální ověření a výsledky
LatentMAS byl otestován na devíti benchmarkách pokrývajících široké spektrum úloh: GSM8K a MATH pro matematické problémy, AIME24 pro pokročilou matematiku, GPQA pro vědecké otázky, LiveCodeBench pro generování kódu a další datasety pro logické uvažování a commonsense reasoning. Porovnání zahrnovalo tři přístupy: single-agent baseline představující silný LLM bez multi-agentní orchestrace, klasické textové multi-agentní systémy a LatentMAS.
Výsledky jsou přesvědčivé. LatentMAS dosahuje až o 14,6 procentního bodu vyšší přesnosti oproti baseline a textovým systémům na některých benchmarkách. Současně snižuje počet výstupních tokenů o 70,8 až 83,7 procenta a zrychluje end-to-end inferenci až 4,3krát. Co je podstatné: všechna tato zlepšení byla dosažena bez jakéhokoli dodatečného tréninku – pouze změnou způsobu komunikace mezi agenty. Systém využívá běžně dostupné modely v jejich původní podobě, pouze je orchestruje jiným způsobem.
Tyto výsledky mají přímé praktické důsledky. Méně tokenů znamená nižší náklady na API u komerčních modelů, menší latenci při zpracování požadavků a efektivnější využití omezeného context window. Pro aplikace vyžadující složité vícekrokové uvažování – matematické výpočty, analýzu a generování kódu, plánování komplexních úloh – to představuje potenciálně významnou úsporu při současném zlepšení kvality výstupů.
Souvislosti a budoucí směry
LatentMAS zapadá do širšího proudu výzkumu, který se snaží posunout chain-of-thought z textové do latentní roviny. Mezi související práce patří LaDiR využívající latent diffusion pro textové uvažování, výzkum System 1/2 komunikace v latentním prostoru a různé metody pro multi-agentní deliberaci. LatentMAS však přináší unikátní prvek: kompletní multi-agentní spolupráci bez jakéhokoli mezitextu, včetně sdílené pracovní paměti přístupné všem agentům.
Paper otevřeně diskutuje i limity a otevřené otázky. Lze míchat různé modely, například Qwen s Llama? Teoreticky ano, ale sdílená latentní paměť pak vyžaduje kompatibilní projekce mezi latentními prostory jednotlivých modelů, což není triviální. Jak se systém chová s kvantizovanými modely nebo LoRA adaptacemi? V principu by měl fungovat, ale může to ovlivnit kvalitu projekcí a stabilitu skrytých stavů.
Chcete dostávat do mailu týdenní přehled článků z Computertrends? Objednejte si náš mailový servis a žádná důležitá informace vám neuteče. Objednat si lze také newsletter To hlavní, páteční souhrn nejdůležitějších článků ze všech našich serverů. Newslettery si můžete objednat na této stránce.
A lze agenty spouštět konkurenčně v reálném čase, aby četly latentní stavy za běhu, nikoli až po dokončení celé sekvence? Tyto otázky ukazují, že LatentMAS je spíše frameworkem pro další výzkum než hotovým produkčním řešením, ale jeho principy mají potenciál změnit architekturu agentních systémů.
Pro praxi to znamená, že současné multi-agentní frameworky založené na textové komunikaci mohou v budoucnu projít zásadní architektonickou změnou směrem k latentní orchestraci. Naznačuje to, jak by mohly vypadat budoucí runtime vrstvy pro LLM – orchestrující agentní spolupráci primárně prostřednictvím KV cache a latentní paměti, nikoli textu.
LatentMAS dokazuje, že optimální „komunikační jazyk“ pro modely mezi sebou není lidský text, ale jejich vlastní vnitřní reprezentace. Tento posun od textové k latentní spolupráci představuje krok k systémové AI, kde jednotliví agenti fungují jako specializované moduly a výměna informací mezi nimi probíhá pod povrchem, daleko od textu, který nakonec vidí člověk.

Computertrends si můžete objednat i jako klasický časopis. Je jediným odborným magazínem na českém a slovenském trhu zaměreným na profesionály v oblasti informačních a komunikačních technologií (ICT). Díky silnému zázemí přináší aktuální zpravodajství, analýzy, komentáře a přehledy nejnovejších technologií dříve a na vyšší odborné úrovni, než ostatní periodika na tuzemském trhu.
Obsah Computertrends je určen odborníkům a manažerům z firem a institucí, kteří se podílejí na rozhodovacím procesu při nákupu ICT technologií. Jednotlivá čísla si můžete objednat i v digitální podobě.
