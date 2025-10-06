Společnost Anthropic představila Claude Sonnet 4.5 – svůj údajně „dosud nejschopnější“ AI model, přinášející významná vylepšení v oblasti kódování a schopnosti pracovat na složitých úkolech po delší dobu.
Lepší a silnější
Jednou z největších devíz Sonnetu 4.5 má být jeho výdrž. Vývojáři uvádí, že model pracoval nepřetržitě na stejném projektu „víc než 30 hodin na složitých, vícestupňových úkolech“. Předchozí modely Claudu sice údajně dokázaly hrát hru Pokémon víc než 24 hodin nebo sedm hodin refaktorovaly kód, běžně však AI modely vlivem zahlcení kontextových oken při dlouhých relacích ztrácejí soudržnost.
Claude Sonnet je středně velkým modelem od Anthropicu, zaměřeným na optimální poměr mezi výkonem a cenou. Platí to i o jeho nejnovější verzi, o níž však společnost tvrdí, že je tím „nejlepším modelem pro kódování na světě“ a také tím „nejsilnějším pro vytváření komplexních agentů“. V oblasti uvažování a matematiky prý vykazuje výrazné zlepšení oproti starší verzi.
Anthropic tato tvrzení podkládá i benchmarky. Sonnet 4.5 dosáhl 77,2 % v testu SWE-bench Verified, který měří schopnosti kódování softwaru v reálných podmínkách, a porazil tak GPT-5 Codex od OpenAI (74,5 %) a Gemini 2.5 Pro od Google (67,2 %).
Na OSWorld, který testuje reálné počítačové úkoly, dosáhl Sonnet 4.5 skóre 61,4 %, což je nárůst oproti 42,2 % jeho předchůdce před pouhými čtyřmi měsíci. Model také vykázal zlepšení v matematických benchmarkových testech a dosáhl skóre 92 % v benchmarkovém testu Vals AI Finance Agent, který „testuje schopnost agentů vykonávat úkoly očekávané od finančního analytika na vstupní úrovni“.
Benchmarky AI je však třeba vždy posuzovat opatrně, protože mohou být zmanipulované, špatně navržené nebo trpět kontaminací dat, kdy jsou modely neúmyslně trénovány na benchmarkových odpovědích.
Navíc, brzy nejspíš bude na trh uveden Gemini 3 od Googlu, takže kdo ví, jak dlouho si titul „nejlepšího modelu pro kódování“ Sonnet 4.5 udrží.
Další nové nástroje pro vývojáře
Spolu s ním společnost Anthropic vydala taky Claude Code 2.0, nástroj příkazového řádku pro vývojáře s novými kontrolními body, které ukládají pokrok a umožňují vrácení zpět. Společnost také představila Claude Agent SDK, který vývojářům umožňuje vytvářet vlastní AI kódovací agenty.
Uživatelé webového rozhraní a aplikací Claude mohou nyní spouštět kód a vytvářet soubory přímo v rámci konverzací, generovat tabulky, prezentace a dokumenty, aniž by museli opustit chat.
