Claude Sonnet 4.5 je prý nejlepší AI pro programátory

Sdílet

Autor: Anthtopic
Anthropic vydává novou verzi AI modelu Claude Sonnet. Pro kódování je prý bezkonkurenční.

Společnost Anthropic představila Claude Sonnet 4.5 – svůj údajně „dosud nejschopnější“ AI model, přinášející významná vylepšení v oblasti kódování a schopnosti pracovat na složitých úkolech po delší dobu.

Lepší a silnější

Jednou z největších devíz Sonnetu 4.5 má být jeho výdrž. Vývojáři uvádí, že model pracoval nepřetržitě na stejném projektu „víc než 30 hodin na složitých, vícestupňových úkolech“. Předchozí modely Claudu sice údajně dokázaly hrát hru Pokémon víc než 24 hodin nebo sedm hodin refaktorovaly kód, běžně však AI modely vlivem zahlcení kontextových oken při dlouhých relacích ztrácejí soudržnost.

Jak zvládnout digitalizaci, automatizaci a AI v malé firmě s Petrem Mackem
Jak zvládnout digitalizaci, automatizaci a AI v malé firmě s Petrem Mackem
0:00/

Claude Sonnet je středně velkým modelem od Anthropicu, zaměřeným na optimální poměr mezi výkonem a cenou. Platí to i o jeho nejnovější verzi, o níž však společnost tvrdí, že je tím „nejlepším modelem pro kódování na světě“ a také tím „nejsilnějším pro vytváření komplexních agentů“. V oblasti uvažování a matematiky prý vykazuje výrazné zlepšení oproti starší verzi.

Anthropic tato tvrzení podkládá i benchmarky. Sonnet 4.5 dosáhl 77,2 % v testu SWE-bench Verified, který měří schopnosti kódování softwaru v reálných podmínkách, a porazil tak GPT-5 Codex od OpenAI (74,5 %) a Gemini 2.5 Pro od Google (67,2 %). 

Na OSWorld, který testuje reálné počítačové úkoly, dosáhl Sonnet 4.5 skóre 61,4 %, což je nárůst oproti 42,2 % jeho předchůdce před pouhými čtyřmi měsíci. Model také vykázal zlepšení v matematických benchmarkových testech a dosáhl skóre 92 % v benchmarkovém testu Vals AI Finance Agent, který „testuje schopnost agentů vykonávat úkoly očekávané od finančního analytika na vstupní úrovni“.

HP Knowledge HUB pro moderní firemní IT

NOVINKA Navštivte novou speciální on-line zónu CIO Business Worldu, kde vám ve spolupráci s HP budeme průběžně radit, jak snadno a bezpečně pracovat na cestách, jak si usnadnit život používám správných nástrojů, jak zvládnout přechod z kanceláří domů a zase nazpátek a jak se přitom chovat ekologicky.

Pomoc a inspiraci pro moderní IT najdete v našem HP Knowledge HUBu.

Benchmarky AI je však třeba vždy posuzovat opatrně, protože mohou být zmanipulované, špatně navržené nebo trpět kontaminací dat, kdy jsou modely neúmyslně trénovány na benchmarkových odpovědích. 

Navíc, brzy nejspíš bude na trh uveden Gemini 3 od Googlu, takže kdo ví, jak dlouho si titul „nejlepšího modelu pro kódování“ Sonnet 4.5 udrží.

docker + kubernetes školení s dotací tip

Další nové nástroje pro vývojáře

Spolu s ním společnost Anthropic vydala taky Claude Code 2.0, nástroj příkazového řádku pro vývojáře s novými kontrolními body, které ukládají pokrok a umožňují vrácení zpět. Společnost také představila Claude Agent SDK, který vývojářům umožňuje vytvářet vlastní AI kódovací agenty. 

Uživatelé webového rozhraní a aplikací Claude mohou nyní spouštět kód a vytvářet soubory přímo v rámci konverzací, generovat tabulky, prezentace a dokumenty, aniž by museli opustit chat.

Computertrends - promo

Computertrends si můžete objednat i jako klasický časopis. Je jediným odborným magazínem na českém a slovenském trhu zaměreným na profesionály v oblasti informačních a komunikačních technologií (ICT). Díky silnému zázemí přináší aktuální zpravodajství, analýzy, komentáře a přehledy nejnovejších technologií dříve a na vyšší odborné úrovni, než ostatní periodika na tuzemském trhu.

Obsah Computertrends je určen odborníkům a manažerům z firem a institucí, kteří se podílejí na rozhodovacím procesu při nákupu ICT technologií. Jednotlivá čísla si můžete objednat i v digitální podobě.