Spotřeba energie pro AI se rapidně snižuje – jeden dotaz je jako devět vteřin televize

Sdílet

datové centrum v přírodě s vodopádem
Autor: Radan Dolejš s podporou AI
První komplexní měření environmentálních dopadů produkčního provozu umělé inteligence přináší Google. Jeho studie zkoumala energetickou spotřebu, emise uhlíku a vodní náročnost AI asistenta Gemini Apps a ukazuje, že mediánový uživatelský prompt vyžaduje pouhých 0,24 Wh energie — tedy zrhuba tolik co devítivteřinové sledování televize. Díky sofistikovaným technologiím a optimalizacím Google za poslední rok snížil uhlíkovou stopu AI odpovědí až 44násobně a otevírá cestu k transparentnějšímu a udržitelnějšímu rozvoji AI služeb.

Studie „Measuring the environmental impact of delivering AI at Google Scale“ představuje zásadní posun ve způsobu, jakým se měří a hodnotí environmentální dopady provozu umělé inteligence (AI) v produkčním prostředí. 

Vlastní měření Google prováděl na infrastruktuře svého Gemini AI asistenta, což je škálovatelný systém obsluhující miliony uživatelských požadavků denně. Výsledky studie významně překračují dosavadní odhady založené na modelových výpočtech či omezených benchmarkových testech tím, že přinášejí daty podložené, komplexní a přesné vyhodnocení energetické spotřeby, uhlíkové stopy a spotřeby vody na jeden textový prompt.

Jak si osedlat firemní tisk v době digiální
Jak si osedlat firemní tisk v době digiální
0:00/

Klíčový přístup studie spočívá v komplexním měření celé „full-stack“ infrastruktury, která se podílí na inferenci ve velkém měřítku. Namísto pouhého sledování spotřeby aktivních AI akcelerátorů (jako jsou TPU nebo GPU) Google zohlednil také energii proudící do hostitelských procesorů a paměťových modulů, stejně jako režijní energetické náklady spojené s provozem datacenter – zejména chlazení a přeměnu energie, které jsou měřeny pomocí známého ukazatele Power Usage Effectiveness (PUE). 

Navíc studie zohledňuje i energii spotřebovanou idlem – tedy nečinnými, ale provozně připravenými stroji, které zajišťují spolehlivost a nízkou latenci. Tím vzniká realistický pohled na skutečnou energetickou náročnost AI služeb v online provozu, což výrazně překonává méně důsledné metody měření.

Pro květen 2025 studie uvádí, že mediánový textový prompt Gemini Apps spotřebuje v průměru pouze 0,24 Wh energie. Pro představu, to je méně než energie potřebná k sledování televize po dobu devíti sekund, přičemž uhlíková stopa tohoto promptu činí pouhých 0,03 gramů CO2 ekvivalentu. 

Spotřeba vody pro chlazení infrastruktury je pak odhadnuta na mizivých 0,26 mililitrů, což odpovídá pěti kapkám vody – výrazně méně, než uváděly dřívější odhady, které šly až do desítek mililitrů. Tato data jsou podložena přímým měřením a primárními telemetrickými daty z Google datacenter.

V Portugalsku vzniká jedno z největších datacenter v Evropě a chladí ho moře Přečtěte si také:

V Portugalsku vzniká jedno z největších datacenter v Evropě a chladí ho moře

Zajímavé je porovnání „Existing Approach“ – úzkého a běžně používaného způsobu měření, kdy se sleduje energie pouze aktivních AI akcelerátorů ve vybraných vysoce efektivních datových centrech. Tento přístup ukazuje spotřebu cca 0,10 Wh na prompt, tedy skoro o 2,5× méně než komplexní metoda zachycující kompletní stack a průměrné datacentrum. 

linux_sprava_tip

To ukazuje, jaký rozdíl může mít měřící hranice a výběr datových zdrojů na výsledné odhady; studie tedy jasně doporučuje standardizovat a rozšířit metriky tak, aby odpovídaly skutečnému provozu.

Za poslední rok Google zaznamenal obrovský pokrok v oblasti energetické efektivity provozu AI. Spotřeba energie na prompt se snížila 33krát, celkové emise na 44krát. Tyto úspory jsou výsledkem kombinace pokročilých technologických opatření a prozíravého řízení provozu. Mezi nejvýznamnější patří:

  • Pokročilé architektury modelů postavené na Transformeru doplněné mechanismem Mixture-of-Experts (MoE), což umožňuje aktivovat jen nezbytnou podmnožinu parametru modelu a redukovat výpočetní nároky 10–100×
  • Efektivní algoritmy včetně kvantizace (Accurate Quantized Training), umožňující snížit datový objem a výkonovou náročnost při zachování kvality odpovědí
  • Optimalizace inferenčních procesů jako Speculative Decoding a distilace modelů, kdy menší, rychlejší modely učí od větších a slouží pro efektivnější zpracování požadavků
  • Vývoj vlastní hardwarové platformy TPU, jejíž nejnovější generace—inovativní Ironwood—is 30× energeticky efektivnější než první TPUs publikované Googlem
  • Pokročilý softwarový stack založený na XLA compileru, Pallas kernels a Pathways systému, které maximalizují využití akcelerátorů
  • Efektivní řízení režimu pohotovosti a dynamické přepínání modelů, které minimalizuje dobu nečinnosti energeticky náročných součástí
  • Provoz v ultranízkých PUE datacentrech (~1,09), využívajících 100% obnovitelných zdrojů elektřiny a šetrné technologie chlazení s minimalizací spotřeby vody, zvláště v oblastech s omezenými vodními zdroji.

Tabulka hlavních environmentálních metrik pro Gemini Apps, květen 2025

Metrika Úzký „Existing“ přístup Kompletní „Comprehensive“ přístup
Energie (Wh/prompt) 0,10 0,24
Emise CO2e (gr/prompt) 0,02 0,03
– Scope 2 MB (elektřina) 0,016 0,023
– Scope 1+3 (embodied) 0,007 0,010
Spotřeba vody (ml/prompt) 0,12 0,26