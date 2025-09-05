Computertrends  »  Technologie  »  Nový AI model proměňuje fotky v prozkoumatelné 3D světy

Nový AI model proměňuje fotky v prozkoumatelné 3D světy

Václav Tesař
Dnes

datové centrum, ai, spotřeba elektřiny
Autor: Radan Dolejš s podporou AI
Nový nástroj společnosti Tencent dokáže proměnit fotku v 3D svět. Je však náročný na výkon.

Společnost Tencent představila nový nástroj umělé inteligence, který dokáže přeměnit jedinou fotografii na něco, co připomíná 3D svět, v němž se dá pohybovat. 

Systém s názvem HunyuanWorld-Voyager umožňuje uživatelům ovládat virtuální kameru a vytvářet videa, která si zachovávají realistickou hloubku i perspektivu, jako by se pohybovala ve skutečném trojrozměrném prostoru.

Technologie funguje tak, že generuje krátké videoklipy – každý o délce přibližně dvou sekund nebo 49 snímků –, které lze spojit do delších sekvencí trvajících několik minut. Uživatelé jednoduše poskytnou fotografii a určí, jak se má kamera pohybovat: dopředu, dozadu, doleva, doprava nebo otáčet se v různých směrech.

Voyager je výjimečný svou schopností zachovat prostorovou konzistenci. Když se virtuální kamera pohybuje kolem objektů, zůstávají tyto objekty ve stejných relativních pozicích a perspektiva se mění přirozeně, stejně jako v reálném životě. Výstupem nejsou sice skutečné 3D modely, ale přesvědčivá iluze s odpovídajícími informacemi o hloubce.

Jak to vlastně funguje

V pozadí Voyager používá chytrý dvoufázový systém. V prvé řadě generuje současně barevné video a hloubková data a zajišťuje jejich dokonalou shodu – když video zobrazuje strom, systém přesně ví, jak daleko by ten strom měl být. 

Zadruhé, udržuje to, co vývojáři nazývájí „world cache“ – rostoucí sadu 3D referenčních bodů z dříve generovaných snímků. Při vytváření nových snímků pak systém promítá tento shluk bodů zpět do 2D z nového úhlu kamery a provádí kontrolu konzistence, aby zajistil, že nové snímky jsou v souladu s tím, co již bylo vygenerováno. 

AI se tyto dovednosti naučila studiem více než 100 000 videoklipů, včetně počítačově generovaných scén z prostředí videoher. Toto školení umělou inteligenci naučilo napodobovat přirozený pohyb kamer v 3D prostorech.

Omezení a konkurence

Stejně jako všechny systémy umělé inteligence má však i Voyager svá omezení. Má potíže s plnými 360stupňovými otáčkami, protože se v mnoha snímcích hromadí malé chyby, až už systém nedokáže udržet soudržnost. 

Technologie také vyžaduje značný výpočetní výkon – jen pro svůj provoz potřebuje alespoň 60 GB paměti GPU.

Voyager se připojuje k rostoucímu poli modelů generování virtuálních světů jako je třeba Genie 3 od Googlu vytvářející interaktivní světy z textových promptů, nebo Mirage 2 od společnosti Dynamics Lab. Voyager se oproti nim zaměřuje konkrétně na produkci videa a pracovní postupy 3D rekonstrukce.

