Společnost Tencent představila nový nástroj umělé inteligence, který dokáže přeměnit jedinou fotografii na něco, co připomíná 3D svět, v němž se dá pohybovat.
Systém s názvem HunyuanWorld-Voyager umožňuje uživatelům ovládat virtuální kameru a vytvářet videa, která si zachovávají realistickou hloubku i perspektivu, jako by se pohybovala ve skutečném trojrozměrném prostoru.
Technologie funguje tak, že generuje krátké videoklipy – každý o délce přibližně dvou sekund nebo 49 snímků –, které lze spojit do delších sekvencí trvajících několik minut. Uživatelé jednoduše poskytnou fotografii a určí, jak se má kamera pohybovat: dopředu, dozadu, doleva, doprava nebo otáčet se v různých směrech.

Voyager je výjimečný svou schopností zachovat prostorovou konzistenci. Když se virtuální kamera pohybuje kolem objektů, zůstávají tyto objekty ve stejných relativních pozicích a perspektiva se mění přirozeně, stejně jako v reálném životě. Výstupem nejsou sice skutečné 3D modely, ale přesvědčivá iluze s odpovídajícími informacemi o hloubce.
Jak to vlastně funguje
V pozadí Voyager používá chytrý dvoufázový systém. V prvé řadě generuje současně barevné video a hloubková data a zajišťuje jejich dokonalou shodu – když video zobrazuje strom, systém přesně ví, jak daleko by ten strom měl být.
Zadruhé, udržuje to, co vývojáři nazývájí „world cache“ – rostoucí sadu 3D referenčních bodů z dříve generovaných snímků. Při vytváření nových snímků pak systém promítá tento shluk bodů zpět do 2D z nového úhlu kamery a provádí kontrolu konzistence, aby zajistil, že nové snímky jsou v souladu s tím, co již bylo vygenerováno.
AI se tyto dovednosti naučila studiem více než 100 000 videoklipů, včetně počítačově generovaných scén z prostředí videoher. Toto školení umělou inteligenci naučilo napodobovat přirozený pohyb kamer v 3D prostorech.
Omezení a konkurence
Stejně jako všechny systémy umělé inteligence má však i Voyager svá omezení. Má potíže s plnými 360stupňovými otáčkami, protože se v mnoha snímcích hromadí malé chyby, až už systém nedokáže udržet soudržnost.
Technologie také vyžaduje značný výpočetní výkon – jen pro svůj provoz potřebuje alespoň 60 GB paměti GPU.
Voyager se připojuje k rostoucímu poli modelů generování virtuálních světů jako je třeba Genie 3 od Googlu vytvářející interaktivní světy z textových promptů, nebo Mirage 2 od společnosti Dynamics Lab. Voyager se oproti nim zaměřuje konkrétně na produkci videa a pracovní postupy 3D rekonstrukce.

Computertrends si můžete objednat i jako klasický časopis. Je jediným odborným magazínem na českém a slovenském trhu zaměreným na profesionály v oblasti informačních a komunikačních technologií (ICT). Díky silnému zázemí přináší aktuální zpravodajství, analýzy, komentáře a přehledy nejnovejších technologií dříve a na vyšší odborné úrovni, než ostatní periodika na tuzemském trhu.
Obsah Computertrends je určen odborníkům a manažerům z firem a institucí, kteří se podílejí na rozhodovacím procesu při nákupu ICT technologií. Jednotlivá čísla si můžete objednat i v digitální podobě.