Nový AI model proměňuje fotky v prozkoumatelné 3D světy

Sdílet

datové centrum, ai, spotřeba elektřiny
Autor: Radan Dolejš s podporou AI
Nový nástroj společnosti Tencent dokáže proměnit fotku v 3D svět. Je však náročný na výkon.

Společnost Tencent představila nový nástroj umělé inteligence, který dokáže přeměnit jedinou fotografii na něco, co připomíná 3D svět, v němž se dá pohybovat. 

Systém s názvem HunyuanWorld-Voyager umožňuje uživatelům ovládat virtuální kameru a vytvářet videa, která si zachovávají realistickou hloubku i perspektivu, jako by se pohybovala ve skutečném trojrozměrném prostoru.

Technologie funguje tak, že generuje krátké videoklipy – každý o délce přibližně dvou sekund nebo 49 snímků –, které lze spojit do delších sekvencí trvajících několik minut. Uživatelé jednoduše poskytnou fotografii a určí, jak se má kamera pohybovat: dopředu, dozadu, doleva, doprava nebo otáčet se v různých směrech.

Praktický pohled do světa SIEM, SOAR a SOC - podcast ze série Kyberbezpečnost s Computertrends
Praktický pohled do světa SIEM, SOAR a SOC - podcast ze série Kyberbezpečnost s Computertrends
0:00/

Voyager je výjimečný svou schopností zachovat prostorovou konzistenci. Když se virtuální kamera pohybuje kolem objektů, zůstávají tyto objekty ve stejných relativních pozicích a perspektiva se mění přirozeně, stejně jako v reálném životě. Výstupem nejsou sice skutečné 3D modely, ale přesvědčivá iluze s odpovídajícími informacemi o hloubce.

Jak to vlastně funguje

V pozadí Voyager používá chytrý dvoufázový systém. V prvé řadě generuje současně barevné video a hloubková data a zajišťuje jejich dokonalou shodu – když video zobrazuje strom, systém přesně ví, jak daleko by ten strom měl být. 

Zadruhé, udržuje to, co vývojáři nazývájí „world cache“ – rostoucí sadu 3D referenčních bodů z dříve generovaných snímků. Při vytváření nových snímků pak systém promítá tento shluk bodů zpět do 2D z nového úhlu kamery a provádí kontrolu konzistence, aby zajistil, že nové snímky jsou v souladu s tím, co již bylo vygenerováno. 

Video ke kávě

Máte čas na rychlé a informativní video?

AI se tyto dovednosti naučila studiem více než 100 000 videoklipů, včetně počítačově generovaných scén z prostředí videoher. Toto školení umělou inteligenci naučilo napodobovat přirozený pohyb kamer v 3D prostorech.

Omezení a konkurence

Stejně jako všechny systémy umělé inteligence má však i Voyager svá omezení. Má potíže s plnými 360stupňovými otáčkami, protože se v mnoha snímcích hromadí malé chyby, až už systém nedokáže udržet soudržnost. 

Cyber25

Technologie také vyžaduje značný výpočetní výkon – jen pro svůj provoz potřebuje alespoň 60 GB paměti GPU.

Voyager se připojuje k rostoucímu poli modelů generování virtuálních světů jako je třeba Genie 3 od Googlu vytvářející interaktivní světy z textových promptů, nebo Mirage 2 od společnosti Dynamics Lab. Voyager se oproti nim zaměřuje konkrétně na produkci videa a pracovní postupy 3D rekonstrukce.

Computertrends - promo

Computertrends si můžete objednat i jako klasický časopis. Je jediným odborným magazínem na českém a slovenském trhu zaměreným na profesionály v oblasti informačních a komunikačních technologií (ICT). Díky silnému zázemí přináší aktuální zpravodajství, analýzy, komentáře a přehledy nejnovejších technologií dříve a na vyšší odborné úrovni, než ostatní periodika na tuzemském trhu.

Obsah Computertrends je určen odborníkům a manažerům z firem a institucí, kteří se podílejí na rozhodovacím procesu při nákupu ICT technologií. Jednotlivá čísla si můžete objednat i v digitální podobě.