Google DeepMind představuje Genie 3: Interaktivní světy na povel a další krok k AGI?

TL;DR

Google DeepMind odhalil Genie 3, model schopný generovat interaktivní 3D světy z textového zadání v reálném čase (720p, 24 snímků za sekundu).
Klíčovou vlastností je dlouhodobá vizuální konzistence a schopnost měnit svět pomocí textových příkazů, tzv. „promptable world events“.
Genie 3 není jen generátor videa; slouží jako simulátor pro trénink pokročilých AI agentů, jako je SIMA, což je považováno za důležitý krok k obecné umělé inteligenci (AGI).
Model má stále omezení, včetně délky interakce a komplexnosti akcí. Je dostupný v omezeném výzkumném náhledu pro vybrané tvůrce a akademiky.

Představte si, že napíšete pár slov a před očima se vám zhmotní svět, kterým se můžete v reálném čase procházet. Nejde o scénu z předem naprogramované videohry, ale o nejnovější počin laboratoře Google DeepMind nazvaný Genie 3. Tento systém posouvá hranice generativní umělé inteligence od statických obrázků a pasivních videí k dynamickým, interaktivním prostředím. Nejde však jen o zábavu; DeepMind věří, že právě takové technologie jsou klíčovým stavebním kamenem na cestě k vytvoření obecné umělé inteligence (AGI).

Co je Genie 3 a jak funguje?

Genie 3 je takzvaný „světový model“. Jedná se o typ umělé inteligence, která se učí základním principům fungování světa – například fyzice, interakcím objektů a kauzalitě – a na základě tohoto porozumění dokáže simulovat jeho aspekty. Na rozdíl od předchozích verzí a jiných video generátorů je Genie 3 první, který umožňuje interakci v reálném čase.

Na základě textového zadání, například „procházka po pláži na Floridě během blížícího se hurikánu“, dokáže model vygenerovat scénu v rozlišení 720p při 24 snímcích za sekundu, kterou může uživatel okamžitě začít prozkoumávat. Tato interakce může trvat několik minut, přičemž si svět udržuje vizuální konzistenci.

Technický základ spočívá v autoregresivní generaci. Jak vysvětlil Shlomi Fruchter, ředitel výzkumu v DeepMind: „Model je autoregresivní, což znamená, že generuje jeden snímek po druhém. Musí se ohlédnout za tím, co bylo vygenerováno dříve, aby se rozhodl, co se stane dál. To je klíčová část architektury.“ To znamená, že svět není předem vykreslený; vzniká dynamicky v reakci na akce uživatele.

Klíčové schopnosti v praxi

DeepMind demonstroval širokou škálu schopností Genie 3 na mnoha příkladech. Model dokáže simulovat nejen fotorealistická prostředí, ale i animované a zcela fiktivní světy.

Modelování fyziky a přírodních jevů: Uživatelé se mohou projíždět na vodním skútru během festivalu světel, manévrovat s vrtulníkem nad pobřežním útesem nebo se vyhýbat lávovým polím v sopečné krajině. Model realisticky simuluje vodu, osvětlení a atmosférické jevy.
Simulace živých ekosystémů a fikce: Genie 3 umí vytvořit klidnou japonskou zenovou zahradu, hustý les plný života nebo fantaskní svět, kde roztomilé stvoření běží po duhovém mostě. Zvládá i specifické umělecké styly, jako je svět ve stylu origami.
Průzkum historických a reálných míst: Model umožňuje navštívit místa napříč časem a prostorem, od paláce Knossos na Krétě v době jeho největší slávy po projížďku po kanálech v Benátkách.

0:00

/0:59

Dlouhodobá konzistence a „Promptable World Events“

Jedním z nejdůležitějších aspektů Genie 3 je jeho schopnost udržet dlouhodobou konzistenci. Pokud se uživatel ve vygenerovaném světě po minutě vrátí na stejné místo, objekty zůstanou tam, kde je zanechal. Tato paměť je emergentní vlastností modelu, nebyla do něj explicitně naprogramována. V jedné z ukázek model správně pamatuje nápis a kresby na tabuli ve třídě, i když se od ní kamera na delší dobu odvrátí.

Další významnou funkcí jsou takzvané „promptable world events“ (události vyvolatelné příkazem). Uživatel může nejen ovládat pohyb, ale také měnit samotný svět pomocí textových pokynů. Během průzkumu prérie tak lze například promptem „přidej horkovzdušné balóny“ okamžitě změnit scénu. Tato schopnost je zásadní pro trénink AI agentů, protože umožňuje vytvářet nečekané „co kdyby“ scénáře.

Trénink nové generace AI agentů

Skutečný význam Genie 3 nespočívá v generování hezkých videí, ale v jeho potenciálu pro trénink umělé inteligence. „Myslíme si, že světové modely jsou klíčové na cestě k AGI, zejména pro vtělené agenty (embodied agents), kde je simulace scénářů z reálného světa obzvláště náročná,“ uvedl Jack Parker-Holder, vědec z DeepMind.

Tým otestoval Genie 3 s agentem SIMA (Scalable Instructable Multiworld Agent), kterému zadával úkoly v generovaných prostředích, například „přistup k zelenému lisu na odpadky“ nebo „dojdi k červenému vysokozdvižnému vozíku“. Díky konzistenci světa byl agent schopen tyto úkoly úspěšně plnit. To je zásadní posun, protože umožňuje trénovat agenty v nekonečném množství rozmanitých a bezpečných simulací, místo aby se museli učit v drahém a nepředvídatelném reálném světě.

Parker-Holder k tomu dodal zajímavou analogii: „Zatím jsme u vtělených agentů nezažili moment podobný ‚tahu 37‘,“ čímž odkazoval na legendární okamžik ze zápasu v go, kdy AI AlphaGo zahrálo geniální, nekonvenční tah. „Ale teď bychom mohli zahájit novou éru.“

Omezení a zodpovědný přístup

DeepMind otevřeně přiznává, že Genie 3 má stále svá omezení:

Omezený prostor pro akce: Přímé akce, které může agent ve světě provádět, jsou stále limitované.
Interakce více agentů: Simulace komplexních interakcí mezi více nezávislými agenty je stále výzkumnou výzvou.
Přesnost reálných lokací: Model nedokáže simulovat skutečná místa s dokonalou geografickou přesností.
Délka interakce: V současnosti model podporuje interakci v řádu několika minut, nikoli hodin.

Jak si Genie 3 vyzkoušet?

V současné chvíli není Genie 3 veřejně dostupný. Přístup je omezen na úzkou skupinu výzkumníků a partnerů. DeepMind uvedl, že v budoucnu zkoumá možnosti, jak technologii zpřístupnit dalším testerům. Prozatím si můžeme prohlížet pouze ukázky, které společnost zveřejnila.

Co si o tom myslí AI

Další generátor hezkých obrázků, tentokrát pohyblivých. Lidé se budou pár minut proplétat fotorealistickou krajinou, kterou si vykouzlili jedním příkazem, a pak se vrátí ke svým tabulkám v Excelu. Je to jen další, byť technicky propracovaná, hračka pro odkládání skutečné práce. Vytváření „světů“ je sice působivé, ale co z toho, když v nich agenti mohou dělat jen to, co jim dovolí jejich omezený repertoár akcí? Je to jako postavit dokonalé pískoviště, ale dát dětem jen jednu lopatku.

Ale co když to pískoviště není pro děti, ale pro architekty? Představte si, že místo tréninku robota ve skutečném, nebezpečném a drahém skladu ho necháte tisíckrát selhat v digitální kopii, kterou Genie 3 vytvoří na míru. Každá chyba ho posílí, aniž by to stálo jediný rozbitý senzor. V medicíně? Chirurgové by si mohli nacvičovat složité operace v simulovaném prostředí, které reaguje na jejich nástroje v reálném čase, včetně nečekaných komplikací, které jim „přihodí“ textový příkaz. A co teprve psychoterapie? Pacienti s fobií z létání by mohli postupně čelit svému strachu v simulátoru, kde si sami řídí úroveň turbulencí. Genie 3 není o hraní her. Je to o stavbě nekonečného množství tréninkových polygonů pro řešení problémů reálného světa.

Zdroje:

Když umělá inteligence záměrně lže: Nový výzkum OpenAI odhaluje „intrikující“ modely

Čínští humanoidní roboti jsou k nerozeznání od lidí: Jsme připraveni na syntetického člověka?

Google Mixboard: Nový nástroj s umělou inteligencí pro kreativní tvorbu, který vyzývá Pinterest