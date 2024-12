Google DeepMind ha presentato Genie 2, un foundation world model in grado di generare una varietà infinita di ambienti 3D giocabili e controllabili dall’azione per l’addestramento e la valutazione di agenti incarnati. Basato su una singola immagine di prompt, può essere giocato da un agente umano o AI utilizzando input da tastiera e mouse, spiega il team.

I giochi – sottolineano i ricercatori di Google DeepMind – svolgono un ruolo fondamentale nel mondo della ricerca sull’intelligenza artificiale (IA). La loro natura coinvolgente, la miscela unica di sfide e i progressi misurabili li rendono ambienti ideali per testare e far progredire in modo sicuro le capacità dell’IA.

In effetti, i giochi sono stati importanti per Google DeepMind fin dalla sua fondazione, mette in evidenza il team. Dai primi lavori con i giochi Atari, alle scoperte come AlphaGo e AlphaStar, fino alla ricerca sugli agenti generalisti in collaborazione con gli sviluppatori di giochi, i giochi sono stati al centro della ricerca del team. Tuttavia, l’addestramento di agenti incarnati più generali è stato tradizionalmente ostacolato dalla disponibilità di ambienti di addestramento sufficientemente ricchi e diversificati.

Secondo il team di Google DeepMind, Genie 2 potrebbe consentire agli agenti futuri di essere addestrati e valutati in un curriculum illimitato di mondi nuovi. La ricerca apre anche la strada a nuovi flussi di lavoro creativi per la prototipazione di esperienze interattive.

Finora, i modelli di mondi sono stati in gran parte limitati alla modellazione di domini ristretti. In Genie 1 Google DeepMind ha introdotto un approccio per generare una vasta gamma di mondi 2D. Ora il team ha presentato Genie 2, che rappresenta un significativo salto di qualità in termini di generalità. Genie 2 è in grado di generare una vasta gamma di ricchi mondi 3D.

Genie 2 è un modello di mondo, cioè può simulare mondi virtuali, comprese le conseguenze di qualsiasi azione (ad esempio, saltare, nuotare, ecc.). È stato addestrato su un set di dati video su larga scala e, come altri modelli generativi, dimostra varie capacità emergenti in scala, come le interazioni con gli oggetti, l’animazione complessa dei personaggi, la fisica e la capacità di modellare e quindi prevedere il comportamento di altri agenti.

Nel blog di Google DeepMind il team fornisce ulteriori dettagli e una serie di esempi di video di persone che interagiscono con Genie 2. Per ogni esempio, al modello viene sottoposta come prompt una singola immagine generata da Imagen 3, il modello text-to-image all’avanguardia di Google DeepMind. Ciò significa – sottolinea il team – che chiunque può descrivere un mondo che desidera in un testo, selezionare il suo rendering preferito di quell’idea e poi entrare e interagire con quel mondo appena creato (o far sì che un agente AI venga addestrato o valutato in esso).

A ogni passo, la persona o l’agente fornisce un’azione con la tastiera e il mouse e Genie 2 simula l’osservazione successiva. Genie 2 può generare mondi coerenti per un massimo di un minuto, mentre la maggior parte degli esempi mostrati dura 10-20 secondi.

Genie 2 può creare diverse prospettive, come la vista in prima persona, la vista isometrica o i video di guida in terza persona. E ha imparato a creare scene visive 3D complesse. Genie 2 ha anche imparato ad animare vari tipi di personaggi che svolgono attività diverse, nonché modella altri agenti e anche interazioni complesse con essi.

Secondo il team di Google DeepMind, Genie 2 mostra il potenziale dei modelli di mondo foundational per creare ambienti 3D diversi e accelerare la ricerca sugli agenti. Questa direzione di ricerca è ancora agli inizi e il team si augura di continuare a migliorare le capacità di generazione di mondi di Genie in termini di generalità e coerenza.