NVIDIA Cosmos 3, il modello aperto per portare la physical AI nel mondo reale

nvidia cosmos 3

NVIDIA amplia la propria strategia sulla physical AI con Cosmos 3, un nuovo foundation model aperto pensato per aiutare robot, veicoli autonomi e agenti di visione a comprendere, simulare e generare azioni nel mondo fisico. Il punto centrale è il passaggio da modelli capaci di elaborare contenuti digitali a sistemi in grado di ragionare su oggetti, movimento, spazio, tempo e interazioni fisiche.

Cosmos 3 nasce come modello foundation per la physical AI e introduce un’architettura mixture-of-transformers che combina reasoning visivo, generazione del mondo e previsione delle azioni in un unico sistema. NVIDIA lo presenta come il primo omnimodel completamente aperto capace di comprendere e generare nativamente testo, immagini, video, suono ambientale e azioni, con l’obiettivo di ridurre i cicli di training e valutazione da mesi a giorni.

NVIDIA Cosmos 3 porta la physical AI oltre la simulazione tradizionale

La physical AI deve affrontare un problema strutturale: per funzionare nel mondo reale, robot, veicoli autonomi e agenti visivi devono generalizzare a partire da dati limitati e da stack di simulazione spesso frammentati. Non basta addestrare un modello a riconoscere immagini o generare video realistici. Serve una rappresentazione del mondo fisico capace di cogliere relazioni spaziali, dinamica degli oggetti, sequenze temporali e conseguenze delle azioni.

Cosmos 3 prova a rispondere a questa esigenza mettendo insieme un transformer dedicato al reasoning e un transformer esperto nella generazione. Questa architettura consente al modello di comprendere interazioni tra oggetti, movimento e rapporti spazio-temporali prima di generare video e traiettorie d’azione. In altre parole, il modello non si limita a produrre una scena plausibile: deve costruire una previsione coerente di come un ambiente può evolvere.

Jensen Huang
Jensen Huang

Jensen Huang, fondatore e CEO di NVIDIA, descrive così il cambio di fase: “Il big bang della physical AI è ormai vicino grazie ai progressi nel reasoning multimodale, nel linguaggio, nella visione e nei world model. La famiglia Cosmos 3 di omnimodel aperti e frontier offre agli sviluppatori un salto generazionale nella capacità di costruire robot, veicoli autonomi e vision AI che percepiscono, ragionano, pianificano e agiscono nel mondo fisico.”

Un omnimodel aperto per testo, immagini, video, suono e azioni

La definizione di omnimodel è centrale per capire Cosmos 3. Il modello lavora nativamente su più modalità: testo, immagini, video, suono ambientale e azioni. Questa impostazione serve a rendere più ricco il processo di sviluppo della physical AI, dove ogni comportamento utile deriva dalla combinazione di percezione, contesto, movimento e decisione.

NVIDIA ha addestrato Cosmos 3 su uno dei più ampi dataset multimodali per la physical AI, con miliardi di campioni che includono testo, immagini, video, suono e traiettorie d’azione. L’obiettivo è fornire agli sviluppatori una base preaddestrata potente, in grado di ridurre la quantità di dati necessari e abbassare i costi di training per sistemi fisici intelligenti.

Gli sviluppatori possono usare Cosmos 3 in più modi. Può funzionare come vision language model, quindi come modello capace di comprendere e ragionare attraverso diverse modalità. Può essere usato come world model o video foundation model, per simulare ambienti fisici e prevedere stati futuri del mondo durante training e valutazione. Può infine diventare la base per world action model, utili ad addestrare robot a eseguire attività specifiche.

Secondo NVIDIA, i modelli Cosmos 3 ottengono risultati di vertice nei benchmark dedicati alla physical AI. Tra i modelli aperti, Cosmos 3 si posiziona al primo posto su Artificial Analysis, Physics-IQ, PAI-Bench e R-Bench per accuratezza nella generazione del mondo, su RoboLab e RoboArena per le policy d’azione, e nelle leaderboard VANTAGE-Bench e TAR per la comprensione visiva.

Cosmos 3 Super, Nano ed Edge coprono sviluppo, velocità e inferenza real-time

La famiglia Cosmos 3 è articolata in più varianti per coprire fasi diverse dello sviluppo della physical AI. Cosmos 3 Super è pensato per il post-training di modelli robotici e per veicoli autonomi che richiedono la massima accuratezza fisica e la migliore qualità generativa. È la versione orientata agli scenari più esigenti, dove la fedeltà della simulazione e la qualità della generazione incidono direttamente sull’affidabilità del sistema finale.

Cosmos 3 Nano è progettato invece per offrire reasoning video e azione di alta qualità in frazioni di secondo. Questa variante risponde alla necessità di iterare rapidamente, testare scenari, produrre dati sintetici e supportare processi di sviluppo più agili. Nella physical AI, la velocità non è solo un vantaggio operativo: può accorciare drasticamente il ciclo che porta da un’ipotesi di comportamento alla sua valutazione.

Cosmos 3 Edge, in arrivo, sarà dedicato all’inferenza real-time all’edge. È un tassello importante perché molti sistemi fisici intelligenti non possono dipendere sempre da calcolo remoto. Robot, dispositivi industriali, sistemi di visione e applicazioni autonome devono poter operare in prossimità dell’ambiente fisico, con latenze ridotte e maggiore continuità operativa.

La disponibilità immediata di Cosmos 3 Super e Cosmos 3 Nano, insieme all’arrivo previsto della versione Edge, indica una strategia su più livelli: addestramento e generazione avanzata, iterazione rapida, deployment vicino al dispositivo fisico.

La Cosmos Coalition punta sui world model aperti

Accanto a Cosmos 3, NVIDIA lancia anche la Cosmos Coalition, una collaborazione globale tra sviluppatori di world model, laboratori AI e aziende della physical AI. Tra i membri fondatori figurano Agile Robots, Black Forest Labs, Generalist, LTX, Runway e Skild AI. L’obiettivo è accelerare lo sviluppo di world model aperti, favorendo contributi su modelli, ricerca, tecniche di valutazione e interoperabilità.

La scelta di lavorare in modo aperto ha un peso strategico. La physical AI non può crescere solo attraverso piattaforme chiuse, perché richiede condivisione di modelli, dataset, metriche, simulatori e strumenti di valutazione. Ogni progresso nella capacità di simulare il mondo fisico può tradursi in robot più affidabili, veicoli autonomi più sicuri, sistemi industriali più adattivi e agenti visivi più capaci.

La coalizione potrà usare tecnologie Cosmos 3, strumenti di training e infrastruttura NVIDIA DGX Cloud per l’addestramento su larga scala. Il messaggio è chiaro: NVIDIA vuole costruire attorno a Cosmos non solo un modello, ma un ecosistema di sviluppo per la prossima generazione di world model.

Dati sintetici, robotica e visione industriale diventano il primo campo applicativo

La piattaforma Cosmos alimenta lo stack NVIDIA per la physical AI e punta ad accelerare i workflow di training e valutazione in diversi settori. NVIDIA introduce nuovi dataset per robotica, fisica, movimento umano, guida autonoma, sicurezza nei magazzini e ragionamento spaziale. A questi si aggiungono nuove skill per agenti di physical AI, dedicate a ricostruzione neurale delle scene, generazione di immagini di difetti e aumento dei video.

Il valore dei dati sintetici è evidente soprattutto negli ambiti in cui raccogliere dati reali è costoso, lento o rischioso. Per addestrare un robot a manipolare oggetti, un veicolo autonomo a gestire scenari rari o un sistema di visione industriale a riconoscere difetti, la simulazione può ridurre tempi e costi. Ma la simulazione è utile solo se fisicamente coerente. Cosmos 3 punta proprio a migliorare questo passaggio, generando ambienti e traiettorie più aderenti alle dinamiche reali.

Gli sviluppatori stanno già costruendo su Cosmos in diversi ambiti. NVIDIA cita Agile Robots, Doosan Robotics, LG Electronics, Samsung Electronics e Skild AI per la robotica, Li Auto per i veicoli autonomi, e Centific, Fogsphere, Linker Vision, Milestone Systems e Yuan per agenti di visione AI destinati ad applicazioni industriali e smart spaces.

La disponibilità passa da build.nvidia.com, Hugging Face, GitHub, Hugging Face Diffusers e microservizi NVIDIA NIM. Per accesso, personalizzazione e deployment, vengono citati anche partner di infrastruttura e inferenza come Baseten, CoreWeave, Microsoft Azure, Nebius, Deep Infra e Classmethod.

Cosmos 3 conferma il nuovo asse strategico della physical AI

Cosmos 3 rafforza un punto ormai ricorrente nella strategia NVIDIA: l’intelligenza artificiale non resta confinata alla generazione di testo, immagini o codice, ma si sposta verso sistemi capaci di agire nel mondo fisico. La physical AI richiede però un salto diverso rispetto all’AI puramente digitale. Deve comprendere ambienti dinamici, prevedere conseguenze, pianificare azioni e trasferire comportamenti dalla simulazione alla realtà.

È qui che i world model diventano infrastruttura. Un modello come Cosmos 3 non serve solo a generare video più credibili, ma a costruire rappresentazioni utili per addestrare e valutare sistemi fisici autonomi. Robotica, guida autonoma, automazione industriale, sicurezza nei magazzini e visione AI diventano quindi i primi campi in cui questa tecnologia può avere impatto concreto.

La scelta di rendere Cosmos 3 un modello aperto è altrettanto significativa. In un settore ancora in rapida formazione, l’apertura può accelerare sperimentazione, benchmark, interoperabilità e adozione. NVIDIA, però, mantiene al centro il proprio stack: modelli Cosmos, DGX Cloud, NIM, GitHub, Hugging Face, partner cloud e infrastruttura di deployment.

Con Cosmos 3, NVIDIA prova quindi a definire una base comune per la prossima generazione di physical AI. Dopo le AI factory per produrre token, la CPU per gli agenti, lo storage sicuro e la robotica umanoide, il world model diventa il livello che collega percezione, simulazione e azione. È un passaggio cruciale: senza modelli capaci di rappresentare il mondo fisico, l’AI resta un sistema che osserva e genera. Con world model più avanzati, può iniziare a pianificare e agire.

NVIDIA e Microsoft ridisegnano il PC per l’era degli agenti AI: nasce RTX Spark

NVIDIA DSX, il playbook per costruire e gestire le AI factory

NVIDIA Vera Rubin entra in produzione per le AI factory agentiche

NVIDIA Vera, la CPU per gli agenti AI e le nuove AI factory

NVIDIA Cosmos 3, il modello aperto per portare la physical AI nel mondo reale

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome