NVIDIA amplia il proprio ecosistema di modelli per l’intelligenza artificiale con Nemotron 3 Super, un nuovo modello open progettato per supportare applicazioni di agentic AI su larga scala. La piattaforma introduce un’architettura ibrida mixture-of-experts e un contesto esteso fino a un milione di token, con l’obiettivo di ridurre i costi e migliorare l’efficienza dei sistemi basati su agenti autonomi.
Il modello, annunciato l’11 marzo 2026, conta 120 miliardi di parametri complessivi, ma ne attiva solo 12 miliardi durante l’inferenza. Questo approccio consente di mantenere elevate capacità di ragionamento e analisi riducendo allo stesso tempo il consumo computazionale nei carichi di lavoro complessi.
NVIDIA Nemotron 3 Super, agentic AI e nuovi limiti operativi dei modelli
La crescente diffusione di sistemi multi-agente sta portando alla luce due limiti tecnici ricorrenti. Il primo è la cosiddetta “context explosion”: i flussi di lavoro multi-agente generano fino a quindici volte più token rispetto alle interazioni tradizionali, poiché ogni passaggio richiede l’invio dell’intero storico delle conversazioni, inclusi risultati degli strumenti e passaggi intermedi di ragionamento.
Nel lungo periodo questo aumento del contesto incrementa i costi computazionali e può portare a fenomeni di disallineamento dell’obiettivo, nei quali gli agenti perdono progressivamente coerenza rispetto al compito iniziale.
Il secondo limite è il cosiddetto “thinking tax”. Gli agenti autonomi devono infatti ragionare a ogni passaggio del processo, ma l’utilizzo di modelli molto grandi per ogni singola operazione rende i sistemi multi-agente troppo lenti o costosi per un uso pratico.
Nemotron 3 Super affronta questi problemi introducendo una finestra di contesto fino a un milione di token, che permette agli agenti di mantenere in memoria l’intero stato del flusso di lavoro senza dover ricostruire continuamente il contesto.
Architettura ibrida e maggiore efficienza
Il modello utilizza un’architettura hybrid mixture-of-experts (MoE) che combina diversi elementi progettati per aumentare efficienza e prestazioni.
Tra le componenti principali vi sono layer Mamba, pensati per migliorare l’efficienza di memoria e calcolo, affiancati da layer transformer dedicati al ragionamento avanzato. Il sistema MoE attiva solo una parte dei parametri disponibili durante l’inferenza, mentre la tecnica definita latent MoE consente di coinvolgere più specialisti virtuali nel processo di generazione dei token mantenendo costi computazionali contenuti.
Un ulteriore elemento è il multi-token prediction, che consente al modello di prevedere simultaneamente più parole future. Questo approccio accelera il processo di inferenza e contribuisce a ridurre i tempi di risposta nei flussi di lavoro complessi.
Sulla piattaforma NVIDIA Blackwell il modello opera con precisione NVFP4, una configurazione che riduce i requisiti di memoria e permette di ottenere inferenza fino a quattro volte più veloce rispetto alla precisione FP8 utilizzata sui sistemi NVIDIA Hopper, senza perdita di accuratezza.
Applicazioni enterprise e integrazione nei sistemi AI per NVIDIA Nemotron 3 Super
Nemotron 3 Super è progettato per essere utilizzato come componente di sistemi multi-agente in diversi ambiti applicativi. In ambito software development, ad esempio, un agente può caricare l’intero codice di un progetto nel contesto del modello, permettendo operazioni di generazione e debugging senza dover suddividere il codice in documenti separati.
Nel settore finanziario il modello può analizzare grandi volumi di documenti e report mantenendo in memoria l’intero contesto, migliorando l’efficienza dell’analisi. In scenari di cybersecurity può essere utilizzato per orchestrare sistemi di sicurezza autonomi in grado di navigare librerie di funzioni molto estese e ridurre il rischio di errori operativi.
Nemotron 3 Super ha inoltre ottenuto risultati di rilievo nei benchmark dedicati alla ricerca automatizzata su grandi collezioni documentali, come DeepResearch Bench e DeepResearch Bench II, che misurano la capacità dei sistemi AI di condurre analisi multi-passaggio mantenendo coerenza nel ragionamento.
Open model e disponibilità per sviluppatori e imprese
NVIDIA rilascia Nemotron 3 Super con pesi open e licenza permissiva, permettendo agli sviluppatori di personalizzare il modello su workstation, data center o ambienti cloud. Il modello è stato addestrato utilizzando dataset sintetici generati da modelli di ragionamento avanzati e l’azienda ha pubblicato la metodologia completa di training, che include oltre dieci trilioni di token di dati di pre-training e post-training.
Per il fine-tuning e la personalizzazione del modello gli sviluppatori possono utilizzare la piattaforma NVIDIA NeMo.
Il modello è disponibile attraverso diversi canali e piattaforme di sviluppo, tra cui build.nvidia.com, Hugging Face e servizi di orchestrazione di modelli AI. Inoltre può essere distribuito come microservizio tramite NVIDIA NIM, permettendo implementazioni sia on-premise sia nel cloud.
Sul fronte delle infrastrutture e dell’ecosistema partner, Nemotron 3 Super è supportato da diversi fornitori di servizi cloud e piattaforme enterprise. Tra questi figurano ambienti cloud e infrastrutture AI dedicate, provider di servizi di inferenza e piattaforme di analisi dei dati che integrano il modello per supportare applicazioni di agentic AI su larga scala.
Con Nemotron 3 Super, NVIDIA rafforza così la propria strategia nel campo dei modelli open orientati ai sistemi multi-agente, un’area che sta rapidamente diventando centrale nello sviluppo delle applicazioni di intelligenza artificiale di nuova generazione.






