NVIDIA Spectrum-X Ethernet, con MRC la rete AI-native punta alle AI factory gigascale

NVIDIA Spectrum-X

NVIDIA Spectrum-X Ethernet introduce MRC, Multipath Reliable Connection, un nuovo protocollo di trasporto RDMA pensato per migliorare prestazioni, resilienza e scalabilità delle reti utilizzate nelle grandi AI factory. La tecnologia, già provata in produzione e ottimizzata sull’hardware Spectrum-X Ethernet, viene ora aperta all’industria attraverso una specifica pubblicata nell’ambito dell’Open Compute Project.

Il tema è centrale per l’evoluzione dell’intelligenza artificiale. L’addestramento dei modelli frontier richiede cluster composti da migliaia, e in prospettiva centinaia di migliaia, di GPU che devono restare sincronizzate per lunghi periodi. In questo scenario, la rete non è più un componente secondario dell’infrastruttura, ma una parte determinante delle prestazioni complessive. Un collo di bottiglia, una congestione o una breve interruzione possono tradursi in GPU inattive, rallentamenti e perdita di efficienza nei job di training.

NVIDIA posiziona Spectrum-X Ethernet come una fabric Ethernet AI-native, progettata per sostenere il traffico generato dai workload di intelligenza artificiale su scala estrema. Tra le realtà che hanno adottato o sperimentato questa infrastruttura figurano OpenAI, Microsoft e Oracle, con casi d’uso legati ad alcune delle più grandi AI factory dedicate al training e al deployment di modelli linguistici avanzati.

NVIDIA Spectrum-X Ethernet porta MRC nelle reti per il training AI su larga scala

MRC consente a una singola connessione RDMA di distribuire il traffico su più percorsi di rete. In termini pratici, evita che il trasferimento dei dati dipenda da una sola direttrice e permette alla rete di bilanciare dinamicamente i flussi in base alle condizioni operative. Il risultato atteso è un miglioramento di throughput, bilanciamento del carico e disponibilità nei fabric AI di grandi dimensioni.

L’analogia è quella di una città che passa da una singola strada principale a una griglia di percorsi intelligenti, capace di deviare automaticamente il traffico quando si verificano rallentamenti o interruzioni. Applicato ai cluster AI, questo significa che i dati possono seguire percorsi alternativi senza bloccare l’intero job di training.

OpenAI ha utilizzato MRC nella generazione Blackwell, in collaborazione con NVIDIA. Sachin Katti, head of industrial compute di OpenAI, ha dichiarato: “Il deployment di MRC nella generazione Blackwell ha avuto molto successo ed è stato reso possibile da una forte collaborazione con NVIDIA. L’approccio end-to-end di MRC ci ha consentito di evitare gran parte dei tipici rallentamenti e delle interruzioni legate alla rete e di mantenere l’efficienza dei training run frontier su larga scala.”

Il punto tecnico rilevante è che MRC non si limita ad aumentare la capacità nominale della rete. Il protocollo interviene sulla distribuzione del traffico, sulla gestione della congestione e sul recupero dopo eventuali perdite di dati. Sono elementi decisivi per workload AI lunghi, costosi e fortemente dipendenti dalla sincronizzazione tra acceleratori.

MRC e AI factory: perché la rete diventa parte dell’accelerazione

Nelle AI factory moderne, la velocità delle GPU non basta. Per sfruttare realmente la capacità di calcolo disponibile, ogni acceleratore deve ricevere dati in modo continuo e prevedibile. MRC è progettato proprio per mantenere alta l’utilizzazione delle GPU, distribuendo il traffico su tutti i percorsi disponibili e aggirando in tempo reale quelli congestionati.

Quando si verifica una perdita di dati, il protocollo abilita una ritrasmissione più precisa e rapida, riducendo l’impatto delle interruzioni brevi sui job di lunga durata. In un cluster di training, anche pochi secondi di inefficienza possono moltiplicarsi su migliaia di GPU, generando costi significativi e riducendo la produttività dell’intera infrastruttura.

Spectrum-X Ethernet aggiunge a questo quadro funzionalità di telemetry e controllo intelligente del fabric. Gli amministratori possono ottenere maggiore visibilità sui percorsi di traffico, semplificare il troubleshooting e intervenire con più granularità sulla gestione della rete. È un passaggio importante, perché le AI factory non richiedono soltanto banda, ma anche osservabilità, prevedibilità e capacità di operare a scala estrema.

Un altro elemento chiave è la tecnologia di failure bypass. Sull’infrastruttura Spectrum-X Ethernet, MRC può rilevare un guasto su un percorso di rete e deviare automaticamente il traffico in hardware nell’ordine dei microsecondi. Per cluster in cui migliaia di GPU devono procedere in modo sincronizzato, questa capacità riduce il rischio che un problema locale rallenti o interrompa un intero processo di training.

Reti multiplane e load balancing hardware per scalare fino a centinaia di migliaia di GPU

La scalabilità delle AI factory non dipende solo dai singoli collegamenti di rete, ma anche dall’architettura complessiva del fabric. NVIDIA evidenzia il ruolo dei design multiplane, cioè reti composte da più fabric indipendenti che offrono percorsi alternativi di comunicazione tra GPU. OpenAI utilizza questa impostazione con Spectrum-X Ethernet e MRC per aumentare resilienza e capacità di scala.

La funzionalità NVIDIA Spectrum-X Multiplane supporta il bilanciamento del carico accelerato in hardware tra i diversi piani di rete. L’obiettivo è combinare resilienza e prestazioni, mantenendo latenze prevedibili anche quando l’infrastruttura cresce verso centinaia di migliaia di GPU.

Questo approccio risponde a una trasformazione strutturale dell’infrastruttura AI. I data center non sono più soltanto luoghi in cui si installano server e acceleratori, ma sistemi industriali complessi in cui calcolo, rete, memoria, storage e software di controllo devono comportarsi come un’unica macchina distribuita. In questo contesto, il networking Ethernet deve evolvere per supportare carichi AI estremamente sensibili a congestione, latenza e perdita di pacchetti.

Spectrum-X Ethernet offre anche flessibilità nella scelta dei modelli di trasporto RDMA. Oltre a MRC, l’infrastruttura supporta Spectrum-X Ethernet Adaptive RDMA e protocolli personalizzati, eseguiti nativamente su NVIDIA ConnectX SuperNIC e sugli switch Spectrum-X Ethernet. Per i clienti enterprise e cloud provider, questo significa poter scegliere il trasporto più adatto al workload, senza vincolarsi a un unico modello operativo.

Uno standard aperto per le reti AI-native

La decisione di rendere MRC disponibile come specifica aperta attraverso l’Open Compute Project è significativa. NVIDIA presenta il protocollo come un esempio di piattaforma componibile, capace di integrare hardware purpose-built, telemetry avanzata e controllo intelligente del fabric, ma anche di aprirsi a una più ampia adozione industriale.

Alla collaborazione sullo sviluppo di MRC hanno partecipato anche AMD, Broadcom, Intel, Microsoft e OpenAI. È un dato rilevante perché indica che il problema non riguarda un singolo vendor, ma l’intero settore dell’infrastruttura AI. Le reti per il training su larga scala stanno diventando un livello critico dell’ecosistema, al pari delle GPU e dei framework software.

Il messaggio di NVIDIA è netto: man mano che le AI factory crescono, la rete non può limitarsi a spostare dati rapidamente. Deve essere intelligente, resiliente e basata su standard aperti. Spectrum-X Ethernet, con MRC, prova a fissare questo nuovo livello di riferimento per il networking AI-native.

Resta il fatto che si tratta di un ambito altamente specialistico, destinato soprattutto ai grandi operatori cloud, ai laboratori AI e alle organizzazioni che costruiscono infrastrutture per modelli frontier. Ma la direzione è chiara anche per il mercato enterprise: l’AI su larga scala non si gioca solo sul numero di GPU installate, bensì sulla capacità dell’intera infrastruttura di mantenerle efficienti, sincronizzate e operative senza interruzioni.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome