HPE e AMD spingono l’AI rack-scale nel futuro: debutta l’architettura “Helios” basata su Ethernet

HPE amd

HPE accelera in modo deciso l’implementazione di training e inferenza AI su larga scala per i cloud service provider, inclusi i neocloud, introducendo la prima architettura AI rack-scale AMD “Helios” con networking Ethernet scale-up integrato. Una novità che parla direttamente alla crescente fame di calcolo generata dall’esplosione dei modelli di grandi dimensioni, e che risponde alla necessità, sempre più urgente, di soluzioni aperte, interoperabili e velocemente implementabili.

Fin dalla prima lettura del progetto, è evidente come l’obiettivo sia spostare l’asticella del supercalcolo AI verso un equilibrio diverso: massime prestazioni, ma senza la rigidità dei sistemi proprietari. La base tecnica, infatti, poggia sull’adozione dello standard Ultra Accelerator Link over Ethernet, capace di sostenere traffico che spazia dal training di modelli con trilioni di parametri all’inferenza ad altissimo throughput, fino alla gestione in tempo reale di modelli di dimensioni estreme.

“Da oltre un decennio, HPE e AMD spingono costantemente in là i confini del supercalcolo”, ricorda Antonio Neri, presidente e CEO di HPE. Il senso complessivo del messaggio è chiaro: rendere possibile per i provider cloud un modo più rapido e meno rischioso di scalare capacità AI, grazie a un’infrastruttura che unisce architettura aperta, networking specializzato, raffreddamento a liquido diretto e delivery semplificata tramite HPE Services.

Il valore strategico di Helios: una piattaforma aperta e ottimizzata per la velocità AI

Il cuore della proposta è un singolo rack chiavi in mano, costruito secondo specifiche Open Compute Project e ottimizzato per alimentazione, raffreddamento e facilità di manutenzione. La configurazione è pensata per CSP e neocloud che vogliono espandere rapidamente la capacità di training e inferenza, ma senza incartarsi in sistemi ingessati o troppo costosi da mantenere.

La densità di calcolo offerta è significativa: 72 GPU AMD Instinct MI455X per rack, 260 terabyte al secondo di larghezza di banda aggregata, fino a 2,9 exaflop AI in FP4, 31 terabyte di memoria HBM4 e 1,4 petabyte al secondo di banda di memoria. Numeri che posizionano Helios come una piattaforma pensata per modelli AI massivi, dai frontier model ai workload HPC più sensibili alla latenza.

“Con Helios stiamo portando la collaborazione con HPE ancora più avanti”, afferma Lisa Su, CEO di AMD, sottolineando come l’unione dello stack AMD con il design sistemico HPE consenta livelli di efficienza e scalabilità difficili da ottenere con architetture proprietarie.

Ethernet come fondamento del dato AI: lo switch scale-up HPE Juniper Networking

Uno dei passaggi più significativi è l’introduzione del primo switch Ethernet scale-up del settore, progettato insieme a Broadcom per l’architettura Helios. È un elemento strategico perché spezza lo schema chiuso che ha dominato le architetture AI di prima generazione, permettendo di usare un protocollo standard con prestazioni di livello exascale.

Lo switch sfrutta il chip Tomahawk 6 di Broadcom, con latenze ridottissime e networking realmente lossless, e integra automazione, telemetria e funzioni AI-native per semplificare il rollout dei cluster. È un cambio di paradigma che punta a ridurre i costi di esercizio, velocizzare le implementazioni e, soprattutto, abbattere il lock-in grazie al rispetto degli standard aperti.

“Siamo orgogliosi di collaborare per far progredire un’infrastruttura AI basata su Ethernet aperta”, ha dichiarato Hock Tan, CEO di Broadcom, sintetizzando bene il senso dell’operazione: permettere ai provider di costruire data center AI scalabili e ad alte prestazioni mantenendo libertà di scelta.

Standard aperti, raffreddamento avanzato e un ecosistema pensato per durare

L’architettura Helios non si distingue solo per la potenza o per l’approccio open-Ethernet. L’utilizzo delle specifiche Open Rack Wide facilita interventi, aggiornamenti e manutenzione, mentre il raffreddamento a liquido diretto permette di reggere carichi continui con un’efficienza energetica superiore. Anche la scelta di adottare ROCm e la rete AMD Pensando mira a consolidare una piattaforma aperta, facilmente integrabile e con un TCO più prevedibile nel lungo periodo.

HPE, dal canto suo, affianca l’infrastruttura con un team di servizi specializzati nelle installazioni exascale e nei sistemi liquid-cooled. È un tassello importante perché, nel mercato attuale, velocità di implementazione e stabilità operativa sono quasi tanto critiche quanto le prestazioni.

Un messaggio chiaro al mercato AI: più flessibilità, meno lock-in, più velocità

La sintesi è semplice: Helios nasce per dare ai CSP un terreno più solido su cui costruire data center AI di nuova generazione. Si tratta di un’infrastruttura che offre potenza estrema, ma soprattutto un paradigma più aperto, interoperabile e scalabile. Un elemento cruciale mentre lo scenario AI corre verso modelli sempre più grandi e costosi, e cresce la necessità di soluzioni in grado di ridurre tempi di lancio e complessità operativa.

L’approccio rack-scale, l’adozione di Ethernet come spina dorsale e la scelta di standard aperti segnano un passo netto rispetto alle architetture chiuse degli anni passati. HPE, AMD e Broadcom stanno dicendo chiaramente al mercato che esiste un modo più flessibile e più veloce per scalare l’AI su larga scala.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome