AMD e Red Hat annunciano una collaborazione strategica che combina la leadership open source di Red Hat con le GPU ad alte prestazioni di AMD e mira a offrire ai clienti una più ampia gamma di soluzioni all’avanguardia per soddisfare le loro esigenze di computing.
La partnership – spiegano le due aziende – ha l’obiettivo di promuovere le funzionalità AI e ottimizzare le infrastrutture virtualizzate. Grazie a questa alleanza rafforzata, Red Hat e AMD amplieranno le possibilità di scelta dei clienti nel cloud ibrido, dall’implementazione di modelli di AI ottimizzati ed efficienti alla modernizzazione più economica delle macchine virtuali tradizionali (VM).
Poiché la domanda e la diversità dei carichi di lavoro continuano ad aumentare con l’introduzione dell’AI, sottolineano le due aziende, le organizzazioni devono disporre della capacità e delle risorse necessarie per soddisfare questi requisiti crescenti. Il datacenter medio, tuttavia, è dedicato principalmente ai sistemi IT tradizionali, lasciando poco spazio per supportare carichi di lavoro intensivi come l’IA.
Per rispondere a questa esigenza, Red Hat e AMD stanno unendo la potenza delle soluzioni open source leader del settore di Red Hat con il portafoglio completo di architetture di calcolo ad alte prestazioni di AMD.
Red Hat e AMD stanno combinando la potenza di Red Hat AI con il portafoglio AMD di processori basati su x86 e architetture GPU per supportare ambienti ottimizzati, efficienti in termini di costi e pronti per la produzione di carichi di lavoro abilitati all’AI.
Le GPU AMD Instinct sono ora pienamente abilitate su Red Hat OpenShift AI, consentendo ai clienti di disporre della potenza di elaborazione ad alte prestazioni necessaria per le implementazioni AI nel cloud ibrido senza requisiti estremi di risorse. Inoltre, utilizzando le GPU AMD Instinct MI300X con Red Hat Enterprise Linux AI, Red Hat e AMD hanno condotto test su Microsoft Azure ND MI300X v5 per dimostrare con successo l’inferenza dell’AI per scalare modelli linguistici di piccole dimensioni (SLM) e modelli linguistici di grandi dimensioni (LLM) distribuiti su più GPU in una singola macchina virtuale, riducendo la necessità di distribuire su più macchine virtuali e i costi delle prestazioni.
Per favorire l’accelerazione delle prestazioni e le capacità di tuning, Red Hat e AMD stanno collaborando con la comunità vLLM upstream per promuovere un’inferenza AI più efficiente. Con questa attivazione upstream, Red Hat e AMD mirano a fornire:
- Prestazioni migliorate sulle GPU AMD: Grazie all’upstreaming della libreria del kernel AMD e all’ottimizzazione di vari componenti come il kernel Triton e FP8, Red Hat e AMD stanno migliorando le prestazioni dell’inferenza per i modelli densi e quantizzati, consentendo un’esecuzione più rapida ed efficiente di vLLM sugli acceleratori AMD Instinct MI300X.
- Supporto multi-GPU migliorato: Il miglioramento della comunicazione collettiva e l’ottimizzazione dei carichi di lavoro multi-GPU aprono le porte a implementazioni di intelligenza artificiale più scalabili ed efficienti dal punto di vista energetico, il che è particolarmente vantaggioso per i carichi di lavoro che richiedono un’elaborazione distribuita su più GPU, riducendo i colli di bottiglia e migliorando il throughput complessivo.
- Ampliamento dell’impegno dell’ecosistema vLLM: La collaborazione incrociata tra Red Hat, AMD e altri leader del settore come IBM contribuisce ad accelerare lo sviluppo a monte per promuovere continui miglioramenti sia per il progetto vLLM che per l’ottimizzazione delle GPU AMD, con ulteriori vantaggi per gli utenti di vLLM che si affidano all’hardware AMD per l’inferenza e l’addestramento dell’intelligenza artificiale.
Sulla base di questa collaborazione nella comunità vLLM, le GPU AMD Instinct supporteranno Red Hat AI Inference Server, la distribuzione enterprise-grade di Red Hat di vLLM, out-of-the-box per un server di inferenza AI potente, affidabile e scalabile. In qualità di primo contributore commerciale di vLLM, Red Hat si impegna a garantire la compatibilità quando si implementa vLLM sull’hardware scelto da un’organizzazione, che include le GPU AMD Instinct. L’esecuzione di vLLM sulle GPU AMD Instinct consente alle organizzazioni di distribuire qualsiasi modello di intelligenza artificiale open source su hardware GPU convalidato e testato per un’ottimizzazione e prestazioni superiori.
Anche le CPU AMD EPYC consentono di ottenere prestazioni AI end-to-end e sono ideali per ospitare sistemi abilitati alle GPU. Ciò può contribuire a migliorare le prestazioni e il ritorno sull’investimento (ROI) di ogni server GPU anche per i carichi di lavoro AI più impegnativi.
Trasformare il datacenter moderno
Ottimizzando i datacenter esistenti, le organizzazioni possono reinvestire le risorse in modo più efficace e semplice per abilitare l’innovazione AI. Red Hat OpenShift Virtualization, una funzionalità di Red Hat OpenShift, offre alle organizzazioni un percorso semplificato per la migrazione e la gestione dei carichi di lavoro VM con la semplicità e la velocità di una piattaforma applicativa cloud-native. Red Hat OpenShift Virtualization è convalidato per i processori AMD EPYC in grado di sfruttare le eccellenti prestazioni e l’efficienza energetica dei processori AMD EPYC, ovunque sia necessario nel cloud ibrido, mantenendo un ponte verso un futuro cloud-nativo.
Red Hat OpenShift Virtualization su CPU AMD EPYC aiuta le aziende a ottimizzare l’implementazione delle applicazioni su server leader, come Dell PowerEdge, HPE ProLiant e Lenovo ThinkSystem. Quando si aggiorna un datacenter legacy, Red Hat OpenShift Virtualization consente di unificare le macchine virtuali e le applicazioni containerizzate, on-premise, nei cloud pubblici o nel cloud ibrido.
Ciò consente di ottenere elevati indici di consolidamento dell’infrastruttura che possono portare a una significativa riduzione del costo totale di proprietà (TCO) su hardware, licenze software ed energia. Questo ha l’ulteriore vantaggio di consentire ai team IT di gestire in modo più efficace i carichi di lavoro critici di oggi, liberando al contempo risorse ed energia da destinare ai carichi di lavoro AI di oggi e del futuro.









