Aws e Nvidia hanno annunciato oggi una collaborazione in più parti incentrata sulla creazione dell’infrastruttura di intelligenza artificiale più scalabile e on-demand del mondo, ottimizzata per l’addestramento di modelli linguistici di grandi dimensioni (LLM) sempre più complessi e lo sviluppo di applicazioni di AI generativa.

Il lavoro congiunto prevede istanze P5 di Amazon Elastic Compute Cloud (Amazon EC2) di nuova generazione alimentate da GPU Nvidia H100 Tensor Core e dalla rete e scalabilità all’avanguardia di Aws, che offriranno prestazioni di calcolo fino a 20 exaFLOPS per la creazione e l’addestramento dei modelli di deep learning più grandi. Le istanze P5 saranno le prime istanze basate su GPU a sfruttare la rete Elastic Fabric Adapter (EFA) di seconda generazione di Aws, che offre 3.200 Gbps di throughput di rete a bassa latenza e alta banda, consentendo ai clienti di scalare fino a 20.000 GPU H100 in UltraCluster EC2 per accedere su richiesta a prestazioni di classe supercomputer per l’IA.

“Aws e Nvidia collaborano da oltre 12 anni per offrire soluzioni basate su GPU su larga scala e a costi contenuti e su richiesta per varie applicazioni come AI/ML, grafica, giochi e HPC”, ha dichiarato Adam Selipsky, CEO di Aws. “Aws vanta un’esperienza senza pari nella fornitura di istanze basate su GPU che hanno spinto il limite della scalabilità a ogni generazione successiva, con molti clienti che oggi scalano i carichi di lavoro di apprendimento automatico a oltre 10.000 GPU. Con l’EFA di seconda generazione, i clienti saranno in grado di scalare le loro istanze P5 fino a oltre 20.000 GPU Nvidia H100, offrendo capacità di supercomputer su richiesta a clienti che vanno dalle startup alle grandi imprese”.

“L’Accelerated Computing e l’AI sono arrivati, e proprio in tempo. L’accelerazione del computing consente di aumentare la velocità delle funzioni riducendo al contempo i costi e la potenza, mentre le aziende si sforzano di fare di più con meno. L’IA generativa ha risvegliato le aziende a reimmaginare i propri prodotti e modelli di business e ad essere il distruttore e non il distruttore”, ha dichiarato Jensen Huang, fondatore e CEO di Nvidia. “Aws è un partner di lunga data ed è stato il primo provider di servizi cloud a offrire le GPU Nvidia. Siamo entusiasti di unire le nostre competenze, la nostra scala e la nostra portata per aiutare i clienti a sfruttare il computing accelerato e l’intelligenza artificiale generativa per cogliere le enormi opportunità che ci attendono”.



Nuovi cluster di supercomputing

Le nuove istanze P5 si basano su oltre un decennio di collaborazione tra Aws e Nvidia per la fornitura di infrastrutture AI e HPC e si fondano su quattro precedenti collaborazioni con istanze P2, P3, P3dn e P4d(e). Le istanze P5 sono la quinta generazione di offerte Aws basate su GPU Nvidia e arrivano quasi 13 anni dopo l’implementazione iniziale delle GPU Nvidia, iniziata con le istanze CG1.

Le istanze P5 sono ideali per l’addestramento di LLM e modelli di computer vision sempre più complessi alla base delle applicazioni di IA generativa più impegnative dal punto di vista dei calcoli, fra cui la risposta alle domande, la generazione di codici, la generazione di video e immagini, il riconoscimento vocale e altro ancora.

Realizzate specificamente per le imprese e le startup che vogliono portare sul mercato innovazioni alimentate dall‘intelligenza artificiale in modo scalabile e sicuro, le istanze P5 sono dotate di otto GPU Nvidia H100 in grado di offrire 16 petaFLOP di prestazioni in precisione mista, 640 GB di memoria a elevata larghezza di banda e connettività di rete a 3.200 Gbps (8 volte di più rispetto alla generazione precedente) in una singola istanza EC2. Le maggiori prestazioni delle istanze P5 accelerano il time-to-train dei modelli di machine learning (ML) fino a 6 volte (riducendo il tempo di formazione da giorni a ore) e la memoria GPU aggiuntiva aiuta i clienti a formare modelli più grandi e complessi. Si prevede che le istanze P5 riducano i costi di addestramento dei modelli ML fino al 40% rispetto alla generazione precedente, offrendo ai clienti una maggiore efficienza rispetto alle offerte cloud meno flessibili o ai costosi sistemi on-premise.

Le istanze Amazon EC2 P5 sono distribuite in cluster iperscala chiamati EC2 UltraCluster, che comprendono le più alte prestazioni di calcolo, rete e storage del cloud. Ogni EC2 UltraCluster è uno dei supercomputer più potenti al mondo, che consente ai clienti di eseguire i carichi di lavoro più complessi di formazione ML multi-nodo e HPC distribuito. Sono dotati di rete non bloccante su scala petabit, alimentata da Aws EFA, un’interfaccia di rete per le istanze Amazon EC2 che consente ai clienti di eseguire su scala Aws applicazioni che richiedono elevati livelli di comunicazione tra i nodi. L’interfaccia hardware di bypass del sistema operativo (OS) personalizzato di EFA e l’integrazione con Nvidia GPUDirect RDMA migliorano le prestazioni delle comunicazioni tra istanze riducendo la latenza e aumentando l’utilizzo della banda, un aspetto fondamentale per scalare la formazione di modelli di deep learning su centinaia di nodi P5. Con le istanze P5 e l’EFA, le applicazioni di ML possono utilizzare Nvidia Collective Communications Library (NCCL) per scalare fino a 20.000 GPU H100. Di conseguenza, i clienti ottengono le prestazioni applicative dei cluster HPC on-premises con l’elasticità e la flessibilità on-demand di Aws. Oltre a queste capacità di calcolo all’avanguardia, i clienti possono utilizzare il portafoglio di servizi più ampio e profondo del settore, come Amazon S3 per l’archiviazione degli oggetti, Amazon FSx per i file system ad alte prestazioni e Amazon SageMaker per la creazione, l’addestramento e la distribuzione di applicazioni di deep learning. Le istanze P5 saranno disponibili nelle prossime settimane in anteprima limitata. Per richiedere l’accesso, visitare il sito https://pages.awscloud.com/EC2-P5-Interest.html.