Home Aziende Google Google Cloud potenzia l’infrastruttura per l’intelligenza artificiale

Google Cloud potenzia l’infrastruttura per l’intelligenza artificiale

Google Cloud ha già, nella sua ampia offerta, proposte dotate di tecnologie atte a potenziare le infrastrutture per l’intelligenza artificiale, come TPU e GPU, e ora ha annunciato miglioramenti significativi per entrambi i portafogli di prodotti.

In primo luogo, sta ampliando il suo portafoglio di infrastrutture ottimizzate per l’AI con Cloud TPU v5e, la Cloud TPU più conveniente, versatile e scalabile finora, ora disponibile in anteprima. TPU v5e offre l’integrazione con Google Kubernetes Engine (GKE), Vertex AI e framework diffusi come Pytorch, JAX e TensorFlow, in modo da poter iniziare a lavorare con interfacce familiari e facili da usare.

Google Cloud ha inoltre annunciato che le VM A3, basate su GPU NVIDIA H100 e fornite come GPU Supercomputer, saranno generalmente disponibili il mese prossimo per alimentare i modelli AI dei clienti su larga scala.

Google Cloud TPU v5e: lo sweet spot tra prestazioni ed efficienza dei costi

Cloud TPU v5e – spiega Google Cloud – è stato progettato per offrire l’efficienza dei costi e le prestazioni necessarie per l’addestramento e l’inferenza su media e grande scala. Rispetto a Cloud TPU v4, TPU v5e offre prestazioni di training fino a due volte superiori per dollaro e prestazioni di inferenza fino a 2,5 volte per dollaro per LLM e modelli AI di tipo gen. A un costo inferiore alla metà di TPU v4, TPU v5e consente a un maggior numero di organizzazioni di addestrare e distribuire modelli AI più grandi e complessi.

Ma, afferma Google Cloud, per ottenere questi vantaggi economici non si sacrificano le prestazioni o la flessibilità: con i pod TPU v5e si bilanciano prestazioni, flessibilità ed efficienza, consentendo di interconnettere fino a 256 chip con una larghezza di banda aggregata di oltre 400 Tb/s e 100 petaOps di prestazioni INT8. TPU v5e è anche molto versatile, con il supporto di otto diverse configurazioni di macchine virtuali (VM), che vanno da un solo chip a più di 250 chip all’interno di una singola slice. Ciò consente ai clienti di scegliere le configurazioni più adatte per servire un’ampia gamma di modelli LLM e gen AI.

L’orchestrazione di carichi di lavoro AI su larga scala con infrastrutture scale-out ha storicamente richiesto uno sforzo manuale per gestire gli errori, il logging, il monitoraggio e altre operazioni fondamentali. Google Cloud sta ora semplificando la gestione delle TPU, con la disponibilità generale di Cloud TPU in GKE, il servizio Kubernetes managed. I clienti possono ora migliorare la produttività dello sviluppo dell’AI sfruttando GKE per gestire l’orchestrazione di carichi di lavoro AI su larga scala su Cloud TPU v5e, oltre che su Cloud TPU v4.

E per le organizzazioni che preferiscono la semplicità dei servizi gestiti, Vertex AI supporta ora il training con vari framework e librerie utilizzando le VM Cloud TPU.

Cloud TPU v5e fornisce anche il supporto integrato per i principali framework AI come JAX, PyTorch e TensorFlow, oltre a popolari strumenti open-source come Transformers e Accelerate di Hugging Face, PyTorch Lightning e Ray. Google Cloud sta inoltre rafforzando ulteriormente il supporto a Pytorch con l’imminente release PyTorch/XLA 2.1, che include il supporto per Cloud TPU v5e, oltre a nuove funzionalità tra cui il parallelismo dei modelli e dei dati per l’addestramento dei modelli su larga scala e altro ancora.

Infine, per facilitare la scalabilità dei job di training, Google Cloud sta introducendo in anteprima la tecnologia Multislice, che consente agli utenti di scalare facilmente i modelli di intelligenza artificiale oltre i confini dei pod TPU fisici, fino a decine di migliaia di chip Cloud TPU v5e o TPU v4. Finora, i job di training che utilizzavano le TPU erano limitati a una singola slice di chip TPU, con un tetto massimo per le dimensioni dei job più grandi di 3.072 chip per TPU v4. Con Multislice, gli sviluppatori possono scalare i carichi di lavoro fino a decine di migliaia di chip attraverso l’interconnessione inter-chip (ICI) all’interno di un singolo pod, o tra più pod su un data center network (DCN). La tecnologia Multislice ha permesso di creare i modelli PaLM all’avanguardia dell’azienda, che ora mette questa innovazione a disposizione dei clienti di Google Cloud.

A3 VM: potenziare i GPU supercomputer per carichi di lavoro AI

Per consentire ai clienti di trarre vantaggio dai rapidi progressi dell’intelligenza artificiale, Google Cloud collabora strettamente con NVIDIA, offrendo nuove infrastrutture cloud per l’AI, sviluppando strumenti open-source all’avanguardia per le GPU NVIDIA e costruendo soluzioni end-to-end ottimizzate per i carichi di lavoro in modo specifico per l’AI generativa. Google Cloud, insieme a NVIDIA, mira a rendere l’AI più accessibile per un’ampia gamma di carichi di lavoro e questa visione si sta realizzando, sostiene l’azienda. Per esempio, all’inizio di quest’anno Google Cloud è stato il primo cloud provider a offrire GPU NVIDIA L4 Tensor Core con il lancio della VM G2.

Ora Google Cloud ha annunciato che le VM A3 saranno generalmente disponibili il mese prossimo. Potenziate dalle GPU Tensor Core H100 di NVIDIA, dotate di Transformer Engine per la gestione di modelli a trilioni di parametri, le VM A3 sono state create appositamente per addestrare e servire carichi di lavoro di intelligenza artificiale e LLM particolarmente impegnativi. La combinazione delle GPU NVIDIA con le principali tecnologie infrastrutturali di Google Cloud offre una scala e prestazioni massicce e rappresenta un enorme balzo in avanti nelle capacità di supercomputing, con un training 3 volte più veloce e una larghezza di banda di rete 10 volte superiore rispetto alla generazione precedente. A3 è anche in grado di operare su scala, consentendo agli utenti di scalare i modelli fino a decine di migliaia di GPU NVIDIA H100.

La VM A3 è dotata di due processori Intel Xeon scalable di quarta generazione, otto GPU NVIDIA H100 per VM e 2 TB di memoria host. Costruita sulla più recente piattaforma NVIDIA HGX H100, la VM A3 offre una bisectional bandwidth di 3,6 TB/s fra le otto GPU tramite la tecnologia NVIDIA NVLink di quarta generazione. I miglioramenti della banda passante di rete di A3 sono garantiti dal network adapter Titanium e dalle ottimizzazioni di NVIDIA Collective Communications Library (NCCL). Secondo Google Cloud, A3 rappresenta un’enorme spinta per gli innovatori dell’AI e per le aziende che vogliono costruire i modelli di AI più avanzati.

Per richiedere l’accesso a Cloud TPU v5e, è possibile contattare il proprio account manager di Google Cloud; oppure è possibile registrarsi per esprimere il proprio interesse per le VM A3.

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche
css.php