Microsoft compie un nuovo passo nella propria strategia di infrastruttura AI end-to-end con l’introduzione di Maia 200, un acceleratore di inferenza progettato per cambiare radicalmente l’economia dell’intelligenza artificiale su larga scala. Si tratta della più recente generazione di silicio proprietario sviluppata per Azure, con l’obiettivo di eseguire modelli AI in modo più rapido ed efficiente dal punto di vista dei costi.
Maia 200 è un acceleratore di inferenza costruito con processo produttivo TSMC a 3 nanometri, dotato di tensor core nativi FP8 e FP4, un sottosistema di memoria completamente riprogettato con 216 GB di HBM3e a 7 TB/s, 272 MB di SRAM on-chip e motori di movimentazione dati pensati per mantenere modelli di grandi dimensioni costantemente alimentati e ad alto livello di utilizzo. In termini prestazionali, Microsoft afferma che Maia 200 offre tre volte le prestazioni FP4 della terza generazione di Amazon Trainium e supera le prestazioni FP8 della settima generazione delle TPU di Google.
Il risultato è un sistema di inferenza con un rapporto prezzo-prestazioni leader di settore. Secondo Microsoft, Maia 200 garantisce un miglioramento del 30% del perf/$ rispetto ai sistemi attualmente in uso, rendendolo l’acceleratore di inferenza più efficiente mai distribuito dall’azienda.
La distribuzione è già iniziata nel data center US Central, seguita dalla regione US West 3 nei pressi di Phoenix, in Arizona, con ulteriori regioni previste in futuro. Contestualmente, Microsoft ha annunciato l’anteprima del Maia SDK, pensato per consentire agli sviluppatori di ottimizzare i workload sui sistemi Maia 200 attraverso uno stack software verticalmente integrato e un modello di programmazione spaziale che offre controllo granulare agli utenti esperti, mantenendo al contempo la portabilità del codice su architetture eterogenee.
Maia 200: un’architettura progettata specificamente per l’inferenza AI
Realizzato con il processo produttivo a 3 nanometri di TSMC, ogni chip Maia 200 integra oltre 100 miliardi di transistor ed è ottimizzato per workload AI su larga scala, con particolare attenzione all’efficienza economica. Il design privilegia il throughput a bassa precisione: ogni chip Maia 200 supera i 10 petaFLOPS in FP4 e raggiunge circa 5 petaFLOPS in FP8.
In termini pratici, un singolo nodo Maia 200 è in grado di eseguire senza difficoltà i modelli più grandi oggi disponibili, mantenendo margine per modelli ancora più complessi in futuro. Tuttavia, Microsoft sottolinea come le prestazioni non dipendano esclusivamente dalla potenza di calcolo. L’alimentazione dei dati rappresenta un collo di bottiglia altrettanto critico.
Per questo motivo Maia 200 introduce un sottosistema di memoria completamente ridisegnato, basato su datatype a precisione ridotta, un motore DMA specializzato, SRAM on-die e un fabric NoC dedicato alla movimentazione dati ad alta banda. Questa architettura consente di mantenere localmente una porzione maggiore dei pesi e dei dati dei modelli, riducendo il numero di dispositivi necessari per l’esecuzione di un singolo modello.
Rete unificata tra nodi, rack e cluster
A livello di sistema, Maia 200 introduce un’architettura di scale-up a due livelli basata su Ethernet standard. Un layer di trasporto personalizzato e una NIC strettamente integrata permettono di ottenere prestazioni elevate, affidabilità e vantaggi economici significativi, evitando l’uso di fabric proprietari.
Ogni acceleratore espone 1,4 TB/s di banda dedicata per lo scale-up, distribuita su 28 collegamenti Ethernet da 400 GbE, e garantisce operazioni collettive prevedibili e ad alte prestazioni su cluster fino a 6.144 acceleratori. Questo approccio consente di realizzare cluster di inferenza densi e scalabili, riducendo al contempo consumi energetici e costo totale di possesso sull’intera infrastruttura globale di Azure.
All’interno di ciascun tray, quattro acceleratori Maia sono interconnessi direttamente senza switch intermedi, mantenendo le comunicazioni ad alta banda a livello locale per massimizzare l’efficienza dell’inferenza. Lo stesso protocollo di comunicazione viene utilizzato per le connessioni intra-rack e inter-rack attraverso il Maia AI transport protocol, consentendo una scalabilità fluida tra nodi, rack e cluster con un numero minimo di salti di rete.
Questa rete unificata semplifica la programmazione, aumenta la flessibilità dei workload e riduce la capacità inutilizzata, mantenendo prestazioni e costi coerenti anche su scala cloud.
Cicli di innovazione rapidi e disponibilità accelerata
Un principio cardine del programma di sviluppo del silicio Microsoft è la validazione anticipata dell’intero sistema end-to-end prima della disponibilità del silicio finale. Questo approccio consente di anticipare i colli di bottiglia critici e di riservare la fase finale solo alle attività che dipendono effettivamente dai chip confezionati.
Per Maia 200, Microsoft ha utilizzato una pipeline di simulazione avanzata fin dalle prime fasi progettuali, modellando con elevata fedeltà i pattern computazionali e di comunicazione dei large language model. Questo ambiente di co-sviluppo ha permesso di ottimizzare in modo congiunto silicio, networking e software di sistema ben prima dell’arrivo del primo silicio.
Parallelamente, è stato sviluppato uno dei più grandi ambienti di emulazione del settore, utilizzato per la validazione dei kernel, lo sviluppo dei datatype a bassa precisione e l’esecuzione completa dei modelli, inclusa la fase di tuning prestazionale per modelli proprietari e open source, prima ancora della disponibilità del silicio fisico.
Maia 200 è stato inoltre progettato fin dall’inizio per una rapida integrazione nei data center, con la validazione anticipata di componenti complessi come la rete di backend e la seconda generazione del sistema di raffreddamento a liquido a circuito chiuso con Heat Exchanger Unit. L’integrazione nativa con il control plane di Azure garantisce sicurezza, telemetria, diagnostica e capacità di gestione sia a livello di chip sia di rack, massimizzando affidabilità e disponibilità per workload AI mission-critical.
Grazie a questo approccio, i modelli AI sono stati eseguiti su silicio Maia 200 entro pochi giorni dall’arrivo dei primi chip confezionati. Il tempo tra il primo silicio e il primo deployment in data center è stato ridotto a meno della metà rispetto a programmi infrastrutturali AI comparabili. Questo modello end-to-end, dal chip al software fino al data center, si traduce in maggiore utilizzo, time-to-production più rapido e miglioramenti continui di prestazioni per dollaro e per watt su scala cloud.
Maia 200 in produzione
Il primo utilizzo di Maia 200 sarà a cura del team Microsoft Superintelligence, che impiegherà l’acceleratore per la generazione di dati sintetici e per il reinforcement learning a supporto dei modelli proprietari di nuova generazione. In questi scenari, l’architettura di Maia 200 consente di accelerare la produzione e la selezione di dati di alta qualità e specifici per dominio, come testi, istruzioni e codice, migliorando l’efficacia dei processi di training a valle.
Maia 200 verrà inoltre utilizzato per alimentare workload AI all’interno di Microsoft Foundry e Microsoft 365 Copilot, come parte di un’infrastruttura AI eterogenea distribuita sull’intera piattaforma cloud globale, con disponibilità per i clienti prevista in una fase successiva.
Anteprima del Maia SDK
L’era dell’intelligenza artificiale su larga scala è solo all’inizio e l’infrastruttura ne definirà i limiti e le opportunità. Il programma Maia AI Accelerator è concepito come una piattaforma multi-generazionale, con Microsoft già al lavoro sulle generazioni future mentre completa il rollout globale di Maia 200.
In parallelo, l’azienda invita ricercatori, sviluppatori, laboratori di frontiera e contributori open source a iniziare l’ottimizzazione di modelli e workload attraverso l’anteprima del Maia SDK. Il kit di sviluppo include un compilatore Triton, supporto per PyTorch, programmazione low-level in NPL, un simulatore Maia e un cost calculator per ottimizzare l’efficienza già nelle prime fasi del ciclo di sviluppo.






