Qualcomm Technologies ha presentato due nuove soluzioni destinate a ridefinire l’inferenza AI su scala rack nei data center: Qualcomm AI200 e Qualcomm AI250. I due acceleratori, basati su architettura NPU proprietaria, promettono un nuovo livello di efficienza, capacità di memoria e prestazioni per i carichi di lavoro di intelligenza artificiale generativa, mantenendo un rapporto ottimale tra prestazioni, consumo e costo complessivo di proprietà (TCO).
Il modello AI200 rappresenta una piattaforma rack-level progettata specificamente per l’inferenza di modelli linguistici di grandi dimensioni (LLM) e multimodali (LMM). Ogni scheda integra 768 GB di memoria LPDDR, una capacità che consente di gestire con efficienza flussi di lavoro AI su larga scala, riducendo i costi complessivi e incrementando la flessibilità operativa.
Ancora più innovativo è Qualcomm AI250, che introduce un’architettura di memoria di nuova generazione basata sul concetto di near-memory computing. Questo approccio offre oltre 10 volte la larghezza di banda effettiva rispetto alla generazione precedente, migliorando drasticamente l’efficienza energetica e permettendo una gestione disaggregata dell’inferenza AI. L’obiettivo: garantire il massimo utilizzo dell’hardware a fronte di un consumo ridotto e prestazioni ottimizzate per costo e potenza.
Qualcomm, architettura ottimizzata e software end-to-end
Entrambe le soluzioni includono raffreddamento a liquido diretto, connettività PCIe per lo scale-up ed Ethernet per lo scale-out, oltre a funzionalità di confidential computing per la protezione dei carichi di lavoro AI. Il consumo energetico a livello rack si attesta intorno ai 160 kW, in linea con l’obiettivo di Qualcomm di massimizzare le prestazioni per watt.

«Con Qualcomm AI200 e AI250 ridefiniamo ciò che è possibile per l’inferenza AI su scala rack», ha dichiarato Durga Malladi, SVP & GM, Technology Planning, Edge Solutions & Data Center di Qualcomm Technologies. «Queste soluzioni di infrastruttura AI permettono ai clienti di implementare applicazioni generative in modo scalabile e sicuro, con un TCO senza precedenti e un’integrazione fluida nei data center moderni».
A supporto delle nuove piattaforme, Qualcomm propone un software stack hyperscaler-grade ottimizzato per l’inferenza AI end-to-end. Lo stack supporta i principali framework di machine learning e generative AI, e include tecniche di ottimizzazione per LLM e LMM, strumenti di disaggregated serving, e integrazione diretta con Hugging Face tramite la Qualcomm Efficient Transformers Library e la AI Inference Suite.
Gli sviluppatori possono così gestire e distribuire modelli pre-addestrati con un solo click, beneficiando di strumenti, API e librerie già pronte per la messa in produzione di agenti e applicazioni AI.
Una roadmap annuale per l’AI nei data center
Le soluzioni AI200 e AI250 saranno disponibili commercialmente rispettivamente nel 2026 e nel 2027. Qualcomm conferma inoltre l’impegno a mantenere una roadmap annuale di innovazioni per i data center, con focus su prestazioni, efficienza energetica e sostenibilità economica.






