OpenAI Jalapeño, il primo chip AI sviluppato con Broadcom per accelerare l’inferenza

24 Giugno 2026

OpenAI compie un passo significativo nella costruzione della propria infrastruttura hardware annunciando Jalapeño, il primo Intelligence Processor sviluppato in collaborazione con Broadcom. Si tratta di un acceleratore progettato specificamente per l’inferenza dei Large Language Model (LLM), destinato a diventare il primo elemento di una piattaforma hardware multi-generazione con cui OpenAI punta a controllare sempre più direttamente l’intera catena tecnologica che alimenta ChatGPT, Codex e le future applicazioni di intelligenza artificiale agentica.

L’annuncio segna un’evoluzione importante nella strategia dell’azienda guidata da Sam Altman, che da sviluppatore di modelli e servizi AI si sta progressivamente trasformando in un operatore full stack, capace di progettare non solo software e modelli, ma anche l’infrastruttura hardware necessaria per eseguirli.

Jalapeño nasce per l’inferenza AI e non come adattamento di architetture esistenti

A differenza di molte soluzioni oggi utilizzate nei data center AI, Jalapeño non deriva da acceleratori progettati originariamente per altri carichi di lavoro. Il processore è stato sviluppato fin dall’inizio con l’obiettivo di ottimizzare l’inferenza dei modelli linguistici di grandi dimensioni.

Secondo OpenAI, l’architettura è stata costruita sulla base dell’esperienza maturata nell’esecuzione quotidiana di ChatGPT, Codex, API e futuri servizi agentici. L’obiettivo è combinare l’elevata capacità elaborativa dei più potenti acceleratori AI con latenze ridotte, caratteristiche fondamentali per applicazioni interattive che richiedono risposte rapide e tempi di attesa minimi.

La progettazione ha posto particolare attenzione alla gestione della memoria, ai flussi di dati tra i diversi componenti del sistema, al networking ad alte prestazioni e ai modelli di esecuzione tipici dei moderni LLM.

Prestazioni per watt superiori e maggiore efficienza dei data center

I primi campioni ingegneristici del processore sono già operativi nei laboratori e stanno eseguendo carichi di lavoro reali, inclusi test con GPT-5.3-Codex-Spark.

Sebbene i risultati definitivi siano ancora in fase di validazione, OpenAI afferma che le prove preliminari indicano un rapporto prestazioni-per-watt significativamente superiore rispetto alle soluzioni di riferimento oggi presenti sul mercato.

Il progetto punta inoltre a ridurre la movimentazione dei dati all’interno dei sistemi AI, uno dei principali fattori che limitano l’efficienza energetica delle infrastrutture moderne. L’architettura è stata studiata per bilanciare in modo più efficace risorse computazionali, memoria e networking, avvicinando l’utilizzo reale dell’hardware alle prestazioni teoriche massime.

Per la componente di rete, Broadcom mette a disposizione le proprie tecnologie di interconnessione, comprese le soluzioni basate sulla famiglia Tomahawk, ormai ampiamente adottata nei grandi data center hyperscale.

Una strategia full stack per ridurre i costi dell’intelligenza artificiale

L’iniziativa rappresenta un tassello fondamentale della strategia infrastrutturale di OpenAI.

L’azienda sostiene infatti che il futuro dell’intelligenza artificiale dipenderà sempre più dalla disponibilità di capacità computazionale abbondante ed economicamente sostenibile. Per questo motivo sta investendo nella progettazione diretta di chip, sistemi di memoria, networking, software di basso livello e piattaforme di orchestrazione.

Secondo Greg Brockman, Presidente e cofondatore di OpenAI, la disponibilità di infrastrutture più efficienti consentirà di rendere l’AI più veloce, affidabile ed economica, aumentando al tempo stesso la disponibilità dei servizi per utenti, aziende e sviluppatori.

L’obiettivo dichiarato è alimentare un circolo virtuoso in cui una maggiore efficienza computazionale consenta di sviluppare modelli migliori, generare prodotti più competitivi e finanziare ulteriori investimenti nell’infrastruttura di nuova generazione.

Sviluppo record: tape-out completato in nove mesi

Uno degli aspetti più sorprendenti del progetto riguarda i tempi di sviluppo.

OpenAI e Broadcom dichiarano di aver completato il percorso che va dalla progettazione iniziale al tape-out produttivo in appena nove mesi, un risultato che le aziende definiscono potenzialmente senza precedenti nel settore degli ASIC ad alte prestazioni.

Secondo le due società, il risultato è stato possibile grazie a una stretta integrazione tra team hardware e software e all’utilizzo degli stessi modelli di intelligenza artificiale di OpenAI per accelerare alcune attività di progettazione e ottimizzazione.

In altre parole, l’AI sta iniziando a contribuire direttamente alla realizzazione dell’hardware destinato a eseguire le future generazioni di AI.

Una piattaforma multi-generazione per i data center del futuro

Jalapeño rappresenta soltanto il primo elemento di una roadmap molto più ampia.

OpenAI, Broadcom e Celestica stanno infatti lavorando a una piattaforma infrastrutturale destinata a evolvere attraverso più generazioni di processori e sistemi. Broadcom si occuperà dell’implementazione dei semiconduttori e delle tecnologie di connettività, mentre Celestica contribuirà alla realizzazione di schede, rack e sistemi completi.

Le prime implementazioni commerciali sono previste entro la fine del 2026 e saranno destinate ai grandi data center AI sviluppati insieme a partner come Microsoft.

Il controllo dell’infrastruttura diventa un vantaggio competitivo

L’annuncio di Jalapeño evidenzia una tendenza sempre più marcata nel settore dell’intelligenza artificiale: il controllo dell’infrastruttura sta diventando un elemento strategico tanto importante quanto la qualità dei modelli.

Dopo anni in cui il mercato è stato dominato quasi esclusivamente da fornitori specializzati come NVIDIA, i principali sviluppatori di AI stanno investendo in processori personalizzati per ottimizzare costi, prestazioni e disponibilità delle risorse computazionali.

Per OpenAI il nuovo acceleratore rappresenta soprattutto un investimento sull’inferenza, cioè la fase in cui i modelli vengono utilizzati dagli utenti finali. Ridurre il costo di ogni richiesta elaborata significa poter offrire servizi più economici, sostenere una crescita più rapida della domanda e ampliare l’accesso alle tecnologie di intelligenza artificiale su scala globale.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

iscriviti alla newsletter