Nvidia e Groq, accordo sull’inferenza AI: il licensing dopo le voci CNBC su un’acquisizione da 20 miliardi di dollari

Nvidia e Groq hanno ufficializzato un accordo di licensing non esclusivo sulla tecnologia di inferenza, accompagnato dall’ingresso in Nvidia di alcune figure chiave del team tecnico e manageriale della startup statunitense. L’intesa non prevede un’acquisizione: Groq continuerà a operare come società indipendente, mantenendo la propria piattaforma GroqCloud e la libertà di collaborare con altri partner. I termini economici dell’accordo non sono stati resi pubblici, ma il perimetro industriale è chiaro: Nvidia ottiene accesso a tecnologia e competenze strategiche in un momento in cui l’inferenza AI sta diventando il vero snodo della messa in produzione dei modelli.

Attorno a questo annuncio si è però addensata anche una dimensione di mercato più ampia. Nei giorni precedenti, indiscrezioni riportate da Reuters citando fonti CNBC avevano ipotizzato una possibile acquisizione di Groq da parte di Nvidia per una cifra intorno ai 20 miliardi di dollari. Un’ipotesi mai confermata ufficialmente da nessuna delle due aziende, ma sufficiente a chiarire quale valore strategico il mercato attribuisca oggi all’inferenza AI. La scelta finale di Nvidia di optare per un licensing, anziché per un’acquisizione di quelle dimensioni, è stata letta come una mossa di disciplina finanziaria e gestione del rischio regolatorio. Nelle ore successive all’annuncio, il titolo Nvidia non ha registrato oscillazioni significative, segnale che gli investitori interpretano l’operazione come un rafforzamento mirato della strategia di lungo periodo, più che come un evento trasformativo sul piano del bilancio.

Groq, specializzazione nell’inferenza

Per comprendere il significato dell’accordo è necessario guardare alla storia di Groq, che corre in parallelo con l’evoluzione dell’hardware per l’intelligenza artificiale. Jonathan Ross (nella foto) fonda l’azienda nel 2016 dopo aver lavorato in Google allo sviluppo delle Tensor Processing Unit, i chip custom con cui Mountain View aveva iniziato a differenziarsi dalle GPU per i propri carichi di machine learning. È in quel contesto che matura l’intuizione alla base di Groq: se il training richiede flessibilità e parallelismo, l’inferenza — soprattutto su modelli linguistici e sequenziali — richiede prevedibilità, latenza costante e controllo del flusso di esecuzione.

Groq nasce con un’idea controcorrente. Invece di inseguire la massima generalità, sceglie la specializzazione estrema e costruisce la propria architettura attorno alla Language Processing Unit, un acceleratore progettato esclusivamente per l’inferenza. La LPU adotta un’architettura pipeline-based con mappatura statica delle operazioni, eliminando quasi del tutto lo scheduling dinamico. Ogni token attraversa il chip seguendo un percorso noto, con tempi di esecuzione deterministici. Questo approccio riduce drasticamente la flessibilità, ma garantisce latenze estremamente basse e soprattutto prevedibili, una caratteristica cruciale per chatbot, assistenti AI, agenti software e sistemi decisionali integrati nei processi aziendali.

Per anni Groq resta ai margini di un mercato ancora dominato dal training. Il punto di svolta arriva con l’esplosione dei large language model e con il loro ingresso in produzione. Quando l’AI diventa un servizio continuo, sempre attivo, il costo dell’inferenza supera rapidamente quello dell’addestramento e la latenza diventa un parametro economico. In questo contesto l’approccio di Groq smette di sembrare una scommessa di nicchia e inizia a essere percepito come una risposta strutturale a un problema industriale.

GPU, TPU, LPU

Il confronto tra GPU, TPU e LPU aiuta a chiarire il quadro. Le GPU restano architetture general purpose, fondamentali per il training e per i workload eterogenei, ma la loro flessibilità introduce variabilità nella latenza e una forte dipendenza dall’ottimizzazione software. Le TPU di Google rappresentano una prima forma di specializzazione, profondamente integrata nello stack proprietario del cloud provider. Le LPU spingono questa logica fino in fondo: non cercano il miglior throughput medio, ma un comportamento temporale controllabile, adatto a un’AI che deve rispettare SLA e costi prevedibili.

È per questo che le LPU diventano strategicamente rilevanti per Nvidia. Non perché debbano sostituire le GPU, ma perché rendono evidente che l’inferenza non può più essere trattata come una semplice estensione del training. Quando l’AI entra nei processi core delle aziende, l’imprevedibilità diventa un rischio operativo. Le LPU mostrano che l’inferenza può essere progettata con logiche più vicine all’ingegneria industriale che alla ricerca sperimentale. Per Nvidia, ignorare questo segnale avrebbe significato lasciare spazio a standard alternativi proprio nella fase in cui l’AI genera valore economico ricorrente.

 Il valore del licensing è profondo: Nvidia ottiene accesso a principi architetturali, tecniche di inferenza e know-how che possono influenzare il design futuro degli acceleratori e dello stack software, senza spezzare la continuità dell’ecosistema CUDA.

Questo approccio va letto anche alla luce delle opzioni di inferenza oggi concretamente disponibili sul mercato. L’inferenza su GPU Nvidia resta la scelta dominante nei data center cloud ed enterprise grazie alla continuità con il training e all’ecosistema CUDA, Tensor e Triton, ed è oggi implementata su piattaforme come H100, H200 e le prime soluzioni Blackwell, in attesa dell’evoluzione Vera Rubin. Parallelamente, Google utilizza le TPU v4 e v5e per l’inferenza dei modelli Gemini, AWS ha portato in produzione i chip Inferentia e Inferentia2 all’interno di Amazon Bedrock, mentre Microsoft sta introducendo il chip proprietario Maia 100 per l’inferenza dei modelli OpenAI su Azure. Accanto a queste soluzioni cloud-centriche stanno emergendo acceleratori specializzati come le LPU di Groq, i sistemi wafer-scale di Cerebras e le architetture di SambaNova, mentre anche le CPU di nuova generazione tornano rilevanti in scenari edge e on-premise.

Il risultato è che l’architettura AI reale non è più monolitica. Sempre più spesso il training resta concentrato su GPU ad alte prestazioni, l’inferenza batch continua a girare su GPU ottimizzate, mentre l’inferenza real-time ad alto volume viene spostata verso acceleratori specializzati. È in questa frammentazione controllata che il licensing tra Nvidia e Groq trova il suo senso strategico: non come eliminazione delle alternative, ma come tentativo di mantenere Nvidia al centro di un ecosistema di inferenza ormai strutturalmente multipolare.

Non inglobare Groq, ma assorbirne l’approccio, è una scelta che racconta come Nvidia stia preparando il proprio futuro oltre la GPU. Non puntando su un unico chip universale, ma costruendo una piattaforma capace di integrare specializzazione, efficienza e controllo operativo, mentre l’intelligenza artificiale passa definitivamente dalla fase sperimentale a quella industriale.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome