Google presenta DiffusionGemma, il modello open source che sfida il paradigma tradizionale degli LLM

DIFFUSIONGEMMA

Google amplia la famiglia Gemma con DiffusionGemma, un nuovo modello sperimentale open source che introduce un approccio radicalmente diverso alla generazione del testo. Basato sulle ricerche Gemma 4 e Gemini Diffusion, il modello abbandona il tradizionale meccanismo token-by-token che caratterizza la quasi totalità dei Large Language Model attuali e adotta una tecnica di generazione parallela basata sulla diffusione.

L’obiettivo dichiarato non è sostituire gli attuali modelli Gemma 4 destinati alla produzione, ma esplorare nuove possibilità per applicazioni in cui la velocità di risposta rappresenta un fattore determinante. Secondo Google, DiffusionGemma è in grado di generare testo fino a quattro volte più velocemente rispetto agli approcci autoregressivi tradizionali quando eseguito su GPU dedicate.

Il rilascio avviene con licenza Apache 2.0, confermando la strategia di apertura che Google sta perseguendo con la famiglia Gemma per favorire sperimentazione, ricerca e sviluppo all’interno della comunità open source.

Come funziona il modello a diffusione

La principale differenza rispetto agli LLM tradizionali riguarda il modo in cui viene prodotto il testo.

I modelli autoregressivi generano una parola o un token alla volta, procedendo da sinistra verso destra. Ogni nuovo elemento dipende da quello precedente e il processo continua in sequenza fino al completamento della risposta. Questo approccio garantisce qualità elevata ma introduce inevitabilmente un limite alla velocità di generazione.

DiffusionGemma segue una logica differente. Invece di produrre i token in sequenza, genera contemporaneamente blocchi completi di testo composti da circa 256 token e li perfeziona attraverso una serie di passaggi successivi.

Il funzionamento ricorda quello dei generatori di immagini basati sulla diffusione. Il modello parte da una sorta di “tela” composta da token casuali e procede progressivamente a sostituirli, correggerli e raffinarli fino a ottenere un risultato coerente e leggibile.

Questo approccio consente di sfruttare meglio la potenza computazionale delle GPU, riducendo i tempi di attesa e aumentando significativamente la velocità di inferenza.

Fino a 1.000 token al secondo su NVIDIA H100

Uno degli aspetti più interessanti riguarda proprio le prestazioni.

Google dichiara che DiffusionGemma può superare i 1.000 token al secondo su una singola GPU NVIDIA H100 e oltre 700 token al secondo su una NVIDIA GeForce RTX 5090.

La velocità viene ottenuta spostando il collo di bottiglia dell’elaborazione dalla banda di memoria alla capacità di calcolo pura della GPU. In pratica, invece di attendere continuamente la generazione del token successivo, l’hardware riceve blocchi molto più ampi di lavoro da elaborare in parallelo.

Secondo Google, questo vantaggio è particolarmente evidente negli scenari di inferenza locale a bassa concorrenza, dove una singola GPU è dedicata a uno o pochi utenti.

Diversa la situazione nel cloud ad alta scala, dove i modelli autoregressivi riescono già a saturare efficacemente le risorse hardware attraverso il batching di migliaia di richieste simultanee. In questi contesti il vantaggio di DiffusionGemma tende a ridursi e può persino tradursi in costi operativi superiori.

Un MoE da 26 miliardi di parametri che ne attiva solo 3,8

Dal punto di vista architetturale, DiffusionGemma utilizza un modello Mixture of Experts da 26 miliardi di parametri complessivi.

Durante l’inferenza, tuttavia, vengono attivati soltanto 3,8 miliardi di parametri, riducendo significativamente i requisiti hardware.

Google afferma che il modello può operare comodamente entro i limiti di memoria video delle moderne GPU consumer di fascia alta, come NVIDIA GeForce RTX 5090 e RTX 4090, una volta applicate le tecniche di quantizzazione.

Questo rende DiffusionGemma particolarmente interessante per sviluppatori, ricercatori e aziende che vogliono sperimentare applicazioni avanzate in locale senza dover necessariamente ricorrere a infrastrutture cloud di grandi dimensioni.

Attenzione bidirezionale e nuove applicazioni

Un altro elemento distintivo del modello è l’attenzione bidirezionale.

Poiché tutti i token del blocco vengono elaborati contemporaneamente, ciascun elemento può considerare l’intero contesto durante il processo di generazione. Questo approccio offre vantaggi significativi in attività che tradizionalmente mettono in difficoltà i modelli autoregressivi.

Tra gli esempi citati da Google figurano l’editing in linea dei documenti, il completamento di codice in punti intermedi, la gestione di strutture matematiche complesse e persino la generazione di sequenze biologiche.

L’azienda evidenzia inoltre come questa architettura favorisca una sorta di autocorrezione continua. Il modello può infatti riesaminare l’intero blocco di testo durante le varie iterazioni, correggendo errori e migliorando la coerenza dell’output prima della generazione finale.

DiffusionGemma apre nuove possibilità per l’AI locale

Google vede DiffusionGemma come una piattaforma di ricerca più che come un sostituto diretto degli attuali modelli Gemma 4.

L’azienda riconosce apertamente che la qualità generale delle risposte rimane inferiore rispetto ai modelli autoregressivi tradizionali e continua a raccomandare Gemma 4 per le applicazioni di produzione che richiedono il massimo livello qualitativo.

Tuttavia, l’esperimento mostra come il settore stia iniziando a esplorare percorsi alternativi rispetto all’architettura che domina il mercato dell’intelligenza artificiale generativa da anni.

L’interesse è particolarmente elevato per tutti gli scenari in cui la latenza rappresenta un vincolo critico: assistenti AI locali, strumenti di editing in tempo reale, ambienti di sviluppo software, applicazioni interattive e workflow che richiedono risposte quasi istantanee.

NVIDIA, Hugging Face e l’ecosistema di supporto

Per accelerarne l’adozione, Google ha collaborato con NVIDIA per ottimizzare il modello sulle più recenti architetture hardware, comprese le GPU Blackwell e Hopper.

DiffusionGemma supporta inoltre il formato NVFP4 a 4 bit sviluppato da NVIDIA, che permette di incrementare ulteriormente le prestazioni mantenendo una precisione quasi invariata.

Il modello è disponibile attraverso Hugging Face, Kaggle e Model Garden e può essere utilizzato con strumenti diffusi come MLX, Hugging Face Transformers, vLLM, NVIDIA NeMo e Unsloth. Google ha inoltre annunciato l’arrivo del supporto ufficiale per llama.cpp.

L’insieme di queste integrazioni suggerisce che DiffusionGemma non rappresenta soltanto un esperimento di laboratorio, ma un tentativo concreto di costruire un ecosistema attorno a una nuova categoria di modelli linguistici.

La corsa alla velocità entra in una nuova fase

Negli ultimi anni la competizione nel mercato dell’intelligenza artificiale si è concentrata soprattutto sulle capacità dei modelli, sulla dimensione dei contesti e sulla qualità delle risposte.

Con DiffusionGemma emerge un nuovo elemento competitivo: la velocità di generazione.

La ricerca di Google mostra che l’evoluzione degli LLM potrebbe non passare soltanto da modelli più grandi o più intelligenti, ma anche da architetture capaci di sfruttare in modo diverso le risorse hardware disponibili.

Se l’approccio basato sulla diffusione riuscirà a maturare mantenendo livelli qualitativi comparabili ai modelli autoregressivi, potrebbe aprire una nuova fase nell’evoluzione dell’intelligenza artificiale generativa, soprattutto per tutte quelle applicazioni che richiedono interazione immediata e inferenza locale ad alte prestazioni.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome