Negli ultimi due anni la competizione nell’intelligenza artificiale si è concentrata soprattutto sulla costruzione di modelli sempre più grandi. Il parametro di riferimento era il numero di miliardi di parametri, la qualità dei benchmark e la capacità di ragionamento. Oggi, però, la sfida sta cambiando.
Una volta completato l’addestramento, ogni richiesta inviata a un chatbot, a un assistente AI o a un agente autonomo deve essere elaborata dai sistemi di inferenza. È questa fase, molto più del training, a determinare il costo operativo quotidiano di un servizio AI: ogni token generato consuma tempo di GPU, memoria, energia elettrica e capacità infrastrutturale.
È in questo contesto che si inserisce DSpark, il nuovo framework open source sviluppato da DeepSeek-AI, l’azienda cinese che con i modelli DeepSeek-R1 e DeepSeek-V4 è diventata uno dei principali protagonisti della nuova generazione di modelli AI open source.
Sviluppato insieme all’Università di Pechino, DSpark rappresenta più di un aggiornamento tecnico: indica la direzione che sta prendendo l’intero settore, nel quale la competizione potrebbe essere sempre meno legata alla costruzione del modello più grande e sempre più alla capacità di eseguire modelli già esistenti in modo più rapido, economico ed efficiente.
Non un nuovo modello, ma un nuovo modo di eseguirlo
DSpark non modifica DeepSeek-V4 né ne aumenta le capacità cognitive. Gli autori sono espliciti: il framework interviene esclusivamente sulla fase di serving, cioè sul processo con cui un modello già addestrato genera le risposte agli utenti.
I Large Language Model generano normalmente il testo in modo autoregressivo. Il termine deriva dalla statistica e indica un processo nel quale ogni nuovo elemento viene calcolato a partire da quelli precedenti della stessa sequenza. Nel caso dei modelli linguistici la sequenza è costituita dai token del testo: ogni nuovo token viene generato utilizzando come contesto tutti quelli già prodotti. Il modello costruisce quindi la risposta un elemento alla volta e non può iniziare a generare il token successivo prima di aver completato quello precedente. All’aumentare della lunghezza della risposta cresce anche il numero di elaborazioni richieste, riducendo l’utilizzo effettivo delle GPU e aumentando la latenza percepita dagli utenti. Gli autori definiscono questa dinamica uno dei principali colli di bottiglia dei moderni sistemi di produzione per l’intelligenza artificiale.
DSpark cerca di ridurre il lavoro del modello principale, facendolo intervenire soltanto quando questo produce un beneficio concreto.
La speculative decoding entra nella maturità
La speculative decoding (decodifica speculativa) non nasce con DeepSeek. Negli ultimi anni sono stati proposti numerosi approcci, tra cui Medusa, Eagle, Hydra, DFlash e altri sistemi di multi-token prediction.
Il principio è sempre lo stesso. Un modello molto più piccolo anticipa una possibile sequenza di token; il modello principale la verifica in un’unica elaborazione invece di generarli uno per volta. Se le previsioni risultano corrette, è possibile produrre più token con un singolo forward pass, riducendo la latenza senza alterare il risultato finale.
DeepSeek parte da questa idea, ma osserva che gli approcci esistenti presentano due limiti strutturali.
Il primo è qualitativo. Quando tutti i token vengono generati contemporaneamente, le ultime posizioni della sequenza tendono progressivamente a perdere coerenza, aumentando la probabilità che vengano rifiutate durante la verifica.
Il secondo è infrastrutturale. Verificare sempre l’intero blocco di token significa occupare risorse GPU anche quando la probabilità di accettazione è molto bassa, riducendo la capacità complessiva del sistema di servire utenti concorrenti.
Una verifica che si adatta al carico del sistema
La parte più innovativa del framework riguarda la logica con cui DeepSeek decide quando interrompere la verifica.
DSpark introduce un sistema che stima, per ogni token proposto, la probabilità che venga realmente accettato dal modello principale. Queste informazioni vengono poi combinate con lo stato corrente dell’infrastruttura attraverso un Hardware-Aware Prefix Scheduler, che decide dinamicamente quanti token convenga verificare.
Nei sistemi tradizionali il modello esegue sempre lo stesso tipo di elaborazione indipendentemente dal carico della piattaforma. DSpark, invece, trasforma l’inference in un problema di allocazione dinamica delle risorse. Se le GPU sono poco impegnate può permettersi verifiche più lunghe; quando il sistema è vicino alla saturazione riduce automaticamente il lavoro svolto dal modello principale, privilegiando soltanto i token che hanno elevate probabilità di essere accettati.
In altre parole, non cerca di calcolare di più, ma di calcolare soltanto ciò che offre il miglior rapporto tra costo computazionale e beneficio.
I numeri dichiarati da DeepSeek
Nei benchmark offline DSpark supera sistematicamente sia Eagle3 sia DFlash sui modelli Qwen3 e Gemma4, aumentando il numero medio di token accettati per ogni ciclo di speculative decoding.
Ancora più significativi sono i dati relativi all’impiego nei sistemi di produzione.
Secondo il paper, l’integrazione di DSpark nell’infrastruttura di DeepSeek-V4 consente di aumentare la velocità di generazione percepita dall’utente tra il 60% e l’85% nella versione Flash e tra il 57% e il 78% nella versione Pro, mantenendo livelli comparabili di throughput complessivo. Gli autori sostengono inoltre che il framework riesca a mantenere livelli di servizio elevati anche in condizioni nelle quali il precedente sistema basato su MTP-1 vedeva degradare rapidamente le proprie prestazioni.
Molto più di un algoritmo
Ridurre DSpark a un semplice algoritmo di speculative decoding rischia però di far perdere il significato più ampio del progetto.
DSpark non rappresenta un’iniziativa isolata. Negli ultimi diciotto mesi DeepSeek ha pubblicato con continuità componenti che coprono livelli differenti dello stack AI: DeepEP per ottimizzare le comunicazioni nei modelli Mixture-of-Experts, DeepGEMM per accelerare le operazioni matematiche sulle GPU, il file system distribuito 3FS, gli studi sull’infrastruttura hardware di DeepSeek-V3 e, naturalmente, i nuovi modelli della famiglia DeepSeek-V4.
Nel loro insieme questi progetti delineano una strategia precisa. L’azienda non si limita a sviluppare modelli linguistici, ma costruisce progressivamente un ecosistema nel quale ogni componente – dal file system alle librerie GPU, fino agli algoritmi di inference – contribuisce ad aumentare l’efficienza complessiva della piattaforma.
È un’impostazione diversa rispetto a quella seguita da molti concorrenti occidentali, che concentrano gran parte della comunicazione sulle capacità dei modelli. DeepSeek dedica invece una parte crescente della propria ricerca all’ottimizzazione dell’intera catena di esecuzione.
La risposta cinese ai vincoli sull’hardware
È difficile leggere questo lavoro senza considerare il contesto geopolitico nel quale nasce.
Le restrizioni statunitensi sull’esportazione delle GPU più avanzate hanno limitato l’accesso delle aziende cinesi all’hardware di ultima generazione. Questo non significa che la ricerca cinese sia rimasta indietro; al contrario, sembra aver spostato una parte significativa degli sforzi dall’aumento della potenza di calcolo all’aumento dell’efficienza.
DSpark rappresenta un esempio concreto di questa evoluzione. Invece di puntare esclusivamente su acceleratori sempre più potenti, il lavoro cerca di ottenere di più dalle risorse già disponibili, riducendo gli sprechi di calcolo e aumentando il numero di richieste che ogni GPU può gestire.
Sarebbe eccessivo attribuire questa scelta soltanto alle restrizioni commerciali. L’ottimizzazione dell’inference è oggi una priorità anche per OpenAI, Anthropic, Google, Meta e gli hyperscaler, perché il costo operativo dei servizi AI cresce rapidamente con l’aumento degli utenti.
Nel caso cinese, tuttavia, la disponibilità relativamente più limitata dell’hardware di fascia più alta sembra aver accelerato una direzione di ricerca orientata a massimizzare l’efficienza algoritmica. È una dinamica osservata più volte nella storia dell’innovazione: quando una risorsa critica diventa difficile da ottenere, il vantaggio competitivo tende a spostarsi dalla disponibilità dell’hardware alla qualità del software e degli algoritmi. In questo senso DSpark rappresenta non soltanto un nuovo framework di inference, ma anche un esempio di come i vincoli tecnologici possano favorire approcci più creativi all’ottimizzazione delle risorse.
La prossima competizione si giocherà sul costo per token
Per anni la domanda è stata quale azienda sarebbe riuscita a costruire il modello più potente. Oggi la domanda sta diventando diversa: quale azienda riuscirà a eseguire quel modello al costo più basso?
Se questa sarà davvero la nuova metrica competitiva, framework come DSpark potrebbero avere un impatto almeno pari a quello dei nuovi modelli linguistici. Un modello leggermente meno performante ma significativamente più economico da servire può infatti risultare, in molti contesti enterprise, una scelta tecnologica ed economica più vantaggiosa.
Per oltre un decennio la legge empirica del settore è stata che prestazioni migliori richiedessero hardware sempre più potente. Framework come DSpark suggeriscono invece una prospettiva diversa: una parte crescente del vantaggio competitivo potrebbe derivare dalla capacità di sfruttare meglio l’hardware già disponibile. Se questa tendenza si consoliderà, l’innovazione nell’intelligenza artificiale passerà sempre meno dall’aumento dei parametri e sempre più dall’efficienza con cui ogni GPU viene utilizzata.






