F5 e NVIDIA ottimizzano l’inferenza AI con BIG-IP Next e DPU BlueField-3

8 Aprile 2026

F5 ha annunciato un ampliamento delle funzionalità nell’ambito della collaborazione con NVIDIA, finalizzato ad accelerare e ottimizzare le infrastrutture di inferenza AI.

L’integrazione combina F5 BIG-IP Next for Kubernetes con le DPU NVIDIA BlueField-3, creando un livello infrastrutturale intelligente e basato sulla telemetria che aumenta la capacità di elaborazione dei token grazie a un migliore utilizzo delle GPU, riduce la latenza e abilita piattaforme AI multi-tenant sicure su larga scala.

Nei sistemi di intelligenza artificiale, i token rappresentano l’unità di misura dell’output dell’AI: parole, simboli o frammenti di dati generati ed elaborati durante l’inferenza. Il volume e la velocità di generazione dei token determinano in ultima analisi l’esperienza utente, l’efficienza dell’infrastruttura e i ricavi per acceleratore.

Con le aziende e i fornitori di GPUaaS che cercano di trarre profitto rapidamente dall’AI e passare dalla sperimentazione a servizi in grado di generare ricavi, l’efficienza dell’infrastruttura è diventata un parametro chiave. Il successo è sempre più misurato non solo in base alla capacità delle GPU implementate, ma anche in termini di economia dei token, capacità di elaborazione di questi ultimi, tempo al primo token (TTFT), costo per token e ricavi per acceleratore GPU. La soluzione congiunta di F5 e NVIDIA è progettata per rispondere direttamente a questi indicatori.

Ottimizzare l’economia dei token attraverso un’infrastruttura AI intelligente

Il passaggio da un’inferenza incentrata sulle applicazioni a flussi di lavoro di AI guidati dagli agenti richiede nuovi approcci architetturali per ottimizzare i throughput dei token e ridurre i costi. BIG-IP Next for Kubernetes sfrutta ora le statistiche NVIDIA NIM, i segnali di runtime Dynamo e la telemetria delle GPU per prendere decisioni di instradamento basate sull’inferenza prima dell’esecuzione. Abbinando in tempo reale i carichi di lavoro agli acceleratori più appropriati, la soluzione aumenta l’utilizzo sostenuto riducendo al contempo latenza e rielaborazioni.

“L’infrastruttura AI non riguarda più solo l’accesso alle GPU o la scalabilità delle loro implementazioni. Si è evoluta fino a puntare sulla massimizzazione del ritorno economico per acceleratore”, ha affermato Kunal Anand, Chief Product Officer di F5. “In collaborazione con NVIDIA, stiamo consentendo alle AI factory di trattare la produzione di token come un indicatore di business misurabile. BIG-IP Next for Kubernetes fornisce l’intelligenza e la governance necessarie per aumentare la resa delle GPU, ridurre il costo per token e scalare con sicurezza le piattaforme AI condivise”.

Efficienza infrastrutturale comprovata: un passo avanti sostanziale

I dati sulle prestazioni parlano da soli. Nei test convalidati da The Tolly Group, BIG-IP Next for Kubernetes, potenziato dalle DPU NVIDIA BlueField-3, ha registrato fino al 40% di incremento della capacità di elaborazione dei token, un “Time To Forst Token” (TTFT) più veloce del 61% e una riduzione del 34% della latenza complessiva delle richieste.

Non si tratta di miglioramenti incrementali. Trasferendo le operazioni di rete, TLS/crittografia, bilanciamento del carico ottimizzato per l’AI e gestione del traffico alle DPU NVIDIA BlueField-3, BIG-IP Next for Kubernetes preserva la capacità della CPU dell’host e libera le GPU per fare ciò per cui sono state progettate: inferenze sostenute e ad alta velocità su larga scala. Il risultato è un utilizzo delle GPU più efficiente, la riduzione dei ritardi di attesa e un aumento della resa dei token, consentendo un costo per token inferiore all’interno di un’infrastruttura a ingombro fisso. È importante sottolineare che non sono state necessarie modifiche ai modelli, rendendo questi vantaggi immediatamente applicabili all’infrastruttura esistente delle AI factory. Per le aziende e i fornitori NeoCloud che competono nell’economia dei token, questa è la differenza tra un’infrastruttura che limita l’output dell’AI e una che la accelera.

“L’infrastruttura di calcolo accelerata di NVIDIA, abbinata alla piattaforma F5 di distribuzione e sicurezza delle applicazioni ottimizzata per l’AI, offre una economia dei token di livello superiore per l’AI Factory, garantendo inferenze scalabili ed economiche senza modificare alcun modello”, ha affermato Kevin Deierling, SVP, Networking, NVIDIA. “Insieme, F5 e NVIDIA permettono alle aziende di scalare l’inferenza dell’AI Factory in modo efficiente ed economico”.

Progettata per agentic AI e piattaforme AI multi-tenant

I carichi di lavoro AI moderni sono sempre più guidati da agenti, persistenti e contestuali. Richiedono un controllo intelligente del traffico che il bilanciamento del carico tradizionale non può garantire. La soluzione BIG-IP Next for Kubernetes potenziata è ora in grado di supportare:

Routing basato sull’inferenza per flussi di lavoro dell’agentic AI
Integrazione con NVIDIA DOCA Platform Framework (DPF) per semplificare l’implementazione e la gestione del ciclo di vita delle DPU NVIDIA BlueField
EVPN-VXLAN con VRF dinamici per un multi-tenancy sicuro a livello di rete
Sicurezza integrata, governance dei token e osservabilità negli ambienti Kubernetes dedicati all’AI

Queste funzionalità consentono ad aziende e fornitori NeoCloud di condividere in sicurezza l’infrastruttura GPU tra business unit o con clienti esterni, mantenendo al contempo l’isolamento delle prestazioni e livelli di servizio prevedibili.

Un control plane per l’economia delle AI factory

F5 e NVIDIA mettono a disposizione delle aziende strumenti collaudati e best practice per ottimizzare l’architettura di inferenza. Grazie a questi progressi, BIG-IP Next for Kubernetes è destinato a diventare un control plane strategico per gli economics delle AI factory, regolando il consumo di token, ottimizzando i flussi di traffico e massimizzando il ritorno sull’investimento infrastrutturale.

Invece di sovradimensionare le risorse per compensare le inefficienze, le organizzazioni possono ora ottenere un maggiore valore economico da ogni GPU già in produzione. Il risultato è un incremento dei ricavi per GPU, una riduzione dei costi operativi e servizi di AI scalabili progettati per una crescita sostenibile. Combinando la telemetria infrastrutturale e l’accelerazione DPU di NVIDIA con le capacità di analisi del traffico e sicurezza di F5, le due aziende aiutano le imprese a trasformare le proprie AI factory in piattaforme efficienti e monetizzabili, pronte per l’era degli agenti.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

iscriviti alla newsletter