AWS re:Invent 2025: AWS mette gli agenti al centro del cloud e ridisegna l’intero stack AI

AWS re:Invent 2025 Photo ©️ Noah Berger

Si è aperto a Las Vegas AWS re:Invent 2025, l’evento più importante di Amazon Web Services nel quale si concentra, in una settimana, il rilascio di gran parte delle novità di piattaforma per l’anno successivo: un mix di keynote, sessioni tecniche, laboratori hands-on, certificazioni, expo con partner e storie di clienti.

L’edizione 2025, alla quale stiamo partecipando, è esplicitamente orientata all’AI. Il cloud non è più solo infrastruttura per applicazioni, ma impianto industriale per modelli e agenti, con annunci che coprono hardware, piattaforma di inferenza, dato proprietario e runtime agentico nello stesso disegno strategico.

Matt Garman, CEO di AWS, apre il keynote ricordando la scala dell’evento e del pubblico – 60.000 persone presenti e quasi due milioni in streaming – per fissare subito il punto: l’AI non è una track verticale, ma la nuova prospettiva con cui AWS rilegge l’intero stack.

Questa cornice viene ancorata ai numeri di AWS. “AWS è cresciuta fino a diventare un business da 132 miliardi di dollari”, con una crescita che accelera al 20% anno su anno; l’incremento nell’ultimo anno è stato di circa 22 miliardi di dollari, un importo che – nelle parole di Garman – supera il fatturato annuo di oltre metà delle Fortune 500. Il messaggio è duplice: c’è una piattaforma già in scala “industriale”, e l’AI si innesta su quella continuità, non su un cambio di rotta improvvisato.

La scala economica viene trasformata in scala ingegneristica. Sullo storage, S3 ha ormai superato i 500 trilioni di oggetti e gestisce centinaia di exabyte, con oltre 200 milioni di richieste al secondo da tre anni consecutivi: dati che anticipano la pressione dei carichi AI su data lake e pipeline di retrieval.  Sul calcolo, più della metà della capacità CPU aggiunta nell’ultimo anno arriva da Graviton, segnale di una piattaforma che continua a ricompattare costi ed energia proprio mentre l’inferenza cresce.  Sul generativo, Bedrock alimenta inferenza per oltre 100mila aziende nel mondo: la GenAI è già workload di produzione, non sperimentazione laterale.

Garman completa l’introduzione con la dimensione fisica globale: 38 regioni e 120 Availability Zone, tre nuove regioni in arrivo, una rete privata planetaria e 3,8 GW di nuova capacità data center aggiunta nell’ultimo anno, “più di chiunque altro al mondo”. L’AI industriale richiede capacità distribuita, resiliente e prevedibile; e AWS sostiene di avere già quella base.

Il punto di flesso: dagli LLM agli agenti

Dopo questa premessa, il keynote cambia tono. Garman riconosce l’esplosione di creatività che la GenAI sta portando nelle aziende, ma inserisce una diagnosi prudente: siamo ancora all’inizio della curva del valore. “Non avete ancora visto i ritorni che corrispondono alla promessa dell’AI… il vero valore non è ancora stato sbloccato”.

Il fattore che cambia la traiettoria sono gli agenti. Garman li descrive come la transizione dai sistemi generativi a sistemi che “svolgono compiti e automatizzano per vostro conto”, ed è qui che “iniziamo a vedere ritorni materiali dagli investimenti AI”.  La tesi è che l’agente non sia un chatbot migliore, ma una nuova unità di software persistente: mantiene contesto nel tempo, pianifica in più step, richiama strumenti, verifica risultati e porta avanti obiettivi operativi fino alla chiusura. In alcuni casi, dice, stanno già moltiplicando di un ordine di grandezza l’impatto delle persone, liberandole dal lavoro ripetitivo che oggi blocca la scalabilità dei processi.

Da questo punto di vista, l’effetto è paragonabile a Internet o al cloud: un cambio di paradigma in cui “miliardi di agenti” diventeranno parte della vita operativa di ogni impresa.  La conseguenza è architetturale: per rendere gli agenti praticabili a quella scala, non basta un modello più grande. Serve una filiera tecnologica completa.

Quattro livelli concatenati

Il cuore del keynote è una costruzione a quattro livelli, introdotti in sequenza logica perché uno senza l’altro renderebbe gli agenti fragili o troppo costosi: AI infrastructure → inference platform → dati proprietari → strumenti per costruire agenti. L’idea è che il “valore agentico” si sblocchi solo se l’intero stack è progettato insieme.

AWS re:Invent 2025 – Photo © Noah Berger

AI infrastructure: ridurre costi e latenza dell’inferenza agentica

Con agenti che concatenano molte inferenze per obiettivo e lavorano in parallelo, costo per token e latenza diventano variabili strutturali. Per questo AWS spinge su un’infrastruttura bifronte. Da un lato porta in cloud la nuova generazione Nvidia con EC2 P6e-GB300 UltraServers basati su GB300 NVL72, pensati per inferenza frontier ad altissima densità di GPU e memoria.  Dall’altro consolida l’acceleratore proprietario: Trainium3 entra in disponibilità generale nelle istanze Trn3, con un salto rilevante in capacità di calcolo, banda memoria ed efficienza energetica, e viene affiancato da una rete chip-to-chip e server-to-server orientata al training distribuito su scala “ultracluster”.

La road map continua con Trainium4, che introduce prestazioni FP4/FP8 più alte e, soprattutto, l’integrazione NVLink Fusion per rack misti Trainium-GPU-Graviton, così da poter scegliere dinamicamente la piattaforma più efficiente per training e inferenza senza cambiare stack.

Nello stesso livello rientrano le AI Factories: infrastrutture full-stack installate on-prem e gestite da AWS come “private region”, per governi e grandi imprese con vincoli di sovranità, compliance o latenza. Non è colocation di GPU, ma un dominio AI completo con acceleratori Nvidia e Trainium, rete ad alte prestazioni, storage e Bedrock/SageMaker locali con lo stesso modello operativo del cloud pubblico.

Approfondisci: AWS re:Invent 2025: potenziare l’infrastruttura AI per ridurre il costo marginale degli agenti e la latenza operativa

Inference platform: Bedrock come tessuto multi-modello

Il secondo livello è l’inferenza. Garman insiste sulla “model choice”: non esiste un unico modello adatto a tutto, e le applicazioni non possono essere riscritte a ogni salto di generazione. Bedrock viene quindi posizionata come runtime stabile per servire modelli diversi sotto governance unificata. La trazione è di produzione: aziende Bedrock raddoppiate in un anno e decine di clienti che hanno superato un trilione di token ciascuno.

Il catalogo si amplia con 18 nuovi modelli open-weight in un unico rilascio, inclusi gli ingressi Mistral: Mistral Large 3 come open-weight frontier multimodale e Ministral 3 come famiglia compatta generalista.  Accanto al multi-provider, AWS rafforza anche la linea proprietaria con Nova 2 (Lite, Pro, Sonic e Omni), costruita per price-performance nativo su Bedrock e per casi agentici, voce realtime e multimodalità unificata.

Approfondisci: AWS re:Invent 2025: consolidare l’inferenza multi-modello per scegliere il modello giusto per ogni processo

Dati proprietari: specializzare i foundation model “dall’interno

Il terzo livello riguarda il vantaggio competitivo. Garman pone un limite preciso al fine-tuning: migliora ma non basta, perché non trasferisce davvero dominio se i dati non entrano nel pre-training. Da qui Nova Forge, che permette di partire da checkpoint intermedi dei Nova 2 e “fondere” i dati aziendali lungo la traiettoria di training, generando foundation model privati (“Novella”) poi eseguibili in Bedrock come modelli interni.

Approfondisci: AWS re:Invent 2025: innestare i dati proprietari nel training e nel retrieval per trasformarli in vantaggio competitivo

Tools per agenti: autonomia, controllo e qualità

Il quarto livello riguarda la messa in produzione degli agenti. Il vincolo non è solo farli funzionare, ma farli agire in modo verificabile quando devono usare tool e dati reali. Garman osserva che un agente che pianifica e genera codice “non è deterministico per definizione”, quindi non basta fidarsi del modello.

Da qui AgentCore, runtime per agenti persistenti, con due nuove estensioni significative: Policy, che introduce controlli deterministici in tempo reale tra agente e sistemi aziendali, ed Evaluations, che mette la qualità degli agenti sotto regressione continua prima e dopo il deploy.

Su questa base si innestano strumenti per memoria e automazione che mostrano l’agentica già in produzione su servizi AWS esistenti: Quick, l’assistente di deep research per utenti business, Quick Flows, agenti leggeri personali o di team per automatizzare attività ripetitive e portare capacità agentiche nel lavoro quotidiano. mentre Connect è l’esempio lato customer service: una piattaforma cloud di contact center ormai “AI and agent powered”, con self-service automatizzato e raccomandazioni in tempo reale per gli operatori. Quick e Connect, sottolinea Garman, sono due esempi di come queste capacità stiano già entrando nei servizi prima ancora di arrivare agli strumenti generalisti per costruire e governare agenti su larga scala.

Approfondisci: AWS re:Invent 2025: portare gli agenti nei workflow aziendali per modernizzare applicazioni e automatizzare operations

Filiera unitaria e implicazione strategica

La struttura a quattro livelli chiarisce perché AWS parla di “agent-first” come progetto di piattaforma, non come feature. L’infrastruttura (GPU e Trainium) serve a domare i costi dell’inferenza multi-step; Bedrock rende il mondo multi-modello progettuale, non caotico; Nova Forge sposta la differenziazione sui dati proprietari dentro la costruzione del modello; AgentCore con Policy/Evaluations rende l’autonomia governabile e continuativamente misurabile. S3 e S3 Vectors chiudono il cerchio portando memoria e retrieval dentro lo stesso substrato dati che alimenta il training.

È un modo di dire che gli agenti non possono diventare “miliardi” se restano un add-on: devono essere il risultato di uno stack coerente in cui silicio, runtime di inferenza, specializzazione sui dati, tool-calling e sicurezza crescono insieme.

Agenti già al lavoro: modernizzazione e operations come prova di scala

Dopo aver definito gli strumenti che rendono gli agenti governabili in produzione — runtime persistente, controlli deterministici e valutazioni continue — Garman sposta il fuoco sull’esito pratico di questo stack. La filiera agent-first non si chiude in modo astratto: viene subito tradotta in servizi verticali dove l’autonomia controllata diventa lavoro operativo misurabile.

Da un lato c’è AWS Transform, presentato come servizio di modernizzazione agentica full-stack: gli agenti analizzano grandi patrimoni legacy, ricostruiscono dipendenze e obiettivi di migrazione, poi automatizzano trasformazioni coordinate e ripetibili su ambienti Windows/.NET, mainframe e VMware. Dall’altro arrivano i Frontier Agents — Kiro per sviluppo, Security Agent per SecOps e DevOps Agent per operations — descritti come agenti persistenti specializzati, capaci di seguire obiettivi lunghi con memoria stabile e parallelismo, operando come forza lavoro software su backlog, incidenti e postura di sicurezza. Non è un nuovo livello tecnico separato, ma la prima evidenza industriale di ciò che lo stack abilita: quando infrastruttura, inferenza, dati proprietari e governance sono allineati, gli agenti entrano nei processi reali e producono ROI strutturale.

È questa la direzione complessiva del keynote: trasformare l’AI da funzione “a richiesta” a catena operativa continua, sostenuta da un’architettura end-to-end che parte dal silicio e arriva ai workflow di modernizzazione, sviluppo e gestione IT.

Approfondisci: AWS re:Invent 2025: portare gli agenti nei workflow aziendali per modernizzare applicazioni e automatizzare operations

 

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome