AWS re:Invent 2025: governare gli agenti in produzione con controlli deterministici e qualità misurabile

3 Dicembre 2025

Il quarto livello della filiera agent-first è quello che trasforma l’autonomia agentica in una proprietà industriale. Dopo infrastruttura, inferenza e dati proprietari, resta il nodo più delicato: un agente che pianifica, sceglie strumenti e agisce su sistemi reali non può essere governato con gli stessi meccanismi con cui si governa un modello generativo “a risposta singola”. Matt Garman lo dice in modo diretto: oggi gli agenti sono in grado di generare ed eseguire codice o azioni “al volo”, quindi “non possiamo essere certi di quello che faranno” quando operano in autonomia. È il vero freno alla produzione enterprise: quando le azioni hanno effetti sul business, il comportamento probabilistico del modello da solo non basta.

Da questa diagnosi nasce la piattaforma Bedrock per agenti, che AWS struttura come runtime unico con controlli deterministici, valutazioni continue e strumenti nativi per dare agli agenti contesto aziendale. L’obiettivo non è rendere gli agenti più “bravi”, ma renderli prevedibili, misurabili e auditabili.

AgentCore come runtime per agenti persistenti

AgentCore è il piano di esecuzione su cui AWS vuole standardizzare la vita operativa degli agenti: sessioni persistenti, memoria, registro dei tool, logging e osservabilità. Il senso architetturale è simile a quello di Bedrock per i modelli: separare ciò che cambia (prompt, modelli, tool, dati) da ciò che deve restare stabile (governance, telemetria, ciclo di vita). In questo modo un’azienda può costruire agenti che durano nel tempo e che continuano a funzionare mentre l’ecosistema attorno evolve. Il runtime è anche il punto di innesto per i controlli deterministici della piattaforma.

Policy: vincoli deterministici in tempo reale

La prima estensione critica è AgentCore Policy. Garman la introduce come risposta al paradosso centrale dell’agentica: più un agente è autonomo, più diventa rischioso. Policy aggiunge quindi un livello di autorizzazione deterministico che si interpone tra le intenzioni dell’agente e l’esecuzione reale su sistemi e dati aziendali. Ogni azione proposta viene verificata in tempo reale e solo se conforme alle policy viene eseguita.

La parte chiave è come questo controllo viene espresso. Le policy si definiscono in linguaggio naturale, ma vengono tradotte automaticamente in Cedar, linguaggio open source di autorizzazione già usato in AWS. Il risultato è che il confine non vive nel prompt — dove sarebbe fragile e aggirabile — ma in una regola formale esterna che l’agente non può bypassare. Garman lo rende concreto con esempi operativi (“blocca rimborsi sopra i 1.000 dollari”, “non accedere a dati fuori dal Paese X”), chiarendo che l’autorizzazione impiega millisecondi e non spezza il flusso di lavoro agentico.

Dal punto di vista enterprise, Policy è la condizione di ingresso degli agenti nei processi reali: separa la capacità di interpretare e pianificare (modello) dalla capacità di agire entro limiti verificabili (policy), rendendo l’autonomia compatibile con compliance e rischio operativo.

Evaluations: qualità sotto controllo continuo

Il secondo pilastro è AgentCore Evaluations. Garman collega la funzione al ciclo naturale dell’AI in produzione: modelli, prompt, tools e dati cambiano continuamente, e ogni cambiamento può degradare l’agente in modo invisibile finché non esplode in produzione. Evaluations serve a mettere questa qualità prima sotto regressione sistematica e poi sotto monitoraggio costante.

Le valutazioni avvengono pre-deploy per verificare che una nuova versione dell’agente mantenga il comportamento atteso e continuano in produzione per intercettare drift, regressioni sottili o “creative misalignment”. I risultati vengono integrati nella telemetria operativa, con logging e metriche che confluiscono nei sistemi di osservabilità AWS (Garman cita l’integrazione con CloudWatch). L’idea è trattare un agente come si tratta un servizio critico: non si aggiorna senza CI/CD e senza misure di qualità misurabili nel tempo.

Quick e Connect: due esempi di agentica già in produzione

Per mostrare che questa infrastruttura non è pensata per un futuro ipotetico, Garman inserisce due esempi di servizi AWS che già incorporano capacità agentiche. Il primo è Quick, usato come assistente deep research per utenti business: nel caso descritto, un team fiscale raccoglie informazioni da fonti interne ed esterne, l’agente ricostruisce il contesto e Quick viene impiegato per organizzare e visualizzare i risultati, aiutando a monitorare cambi normativi e a reagire operativamente senza sviluppo dedicato. Quick diventa così il riferimento per una produttività agentica che porta ricerca, sintesi e insight direttamente nelle mani di chi lavora sui contenuti e sulle decisioni.

Il secondo esempio è Amazon Connect, presentato come piattaforma cloud di contact center che sta evolvendo in direzione AI- e agent-powered: self-service automatizzato, raccomandazioni in tempo reale per gli operatori e automazioni che riducono attrito e tempi di risposta nei flussi di assistenza. Garman lega Connect a una trazione ormai strutturale, indicando un run-rate annualizzato oltre il miliardo di dollari, e lo usa come prova che l’agentica sta già trasformando workload core come la customer experience. Quick e Connect sono quindi due casi speculari — analytics/knowledge work e customer service — scelti per far vedere come la logica agent-first si manifesti già dentro servizi esistenti, prima ancora di arrivare agli strumenti generali di costruzione e governance degli agenti.

Il senso del quarto livello è rendere l’autonomia un attributo controllabile, non una scommessa. AgentCore fornisce il runtime persistente; Policy stabilisce ciò che un agente può o non può fare con regole deterministiche esterne al prompt; Evaluations mantiene stabile la qualità mentre tutto il resto evolve. Quick e Connect funzionano da proof point: mostrano che le capacità agentiche entrano già oggi in servizi di produzione e in processi business-critical senza trasformarsi in un rischio operativo.