OpenAI ha annunciato una preview limitata della nuova famiglia GPT-5.6, composta dai modelli Sol, Terra e Luna, accessibile in questa prima fase a un ristretto gruppo di trusted partner.

Prima dell’annuncio pubblico, l’azienda ha condiviso con il governo degli Stati Uniti i propri piani di rilascio e le capacità dei nuovi modelli, nell’ambito del dialogo avviato con l’Amministrazione americana per definire le future procedure dedicate ai modelli AI di frontiera.

La scelta di avviare la preview con una platea così limitata è avvenuta su richiesta dello stesso governo statunitense. OpenAI precisa tuttavia di non considerare questo processo la modalità ordinaria di rilascio dei modelli AI, ma una misura temporanea adottata mentre vengono definiti il framework previsto dalla futura Cyber Executive Order e una procedura ripetibile per i prossimi rilasci.

Il tema richiama quanto già emerso con il lancio di Claude Mythos 5 da parte di Anthropic e suggerisce come il coordinamento preventivo con le istituzioni stia diventando una componente sempre più rilevante nella distribuzione dei modelli di intelligenza artificiale più avanzati.

Una governance ancora tutta da definire

La scelta evidenzia tuttavia una questione più ampia. Negli ultimi anni molte aziende della Silicon Valley hanno criticato la regolamentazione europea dell’intelligenza artificiale, sostenendo che un eccesso di norme possa rallentare l’innovazione. Il caso GPT-5.6 mostra però un modello di governance differente: anziché fondarsi su una cornice legislativa già definita, il processo si basa su un’interlocuzione diretta tra una società privata e il governo statunitense.

La differenza rispetto all’AI Act europeo è significativa. Il regolamento dell’Unione europea è il risultato di un iter legislativo pubblico, con il coinvolgimento di Commissione, Parlamento e Consiglio, e introduce regole formalizzate, trasparenti e uguali per tutti gli operatori. Nel caso della preview di GPT-5.6, invece, non sono pubblici i criteri con cui vengono selezionati i partner ammessi, le modalità di valutazione del modello né gli elementi che guidano le decisioni dell’esecutivo, né risulta previsto un meccanismo di supervisione indipendente analogo a quello proprio di un procedimento regolatorio.

Questo non implica necessariamente che il processo sia meno efficace sotto il profilo della sicurezza. Evidenzia però come, almeno in questa fase, la governance dei modelli di frontiera negli Stati Uniti si basi più su accordi operativi e rapporti istituzionali che su un quadro normativo consolidato. Una differenza destinata probabilmente ad alimentare il confronto internazionale sui modelli di regolazione dell’intelligenza artificiale avanzata.

Sol, Terra e Luna: una nuova famiglia di modelli

OpenAI introduce una nuova famiglia di modelli articolata su tre livelli permanenti di capacità, identificati con i nomi latini Sol, Terra e Luna. Il numero 5.6 identifica la generazione tecnologica, mentre i tre nomi resteranno stabili nelle evoluzioni future della piattaforma.

La nuova famiglia comprende:

  • GPT-5.6 Sol, il modello flagship dedicato ai carichi di lavoro più complessi;
  • GPT-5.6 Terra, progettato per offrire il miglior equilibrio tra prestazioni e costi;
  • GPT-5.6 Luna, orientato a velocità elevate e costi contenuti.

Secondo OpenAI, Terra offre prestazioni competitive rispetto a GPT-5.5 con un costo dimezzato, mentre Luna costituisce l’offerta più economica dell’intera gamma.

Max reasoning e Ultra: il ragionamento diventa multi-agent

La principale innovazione tecnologica della nuova generazione riguarda il modo in cui il modello affronta problemi complessi.

GPT-5.6 introduce infatti un nuovo livello di elaborazione denominato max reasoning effort, che consente al modello di dedicare più tempo al ragionamento prima di produrre una risposta. L’obiettivo è migliorare la qualità della pianificazione, delle analisi articolate e dei workflow che richiedono numerosi passaggi intermedi.

Accanto a questa modalità debutta anche Ultra, una configurazione che supera il paradigma del singolo agente AI. Invece di affidare tutto il lavoro a un’unica istanza del modello, Ultra coordina subagenti specializzati che collaborano tra loro, suddividendo attività come pianificazione, ricerca, esecuzione e verifica dei risultati.

Si tratta di uno dei primi esempi esplicitamente presentati da OpenAI di architettura multi-agent integrata direttamente nella piattaforma.

Pur senza entrare nei dettagli implementativi, OpenAI presenta Ultra come un passo oltre il paradigma del singolo agente, anticipando un’evoluzione verso sistemi composti da più agenti cooperativi specializzati.

Prestazioni: nuovi benchmark in coding, biologia e cybersecurity

OpenAI ha pubblicato una prima serie di benchmark, precisando che la suite completa sarà resa disponibile al momento del rilascio generale.

Nel coding, GPT-5.6 Sol raggiunge il 91,9% sul benchmark TerminalBench 2.1, dedicato ai workflow da riga di comando che richiedono pianificazione, iterazione e coordinamento degli strumenti. GPT-5.5 ottiene l’88,0%, Claude Mythos 5 l’84,3% e Gemini 3.1 Pro Preview il 70,7%.

Anche Terra e Luna mostrano prestazioni elevate, confermando che i miglioramenti non riguardano esclusivamente il modello di fascia più alta.

Nel settore scientifico, GPT-5.6 Sol migliora i risultati su GeneBench v1, benchmark dedicato alle analisi genomiche e di biologia quantitativa, ottenendo punteggi superiori rispetto a GPT-5.5 con un utilizzo inferiore di token, riducendo così anche il costo computazionale delle elaborazioni.

In ambito cybersecurity, OpenAI evidenzia progressi sia su ExploitBench, dedicato alla ricerca di vulnerabilità e allo sviluppo di exploit, sia su ExploitGym, benchmark sviluppato dall’Università della California Berkeley insieme a OpenAI e ad altri laboratori specializzati.

Secondo l’azienda, GPT-5.6 Sol raggiunge prestazioni confrontabili con Claude Mythos Preview utilizzando circa un terzo dei token generati.

Sicurezza: capacità maggiori accompagnate da protezioni più robuste

Se le nuove capacità costituiscono il principale elemento tecnico dell’annuncio, la sicurezza rappresenta il vero filo conduttore dell’intero rilascio.

OpenAI sottolinea infatti che GPT-5.6 Sol debutta con il sistema di salvaguardie più avanzato mai sviluppato dall’azienda, progettato per rendere il modello più utile nelle attività difensive senza facilitarne l’impiego per operazioni offensive.

Secondo OpenAI, il modello è oggi più efficace nell’identificare vulnerabilità, suggerire correzioni, sviluppare patch e supportare il debugging rispetto alla capacità di realizzare autonomamente attacchi completi.

Le valutazioni condotte nell’ambito del Preparedness Framework indicano infatti che GPT-5.6 Sol non supera la soglia “Cyber Critical, la classificazione utilizzata dall’azienda per identificare modelli che richiederebbero ulteriori limitazioni. Durante i test effettuati su Chromium e Firefox il sistema è riuscito a individuare bug e primitive di exploit, ma non ha prodotto autonomamente una catena completa di compromissione funzionante.

OpenAI sottolinea tuttavia che nessun benchmark può rappresentare tutti gli scenari reali di utilizzo e che proprio questa incertezza ha portato ad accompagnare l’aumento delle capacità con un rafforzamento delle misure di sicurezza.

Uno stack di sicurezza multilivello

Per GPT-5.6 OpenAI adotta un’architettura di protezione composta da numerosi livelli complementari.

Il primo consiste nell’addestramento del modello a rifiutare richieste proibite, comprese quelle che tentano di aggirare le restrizioni attraverso tecniche di jailbreak o mascheramento dell’intento.

Durante la generazione delle risposte intervengono inoltre classificatori specializzati nei domini cyber e biologico. Nei casi ritenuti più delicati la generazione può essere sospesa e sottoposta alla revisione di un modello di ragionamento più potente che valuta l’intero contesto della conversazione prima di autorizzare o bloccare la risposta.

Il sistema comprende inoltre analisi a livello di account, che consentono di individuare comportamenti persistenti riconducibili a possibili attività malevole distinguendoli dai normali workflow di ricerca sulla sicurezza, nei quali gli stessi concetti tecnici possono avere finalità esclusivamente difensive.

OpenAI sta inoltre sviluppando funzionalità dedicate agli ambienti enterprise, comprese tecniche di rilevazione rispettose della privacy, controlli di sicurezza gestiti direttamente dai clienti e livelli di accesso calibrati sul profilo di rischio dell’organizzazione.

Oltre 700.000 ore GPU dedicate al red teaming

Per validare il nuovo sistema di protezione OpenAI dichiara di aver impiegato oltre 700.000 ore equivalenti di GPU NVIDIA A100 in attività di automated red teaming, una tecnica che utilizza altri modelli di intelligenza artificiale per mettere sistematicamente alla prova il modello in fase di sviluppo.

Invece di affidarsi esclusivamente a ricercatori umani, OpenAI impiega modelli AI per generare automaticamente migliaia di tentativi di jailbreak, richieste malevole e scenari di attacco, con l’obiettivo di individuare vulnerabilità, comportamenti inattesi e strategie in grado di aggirare le protezioni. L’azienda spiega di essersi concentrata in particolare sui cosiddetti universal jailbreak, tecniche che possono funzionare in un’ampia varietà di contesti e non soltanto su uno specifico prompt.

Questa attività è stata affiancata da settimane di test condotti da esperti esterni, incaricati di individuare modalità di abuso non previste dai sistemi automatici.

Secondo OpenAI, la combinazione tra red teaming automatizzato e verifiche umane consente di esplorare un numero molto maggiore di scenari rispetto ai soli test manuali, riducendo il tempo necessario per individuare nuove vulnerabilità e trasformarle in ulteriori misure di protezione.

API, prezzi e disponibilità

Durante la preview GPT-5.6 sarà disponibile esclusivamente tramite API e Codex per un numero limitato di partner.

Il rilascio più ampio su ChatGPT, Codex e API è previsto nelle prossime settimane.

I prezzi API, calcolati per milione di token, sono:

Modello Input Output
GPT-5.6 Sol 5 $ 30 $
GPT-5.6 Terra 2,50 $ 15 $
GPT-5.6 Luna 1 $ 6 $

OpenAI introduce inoltre un nuovo sistema di prompt caching, con una durata minima garantita di 30 minuti, supporto ai cache breakpoints espliciti e un modello tariffario più prevedibile per le applicazioni che riutilizzano frequentemente gli stessi prompt.

Infine, l’azienda ha annunciato che GPT-5.6 Sol sarà disponibile anche sull’infrastruttura Cerebras a partire da luglio, raggiungendo velocità fino a 750 token al secondo, inizialmente riservate a un gruppo selezionato di clienti.

Più che un semplice aggiornamento prestazionale, GPT-5.6 segna quindi l’avvio di una nuova fase nell’evoluzione di OpenAI. Da un lato introduce una nuova architettura della famiglia di modelli, modalità di ragionamento più profonde e un primo approccio esplicito ai sistemi multi-agent. Dall’altro inaugura un modello di rilascio nel quale capacità tecniche, sicurezza e interlocuzione istituzionale diventano elementi sempre più strettamente intrecciati. Resta però aperta la questione di quale sarà, in futuro, la cornice regolatoria entro cui questo rapporto tra sviluppatori di frontier model e governi verrà formalizzato.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome