GPT-5: in cosa è migliorato e quali capacità ha l’ultimo modello di punta di OpenAI

GPT-5

Ieri, dopo un’attesa che si è protratta per diversi mesi, OpenAI ha presentato GPT-5, il miglior sistema di intelligenza artificiale fino ad oggi dell’azienda, a detta del team stesso che lo ha sviluppato.

OpenAI afferma che GPT-5 rappresenta un significativo salto in avanti in termini di intelligenza rispetto a tutti i suoi modelli precedenti, offrendo prestazioni all’avanguardia in ambiti come coding, matematica, scrittura creativa e altro ancora. Si differenzia anche come architettura, dai modelli precedenti: si tratta di un sistema unificato che sa quando rispondere rapidamente e quando riflettere più a lungo per fornire risposte a livello esperto. 

GPT-5 è stato reso disponibile per tutti gli utenti, con accesso ampliato per gli abbonati a pagamento, mentre gli abbonati Pro avranno accesso a GPT-5 Pro, una versione con capacità di ragionamento estese per risposte ancora più accurate e complete.

Ma come funziona questo sistema AI unificato? È la stessa OpenAI a spiegarlo.

GPT-5GPT-5: un sistema unificato, un modello più intelligente e più utile

GPT-5 è un sistema unificato con un modello intelligente ed efficiente che risponde alla maggior parte delle domande, un modello di ragionamento più profondo (GPT-5 thinking) per problemi più complessi, e un router in tempo reale che decide rapidamente quale utilizzare in base al tipo di conversazione, alla complessità, alla necessità di strumenti e alla intenzione esplicita dell’utente (ad esempio, se nel prompt scrive “pensa bene a questo”). 

Il router viene continuamente addestrato su segnali reali, inclusi i cambi di modello da parte degli utenti, le preferenze sulle risposte e la correttezza misurata, migliorando nel tempo. Una volta raggiunti i limiti di utilizzo, una versione mini di ciascun modello gestisce le query rimanenti. In futuro, OpenAI prevede di integrare queste capacità in un unico modello.

OpenAI dichiara che GPT-5 non solo supera i modelli precedenti nei benchmark e risponde più velocemente, ma è anche più utile nelle richieste del mondo reale. Il team, anche nella presentazione in live streaming, ha sottolineato di aver fatto grandi progressi nella riduzione delle allucinazioni, nel miglioramento della capacità di seguire le istruzioni e nel limitare l’eccessiva compiacenza, migliorando al contempo le prestazioni di GPT-5 in tre degli usi più comuni di ChatGPT: scrittura, coding e salute.

Il team ne è sicuro: GPT-5 è il modello di coding più potente finora, di OpenAI. Mostra miglioramenti significativi nella generazione front-end complessa e nel debugging di repository di grandi dimensioni. 

Spesso riesce a creare siti web, app e giochi di aspetto piacevole e responsivi in un solo prompt, trasformando le idee in realtà in modo intuitivo e con un buon gusto estetico. I primi tester hanno notato anche le sue scelte di design, con una comprensione molto migliore di aspetti come spaziatura, tipografia e spazi bianchi.

Per quanto riguarda l’espressione creativa e scrittura, secondo OpenAI GPT-5 è il collaboratore nella scrittura più capace di OpenAI di sempre, in grado di aiutare gli utenti a sviluppare e tradurre idee grezze in testi coinvolgenti e profondi, con ritmo e qualità letteraria. Gestisce in modo più affidabile testi con ambiguità strutturale, come il pentametro giambico non rimato o il verso libero che scorre in modo naturale, combinando rispetto per la forma e chiarezza espressiva. 

Queste capacità migliorate significano che ChatGPT è ora più utile per attività quotidiane come la stesura e la revisione di report, email, memo e altro ancora.

OpenAI definisce GPT-5 il suo miglior modello per le domande legate alla salute, offrendo agli utenti la possibilità di informarsi e difendere la propria salute. Il modello ottiene punteggi significativamente superiori rispetto ai modelli precedenti su HealthBench, una valutazione pubblicata qualche mese fa da OpenAI e basata su scenari realistici e criteri definiti da medici. Rispetto ai modelli precedenti, afferma l’azienda, si comporta più come un partner di pensiero attivo, segnalando proattivamente potenziali problemi e facendo domande per fornire risposte più utili. 

Il modello offre anche risposte più precise e affidabili, adattandosi al contesto, al livello di conoscenza e alla località dell’utente, permettendogli di fornire risposte più sicure e utili in un’ampia gamma di situazioni. OpenAI stessa mette comunque in guardia sul fatto che è importante sottolineare che ChatGPT non sostituisce un professionista medico: l’azienda consiglia di pensarlo come un partner che può aiutare a comprendere i risultati, porre le domande giuste durante le visite e valutare le opzioni decisionali.

Valutazioni di OpenAI

GPT-5 – sottolinea OpenAI – è molto più intelligente su tutti i fronti, come dimostrato dalle sue prestazioni nei benchmark accademici e nelle valutazioni umane, in particolare in matematica, coding, percezione visiva e salute. Stabilisce un nuovo stato dell’arte in matematica (94,6% su AIME 2025 senza strumenti), coding nel mondo reale (74,9% su SWE-bench Verified, 88% su Aider Polyglot), comprensione multimodale (84,2% su MMMU) e salute (46,2% su HealthBench Hard), e questi miglioramenti si riflettono nell’uso quotidiano. Con il ragionamento esteso di GPT-5 Pro, il modello stabilisce anche un nuovo SOTA su GPQA, ottenendo l’88,4% senza strumenti.

GPT-5 mostra miglioramenti significativi nei benchmark che testano l’instruction following e l’uso di strumenti agenziale, ovvero le capacità che gli consentono di eseguire in modo affidabile richieste in più fasi, coordinare diversi tool e adattarsi ai cambiamenti di contesto. In pratica, sottolinea il team, ciò significa che è più efficiente nella gestione di compiti complessi e in continua evoluzione: GPT-5 è in grado di seguire le istruzioni degli utenti in modo più fedele e di portare a termine una maggiore quantità di lavoro dall’inizio alla fine utilizzando gli strumenti a sua disposizione.

Il modello eccelle in una serie di benchmark multimodali, che spaziano dal ragionamento visivo, basato su video, spaziale e scientifico. Prestazioni multimodali più elevate significano che ChatGPT è in grado di ragionare in modo più accurato su immagini e altri input non testuali, che si tratti di interpretare un grafico, riassumere una foto di una presentazione o rispondere a domande su un diagramma.

OpenAI mette inoltre in evidenza che GPT-5 è anche il suo modello con le migliori prestazioni in un benchmark interno che misura la performance dei modelli su attività di conoscenza complesse e di valore economico. Quando utilizza il ragionamento, GPT-5 è paragonabile o superiore agli esperti in circa la metà dei casi, mentre supera OpenAI o3 e ChatGPT Agent in attività che abbracciano oltre 40 professioni, tra cui diritto, logistica, vendite e ingegneria, afferma l’azienda.

GPT-5 ottiene più valore con meno tempo di riflessione, spiega OpenAI. Nelle valutazioni interne dell’azienda, GPT-5 (con thinking) ottiene prestazioni migliori rispetto a OpenAI o3 con il 50-80% in meno di token di output in tutte le funzionalità, tra cui ragionamento visivo, coding agenziale e risoluzione di problemi scientifici di livello universitario.

GPT-5Un modello più solido e affidabile

Secondo OpenAI GPT-5 è significativamente meno incline alle allucinazioni rispetto ai modelli precedenti dell’azienda. Con la ricerca web abilitata su prompt anonimizzati rappresentativi del traffico di produzione di ChatGPT, le risposte di GPT-5 sono circa il 45% meno inclini a contenere errori fattuali rispetto a GPT-4o, e quando ragiona, le risposte di GPT-5 sono circa l’80% meno inclini a contenere errori fattuali rispetto a OpenAI o3.

OpenAI ha investito in modo particolare nel rendere i suoi modelli più affidabili nel ragionamento su domande complesse e aperte. Di conseguenza, ha aggiunto nuove valutazioni per testare la fattualità delle domande aperte. L’azienda ha misurato

il tasso di allucinazioni di GPT-5 quando ragiona su prompt aperti alla ricerca di fatti provenienti da due benchmark pubblici di aderenza ai fatti: LongFact (concetti e oggetti) e FActScore. In tutti questi benchmark, GPT-5 (con ragionamento) mostra un netto calo delle allucinazioni, circa sei volte inferiore rispetto a o3, segnando un chiaro balzo in avanti nella produzione di contenuti lunghi più accurati e coerenti. I dettagli di implementazione e valutazione delle considerazioni del team su questi benchmark sono disponibili nella scheda di sistema.

GPT-5 amplia poi i confini della sicurezza. In passato, sottolinea OpenAI, ChatGPT si basava principalmente su un addestramento alla sicurezza basato sul rifiuto: in base al prompt dell’utente, il modello doveva obbedire o rifiutare. Sebbene questo tipo di training funzioni bene per prompt esplicitamente dannosi, può avere difficoltà a gestire situazioni in cui l’intenzione dell’utente non è chiara o le informazioni potrebbero essere utilizzate in modo benigno o dannoso. L’addestramento al rifiuto è particolarmente inflessibile per i domini a duplice uso come la virologia, dove una richiesta innocua può essere completata in modo sicuro ad un livello elevato, ma potrebbe consentire ad un malintenzionato di agire se completata in dettaglio.

Per GPT-5, il team ha introdotto una nuova forma di training alla sicurezza, i completamenti sicuri, che insegna al modello a fornire la risposta più utile possibile pur rimanendo entro i limiti di sicurezza. A volte, ciò può significare rispondere parzialmente alla domanda di un utente o rispondere solo a un livello elevato. Se il modello deve rifiutare, GPT-5 è addestrato a spiegare in modo trasparente il motivo del rifiuto e a fornire alternative sicure.

Sia negli esperimenti controllati che nei modelli di produzione, OpenAI ha riscontrato che questo approccio è più sfumato, consentendo una migliore gestione delle domande a doppio uso, una maggiore robustezza rispetto alle intenzioni ambigue e un minor numero di rifiuti eccessivi non necessari. Per saperne di più sul nuovo approccio al training sulla sicurezza, nonché per tutti i dettagli sulla metodologia, le metriche e i risultati, è possibile consultare il paper su safe completion.

Nel complesso, GPT-5 è meno espansivo, utilizza meno emoji non necessarie ed è più sottile e riflessivo nei follow-up rispetto a GPT-4o. Dovrebbe sembrare meno come “parlare con l’IA” e più come chiacchierare con un amico disponibile con un’intelligenza di livello dottorale.

All’inizio di quest’anno OpenAI ha rilasciato un aggiornamento di GPT-4o che ha reso il modello involontariamente eccessivamente adulatorio, ovvero eccessivamente lusinghiero o compiacente. L’azienda ha rapidamente annullato la modifica e da allora ha lavorato per comprendere e ridurre questo comportamento sviluppando nuove valutazioni per misurare i livelli di compiacenza eccessiva e migliorando il training in modo che il modello sia meno adulatorio, ad esempio aggiungendo esempi che normalmente porterebbero a un eccessivo consenso e poi insegnandogli a non farlo.

Nelle valutazioni mirate dell’adulazione utilizzando prompt specificamente progettati per suscitare risposte adulanti, GPT-5 ha ridotto in modo significativo le risposte compiacenti (dal 14,5% a meno del 6%). A volte, la riduzione dell’adulazione può comportare una diminuzione della soddisfazione degli utenti, ma i miglioramenti che il team ha apportato hanno ridotto l’adulazione di oltre la metà, offrendo al contempo altri vantaggi misurabili, in modo che gli utenti continuino ad avere conversazioni costruttive e di alta qualità, in linea con l’obiettivo di OpenAI di aiutare le persone a utilizzare bene ChatGPT.

GPT-5 è significativamente più efficiente nel seguire le istruzioni e OpenAI ha notato un corrispondente miglioramento nella sua capacità di seguire istruzioni personalizzate.

L’azienda sta inoltre lanciando un’anteprima di ricerca di quattro nuove personalità predefinite per tutti gli utenti di ChatGPT, rese possibili dai miglioramenti apportati alla “controllabilità”. Queste personalità, inizialmente disponibili per la chat testuale e in seguito anche per la chat vocale, consentono di impostare il modo in cui ChatGPT interagisce, scegliendo tra uno stile conciso e professionale, premuroso e di supporto o leggermente sarcastico, senza dover scrivere prompt personalizzati. Le quattro opzioni iniziali, Cynic, Robot, Listener e Nerd, sono opzionali, regolabili in qualsiasi momento nelle impostazioni e progettate per adattarsi allo stile di comunicazione dell’utente. Tutte queste nuove personalità soddisfano o superano gli standard interni di valutazione di OpenAI per la riduzione dell’adulazione.

GPT-5 e GPT-5 Pro 

Per i compiti più impegnativi e complessi, OpenAI ha rilasciato anche GPT-5 pro, che sostituisce OpenAI o3-pro: è una variante di GPT-5 che pensa ancora più a lungo, utilizzando un calcolo parallelo scalabile ma efficiente in fase di test, per fornire risposte della massima qualità e completezza. GPT-5 pro raggiunge le prestazioni più elevate nella famiglia GPT-5 su diversi benchmark di intelligenza complessi, tra cui prestazioni all’avanguardia su GPQA, che contiene domande scientifiche estremamente difficili.

Nelle valutazioni su oltre 1000 prompt di ragionamento reali e di valore economico, gli esperti esterni hanno preferito GPT-5 pro rispetto a “GPT-5 thinking” nel 67,8% dei casi. GPT-5 pro ha commesso il 22% in meno di errori gravi e ha eccelso in materia di salute, scienze, matematica e programmazione. Gli esperti hanno valutato le sue risposte come pertinenti, utili e complete.

GPT-5 è il nuovo modello predefinito in ChatGPT, che sostituisce GPT-4o, OpenAI o3, OpenAI o4-mini, GPT-4.1 e GPT-4.5 per gli utenti registrati. Basta aprire ChatGPT e digitare la domanda; GPT-5 si occuperà del resto, applicando automaticamente il ragionamento quando la risposta ne trarrà beneficio. Gli utenti a pagamento possono ancora selezionare “GPT-5 Thinking” dal selettore di modelli o digitare qualcosa come “rifletti attentamente su questo” nel prompt per assicurarsi che venga utilizzato il ragionamento durante la generazione di una risposta.

GPT-5 è ora disponibile per tutti gli utenti Plus, Pro, Team e Free, mentre l’accesso per Enterprise ed Edu sarà disponibile tra una settimana. Gli utenti Pro, Plus e Team possono anche iniziare a programmare con GPT-5 nella CLI Codex effettuando l’accesso con ChatGPT.

Come per GPT‑4o, la differenza tra l’accesso gratuito e quello a pagamento a GPT-5 è il volume di utilizzo. Gli abbonati Pro hanno accesso illimitato a GPT-5 e accesso a GPT‑5 Pro. Gli utenti Plus possono utilizzarlo comodamente come modello predefinito per le domande quotidiane, con un utilizzo significativamente più elevato rispetto agli utenti gratuiti. I clienti Team, Enterprise e Edu possono anch’essi utilizzare comodamente GPT-5 come modello predefinito per il lavoro quotidiano, con limiti generosi che rendono facile per intere organizzazioni affidarsi a GPT-5. Per gli utenti del livello gratuito di ChatGPT, le funzionalità di ragionamento complete potrebbero richiedere alcuni giorni per essere implementate completamente. Una volta che gli utenti gratuiti raggiungono i loro limiti di utilizzo di GPT-5,  passeranno a GPT-5 mini, un modello più piccolo, più veloce e altamente performante.

Ulteriori dettagli, approfondimenti sulla sicurezza e benchmark sono consultabili nel blog di OpenAI.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome