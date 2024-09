OpenAI ha annunciato di aver sviluppato una nuova serie di modelli di intelligenza artificiale progettati per passare più tempo a pensare prima di rispondere. Questi modelli – spiega l’azienda – sono in grado di ragionare su compiti complessi e di risolvere problemi più difficili rispetto ai modelli precedenti in ambito scientifico, di coding e matematico.

OpenAI ha ora rilasciato il primo di questa serie in ChatGPT e nella API. Si tratta di un’anteprima – come evidenziato anche nel nome – e l’azienda prevede di rilasciare aggiornamenti e miglioramenti regolari. Insieme a questo rilascio, il team ha anche pubblicato le valutazioni e i benchmark per il prossimo aggiornamento, attualmente in fase di sviluppo.

Il team ha addestrato questi modelli affinché dedicassero più tempo a riflettere sui problemi prima di rispondere, proprio come farebbe una persona. Grazie all’addestramento, imparano a perfezionare il loro processo di pensiero, a provare diverse strategie e a riconoscere i propri errori.

Nei test dell’azienda, il prossimo aggiornamento del modello ha ottenuto risultati simili a quelli degli studenti di dottorato in compiti di benchmark impegnativi in fisica, chimica e biologia. OpenAI ha anche scoperto che eccelle in matematica e coding. In un esame di qualificazione per le Olimpiadi Internazionali di Matematica (IMO), GPT-4o ha risolto correttamente solo il 13% dei problemi, mentre il modello di ragionamento ha ottenuto l’83%. Le loro capacità di programmazione sono state valutate in concorsi e hanno raggiunto l’89° percentile nelle competizioni di Codeforces. Per saperne di più, si può leggere il post sulla ricerca tecnica.

Essendo un modello in fase iniziale, non dispone ancora di molte delle funzionalità che rendono utile ChatGPT, come la navigazione sul web alla ricerca di informazioni e il caricamento di file e immagini. Per molti casi comuni GPT-4o sarà più capace nel prossimo futuro.

Ma per i compiti di ragionamento complessi questo è un progresso significativo e secondo OpenAI rappresenta un nuovo livello di capacità dell’intelligenza artificiale. Per questo motivo, l’azienda sta “riportando il contatore a 1” e ha chiamato questa serie OpenAI o1.

OpenAI ha sottolineato che, nell’ambito dello sviluppo di questi nuovi modelli, ha ideato un nuovo approccio al training sulla sicurezza che sfrutta le capacità di ragionamento dei modelli per farli aderire alle linee guida sulla sicurezza e sull’allineamento. Grazie alla capacità di ragionare sulle regole di sicurezza nel contesto, il modello può applicarle in modo più efficace, afferma l’azienda.

Un modo per misurare la sicurezza è testare quanto il modello continui a seguire le regole di sicurezza se un utente cerca di aggirarle (il cosiddetto “jailbreak”). In uno dei test interni di jailbreak più difficili, GPT-4o ha ottenuto un punteggio di 22 (su una scala da 0 a 100), mentre il modello o1-preview ha ottenuto 84. Per saperne di più, è possibile consultare la system card.

Per soddisfare le nuove capacità di questi modelli, il team ha rafforzato il lavoro sulla sicurezza, la governance interna e la collaborazione con il governo federale. Questo include test e valutazioni rigorosi utilizzando il Preparedness Framework, il red teaming all’avanguardia e processi di revisione a livello di consiglio di amministrazione, anche da parte del Safety & Security Committee.

Per portare avanti l’impegno per la sicurezza dell’IA, OpenAI ha recentemente formalizzato accordi con gli Istituti per la sicurezza dell’IA degli Stati Uniti e del Regno Unito. L’azienda ha condiviso di aver iniziato a rendere operativi questi accordi, concedendo agli istituti anche l’accesso anticipato a una versione di ricerca di questo modello. Si è trattato di un primo passo importante per la collaborazione, che ha contribuito a stabilire un processo di ricerca, valutazione e test dei modelli futuri prima e dopo il loro rilascio pubblico, mette in evidenza OpenAI.

Secondo il team, queste capacità di ragionamento avanzate possono essere particolarmente utili se si affrontano problemi complessi in ambito scientifico, di programmazione, matematico e simili. Ad esempio, o1 può essere utilizzato dai ricercatori sanitari per annotare i dati di sequenziamento delle cellule, dai fisici per generare complicate formule matematiche necessarie per l’ottica quantistica e dagli sviluppatori di tutti i settori per costruire ed eseguire flussi di lavoro in più fasi.

La serie o1 eccelle nella generazione accurata e nel debug di codice complesso. Per offrire una soluzione più efficiente agli sviluppatori, l’azienda sta rilasciando anche OpenAI o1-mini, un modello di ragionamento più veloce ed economico, particolarmente efficace nel coding. Essendo un modello più piccolo, o1-mini è più economico dell’80% rispetto a o1-preview, il che lo rende un modello potente e conveniente per le applicazioni che richiedono un ragionamento ma non un’ampia conoscenza del mondo.

Gli utenti di ChatGPT Plus e Team potranno accedere ai modelli o1 in ChatGPT da subito. Sia l’o1-preview che l’o1-mini possono essere selezionati manualmente nel model picker e, al momento del lancio, i limiti di frequenza settimanale saranno di 30 messaggi per l’o1-preview e 50 per l’o1-mini. Il team sta lavorando per aumentare queste soglie e consentire a ChatGPT di scegliere automaticamente il modello giusto per una determinato prompt.

Gli utenti di ChatGPT Enterprise e Edu avranno accesso a entrambi i modelli a partire dalla prossima settimana.

Gli sviluppatori che si qualificano per il tier 5 dell’utilizzo dell’API possono iniziare da subito la prototipazione con entrambi i modelli nell’API, con un limite di 20 RPM. L’azienda sta lavorando per aumentare questi limiti dopo ulteriori test. L’API per questi modelli non include attualmente le chiamate di funzione, lo streaming, il supporto per i messaggi di sistema e altre caratteristiche. Per iniziare, è possibile consultare la documentazione dell’API.

OpenAI sta anche pianificando di portare l’accesso a o1-mini a tutti gli utenti di ChatGPT Free.

Questa è un’anteprima dei modelli di ragionamento in ChatGPT e dell’API, sottolinea l’azienda. Oltre agli aggiornamenti dei modelli, OpenAI prevede di aggiungere la navigazione, il caricamento di file e immagini e altre funzionalità per renderli più utili per tutti.

Il team ha anche in programma di continuare a sviluppare e rilasciare modelli della serie GPT, oltre alla nuova serie OpenAI o1.