Ciao a tutti, sono Vincenzo Lomonaco, ricercatore e docente all’Università di Pisa.

Nella puntata di oggi parliamo di Codex, un recentissimo agente virtuale per lo sviluppo software, adesso direttamente disponibile tramite ChatGPT.

Di cosa si tratta in particolare? Perché risulta essere un significativo passo in avanti rispetto agli ausili, alla programmazione che già conosciamo e usiamo come Copilot? Scopriamolo insieme in questa puntata di Le Voci dell’AI.

OpenAI Codex è un modello di intelligenza artificiale sviluppato da OpenAI per comprendere e generare codice sorgente in diversi linguaggi di programmazione.

Derivato da GPT 3, Codex è stato introdotto originariamente nel 2021, pensate come un’evoluzione mirata a una specializzazione di un Large Language Model nel contesto della programmazione, quindi capace di tradurre comandi in linguaggio naturale in codice funzionante.

La sua prima grande applicazione pubblicata è stata quella nel contesto di GitHub Copilot, uno strumento di completamento automatico del codice sviluppato da GitHub una sussidiaria di Microsoft in collaborazione con OpenAI.

Copilot, lanciato inizialmente in versione Preview nel 2021 e poi commercializzato nel 2022, ha effettivamente dimostrato l’efficacia di Codex nell’assistere gli sviluppatori durante la scrittura del codice, proponendo suggerimenti in tempo reale basati sul contesto.

Come abbiamo già raccontato nell’episodio 79 di Le Voci dell’AI, nel corso del tempo Codex è stato integrato in altri strumenti di sviluppo e con l’evoluzione dei modelli linguistici di OpenAI le sue funzionalità sono state poi assorbite e potenziate dalle versioni successive di GPT GPT-4, GPT-4.5 e GPT-4o.

Qualche giorno fa OpenAI ha rilasciato una versione aggiornata di Codex che opera direttamente nel cloud e al quale si può accedere tramite ChatGPT.

Mentre il primo Codex fungeva principalmente da strumento di supporto, di completamento automatico del codice, Il nuovo Codex si presenta come un agente software autonomo in grado di gestire compiti complessi di sviluppo.

Può scrivere nuove funzionalità, correggere bug, eseguire test, proporre pool request e rispondere a domande sul codice esistente operando all’interno di ambienti isolati e configurati nel cloud con il repository dell’utente con tutto il codice dell’utente, proprio come farebbe un programmatore al nostro servizio.

Codex utilizza inoltre il modello codex-1, una versione ottimizzata del modello o3 di OpenAI, addestrata quindi tramite rinforzo su compiti reali di programmazione.

Questa nuova versione segna il passaggio da uno strumento assistito a un vero e proprio collaboratore virtuale nello sviluppo software, capace di operare in parallelo su più task e di adattarsi alle specifiche esigenze del progetto software.

In questa immagine vediamo l’interfaccia semplice e potente di Codex che permette agli sviluppatori di collaborare con un assistente virtuale capace di scrivere codice in modo autonomo.

L’utente può scrivere una richiesta in linguaggio naturale, ad esempio chiedere di aggiornare i test per una nuova versione delle API, e Codex interpreta il compito, genera le modifiche necessarie e le propone in un ambiente cloud isolato. Queste modifiche non vengono applicate direttamente al progetto software principale.

Codex lavora su una copia separata del codice in un ambiente virtuale nel cloud, dove prepara un pacchetto di modifiche, una per request pronto per essere revisionato.

Questo sistema quindi garantisce che il lavoro dell’AI non interferisca con quello degli altri programmatori, magari anche umani, mantenendo l’ambiente di sviluppo stabile e collaborativo.

Ogni modifica proposta viene poi mostrata in un riepilogo chiaro, indicando cosa è stato aggiunto, tolto e può essere esaminata da un programmatore umano prima di essere approvata e unita al progetto.

In questo modo Codex si comporta come un collega che lavora in parallelo al team, svolgendo compiti in autonomia, ma sempre sottoponendo i risultati al controllo umano, mantenendo così alta la qualità del codice e facilitando lo sviluppo senza alcun rischio.

In questa immagine, invece, vediamo una comparazione tra il nuovo modello codex-1, il Large Language Model aggiornato alla sua versione migliore per i compiti di programmazione che abilita Codex e altri modelli OpenAI su compiti classici di programmazione, evidenziando le sue prestazioni superiori.

A sinistra, il grafico mostra i risultati del benchmark SWE-bench Verified dove codex-1 ottiene un’accuratezza maggiore rispetto al modello precedente, o3-high, in tutti i tentativi, raggiungendo circa l’83% al quarto.

Ciò indica che codex-1 è più efficace nel risolvere compiti reali di ingegneria del software, soprattutto quando ha meno tentativi a disposizione, simulando scenari pratici in cui il modello deve agire in modo piuttosto autonomo.

A destra invece vediamo i risultati su compiti interni di sviluppo software di OpenAI che rappresentano scenari concreti affrontati dal team.

Qui codex-1 ottiene un’accuratezza del 75%, superando nettamente dei modelli precedenti, o3-high si ferma al 70%, o4-mini-high al 67%, o1 è significativamente inferiore con solo l’11%.

Questi dati quindi confermano che codex-1 non solo migliora nel completamento del codice, ma è anche il primo modello realmente specializzato ottimizzato per operare come assistente di sviluppo capace di eseguire compiti complessi con coerenza, precisione e autonomia superiori rispetto ai suoi predecessori.

C’è da sottolineare che uno degli obiettivi principali nell’addestramento di codex-1 è stato l’allineamento alle preferenze umane in ambito di programmazione.

Rispetto al modello o3, codex-1 produce in modo sistematico modifiche al codice, patch più pulite, pronte per essere revisionate e integrate nei flussi di lavoro reali dei programmatori.

Per bilanciare sicurezza e utilità, Codex è stato anche addestrato per riconoscere e rifiutare con precisione le richieste legate allo sviluppo di software dannoso, distinguendole chiaramente da quelle legittime che invece intende supportare.

OpenAI ha inoltre rafforzato le proprie policy e introdotto valutazioni di sicurezza rigorose per mantenere efficacemente questi confini.

Bene, in questa puntata abbiamo discusso del nuovo rilascio di Codex da parte di OpenAI, un passo significativo verso la visione a genetica dell’azienda stessa, ossia non offrire solo un insieme di strumenti di automazione che siano in grado di efficientare il lavoro di professionisti umani, ma offrire una vasta gamma di agenti virtuali specializzati che li possano rimpiazzare completamente.

L’ambito dello sviluppo software è sicuramente uno di quei campi particolarmente strutturati dove è più facile dimostrare questa ambizione, dove l’AI ha già dimostrato di operare a livelli altissimi, praticamente umani, di qualità.

Nei prossimi anni non possiamo che aspettarci ulteriori e significativi sviluppi nell’automazione dei processi produttivi in ambito di sviluppo software, lasciando ai professionisti umani solo gli aspetti di controllo, qualità e direzione creativa.

Ciao! Alla prossima puntata di Le Voci dell’AI!

 

 

 

 

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome