Ciao a tutti, sono Vincenzo Lomonaco, ricercatore e docente all’Università di Pisa.

Nella puntata di oggi parliamo di un argomento di recentissimo interesse. Parliamo di intelligenza artificiale agentica e di Operator, recentissimo modello di OpenAI, rilasciato giusto qualche giorno fa, che ne è un esempio eccellente.

Perché sviluppare questo tipo di metodologia e fin dove possiamo arrivare con questo approccio? Scopriamolo insieme in questa puntata di Le Voci dell’AI.

OpenAI ha recentemente annunciato il rilascio di Operator, un agente di intelligenza artificiale progettato per automatizzare attività digitali per gli utenti.

Operator è infatti in grado di navigare autonomamente nel web interagendo con elementi come pulsanti, menu e campi di testo per svolgere compiti complessi come prenotare viaggi, ordinare generi alimentari e compilare moduli.

Attualmente Operator è disponibile per gli abbonati Pro di ChatGPT negli Stati Uniti.

Operator utilizza, in realtà, un modello avanzato chiamato Computer-Using Agent (CUA), che combina le capacità visive di ChatGPT 4o con un sistema di ragionamento avanzato.

Al momento OpenAI sta collaborando con aziende come Instacart, Uber, ebay, per migliorare l’accessibilità, usabilità, efficacia in generale di Operator, che rimane comunque oggi, va sottolineato, un prototipo principalmente di ricerca.

Nonostante le sue promettenti capacità, infatti, permangono sfide legate all’usabilità e soprattutto ai potenziali rischi di un utilizzo improprio di uno strumento così potente.

Ad oggi, quindi, Operatori include misure di sicurezza integrate e richiede approvazioni per compiti critici.

Ma attualmente non gestisce, per esempio, transazioni bancarie o decisioni relative a candidature di lavoro.

Questo rilascio comunque, segna l’ingresso, se vogliamo, di Operator nel competitivo mercato degli agenti di AI, affiancandosi ad altre grandi aziende tecnologiche che si stanno muovendo già in questo senso.

In questo video vediamo un esempio di utilizzo di operator presentato sul sito di OpenAI, che dimostra la sua efficacia nell’interagire con interfacce grafiche web per completare compiti complessi.

In questo caso, al CUA viene assegnato il compito di completare un quiz di grammatica inglese all’interno del sito web Cambridge Dictionary e di riportare il risultato finale all’utente.

Il processo quindi inizia con l’analisi e lo screenshot dell’interfaccia di Cambridge Dictionary, che include domande a scelta multipla con pulsanti di opzione e un pulsante di invio.

Il CUA utilizza le sue capacità di visione per interpretare gli elementi visivi dell’interfaccia, identificando le domande e le possibili risposte.

Successivamente applica anche le sue competenze linguistiche per determinare la risposta corretta a ciascuna domanda e, una volta selezionata la risposta appropriata, il CUA simula l’azione dell’utente cliccando sul pulsante corrispondente e al termine premendo il pulsante di invio per completare il quiz.

Quindi questo esempio evidenzia la capacità del CUA di combinare percezione visiva, comprensione linguistica e azioni simulate per interagire efficacemente con un’interfaccia grafica, eseguendo compiti che richiedono una comprensione contestuale e soprattutto la pianificazione di una sequenza di azioni senza la necessità di Api interfacce informatiche specifiche o l’intervento di un esperto umano.

Ed ecco che, per concludere, il sistema riporta all’utente il suo risultato eccellente di 12/12 in un quiz sulla declinazione degli aggettivi.

Ma facciamo un passo indietro: che cosa si intende per AI agentica? L’innovazione dell’intelligenza artificiale agentica risiede nella sua capacità di operare in modo autonomo e interattivo, simulando un agente che percepisce l’ambiente, prende le decisioni e agisce per raggiungere obiettivi specifici.

Diversamente dall’AI tradizionale che si limita a fornire risposte o eseguire compiti predefiniti, l’intelligenza artificiale agentica integra componenti di percezione, ragionamento e azione, consentendole di adattarsi dinamicamente a contesti complessi.

A differenza quindi di un large language model come GPT che risponde a prompt testuali forniti dall’utente, un sistema agentico può addirittura pianificare e intraprendere iniziative senza input umano diretto.

Ad esempio, un agente potrebbe monitorare costantemente il sistema, identificare un problema e provare a implementare una soluzione che lo risolva autonomamente.

Questo è reso possibile grazie alla combinazione dei modelli dei linguaggi avanzati, come quelli alla base di GPT, con algoritmi, algoritmi di decision making, motori di pianificazione e capacità di integrazione con sistemi esterni.

Quindi l’intelligenza artificiale agentica supera i limiti tradizionali dei Large Language Models, che sono reattivi e confinati a scenari di interazione, trasformandosi in entità proattive in grado di eseguire azioni nel mondo reale, come gestire operazioni complesse, interfacciarsi con applicazioni software e hardware.

Questo approccio quindi rappresenta, se vogliamo, un passo in avanti significativo verso sistemi intelligenti che apprendono e agiscono in modo continuo, adattivo e autonomo.

In questa immagine vediamo l’architettura generale di Operator e il suo funzionamento.

Il processo inizia con l’input fornito al CUA, costituito da due elementi principali: un testo che descrive il compito richiesto, il prompt.

Ad esempio scrivi un documento sulla storia di OpenAI e uno screenshot dell’interfaccia grafica del sistema operativo o dell’applicazione in esecuzione.

Il CUA utilizza queste informazioni per analizzare l’ambiente e pianificare le azioni necessarie per il superamento del compito.

Le azioni generate sono movimenti del mouse, click in posizioni specifiche.

Ad esempio, vedete nell’immagine Click 300 200, la posizione del pixel dove effettivamente muovere il mouse e altre operazioni come l’inserimento di testo.

Queste azioni sono campionate dal modello in base alla percezione e al ragionamento contestuale.

Le azioni poi vengono tradotte in comandi ed eseguite direttamente in una macchina virtuale, come vediamo sulla destra, che rappresenta l’ambiente digitale in cui CUA opera.

In questa immagine vediamo invece i risultati empirici che mostrano il confronto delle prestazioni di OpenAI CUA rispetto ai modelli precedenti, allo stato dell’arte e agli umani in diversi benchmark, ovvero infrastrutture di valutazione Nel contesto dell’uso del computer, quindi più in generale, non solo del web, OpenAI CUA raggiunge addirittura il 38% di compiti risolti con successo, superando significativamente il precedente Stato dell’Arte che raggiungeva solo il 22%, ma stando inferiore rispetto al livello umano che si attesta sul 72.

Per quanto riguarda la navigazione web in WebArena, il CUA ottiene circa il 58%, superando di gran lunga il precedente stato dell’arte e avvicinandosi agli umani che detengono il 78%.

Lo stesso si può dire per il benchmark WebVoyager, dove raggiunge addirittura un impressionante 87%, eguagliando il precedente stato dell’arte per agenti, squisitamente di navigazione web.

Ecco, questi risultati evidenziano la capacità del CUA di eccellere in compiti basati sull’interazione con interfaccia grafica, riducendo il divario rispetto agli umani in contesti e compiti particolarmente complessi.

Tuttavia, il margine di miglioramento rimane evidente, soprattutto nell’uso generale di un computer.

Bene, in questa puntata abbiamo discusso del recentissimo prototipo di OpenAI chiamato Operator, un agente autonomo capace di sostituirci nel risorgimento di compiti complessi sul web operator. Si basa sulla tecnologia CUA che rende possibile l’interazione autonoma con il mondo digitale, quindi non solo nel web, ma nell’utilizzo di un qualsiasi computer con una interfaccia grafica.

I risultati iniziali sono davvero appassionanti, predetti e incredibili. Da un certo punto di vista, infatti, non possiamo che aspettarci nel futuro agenti intelligenti, sempre più liberi e autonomi di muoversi e operare nel nostro mondo digitale.

Ciao! Alla prossima puntata de Le Voci dell’AI.