Le voci dell’AI – Episodio 22: la qualità delle risposte di ChatGPT sta peggiorando?

Ciao a tutti! Questo è l’episodio ventidue di Le Voci dell’AI.

Oggi parliamo di un argomento controverso che viene dibattuto ormai da settimane: il potenziale degrado delle qualità di ChatGPT nel tempo.

Se vi è capitato di visitare il forum dedicato a ChatGPT sul social network Reddit avrete certamente visto centinaia di post di utenti frustrati al punto tale da aver cancellato la sottoscrizione a ChatGPT+. Ma OpenAI serve milioni di utenti in tutto il mondo e la maggioranza non si è lamentata, almeno non in maniera pubblica.

E quindi è vero o non è vero che le risposte offerte, per esempio dal modello GPT4, sono diventate meno utili e precise negli ultimi mesi? E se sì quali sono le implicazioni per un cliente o un partner tecnologico di OpenAI, e in che modo questa cosa influenzerà l’adozione dei modelli locali, come il nuovissimo LLaMA 2 rilasciato da Meta?

Prima di tutto, chiariamo un punto fondamentale. Quando parliamo di ChatGPT offerto da OpenAI o Bard offerto da Google, stiamo parlando di sistemi di intelligenza artificiale generativa, non di modelli di intelligenza artificiale generativa. Un sistema di intelligenza artificiale generativa può essere un chatbot o un assistente AI o un traduttore, un software che genera riassunti per testi molto lunghi e così via. Un sistema di intelligenza artificiale generativa è un’impalcatura tecnologica che viene creata intorno a un modello di AI generativa.

Per esempio, ChatGPT è un sistema di intelligenza artificiale che è stato costruito da OpenAI intorno ai modelli GPT 3.5 Turbo, GPT 4 e GPT4 with Code Interpreter, che è una cosa nuovissima e così via. Alla stessa maniera, Bard è un sistema di intelligenza artificiale che è stato costruito da Google intorno a un modello chiamato PaLM 2.

Perché ci interessa questo dettaglio apparentemente insignificante? Perché quando valutiamo le capacità di un chatbot e ci lamentiamo, per esempio, di come ChatGPT dia risposte peggiori in luglio a confronto di marzo, stiamo suggerendo due possibili scenari.

Il primo scenario è questo: OpenAI ha cambiato il modello che sta alla base di ChatGPT senza cambiarne il nome, e questo nuovo modello fa un lavoro peggiore di quello precedente. Questo primo scenario è stato negato in più occasioni dallo staff di OpenAI.

Il secondo scenario possibile è questo: OpenAI ha cambiato qualcosa nel sistema di intelligenza artificiale costruito intorno ai modelli GPT 3.5 Turbo e GPT 4 e questo cambiamento ha influenzato in maniera negativa il modo in cui quei modelli rispondono agli utenti.

Questo scenario è più complicato da valutare perché ci sono una miriade di funzionalità che OpenAI sta attivando all’interno di ChatGPT, e alcune di queste funzionalità potrebbero aver influenzato la qualità delle risposte per alcuni utenti e questa influenza negativa potrebbe dipendere da un bug o da un eccesso di cautela da parte di OpenAI nel controllare le risposte dei propri modelli. Mentre le performance dei modelli sono misurabili semplicemente attraverso l’interazione diretta, le performance del sistema non lo sono perché OpenAI non offre accesso aperto alle funzionalità di ChatGPT.

Per esempio, i ricercatori non sanno esattamente che tipo di sistema viene iniettato da Open AI in ogni conversazione che gli utenti hanno all’interno di ChatGPT.

Il prompt di sistema è un prompt che viene passato al modello di AI generativa prima del prompt scritto dall’utente e condiziona, come si dice in gergo, le risposte del modello, indipendentemente da quello che chiede l’utente. Se il prompt di sistema intima al modello di AI di rispondere a ogni domanda con non più di cinquanta parole e ignorare ogni richiesta dell’utente di cambiare quel limite, ecco che le performance del modello cambiano drasticamente in una maniera che non è direttamente misurabile.

Per vederci più chiaro, tre ricercatori delle università di Stanford e Berkeley hanno studiato il problema e hanno riportato i risultati proprio la settimana scorsa.

Il verdetto? Assolutamente sì. ChatGPT è peggiorato nel tempo e in alcuni casi in maniera drammatica.

Entrambi i modelli GPT 3.5 Turbo e GPT 4 hanno visto un degrado della precisione e della qualità delle risposte generate da marzo a giugno di quest’anno per alcune delle quattro aree oggetto della valutazione.

Nel caso di uno di questi compiti, la soluzione di problemi di matematica, GPT 4 ha visto un peggioramento del 95%. Come dire che è diventato praticamente inutile.

Un’altra area di degrado è la generazione di codice di programmazione, uno dei casi d’uso principali citato dagli utenti frustrati di Reddit, ovviamente.

Questa ricerca ha scatenato un dibattito ancora più grande e un altro paio di ricercatori ha immediatamente rifiutato i risultati di questo documento.

Questo secondo gruppo obietta: invece di valutare se il codice generato da GPT 4 è più o meno accurato tra marzo e giugno, tutto quello che la ricerca ha fatto è stato considerare il fatto che, oltre al codice, GPT 4 ha cominciato a spiegare in maniera più dettagliata il codice generato e questo fatto, l’impossibilità di eseguire codice direttamente da un copia incolla è bastato al primo gruppo di ricercatori per dichiarare una performance peggiore.

Non entro nel merito di tutte le critiche, ma vi dico che in effetti la metodologia usata per la ricerca lascia un po’ a desiderare. Eppure le lamentele di centinaia di utenti rimangono.

E quindi chi ha ragione? OpenAI ha già detto che è a conoscenza di questa nuova ricerca e che prenderà in seria considerazione l’analisi.

Alcuni membri della comunità rimangono convinti che qualcuno non la stia dicendo tutta e che OpenAI potrebbe avere operato una serie di cambiamenti nel sistema, non nel modello, per ridurre il costo di computazione e migliorare le performance.

Altri invece hanno suggerito che noi esseri umani ci siamo abituati così velocemente alle incredibili capacità di GPT 4 che abbiamo cominciato a chiedere di più e abbiamo cominciato a notare i limiti delle risposte che prima eravamo troppo meravigliati per notare.

Io personalmente dubito fortemente che questa sia la spiegazione di quello che sta succedendo.

Quello che conta è che questa storia crea un’incertezza sull’affidabilità dei sistemi di AI centralizzati che prima non esisteva e, giusto per essere chiari, non è una cosa che riguarda solo OpenAI, ma tutti gli altri fornitori tecnologici che competono con OpenAI, da Anthropic a Google, da Microsoft a Cohere e così via.

I modelli di intelligenza artificiale generativa sono sempre stati non deterministici. Cioè non è possibile garantire al cento per cento che una domanda fatta a un modello riceva sempre la stessa identica risposta, esattamente come l’interazione con gli esseri umani.

È quella impalcatura tecnologica che aziende come OpenAI creano intorno ai modelli, quella cosa che abbiamo chiamato sistema di AI generativa, che deve minimizzare la variazione tra le risposte. Ma c’è una differenza enorme tra due risposte che fondamentalmente dicono la stessa cosa e due risposte che dicono cose materialmente diverse.

Le aziende che hanno cominciato ad adottare l’AI generativa o si preparano a farlo non hanno mai considerato uno scenario simile. Il rischio è quello di implementare in azienda un sistema AI che nel tempo offra risposte così qualitativamente diverse da diventare praticamente un altro prodotto. Un prodotto che forse fa un sacco di errori e non avreste mai comprato da principio.

A differenza di altre aree tecnologiche come lo storage o la connettività di rete dove è possibile accordarsi con un fornitore tecnologico su un certo Service Level Agreement, nel mondo dei Large Language Model, almeno per come li abbiamo inventati oggi, questa cosa non è possibile.

E quindi? E quindi se questa incertezza comincia a propagarsi tra i potenziali clienti di OpenAI e i concorrenti, le aziende potrebbero cominciare seriamente a considerare delle alternative che possono essere installate nei propri data center e che non cambiano dal giorno alla notte in maniera opaca.

Oggi il candidato più papabile per una implementazione locale è il modello sviluppato da Meta chiamato LLaMA 2, rilasciato la settimana scorsa. Meta insiste nel dire che il modello è rilasciato con una licenza open source, ma non è assolutamente vero. Il modello ha delle restrizioni nella licenza d’uso che lo rendono incompatibile con la definizione di open source.

Meta continua a usare il termine open source come uno strumento di marketing per attirare l’attenzione e il supporto di centinaia di migliaia di esperti di AI, che non sono al tempo stesso esperti di licenze di software e non vedono le implicazioni a lungo termine di questo uso improprio del termine.

Detto questo, la licenza di Meta permette alle aziende di tutto il mondo di utilizzare LLaMA 2 a scopo commerciale. Basta che non diventiate così grandi e famosi da raggiungere settecento milioni di utenti attivi al mese. Dovesse mai succedere, soprattutto grazie a LLaMA, preparatevi a negoziare una licenza straordinariamente costosa con Meta.

Ci fermiamo qui per questa settimana. Come sempre, scrivetemi i vostri commenti, le domande e i suggerimenti per gli argomenti da trattare nei prossimi episodi.

Ciao!

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome