Le voci dell’AI – Episodio 15: Come la disinformazione mina la comprensione della tecnologia e le scelte di business

Ciao a tutti! Le voci dell’AI, episodio numero quindici.

Oggi parliamo di disinformazione, non la disinformazione causata dall’uso dell‘AI generativa, che è un argomento di enorme importanza. No, oggi parliamo della disinformazione sull’intelligenza artificiale. Cioè parliamo degli articoli e delle infografiche che vediamo passare sui social media e che non fanno altro che confondere i milioni di aziende nel mondo che si stanno domandando se come adottare l’AI per avanzare il proprio business. Il motivo per cui voglio parlare di questo argomento è che questa settimana ho visto condividere su LinkedIn una di queste infografiche preparata da una delle società di capitali di ventura più famose della Silicon Valley.

Ovviamente la fama di questa società e il ruolo che gioca nel mercato dà enorme peso a qualunque cosa pubblica e quindi l’infografica in questione acquisisce autorevolezza istantaneamente, a prescindere dalla qualità del contenuto. Evito di ripresentarla qui per non divulgare ulteriormente la disinformazione, ma non posso fare a meno di commentare la pratica e per essere il più chiaro possibile.

Questo non è un problema causato dalla specifica società di capitali di ventura. È un problema causato dalla miriade di partecipanti del mercato che ha l’interesse primario di vendere qualcosa a qualcuno e conta sulla confusione di quel qualcuno: società di venture capital, fornitori tecnologici, system integrator, aziende di consulenza, influencer.

Tutti cercano di trarre beneficio da un’esplosione di interesse e dalla confusione che ne deriva. Lo vediamo succedere ogni volta che una tecnologia emerge e ha un potenziale straordinario. Negli ultimi due decenni lo abbiamo visto a livello macroscopico con la virtualizzazione. Prima è il cloud computing, poi… e ogni volta che succede il risultato è che le aziende di tutto il mondo piombano in uno stato di confusione assoluta e spesso bloccano completamente l’adozione della nuova tecnologia. L’imbarazzo della scelta e la poca onestà dell’informazione ricevuta portano alla paralisi.

Come ci difendiamo oggi? Vi suggerisco due regole.

Regola numero uno: state lontani dalle slide piene di box e loghi che vi insegnano qual è l’aspetto di uno stack di intelligenza artificiale.

Prima di tutto, la quasi totalità di queste infografiche è di una qualità mediocre. Le aziende che vedete menzionate nei vari rettangoli colorati sono spesso classificate in maniera erronea o discutibile, giacché non c’ è una reale metodologia dietro questi contenuti e quasi nessuna esperienza nel segmentare il mercato.

Il risultato è che l’azienda AI X, che magari svolge un compito eccellente nel fare il training dei modelli di AI, finisce invece in un’altra categoria, per esempio chiamata sperimentazione, dove probabilmente non andrete a guardare. Spesso questi errori sono dovuti alla limitata comprensione di quello che fanno le aziende o all’inesperienza nel classificare mercati emergenti.

Occasionalmente questi errori sono intenzionali per evitare che l’audience faccia un confronto diretto tra la startup del portfolio di una società di venture capital e un concorrente diretto. Quindi, se proprio dovete utilizzare una di queste infografiche, chiedetevi sempre chi l’ha creata e quali sono le motivazioni dietro questa attività.

La seconda cosa che è critica da tenere a mente quando guardate queste infografiche è questa: non categorizzate mai i prodotti sul mercato in base a quello che il prodotto sostiene di fare. Suona controintuitivo, lo so. i prodotti dei vari fornitori tecnologici, sia in un mercato emergente come quello delle AI, che in un mercato maturo come quello del cloud computing, vengono categorizzati in base alle funzioni che hanno e quanto sono simili tra di loro nelle cose che fanno.

Grazie a quelle funzioni, i fornitori tecnologici decidono che il loro prodotto appartiene, per esempio, alla categoria Vector database in base a delle definizioni di mercato create da aziende di analisi come Gartner, IDC, Forrester, eccetera, in base alle decisioni prese da un singolo individuo nella divisione di marketing della startup del caso o in base ad una terminologia che prende piede nelle comunità tecnologiche a seconda di quanto bene l’audience di potenziali clienti risponde a questa categorizzazione.

il fornitore tecnologico lascia il proprio prodotto nella categoria Vector Database o inventa dal giorno alla notte una categoria alternativa. Il mondo reale però non funziona così: le aziende di tutto il mondo non usano i prodotti in base all’etichetta assegnata arbitrariamente da un tecnologo che è influenzato da altri tecnologi: le aziende in maniera piuttosto creativa adattano i prodotti più semplici o quelli che hanno a disposizione per risolvere il problema di business del giorno, anche se questi prodotti non rientrano nella categoria associata al problema in questione. Ecco perché molto spesso i fondatori delle startup nelle interviste che rilasciano dicono spesso: i nostri clienti stanno usando il nostro prodotto per un caso d’uso completamente diverso da quello che ci aspettavamo.

Quindi qual è la raccomandazione? Ignorate le box delle infografiche e le loro etichette e indagate piuttosto quale problema i prodotti elencati nelle infografiche risolvono.

Regola numero due: domandatevi e domandate se gli articoli e le ricerche sull’intelligenza artificiale che leggete oggi descrivono un panorama che rimarrà valido nei prossimi dodici mesi.

Facciamo un esempio pratico: il modello dei più potente sul mercato al momento, GPT-4 sta per diventare infinitamente più potente. Non sto parlando dell’avvento di GPT-5, che a quanto dichiara OpenAI non è ancora entrato in fase di training, ma delle funzionalità aggiuntive che GPT-4 sta per acquisire.

La prima e più importante è un’enorme espansione della cosiddetta context window. Ricordiamo cos’è una context window: per un modello di AI è un po’ come la memoria a breve termine per gli esseri umani, quella porzione del cervello che ci aiuta a ricordare le informazioni che ci servono per sostenere una conversazione con un’altra persona per un periodo di tempo o per eseguire un’azione complessa come andare in un’altra stanza per prendere un oggetto che ci serve: senza una memoria a breve termine dimenticheremmo quello che stavamo dicendo o perché siamo andati in un’altra stanza oggi.

GPT-4 ha una memoria a breve termine di soli 8.000 token, circa 6.000 parole e abbiamo già visto nell’episodio dodici che OpenAI conta di rilasciare una versione GPT-4 con una context window di 32.000 token. Però in un’intervista recentissima il CEO di OpenAI ha suggerito che prima della fine dell’anno potremmo vedere una versione di GPT-4 con un milione di token, cioè 750.000 parole. La seconda più importante capacità che GPT-4 sta per acquisire è la cosiddetta multimodalità, cioè la capacità di accettare come input non solo del testo – il cosiddetto prompt – ma anche immagini o audio, e generare per tutta risposta testo, immagini, video, audio, voce sintetica. Quindi, come abbiamo visto in una demo preparata per il lancio del GPT-4 in un prossimo futuro il modello sarà in grado di vedere e manipolare le immagini.

Cos’altro farà GPT-4? Probabilmente OpenAI si sta preparando a lanciare la terza generazione del modello DALL·E, il primo che abbiamo visto in grado di generare immagini e quello che è rimasto più indietro a livello di qualità delle immagini prodotte a confronto di Midjourney e Stable Diffusion. Oggi GPT-4 è già in grado di invocare l’aiuto di DALL·E 2 per la creazione di immagini, come richiesto nel prompt dell’utente.

Illustrazione Justin Jay Wang × DALL·E

Quindi è piuttosto probabile che quando DALL·E 3 sarà disponibile sul mercato, GPT-4 diventerà l’interfaccia principale per usarlo. Qualcos’altro? Probabilmente sapete che OpenAI ha appena lanciato, anche se ancora in fase beta, un sistema di plug-in che permette a GPT-4 di acquisire nuove funzionalità: navigare su Internet, leggere un pdf, generare un grafico, fare operazioni matematiche complesse e così via.

Al momento la stragrande maggioranza di questi plugin non è particolarmente utile ed è più un esercizio di marketing per le aziende che li producono che un vero valore aggiunto per i clienti, ma molte aziende di prima grandezza stanno preparando dei plug-in per GPT-4 e quando questi plug-in arriveranno sul mercato, GPT-4 potrà accedere a e manipolare una grande varietà di contenuti che oggi non può raggiungere.

Altre capacità in arrivo per questa AI? Probabilmente l’interazione vocale.

Affinché un Large Language Model come GPT-4 acquisisca la capacità di interagire vocalmente con gli utenti sono necessari due componenti: un componente acquisisce la voce dell’utente e la trasforma in testo – quello che si chiama Speech-to-text; l’altro componente trasforma la risposta di GPT-4 in una voce sintetica, quello che si chiama Text-to-speech. OpenAI ha già rilasciato gratis e con una licenza open source un modello di AI incredibilmente potente per lo Speech-to-text. Si chiama Whisper ed è diventato in brevissimo tempo la base di molti prodotti che fanno riconoscimento vocale e il secondo componente non è ancora in vista.

Le prestazioni di Whisper variano notevolmente a seconda della lingua. La figura mostra la ripartizione del WER (Word Error Rate) per lingua del set di dati Fleurs utilizzando il modello large-v2. Incredibilmente le prestazioni per l’italiano sono seconde soltanto a quelle per lo spagnolo, e migliori di quelle per l’inglese.

Ma l’anno scorso OpenAI ha assunto lo sviluppatore che ha creato uno dei modelli di text-to-speech più realistici al mondo. E uno dei cofondatori di OpenAI, Andrej Karpathy, scrive nella sua biografia su Twitter che sta lavorando a una specie di Jarvis, l’eloquente intelligenza artificiale nei film di Iron Man.

Ovviamente, per finire, dobbiamo considerare che tutte queste nuove funzionalità ad un certo punto lavoreranno insieme e il risultato sarà significativamente più potente della somma delle parti.

Ok, adesso torniamo alle infografiche. gli articoli e le ricerche sulle AI che creano disinformazione. Quello che vi invito a fare è chiedervi e chiedere quanti dei prodotti che sono menzionati in queste risorse esisteranno ancora tra dodici mesi quando OpenAI avrà abilitato tutte queste funzioni di cui abbiamo parlato oggi?

Gli addetti ai lavori sanno che queste funzionalità stanno arrivando. e i fondatori di centinaia di startup che sono in questi documenti sanno che le loro chance di sopravvivenza si assottiglieranno parecchio quando GPT-4 acquisirà queste nuove funzionalità. Nel frattempo, sperano di catturare l’attenzione… e il contratto dei potenziali clienti più confusi e poi si vedrà.

Non lasciatevi confondere! Ci fermiamo qui per questa settimana. Come sempre, scrivetemi all’indirizzo di posta che trovate qui sotto con i vostri commenti e i suggerimenti per gli argomenti da trattare nei prossimi episodi. Ciao!

 

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome