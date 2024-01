Ciao a tutti e buon 2024! Cominciamo l’anno con un argomento di importanza critica che abbiamo già toccato in passato: disinformazione e deep fake.

Questa settimana vi faccio vedere qualcosa di sconvolgente, ma dovete avere la pazienza di aspettare fino alla fine del video.

Perché parliamo di nuovo di questo argomento? Per due ragioni. La prima è che nel 2024 ci saranno elezioni in sessanta nazioni del Mondo, per un totale di oltre quattro bilioni di votanti.

In altre parole, quest’anno metà del pianeta sarà chiamata a decidere il futuro del Mondo, un record nella storia dell’umanità.

Tra queste elezioni ci sono le elezioni del Presidente degli Stati Uniti d’America, le elezioni generali in India, che è la nazione su cui puntano i Paesi più industrializzati del mondo per ridurre la loro dipendenza dalla Cina, le elezioni del Presidente della Finlandia, che confina direttamente con la Russia, l’elezione del presidente di Taiwan da cui dipende gran parte della produzione mondiale di semiconduttori avanzati, le elezioni generali in Messico, che è diventato il punto di ingresso più battuto per l’immigrazione illegale negli Stati Uniti anche per gli emigranti del continente europeo, le elezioni del Parlamento europeo, che sta adottando una politica sempre più rigida in termini di regolamentazione della tecnologia. E pure le elezioni del Sindaco di Londra che rimane il polo economico più importante del continente europeo.

Gli interessi economici e politici in ballo sono senza precedenti e quindi gli incentivi per usare l’intelligenza artificiale allo scopo di influenzare le elezioni sono enormi.

La seconda ragione per cui parliamo di nuovo di disinformazione e di deep fake è questa: la manipolazione di immagini, video, voci e audio allo scopo di fare disinformazione di massa è una parte significativa della mia attività di ricerca e sviluppo.

Studiare e testare queste tecnologie è quello che faccio tutti i giorni e ogni volta che queste tecnologie fanno un balzo in avanti significativo è critico per me Informare l’opinione pubblica.

Questa settimana siamo in una di quelle situazioni. Detto questo, è importante chiarire che nessuna delle tecnologie che sto per farvi sentire e vedere è sviluppata direttamente allo scopo di fare disinformazione.

La disinformazione di massa è semplicemente uno dei moltissimi casi d’uso che l’intelligenza artificiale generativa è in grado di abilitare o facilitare.

Cominciamo dalla voce. Qui non parliamo di deep fake, ma di voci sintetiche create da zero.

La start up Bland.ai ha cominciato a promuovere un motore di sintesi vocale così veloce da permettere una interazione tra un Large Language Model e un essere umano praticamente indistinguibile dall’interazione tra due esseri umani.

In sé l’approccio non è rivoluzionario: nel 2023 abbiamo già visto vari esempi di start-up che hanno messo insieme tre modelli di AI diversi per sostenere conversazioni telefoniche con gli esseri umani.

Quello che succede è che un modello di AI deve convertire in testo quello che dice una persona che risponde al telefono. Un altro modello di AI deve generare una risposta sensata a quello che ha detto la persona e un terzo modello di AI deve convertire la risposta del secondo modello in un file audio con una voce sintetica realistica.

Questi tre modelli di solito ci mettono dei secondi per generare una risposta un tempo troppo lungo per una conversazione telefonica credibile.

Ma negli ultimi sei mesi la comunità internazionale ha sviluppato una serie di ottimizzazioni per questi modelli, al punto tale che oggi è possibile ottenere una risposta in millisecondi, non secondi.

Blanda.ai ha messo insieme la versione ottimizzata di questi tre modelli e ha creato un motore di automazione in grado di intrattenere conversazioni telefoniche completamente credibili.

Sentite qua.

Parte del trucco è che la qualità della voce è bassa. In molti altri casi d’uso questo sarebbe un problema, ma se la start-up ha lo scopo di simulare una chiamata telefonica da linea fissa e ha come bersaglio la fascia della popolazione meno attenta agli sviluppi tecnologici ecco che la bassa qualità della voce sintetica diventa un punto di forza anziché una debolezza.

La start-up ha cominciato a promuovere questa tecnologia per l’automazione delle campagne politiche e promette la capacità di fare fino a 500.000 chiamate telefoniche in parallelo e ovviamente sarà possibile usare una voce clonata anziché una voce generata da zero.

Pensate a quanti elettori si possono raggiungere in questa maniera, soprattutto nei giorni immediatamente prima di una votazione. Pensate a quanto velocemente è possibile diffondere un messaggio lecito o illecito o una notizia vera o falsa tra quelli che sono più vulnerabili dalle truffe ma che vanno a votare regolarmente.

Adesso alziamo un po’ il tiro.

La disinformazione di massa spesso conta sulla fabbricazione di immagini credibili che vengono diffuse online via social network.

La credibilità di queste immagini non dipende solo dal soggetto dell’immagine, ma anche dallo stile dell’immagine.

Quest’ultimo deve essere in linea con quello che siamo abituati a vedere nelle news.

In televisione siamo esposti ad un’immagine mai vista di una scena di guerra su Facebook o X e questa immagine è un’illustrazione o una foto troppo perfetta, automaticamente il nostro cervello fa scattare un allarme e diventiamo sospettosi dell’informazione che accompagna quell’immagine.

Fino ad oggi generare immagini realistiche al punto tale da passare per reportage di guerra è stato difficilissimo o impossibile.

E questo perché i primi modelli idea generativa come Stable Diffusion e Midjourney sono stati addestrati per produrre immagini via via più piacevoli dal punto di vista estetico.

Il risultato è che oggi, nella maggior parte dei casi questi modelli producono o immagini orrende o immagini realistiche, ma esteticamente perfette.

Per la disinformazione di massa ci vuole un compromesso: delle immagini realistiche, ma esteticamente imperfette, così come è la realtà di tutti i giorni.

La svolta, se così possiamo chiamarla, arriva da Midjourney, che è arrivata alla versione 6 Alpha appena prima della fine del 2023.

Questa release, che sarà migliorata durante l’intero mese di gennaio, è la prima in grado di ingenerare immagini sintetiche altamente realistiche che però riproducono la vita di tutti i giorni in maniera credibile.

Guardate qua.

Per centinaia di anni abbiamo associato le notizie a qualcosa che è successo, ma nel prossimo futuro non sarà più così.

Immaginate questa foto sintetica a supporto di una notizia vista in televisione o letta sui giornali.

Una notizia completamente inventata per stimolare l’interesse a guardare la tv o a leggere i giornali e per aumentare ovviamente i ricavi pubblicitari, ma anche per influenzare l’opinione pubblica in una certa direzione.

Un’immagine come questa può essere generata in pochi secondi. La notizia che la accompagna può essere generata in pochi secondi. Un bravo scrittore potrebbe creare in pochi secondi delle notizie false, più convincenti e coinvolgenti di quelle vere. Uno scrittore mediocre, invece, potrebbe prendere delle notizie coinvolgenti dal passato e, in pochi secondi, fabbricare una versione moderna di quelle notizie.

Immaginate la produzione su scala planetaria di centinaia di varianti della stessa notizia, con centinaia di varianti della stessa foto disseminate in un singolo giorno sui social media da un’armata di Bot.

La psicologia cognitiva ci dice che per credere a una notizia alle persone basta ricevere quella notizia da tre fonti diverse e che più siamo esposti a una notizia falsa e più tendiamo a crederla vera, cioè la ripetizione ha un effetto tangibile nell’influenzare la percezione della realtà.

Siamo arrivati al gran finale, e per questo gran finale vi racconto una cosa personale non l’ho mai detto a nessuno, ma quando ero più giovane ho fatto un’audizione per il film matrix insieme all’attore Keanu Reeves.

Siamo arrivati fino a girare due versioni della famosissima scena dei proiettili che si arrestano a mezz’aria una con me e una con Keanu.

Alla fine hanno scelto lui invece di me e così sono finito a lavorare nel mondo dell’industria informatica.

Ti faccio vedere quel provino mai rilasciato al pubblico.

Ecco: per generare questo deep fake sono partito da questa immagine.

Notate il fatto che il modello di AI che ho usato non si limita a incollare il mio viso su ogni fotogramma, di per sé un’impresa sorprendente, ma cerca di adattarlo all’aspetto del giovane Keanu, pur conservando le caratteristiche facciali uniche del mio viso. Per fare tutto questo non ho usato nessun servizio online. Questa è tutta tecnologia che può essere usata customizzata e migliorata in locale.

Il mio MacBook Pro che non ha una GPU dedicata, ci ha messo appena due minuti per rimpiazzare il viso di chi in ogni frame e altri diciassette minuti per modificare la definizione del mio viso in modo tale da allinearlo il più possibile alla qualità del video originale.

Questi tempi possono essere drasticamente ridotti con una GPU commerciale, come le schede grafiche NVIDIA e AMD, che chiunque può comprare per PC con Windows o Linux o con delle GPU industriali come quelle che si possono affittare online da vari cloud service provider.

Come avete visto, la tecnologia non è perfetta, ma questa scena del film è estremamente difficile da trasformare in un deep fake.

Chiunque voglia utilizzare questa tecnologia allo scopo di creare disinformazione, sceglierà probabilmente un video sorgente molto più semplice da manipolare.

In più, aspettatevi di vedere ulteriori progressi in questo campo durante tutto il 2024.

Pensate ai milioni di persone che all’ultimo momento prima di un’elezione potrebbero essere influenzate dal video fake di un politico o del suo avversario che dice o fa qualcosa di intollerabile.

Il quando sarà importante tanto quanto il cosa.

Okay, ci fermiamo qui per questo primo episodio dell’anno. Come sempre, scrivetemi all’indirizzo di posta elettronica che trovate qui sotto con i vostri commenti, le domande e i suggerimenti per gli argomenti da trattare nel 2024.

Ciao!