Le voci dell’AI – Episodio 04: Putting lipstick on a pig?

Ciao a tutti. Se avete trovato il tempo di seguire tutti gli annunci che sono stati pubblicati negli ultimi 10 giorni, sapete già che sono state due settimane molto intense.

Avete già letto delle incredibili nuove capacità di GPT-4, il large language model di OpenAI, e forse avete anche visto la presentazione di Microsoft, che ha una partnership speciale con OpenAI, dove ci viene promessa un’intelligenza artificiale che crea grafici in PowerPoint in maniera autonoma, a partire dagli appunti presi in OneNote durante un meeting. O una che ascolta le conversazioni durante i nostri meeting e fa il riassunto di quello che s’è detto per chi è arrivato in ritardo o chi non ha potuto partecipare.

In questi 23 anni di carriera ho visto migliaia di presentazioni preparate da centinaia di vendor, nel campo della sicurezza informatica, della virtualizzazione, del cloud computing, dell’automazione, dell’intelligenza artificiale, e vari altri. Migliaia di presentazioni esteticamente orribili, piene di testo che nessuno ha mai letto o memorizzato organizzato in milioni di elenchi puntati.

E tutte queste presentazioni erano, e sono ancora, completamente identiche. Al punto tale che il commento più comune tra colleghi durante i briefing a cui ho partecipato come direttore della ricerca in Gartner era: “Aspetta un attimo. Ma questa è la presentazione dell’Azienda Tecnologica 1 o dell’Azienda Tecnologica 2. Sono uguali!” “Non saprei.”, mi risponde il collega di turno “Guarda il logo in basso a destra.”

Ecco. Forse, grazie a GPT4, forse è la volta buona che cominciamo a produrre delle presentazioni decenti e a passare delle informazioni che sono effettivamente utili.

C’è un altro lato della medaglia, però. Uno che mi preoccupa moltissimo. E oggi voglio parlare di quel lato.

Prima di farlo, però, voglio focalizzare la vostra attenzione su una cosa completamente diversa. Un esempio eccellente di intelligenza artificiale applicata.

Se avete visto i primi tre episodi di questo appuntamento settimanale, avrete notato una differenza enorme nella qualità dell’audio tra i primi due episodi (Startup, Le API dell’AI) e il terzo. Quella differenza non viene dal fatto che ho usato un microfono più professionale. Il setup è cambiato, sì, ma il microfono è sempre lo stesso.

Quello che ho cambiato, è un’impostazione in questo software che uso per fare il montaggio dei video per questa rubrica. Ne ho parlato nel secondo episodio, si chiama Descript. Descript ha una funzione chiamata Studio Sound, che usa il machine learning per isolare la voce umana da tutti gli altri suoni nell’ambiente dove sto registrando.

Vi faccio sentire cosa registra in realtà il mio microfono professionale in questa stanza, disattivando Studio Sound per questa porzione del video.

Ecco. Adesso è spento. Dovreste sentire in maniera piuttosto percettibile un’eco. Ora, io potrei benissimo utilizzare un equipaggiamento più professionale di quello che uso oggi. Non lo faccio di proposito (almeno per il momento) perché voglio farvi vedere quello che è possibile ottenere con gli ultimissimi modelli di intelligenza artificiale applicata a scenari di business come questo: la registrazione di video professionali.

Questa funzione che Descript offre, questo Studio Sound, non è perfetto. Come forse avrete sentito nel terzo episodio, in alcune occasioni, l’ultima parola di alcune mie frasi viene mozzata. Spero che non sia un problema enorme per chi guarda questi video: è un ottimo indicatore per misurare il progresso dell’intelligenza artificiale usata da Descript, che, come ho detto nelle scorse settimane è una delle startup che usa i modelli di OpenAI.

La stessa cosa succede per i modelli di AI utilizzati da Apple. Per registrare questi video sto usando un iPhone 14 Pro Max e la modalità chiamata Cinematic, che crea questo effetto bokeh simulando le capacità di una fotocamera reflex professionale. L’effetto bokeh non è perfetto, soprattutto intorno ai miei capelli, e con lo sfondo difficilissimo da gestire che ho scelto di proposito.

Anche qui, la presenza o assenza di queste imperfezioni ci dirà, col tempo, che progressi fa l’intelligenza artificiale di Apple.

Torniamo alle cose incredibili che Microsoft e OpenAI ci promettono di fare con Microsoft 365. E quelle che sicuramente Google ci prometterà di fare con Google Workspace. E tutte le altre che seguiranno.

Questa è la mia preoccupazione: da un lato, utilizzare questi large language model in tutte le soluzioni aziendali che esistono sul mercato ci renderà estremamente più produttivi. Dall’altro lato, però, l’AI comincerà a mascherare tutta una serie di deficienze individuali, e valutare le reali competenze del personale diventerà molto più complicato.

C’è una differenza sostanziale tra il modo in cui una società come Grammarly usa l’AI, e come Microsoft/Google/ecc. vogliono usare GPT-4, almeno per il momento. Grammarly fa una correzione grammaticale e di stile che parte da un testo scritto dall’individuo. È un abbellimento minore, che ancora richiede uno sforzo intellettuale da parte del dipendente aziendale. I large language model come GPT-4, invece generano un testo da quasi zero. E, nella maggior parte dei casi, quel testo seguirà regole di stile appropriate per il contesto aziendale e rimarrà coerente con le linee guida dettate dal branding aziendale dell’azienda che usa e personalizza GPT-4 per le sue necessità.

Ecco che, anche un individuo che performa sotto la media, all’improvviso diventa capace di un output eccellente. Il che va benissimo all’azienda, ma solo fintanto che l’individuo non si trova in una condizione dove non può più contare sul supporto dell’AI, come in una conversazione con un cliente o una presentazione dal vivo o una interazione di persona con un collega.

Il rischio qui è che il divario tra la performance scritta e verbale dei dipendenti aziendali diventi enorme e difficile da identificare nel breve tempo. E questo, a sua volta, diventa una complessità non indifferente da gestire quando si tratta di valutare il dipendente aziendale. Il manager che fa la valutazione, valuta il riporto diretto in base all’output che è stato generato con l’aiuto dell’AI? O in base alla performance di persona? O entrambe? E se la risposta è “entrambe”, come fa il manager a non farsi accecare dalla performance stellare dell’output scritto generato con GPT-4?

Ovviamente, questo scenario pessimistico non è l’unico possibile. La versione ottimistica è che i dipendenti aziendali, costantemente esposti a un output eccellente generato dall’AI, imparino a scrivere e parlare meglio e crescano, professionalmente, senza la necessità di una formazione aziendale diretta. Il che sarebbe bellissimo. Uno scenario che spero tutti abbiamo la fortuna di vedere.

Questi non sono dubbi legati solo alle performance individuali. Possiamo farci domande simili quando pensiamo a intere aziende, che magari stiamo valutando come fornitori. Qual è il divario tra la percezione che avremo di queste aziende, per via di come si presenteranno grazie all’AI, a confronto di quello che saranno realmente in grado di fare dal punto di vista, per esempio, della manifattura o della logistica.

Nella lingua inglese c’è un’espressione che chiarisce quello che ho in mente: putting lipstick on a pig.

Immagine generata con Midjourney. Prompt: lipstick on a smiling pig, cartoon style, high res

Un’altra preoccupazione legata a quello che Microsoft si prepara a offrirci. Negli ultimi 12 anni di meeting aziendali a cui ho partecipato, ho imparato una cosa: nessuno presta alcuna attenzione se non la persona che parla e, forse, una singola persona che è direttamente influenzata da quanto viene detto. Tutti gli altri partecipanti sono fisicamente nella stanza ma lavorano sui loro computer, chattano in Slack o Teams, mandano e-mail, navigano il web, scrivono il rapporto per cui sono indietro.

Pochissimi realmente seguono cosa viene detto e quindi non ci sono grandi opportunità per contribuire o influenzare la conversazione. E questo comportamento è così sistematico che personalmente considero qualunque meeting aziendale dove i laptop sono ammessi nella sala, soprattutto quelli con più di tre persone, come lo spreco di risorse più grande delle aziende moderne.

Ora. È possibilissimo che un’AI che crea fa il riassunto automatico di quanto si è detto durante un meeting risolva questo problema dando a tutti la possibilità di fare un multi-tasking più efficiente. Ma dopo aver osservato centinaia di professionisti in aziende di prima grandezza, secondo me è molto più probabile che questa AI diventi la scusa per prestare ancora meno attenzione.

Se i partecipanti di un meeting sanno di poter contare su un sommario che verrà autogenerato un secondo dopo la fine della riunione, qual è l’incentivo per prestare più attenzione della pochissima che già offrono oggi ai colleghi che presentano? E per esperienza, vi dico che molto spesso, quei sommari non verranno nemmeno letti a meno che qualcosa nel progetto vada storta a un certo punto.

Il rischio è la totale alienazione dell’individuo all’interno del gruppo. Il rischio è che continueremo a incontrarci perché siamo spinti dall’evoluzione della specie a farlo, ma in realtà è come fossimo da soli in una stanza a registrare un messaggio per qualcun altro che forse presterà attenzione. Che è quello che sto facendo io adesso 🙂

Voi che ne pensate? Mandatemi i vostri commenti.

Ci vediamo la prossima settimana. Ciao!

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

1 COMMENTO

  1. è un po’ il motivo per cui io odiavo i vari correttori ortografici ecc di Word: anche i deficienti sembravano bravi 😉

    Ma non c’è pericolo, morirete tutti prestissimo…

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome