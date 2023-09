OpenAI ha annunciato che sta iniziando a introdurre nuove funzionalità vocali e di riconoscimento immagini in ChatGPT. Queste nuove capacità – spiega la società specializzata nell’AI generativa – offrono un nuovo tipo di interfaccia più intuitiva, consentendo di avere una conversazione vocale o di mostrare a ChatGPT ciò di cui si sta parlando.

La voce e le immagini offrono ora più modi per utilizzare ChatGPT nella propria vita quotidiana e nel lavoro, sottolinea OpenAI. Ad esempio, diventa possibile scattare una foto di un punto di riferimento mentre si è in viaggio e conversare in tempo reale su ciò che c’è di interessante da sapere su di esso.

Oppure, quando si è a casa, sarà possibile scattare foto del frigorifero e della dispensa per capire cosa sia possibile preparare per cena, nonché fare domande per ottenere una ricetta e le istruzioni per cucinarla. O ancora: aiutare i propri figli a risolvere un problema di matematica scattando una foto, cerchiando il problema e chiedendo dei suggerimenti a ChatGPT. E, in campo professionale, analizzare un grafico complesso per ricavarne dati preziosi per il proprio lavoro.

Nelle prossime due settimane, ha annunciato OpenAI, le funzioni relative a voce e immagini di ChatGPT saranno disponibili per gli utenti Plus ed Enterprise. La voce arriverà su iOS e Android (con opt-in nelle impostazioni) e le immagini saranno disponibili su tutte le piattaforme.

Con le nuove capacità vocali di ChatGPT, sarà ora possibile utilizzare la voce per avviare una conversazione con l’assistente.

La nuova funzionalità vocale – spiega OpenAI – si basa su un nuovo modello di text-to-speech, in grado di generare un audio simile a quello umano a partire da un testo e da pochi secondi di parlato. OpenAI ha collaborato con doppiatori professionisti per creare tutte le voci e utilizza anche Whisper, il sistema di riconoscimento vocale open source dell’azienda, per trascrivere le parole pronunciate in testo.

Per quanto riguarda le immagini, è ora possibile mostrare a ChatGPT una o più immagini. Inoltre, per focalizzarsi su una parte specifica dell’immagine, è possibile utilizzare lo strumento di disegno della app mobile.

La comprensione delle immagini è affidata a GPT-3.5 e GPT-4 multimodali. Questi modelli applicano le loro abilità linguistiche a un’ampia gamma di immagini, come fotografie, screenshot e documenti contenenti sia testo che immagini.

Al fine di costruire un’intelligenza artificiale sicura e vantaggiosa, che è l’obiettivo dichiarato di OpenAI, l’azienda ritiene che il modo migliore sia rendere disponibili questi strumenti in modo graduale, il che permette al team di apportare miglioramenti e affinare le mitigazioni dei rischi nel corso del tempo, preparando al contempo tutti a sistemi più potenti in futuro. Questa strategia – sottolinea ancora l’azienda – diventa ancora più importante con i modelli avanzati che coinvolgono la voce e contenuti visivi.

Secondo OpenAI, la nuova tecnologia vocale, in grado di creare voci sintetiche realistiche a partire da pochi secondi di parlato reale, apre le porte a molte applicazioni creative e orientate all’accessibilità. Tuttavia, queste capacità presentano anche nuovi rischi, come la possibilità che attori malintenzionati impersonino personaggi pubblici o commettano frodi.

Ed è per questo che OpenAI sta utilizzando questa tecnologia per un caso d’uso specifico: la chat vocale. La chat vocale, afferma l’azienda, è stata creata con attori con cui OpenAI ha lavorato direttamente. L’azienda sta collaborando in modo simile anche con altri. Ad esempio, Spotify sta utilizzando la potenza di questa tecnologia per il progetto pilota della sua funzione di Voice Translation, che aiuta i podcaster a espandere la reach delle loro storie traducendo i podcast in altre lingue con la voce dei podcaster stessi.

I modelli vision-based presentano anch’essi nuove sfide – sottolinea OpenAI – che vanno dalle allucinazioni sulle persone all’affidarsi all’interpretazione delle immagini da parte del modello in ambiti ad alto rischio. Prima di un’implementazione più ampia, l’azienda ha testato il modello per i rischi in ambiti quali l’estremismo e la competenza scientifica e con un gruppo eterogeneo di tester alfa. La ricerca, afferma OpenAI, ha permesso al team di allinearsi su alcuni dettagli chiave per un uso responsabile.

Secondo OpenAI, ChatGPT può assistere al meglio l’utente nella sua vita quotidiana quando riesce a vedere ciò che l’utente vede. Questo approccio è stato direttamente influenzato dal lavoro di OpenAI con Be My Eyes, un’app mobile gratuita per persone non vedenti e ipovedenti, per comprenderne gli usi e i limiti.

L’azienda ha anche adottato misure tecniche per limitare significativamente la capacità di ChatGPT di analizzare e fare affermazioni dirette sulle persone, poiché ChatGPT non è sempre accurato e questi sistemi dovrebbero rispettare la privacy degli individui.

L’utilizzo e il feedback del mondo reale – afferma OpenAI – aiuteranno il team a migliorare ulteriormente queste misure di salvaguardia, mantenendo al contempo l’utilità dello strumento.

Gli utenti potrebbero affidarsi a ChatGPT per argomenti specializzati, ad esempio in campi come la ricerca. OpenAI è trasparente sui limiti del modello e scoraggia i casi d’uso più rischiosi senza un’adeguata verifica. Inoltre, il modello è abile nel trascrivere testi in inglese, ma ha scarse prestazioni con alcune altre lingue, soprattutto quelle con alfabeti non latini. Per questo OpenAI consiglia ai suoi utenti non di lingua inglese di non utilizzare ChatGPT per questo scopo.

Gli utenti Plus ed Enterprise potranno sperimentare la voce e le immagini nelle prossime due settimane e OpenAI ha intenzione di estendere queste funzionalità ad altri gruppi di utenti, compresi gli sviluppatori, subito dopo.