OpenAI ha annunciato che la modalità Advanced Voice è in fase di roll-out e sarà disponibile per gli utenti Plus e Team nell’app ChatGPT nel corso della settimana.
E non è questa l’unica novità in arrivo: il team di OpenAI sta introducendo anche le funzioni Custom Instructions e Memory, oltre a cinque nuove voci e accenti migliorati.
Tra le sorprese, ce n’è però anche una negativa: come ci stiamo purtroppo abituando in quest’ultimo periodo, OpenAI ha comunicato che la funzionalità Advanced Voice non è ancora disponibile nell’UE, nel Regno Unito, in Svizzera, Islanda, Norvegia e Liechtenstein.
Ma cos’è l’Advanced Voice? Le conversazioni vocali con ChatGPT possono avvenire in due modalità: quella Standard utilizza diversi modelli per generare la sua risposta, tra cui la trascrizione di ciò che si dice in testo prima di inviarlo ai modelli che si occupano di generare la risposta con la voce sintetica. Si tratta di una modalità che non è nativamente multimodale.
L’Advanced Voice, invece, utilizza le capacità audio native di GPT-4o e offre conversazioni più naturali e in tempo reale, in grado anche di cogliere i segnali non verbali, come la velocità con cui si parla, e di rispondere “applicando anche le emozioni” al parlato.
OpenAI sottolinea che l’uso della modalità Advanced Voice, con input e output audio, è riservata agli utenti Plus e Team e presenta dei limiti su base giornaliera.
Advanced Voice è una funzionalità disponibile nelle app mobili per iOS e Android a partire dalla versione 1.2024.261 o successiva, e sarà distribuita – per gli utenti Plus e Team – nell’app ChatGPT nel corso della settimana, ha annunciato OpenAI.
Tuttavia, l’implementazione prevede per il momento dei limiti per le aree geografiche, che abbiamo evidenziato.
Advanced Voice presenta anche una diversa interfaccia utente per la chat vocale, con una sfera in tonalità di azzurro che prende il posto del cerchio nero su bianco della modalità standard.
E ChatGPT fornisce inoltre cinque voci aggiuntive. Le chat vocali con la modalità avanzata sono progettate per essere più “umane”, con la capacità di esprimere emozioni e di avere un tono più naturale.