OpenAI accelera sul fronte della voice AI e introduce una nuova generazione di modelli audio pensati per applicazioni vocali in tempo reale. L’annuncio riguarda tre nuovi modelli disponibili tramite API: GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper, progettati per consentire agli sviluppatori di creare esperienze vocali più naturali, contestuali e capaci di agire durante una conversazione.
La direzione è chiara: trasformare la voce da semplice interfaccia conversazionale a vero strumento operativo capace di comprendere, ragionare, tradurre, trascrivere e utilizzare strumenti software in tempo reale.
GPT-Realtime-2 porta il ragionamento “stile GPT-5” nelle conversazioni vocali
Il modello centrale dell’annuncio è GPT-Realtime-2, definito da OpenAI come il primo modello vocale realtime con capacità di ragionamento di classe GPT-5. L’obiettivo è superare i limiti delle tradizionali interfacce voice assistant basate su richieste semplici e risposte immediate.
Secondo OpenAI, GPT-Realtime-2 è stato progettato per gestire richieste complesse mantenendo la naturalezza della conversazione anche mentre utilizza strumenti esterni, effettua verifiche o corregge errori.
Tra le funzionalità introdotte ci sono i “preambles”, ovvero brevi frasi come “fammi controllare” o “un attimo mentre verifico”, che permettono al sistema di mantenere viva l’interazione mentre elabora la richiesta.
Il modello supporta inoltre chiamate parallele agli strumenti, gestione migliorata degli errori e un contesto ampliato fino a 128K token, rispetto ai precedenti 32K, per sostenere conversazioni più lunghe e workflow articolati.
OpenAI evidenzia anche una migliore comprensione di terminologie specialistiche, nomi propri e lessico tecnico, aspetto cruciale in ambiti come sanità, customer support e servizi enterprise.
Voice AI sempre più “agentica”
L’annuncio conferma come la strategia di OpenAI stia convergendo verso sistemi vocali agentici, cioè capaci non solo di conversare ma anche di eseguire attività operative.
OpenAI identifica tre macro-categorie emergenti nella voice AI.
La prima è il modello “voice-to-action”, dove l’utente descrive ciò che desidera e il sistema interpreta la richiesta, usa strumenti e completa l’azione. Tra gli esempi citati c’è Zillow, che sta sviluppando un assistente vocale immobiliare in grado di cercare case, filtrare risultati e prenotare visite.
La seconda categoria è “systems-to-voice”, dove software e piattaforme aziendali trasformano dati e contesto in indicazioni vocali in tempo reale. OpenAI immagina scenari come app di viaggio capaci di avvisare automaticamente il passeggero di ritardi, cambi gate e percorsi ottimali negli aeroporti.
Infine c’è “voice-to-voice”, cioè conversazioni multilingua mediate dall’intelligenza artificiale. Qui entra in gioco GPT-Realtime-Translate.
GPT-Realtime-Translate abilita traduzioni vocali live
GPT-Realtime-Translate è il nuovo modello dedicato alla traduzione simultanea vocale. Supporta oltre 70 lingue in ingresso e 13 lingue in uscita, consentendo conversazioni realtime tra persone che parlano idiomi differenti.
La sfida, sottolinea OpenAI, non è soltanto tradurre correttamente, ma mantenere il ritmo della conversazione, comprendere inflessioni regionali e gestire cambi di contesto senza introdurre latenze eccessive.
Tra i partner citati ci sono Deutsche Telekom e Vimeo. Quest’ultima sta sperimentando traduzioni vocali live per contenuti educational e video informativi destinati a utenti internazionali.
BolnaAI, società focalizzata sulla voice AI per il mercato indiano, afferma che nei test interni GPT-Realtime-Translate ha ottenuto un Word Error Rate inferiore del 12,5% rispetto ad altri modelli valutati in lingue come hindi, tamil e telugu.
GPT-Realtime-Whisper punta sulla trascrizione a bassa latenza
Il terzo modello annunciato è GPT-Realtime-Whisper, evoluzione streaming della tecnologia Whisper dedicata alla trascrizione speech-to-text in tempo reale.
Il sistema è stato progettato per generare testo mentre l’utente parla, riducendo la latenza nelle applicazioni live. Gli scenari includono sottotitoli realtime, meeting notes automatiche, supporto clienti, sanità, recruiting e workflow enterprise basati sulla voce.
La logica è rendere la voce immediatamente utilizzabile nei processi aziendali, senza attendere la fine della conversazione per elaborare trascrizioni o sintesi.
Sicurezza, privacy europea e pricing API
OpenAI afferma di aver integrato più livelli di mitigazione per prevenire utilizzi impropri delle API realtime. Le sessioni vocali possono essere monitorate da classificatori automatici che interrompono conversazioni considerate in violazione delle policy.
Le nuove API supportano inoltre la EU Data Residency per le applicazioni europee e rientrano negli impegni enterprise sulla privacy dell’azienda.
Sul fronte prezzi, GPT-Realtime-2 viene proposto a 32 dollari per milione di token audio in input e 64 dollari per milione di token audio in output. GPT-Realtime-Translate costa 0,034 dollari al minuto, mentre GPT-Realtime-Whisper viene tariffato 0,017 dollari al minuto.
OpenAI spinge la voce verso il post-chatbot
L’annuncio mostra come OpenAI stia cercando di andare oltre il classico paradigma chatbot-testuale, puntando su sistemi vocali capaci di operare come interfacce software complete.
La differenza rispetto ai tradizionali assistenti vocali non è soltanto nella qualità sintetica della voce o nella velocità di risposta, ma nella capacità di mantenere contesto, utilizzare strumenti esterni, eseguire azioni e adattare tono e comportamento alla situazione.
Per il settore enterprise questo significa poter costruire agenti vocali più vicini a operatori digitali autonomi che a semplici sistemi IVR evoluti. Per il mercato consumer, invece, si apre la strada a interazioni vocali molto più continue, contestuali e potenzialmente pervasive nell’uso quotidiano del software.






