OpenAI lancia gpt-realtime e la Realtime API per agenti vocali in produzione

openai api

OpenAI ha annunciato la disponibilità generale della Realtime API, accompagnata dal rilascio del nuovo modello gpt-realtime, descritto come il sistema speech-to-speech più avanzato mai sviluppato dall’azienda. Si tratta di un passo significativo nella strategia di portare gli agenti vocali dall’ambito sperimentale a quello produttivo, con un’attenzione particolare a qualità, latenza e sicurezza.

Dalla beta al rilascio stabile

La Realtime API era stata introdotta in beta nell’ottobre 2024. In meno di un anno migliaia di sviluppatori l’hanno utilizzata, contribuendo a ottimizzarne prestazioni e affidabilità. La versione odierna è stata progettata per garantire bassa latenza, alta qualità audio e robustezza, caratteristiche indispensabili per la messa in produzione di agenti vocali in contesti reali.

A differenza delle pipeline tradizionali, che concatenano modelli diversi per speech-to-text e text-to-speech, la Realtime API si basa su un unico modello capace di ricevere e generare audio in tempo reale. Questo approccio riduce i ritardi, preserva le sfumature della voce e produce output più naturali ed espressivi.

gpt-realtime: il nuovo standard speech-to-speech

Il cuore della novità è gpt-realtime, modello allenato per eccellere in contesti reali come assistenza clienti, supporto personale ed education. I miglioramenti si concentrano su quattro aree principali: qualità audio, intelligenza e comprensione, rispetto delle istruzioni e function calling.

Qualità audio e nuove voci

Il modello genera una voce più naturale, capace di intonazioni realistiche, ritmo umano e variazioni emotive. È in grado di seguire istruzioni granulari come “parla velocemente e in modo professionale” o “parla in modo empatico con accento francese”. Sono state introdotte due nuove voci, Marin e Cedar, che si affiancano alle otto già esistenti, anch’esse aggiornate con le stesse migliorie.

Intelligenza e comprensione

gpt-realtime riconosce meglio segnali non verbali, come risate, e può alternare lingue diverse nella stessa frase. Migliora la precisione nella gestione di sequenze alfanumeriche e dimostra progressi significativi nei benchmark. Sul Big Bench Audio, che misura capacità di ragionamento in input audio, ha raggiunto l’82,8% di accuratezza, contro il 65,6% del modello di dicembre 2024.

Instruction following

Il modello segue con maggiore fedeltà le istruzioni impartite dagli sviluppatori, anche quando minime o sottili. Sul benchmark MultiChallenge Audio, dedicato alla valutazione della capacità di seguire istruzioni in conversazioni multi-turno, gpt-realtime ha ottenuto il 30,5%, rispetto al 20,6% del modello precedente.

Function calling

Uno dei punti chiave per l’uso produttivo di agenti vocali è la capacità di richiamare strumenti esterni in modo appropriato. gpt-realtime migliora la precisione delle chiamate, la scelta del momento giusto e la gestione degli argomenti. Sul benchmark ComplexFuncBench Audio, pensato per valutare chiamate complesse e multi-step, il modello ha raggiunto il 66,5% di accuratezza contro il 49,7% del predecessore. Inoltre, introduce il supporto nativo alle chiamate asincrone: anche in presenza di funzioni di lunga durata, la conversazione resta fluida senza interruzioni.

Realtime API: nuove funzionalità per gli sviluppatori

Oltre al nuovo modello, la Realtime API integra importanti novità tecniche.

  • Supporto MCP remoto: gli sviluppatori possono collegare un agente a un server MCP esterno semplicemente indicando l’URL nella configurazione della sessione. In questo modo gli strumenti resi disponibili dal server diventano immediatamente accessibili, senza necessità di integrazioni manuali.
  • Input di immagini: ora è possibile arricchire le sessioni con immagini o screenshot. Il modello può interpretare il contenuto visivo e integrarlo nella conversazione, permettendo casi d’uso come leggere testi presenti in una foto o rispondere a domande su ciò che l’utente sta guardando.
  • Supporto SIP: la Realtime API integra nativamente il Session Initiation Protocol, consentendo di connettere agenti vocali a reti telefoniche pubbliche, centralini PBX, telefoni da scrivania e altri endpoint compatibili.
  • Prompt riutilizzabili: è ora possibile salvare e riapplicare prompt complessi (comprendenti messaggi, strumenti, variabili ed esempi) tra sessioni diverse, semplificando la scalabilità delle applicazioni.

Sicurezza e privacy integrate

OpenAI ha posto grande enfasi sugli aspetti di sicurezza. La Realtime API integra classificatori attivi che monitorano le conversazioni in tempo reale, interrompendo eventuali sessioni che violino le policy. Gli sviluppatori possono aggiungere ulteriori livelli di protezione tramite l’Agents SDK.

Per prevenire abusi come impersonificazioni, le voci disponibili sono predefinite e non personalizzabili dagli utenti finali. Inoltre, la Realtime API è conforme ai requisiti di data residency europea, garantendo alle applicazioni UE che i dati restino nei confini regolamentati.

Pricing e disponibilità

Contestualmente al rilascio generale, OpenAI ha ridotto del 20% i prezzi rispetto alla precedente versione di anteprima. L’uso di gpt-realtime costa 32 dollari per milione di token audio in input (0,40 dollari per token cache) e 64 dollari per milione di token audio in output. È stato introdotto anche un sistema di gestione più flessibile del contesto, che permette di definire limiti intelligenti e troncare più turni alla volta, riducendo i costi nelle sessioni lunghe.

Applicazioni reali e testimonianze

Diversi clienti hanno già sperimentato la nuova API. Zillow, ad esempio, ha evidenziato come il modello sia in grado di gestire richieste complesse nella ricerca di immobili, adattandosi a criteri legati allo stile di vita e fornendo spiegazioni finanziarie in modo naturale e conversazionale. Anche aziende come T-Mobile, StubHub, Oscar Health e Lemonade hanno partecipato ai test, contribuendo a validare la robustezza del modello in contesti diversi.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome