OpenAI ha annunciato il lancio di nuovi modelli audio speech-to-text e text-to-speech nell’API, abilitando la creazione di agenti vocali più potenti, personalizzabili e intelligenti che offrono un reale valore aggiunto.
Questi ultimi due modelli speech-to-text – afferma lo specialista dell’intelligenza artificiale – stabiliscono un nuovo standard all’avanguardia, superando le soluzioni esistenti basate su valutazioni come il Word Error Rate (WER) in inglese e in diverse altre lingue tra quelle principali.
OpenAI sta anche introducendo un nuovo modello text-to-speech con una migliore capacità di risposta. Per la prima volta gli sviluppatori possono anche istruire il modello text-to-speech a parlare in maniera specifica — ad esempio, “parla come un operatore del servizio clienti empatico”.
Inoltre, OpenAI ha rilasciato un nuovo sito di demo interattivo dedicato agli sviluppatori – OpenAI.fm – che consentirà loro di provare direttamente queste nuove capacità text-to-speech.
Questi modelli sono basati su GPT-4o e GPT-4o-mini e offrono prestazioni superiori rispetto a Whisper e ai modelli legacy di text-to-speech dell’azienda (entrambi ancora supportati). In più, oltre a offrire prestazioni migliori, questi nuovi modelli audio sono anche più economici.
OpenAI sta poi rilasciando un’integrazione con l’Agents SDK recentemente rilasciato, che semplifica il processo di sviluppo per gli agenti vocali. Ciò significa che, con solo poche righe di codice, gli sviluppatori possono ora trasformare gli agenti text che hanno costruito con l’Agents SDK di OpenAI in veri e propri agenti vocali.
Con questi nuovi modelli audio – sottolinea il team di OpenAI – gli sviluppatori possono creare sistemi speech-to-text più precisi e robusti e voci text-to-speech più espressive, tutto all’interno dell’API.
È possibile trovare ulteriori dettagli nel blog di ricerca di OpenAI. È inoltre possibile approfondire ulteriormente l’annuncio con il live stream disponibile sul canale YouTube dell’azienda, e incorporato qui di seguito.









