La collaborazione tra IBM ed ElevenLabs segna un’evoluzione significativa nell’ambito delle piattaforme di orchestrazione agentica, introducendo capacità vocali avanzate all’interno di watsonx Orchestrate. L’integrazione combina tecnologie di text-to-speech (TTS) e speech-to-text (STT) con un’infrastruttura progettata per ambienti enterprise, con l’obiettivo di rendere le interazioni più naturali, scalabili e conformi ai requisiti di sicurezza.
Alla base dell’iniziativa c’è un elemento ormai strutturale: la voce sta diventando un’interfaccia critica nei workflow basati su AI agentica. Tuttavia, esperienze caratterizzate da attese prolungate, flussi conversazionali rigidi e sintesi vocale poco realistica continuano a limitarne l’efficacia.
“Gli agenti AI stanno diventando centrali nel lavoro quotidiano, e la voce è il punto in cui l’intelligenza artificiale guadagna o perde fiducia”, afferma Mati Staniszewski, cofondatore di ElevenLabs. “Insieme a IBM aiutiamo le organizzazioni a sostituire interazioni robotiche con agenti AI con cui le persone vogliono davvero parlare, costruiti con i controlli di sicurezza e compliance richiesti dalle imprese”.
L’integrazione della tecnologia ElevenLabs introduce una sintesi vocale in grado di riprodurre intonazione, ritmo ed espressività del linguaggio umano, superando i limiti delle soluzioni tradizionali. Il supporto a oltre 70 lingue e varianti regionali consente di progettare agenti vocali adatti a contesti globali e multilingue.
Questo aspetto assume particolare rilevanza in ambiti come la pubblica amministrazione, dove la comunicazione con cittadini di diversa provenienza linguistica è essenziale, ma anche in settori come banking, assicurazioni, sanità e utility, dove la qualità dell’interazione incide direttamente sull’esperienza utente.
ElevenLabs: modelli audio fondazionali e piattaforme applicative
Fondata nel 2023, ElevenLabs si è rapidamente posizionata come uno degli attori emergenti nel campo dei modelli AI audio, sviluppando tecnologie capaci di generare voce sintetica con un livello di realismo elevato. Il cuore dell’offerta è rappresentato da modelli fondazionali proprietari, progettati per applicazioni di sintesi e comprensione del linguaggio parlato.
L’azienda articola la propria offerta su tre direttrici principali. ElevenAgents è orientata al mondo enterprise e consente di sviluppare agenti vocali e conversazionali con funzionalità di integrazione, testing e monitoraggio necessarie per operare su larga scala. ElevenCreative si rivolge invece a creator e marketer, permettendo la generazione e l’editing di contenuti audio, video e multimediali in più lingue. ElevenAPI, infine, mette a disposizione degli sviluppatori l’accesso ai modelli audio tramite interfacce programmabili.
Nel contesto dell’integrazione con IBM, il valore aggiunto di ElevenLabs risiede nella disponibilità di una libreria di oltre 10.000 voci e nella capacità di gestire parametri avanzati di personalizzazione, che permettono di adattare il tono e lo stile della comunicazione ai diversi casi d’uso.
Dal text-first al voice-first nell’orchestrazione degli agenti
L’integrazione con watsonx Orchestrate estende le capacità agentiche dal paradigma testuale a un modello voice-first, abilitando interazioni conversazionali complete. Gli agenti AI possono così operare su canali vocali mantenendo coerenza, continuità e naturalezza nel dialogo.
In questo scenario, gli agenti telefonici basati su AI possono conversare in decine di lingue, con accenti e timbri differenziati, supportando casi d’uso che spaziano dal customer care alle attività commerciali, fino ai processi interni e all’employee experience.
watsonx Orchestrate: orchestrazione, integrazione e governance
IBM watsonx Orchestrate rappresenta il layer di orchestrazione dell’offerta AI di IBM, progettato per consentire alle aziende di costruire, distribuire, gestire e governare agenti AI all’interno dei propri processi.
La piattaforma si distingue per la capacità di connettersi a sistemi esistenti, modelli di machine learning e strumenti di automazione, creando un ambiente in cui diversi agenti possono collaborare tra loro. Questo approccio consente di superare la logica dei singoli bot isolati, introducendo un’architettura più articolata e coordinata.
Dal punto di vista tecnico, watsonx Orchestrate integra funzionalità di governance, explainability e controllo, elementi sempre più rilevanti nei contesti enterprise dove l’adozione dell’AI deve essere accompagnata da trasparenza e tracciabilità.
L’integrazione con ElevenLabs aggiunge a questo framework una componente vocale avanzata, mantenendo al contempo standard elevati in termini di sicurezza. Tra le caratteristiche evidenziate figurano la conformità PCI per la gestione dei pagamenti, la modalità Zero Retention per supportare requisiti HIPAA e opzioni di data residency, elementi cruciali per settori regolamentati.
“Stiamo dando una voce agli agenti AI nel mondo enterprise”, afferma Nick Holda, Vice President, AI Technology Partnerships di IBM. “Man mano che i clienti distribuiscono sempre più agenti AI che interagiscono con clienti e dipendenti, vogliono che queste esperienze siano intuitive, reattive e accessibili”.
Holda sottolinea anche il ruolo dell’ecosistema aperto di IBM: “Il nostro approccio aperto consente ai clienti di scegliere modelli e strumenti adatti al proprio business, e l’integrazione di ElevenLabs in watsonx Orchestrate ne è un esempio concreto: permette di distribuire agenti AI che suonano naturali, scalano a livello globale e rispondono a requisiti di sicurezza, affidabilità e governance”.
Verso un’AI conversazionale realmente human-centered
La collaborazione tra IBM ed ElevenLabs si inserisce in una traiettoria che vede l’evoluzione degli agenti AI verso esperienze sempre più human-centered, in cui la qualità dell’interazione diventa un fattore competitivo.
Il passaggio da interfacce testuali a interazioni vocali naturali rappresenta un cambio di paradigma: la voce non è più un canale accessorio, ma un elemento strutturale per l’adozione dell’AI nei processi aziendali.
In questo contesto, la combinazione tra orchestrazione, modelli audio avanzati e requisiti enterprise apre la strada a sistemi in grado di operare su larga scala, mantenendo coerenza, sicurezza e qualità dell’esperienza.






