Il Web vocale targato Tiscali

Manuela Gianni -

16 Luglio 2001

Dietro le quinte di VoceViva, il primo portale europeo sviluppato con il nuovo standard VoiceXML.

È il Web vocale, cioè la navigazione in Rete con la voce, la nuova frontiera tecnologica in cui ha deciso di cimentarsi Tiscali. La società sarda ha, infatti, annunciato l’avvio della fase pilota di VoceViva, un portale vocale sviluppato in tecnologia VoiceXML e basato sul riconoscimento della voce e sulla sintesi vocale (TTS, Text To Speech). Attualmente, il servizio fornisce informazioni finanziare, notizie, oroscopi, meteo, oltre a consentire la gestione della posta elettronica con comandi vocali: il sistema capisce l’italiano e parla quattro lingue. Tuttavia, VoceViva è ora solo un embrione di quello che sarà nei prossimi anni. (Per chi volesse sperimentare il servizio, i numeri sono: 0704608482 0643408482, 0230908482).
L’interfaccia utente è pensata per facilitare al massimo l’interazione con il sistema ed evitare noiose ripetizioni dei menu. In effetti, le tecnologie vocali sono oggi molto più sofisticate rispetto a pochi anni fa; per questo, da qualche mese hanno iniziato a diffondersi negli Stati Uniti servizi di questo tipo (per esempio TellMe e Yahoo) che hanno il grande vantaggio di essere accessibili da un normale telefono.
Più che un sistema per leggere i contenuti del Web, il portale vocale è un modo diverso di dare informazioni. Le applicazioni possibili sono infinite, sia nell’area business-to-consumer sia business-to-business. Anche i modelli di business del servizio possono essere diversi: è possibile inserire della pubblicità, creare un servizio a pagamento o utilizzare il sistema per alleggerire il carico di lavoro del call center, e quindi ridurre i costi interni. Nei mesi a venire, verranno aggiunti una serie di siti vocali prodotti da Tiscali e da terze parti, per aumentare il contenuto informativo del servizio.

Principi di funzionamento: le analogie con i siti Web

Dal punto di vista tecnico,VoceViva è un’infrastruttura aperta basata sullo standard VoiceXML (www.VoiceXml.org), una declinazione di XML che permette di definire l’evolvere di un’interazione vocale tra l’utente e il sistema. Lo standard è supportato, fra gli altri, da Oracle, Cisco, Alcatel, TellMe Networks, BeVocal ed L&H.
La logica del servizio è del tutto analoga a quella di un sito Web. Infatti, il VoiceXML prevede una serie di tag analoghi a quelli dell’HTML, quali il tag che identifica come viene sintetizzato un testo, o il tag di prompt che definisce dove viene enunciato un testo, o ancora un tag di form per accettare un input vocale dall’utente, analogamente a quando si riempe un form di una pagina HTML.
Grande attenzione è stata posta nell’interfaccia utente, ovvero nel modo in cui il chiamante può “conversare” con il sistema. Il riconoscimento vocale è indipendente dalla voce e funzionante da linea fissa e telefono cellulare. L’uso della sintesi vocale è ridotto al minimo indispensabile, cioè per informazioni che cambiano rapidamente, come le quotazioni di borsa. Per il resto viene usato audio registrato da speaker professionisti.
Non c’è mai bisogno di aspettare la fine di un menu per impartire il comando, per agevolare gli utenti più esperti. Inoltre, è stata definita una grammatica che lavora con il sistema di riconoscimento vocale, in modo che, per esempio, parole differenti, come “finanza” o “borsa”, o “azioni”, vengano tradotte in una sola, che è quella che fa partire la richiesta, come cliccando un link su una pagina Web.
Inoltre, le prime volte che chiama, all’utente verranno proposti menu lunghi e completi, mentre le volte successive verrà riconosciuto come sempre più esperto e riceverà istruzioni man mano più brevi. Ciò è possibile perchè il sistema riconosce il CLI, ovvero il numero telefonico da cui si chiama: per analogia, il CLI si comporta come i cookie di Internet.
L’approccio scelto da Tiscali è stato quello di creare processi separati con elaborazione distribuita, in modo da evitare i singoli punti di rottura. L’architettura modulare semplifica anche l’integrazione con diversi motori di Automatic Speech Recognition (ASR) e Text To Speech (TTS). Tutta l’applicazione è indipendente dall’hardware e dal sistema operativo. Le macchine sono a Cagliari: qui vengono dirottate tutte le chiamate, indipendentemente dal prefisso digitato dall’utente (in seguito è probabile che verrà attivato un numero unico). La centralina che trasferisce la chiamata a Cagliari è anche in grado di rilevare se uno dei sever è down.

Un’architettura modulare basata su quattro cluster

Il sistema può essere scomposto in quattro parti principali (vedi figura il alto). Il primo è il cluster di server che riceve le chiamate, collegato alla rete telefonica con accessi primari ISDN (2 Mbps). Qui gira il voice browser, sviluppato con Java Enterprise Edition e realizzato interamente da Tiscali. Quando arriva la chiamata, il browser si collega a un cluster di application server, interamente basato sullo standard aperto di interscambio dati XML, anche questo sviluppato in Java e realizzato da Tiscali. L’application server prende dal database la pagina richiesta, la quale contiene una parte dinamica (JSP, JavaServer Page): questo consente, per esempio, di fornire menu diversi a seconda della dimestichezza dell’utente con il servizio. Una volta ricevuta la risposta, il browser fa il parsing e decide cosa fare: può chiedere al sound server (anche questo è un cluster) di inviare un messaggio preregistrato oppure un messaggio sintetizzato (in ogni caso un file .wav).
Per ciascuna lingua parlata, il sistema usa un motore di un diverso fornitore di TTS, secondo una logica best of breed. L’utilizzo di Speech API di Microsoft (oltre alle API proprietarie di altri vendor, quali L&H e CSELT) permette infatti di inserire qualunque motore di TTS.
La voce del chiamante viene registrata in un file .wav e mandata al cluster di speech recognition. Qui interviene il grammar server: il riconoscimento del parlato viene inserito in un contesto specifico, in modo da limitare gli errori. Ogni rubrica del servizio ha una sua grammatica specifica, contenente solo le parole chiave che devono essere riconosciute: ad esempio per il meteo sono presenti nella grammatica le città italiane, nella rubrica della finanza tutte le aziende italiane quotate in borsa e così via
Per scrivere tutta l’applicazione in Java, i tecnici di Tiscali hanno impiegato 9 mesi. Attualmente il sistema è dimensionato al 20% della capacità.
Per effettuare il test di crash, realizzato nelle condizioni più sfavorevoli (partenza a freddo del sistema, cache vuote), è stato utilizzato il call center di Tiscali: 200 persone hanno contemporaneamente chiamato il sistema, senza alcuna conseguenza.