Home Digitale Voiceitt, l'app di accessibilità per le persone con problemi del linguaggio

Voiceitt, l’app di accessibilità per le persone con problemi del linguaggio

Voiceitt è una startup israeliana di Alexa Fund che utilizza il voice-based computing per aiutare le persone che hanno un linguaggio non standard per problemi o disabilità nell’uso della voce.

L’Alexa Fund – un programma di investimenti in venture capital di Amazon – è stato un primo investitore in Voiceitt e l’integrazione con Alexa è incorporata nella sua app. Ed è stata Amazon Science a illustrare i promettenti risultati ottenuti dal team di Voiceitt.

Con Voiceitt, gli utenti addestrano i propri modelli di riconoscimento vocale personalizzati, adattati ai loro pattern vocali, che permettono di comunicare con dispositivi a controllo vocale o con altre persone.

L’interfaccia di Voiceitt è un’app mobile iOS con due modalità. La modalità conversazione permette ai clienti di comunicare con altre persone, utilizzando il discorso sintetico e l’altoparlante del telefono. La modalità smart home permette ai clienti di interagire con Alexa.

Ogni modalità ha una serie di categorie di discorso. Per la modalità conversazione, le categorie sono scenari quali trasporto, shopping e visite mediche. Per la smart home, sono funzioni di Alexa come luci, musica e controllo Tv.

Ogni categoria include una serie di frasi comuni e predefinite. In modalità smart home, queste frasi sono comandi di Alexa ad esempio per accendere le luci o per attivare altre azioni. I clienti ripetono ogni frase più volte per allenare un modello di riconoscimento vocale personale.

Voiceitt

Il riconoscimento del parlato non standard differisce in alcuni aspetti fondamentali, ha messo in evidenza il team di Voiceitt.

Quando i dati di training sono scarsi – come nel caso di Voiceitt, dato che i clienti li generano al volo – l’approccio comune all’automatic speech recognition (ASR) è un metodo in pipeline.

In questo metodo, un modello acustico converte i dati acustici in fonemi, le unità più brevi del linguaggio. Un “dizionario” fornisce interpretazioni candidate a livello di parola dei fonemi e un modello linguistico decide tra le possibili interpretazioni a livello di parola, considerando la probabilità di ciascuna.

Ma con il parlato non standard, spiega Voiceitt, bisogna guardare più lontano di quelle caratteristiche a livello di fonema, occorre guardare la frase nel suo insieme.

Negli ultimi anni, la maggior parte dei servizi commerciali di ASR sono passati dall’approccio pipelined a modelli end-to-end, in cui una singola rete neurale prende un segnale acustico come input e produce un testo. Questo approccio può migliorare la precisione, ma richiede una grande quantità di dati di training.

Tipicamente, i modelli ASR end-to-end utilizzano reti neurali ricorrenti, che elaborano input sequenziali in ordine. Un segnale acustico verrebbe diviso in una sequenza di “frame”, ognuno dei quali dura solo pochi millisecondi, prima di passare alla rete neurale ricorrente.

Per “guardare la frase nel suo insieme”, spiega il team della startup, Voiceitt utilizza invece una rete neurale convoluzionale, che prende come input un pezzo molto più grande del segnale acustico.

Originariamente progettate per cercare pattern specifici di pixel ovunque in un’immagine, le reti neurali convoluzionali possono, allo stesso modo, cercare pattern acustici rivelatori ovunque in un segnale, mette in evidenza Voiceitt.

Voiceitt

Finché i clienti sono coerenti nella loro pronuncia, questo dà al software l’opportunità di sfruttare questa coerenza, sottolinea il team, ed è questo il punto in cui Voiceitt può offrire davvero valore per l’utente. La pronuncia non deve seguire un dizionario standard.

Mentre i clienti addestrano i loro modelli personalizzati, Voiceitt usa le loro registrazioni sia per il training che per i test. Una volta che la confidenza di output del modello supera una certa soglia, la frase viene “sbloccata” e il cliente può iniziare a usarla per controllare un agente vocale o comunicare con gli altri.

Ma il training non si ferma qui. Ogni volta che il cliente usa una frase, fornisce più dati di training per il modello, che Voiceitt aggiorna continuamente per migliorare le prestazioni.

Al momento, il menu finito di azioni di Voiceitt comporta che sia possibile imparare e memorizzare modelli separati per ogni cliente. Ma Voiceitt prevede di scalare il servizio in modo significativo e i suoi ricercatori stanno studiando modi più efficienti per addestrare e memorizzare i modelli.

Nel frattempo, ha affermato il team di sviluppo, Voiceitt sta già facendo la differenza nella vita dei suoi clienti.

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

css.php