L’intelligenza artificiale vocale vuole avvicinarsi all’orecchio umano

La tendenza a investire nell'Intelligenza artificiale vocale è aumentata negli ultimi anni, tanto che gli analisti stimano che l'intera industria del riconoscimento vocale, che nel 2018 valeva 55 miliardi di dollari, sia destinata a crescere a un tasso medio costnte del 17% fino al 2025.

Un caso lampante della tendenza è quello di Trint, servizio di trascrizione basato su intelligenza artificiale, recentemente ha attratto ulteriori 4,5 milioni di dollari, che portano il montante degli investimenti a 7,8 milioni di dollari dalla sua fondazione nel 2014.

L'aumento degli investimenti effettuati nella biometria vocale è stato guidato dalla necessità di sviluppare soluzioni che soddisfino l'accuratezza e la versatilità dei trascrittori umani.

Nell'ultimo decennio i servizi di trascrizione basati su intelligenza artificiale hanno fatto enormi progressi in termini di precisione.

Un rapporto di Microsoft ha rilevato che dal 2009 i tassi di errore nella trascrizione vocale automatica sono diminuiti dell'80%, il che ha spinto i tassi di accuratezza dell'Intelligenza artificiale quasi allo stesso livello dell'orecchio umano.

Attualmente, i servizi orientati all'Intelligenza artificiale forniscono un'accuratezza del 94,9%, mentre i servizi che utilizzano trascrittori umani possono produrre un tasso più elevato compreso tra il 99% e il 100%.

Il divario di accuratezza è dunque del 5%. Uno dei più grandi motivi per cui l'orecchio umano può produrre migliori tassi di accuratezza è la sua comprensione del parlato interbloccato, o più persone che parlano contemporaneamente.

Questo accade perché i servizi guidati dall'intelligenza artificiale pre-programmano robot con un vocabolario limitato, che non è condizionato a cogliere contesti culturali come slang, battute, accenti ironici e dialettali.

Riconoscimento vocale, lo scoglio del dialetto

Accenti regionali o vernacolari sono un altro motivo per cui i fornitori di trascrizione basati su intelligenza artificiale stanno cercando ulteriori investimenti per migliorare la qualità del loro servizio.

In termini di accenti regionali tra gli anglofoni, uno studio del 2018 ha rilevato che i robot in termini di comprensione possono essere precisi solamente al 59%.

I comuni servizi di riconoscimento vocale automatico, come Amazon Alexa e Google Assistant hanno mostrato problemi di comprensione simili, e l'accuratezza di entrambi i sistemi è calata del 2,6% con parlanti inglese con accento cinese e addirittura del 4,2% per gli accenti spagnoli.

Inoltre i servizi orientati all'intelligenza artificiale si sono rivelati più inclini agli errori quando si tratta di fornire i sottotitoli, specialmente quando l'audio non è pulito al cento per cento, con omissione di parole o errati sottotitoli automatizzati.

Si ricorda come lo scorso anno la BBC sia incorsa in un errore dovuto al suo servizio di trascrizione automatizzato che in luogo di "bel vestito" (dress) ha detto "un bel seno" (breast), o quando, quest'anno, in occasione di un dibattito della Camera dei Comuni, ha trascritto la frase "non si può permettere a quell'uomo (that man) di essere il nostro Primo Ministro" in "non si può permettere a Batman (that man) di essere nostro Primo ministro".

Un'altro settore dove l'accuratezza della trascrizione è cruciale è quello delle trascrizioni legali, accademiche o medicali.

Gli umani sono insostituibili in questi scenari, perché i robot falliscono nell'interpretazione contestuale, che un umano può cogliere subito.

Secondo Peter Trebek, CEO di Go Transcript, società che utilizza trascrittori umani, "gli investimenti come quelli in Trint e in altri servizi di trascrizione basati sull'intelligenza artificiale sono una chiara spinta per il mercato e certamente aumenteranno la competizione tra robot e l'orecchio umano. Noi, come servizio di trascrizione basato sull'uomo, accogliamo con favore questo sviluppo e la concorrenza. E dato il tasso di miglioramento che i servizi orientati all'intelligenza artificiale hanno dimostrato in termini di accuratezza, gli investimenti contribuiranno anche alla chiusura del divario tra uomo e robot".

Tuttavia, secondo Go Transcript, la capacità di comprendere il contesto culturale, il linguaggio interbloccato, il vocabolario più ricco e il margine di errore più basso, i servizi di trascrizione basati su attività umana manterranno il loro vantaggio rispetto alla concorrenza basata sui bot grazie alla maggiore precisione complessiva.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche iscriviti alla newsletter gratuita.

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome