Facebook Live, intelligenza artificiale che genera sottotitoli automatici

17 Settembre 2020

I ricercatori e gli ingegneri del team di Facebook AI hanno realizzato una soluzione per rendere i contenuti video in diretta più accessibili, abilitando i sottotitoli automatici basati sull’intelligenza artificiale per Facebook Live e Workplace Live.

Il team ha annunciato che sono già sei le lingue supportate: inglese, spagnolo, portoghese, italiano, tedesco e francese.

I sottotitoli automatici di Facebook Live possono ad esempio aiutare i governi, e lo stanno già facendo, secondo Facebook, a diffondere informazioni cruciali sulla salute pubblica in modo che milioni di spettatori in tutto il mondo, che abbiano disturbi dell’udito o stiano semplicemente guardando il video senza l’audio, ricevano il messaggio.

Inoltre, con l’evolversi delle policy sui posti di lavoro, i sottotitoli automatici sono diventati essenziali per le aziende per tenere informati il personale e i clienti, tramite aggiornamenti sulla sicurezza.

La velocità e la scalabilità di questa tecnologia basata sull’intelligenza artificiale sono state possibili solo grazie ai progressi che Facebook AI ha fatto nel riconoscimento vocale automatizzato (ASR, automated speech recognition) negli ultimi anni.

Infatti, ha spiegato Facebook, sebbene la tecnologia dei sottotitoli automatici, che prevede la generazione di una sequenza di parole da un segnale audio grezzo, sia in circolazione dalla fine degli anni 2000, è ancora un task eccezionalmente difficile.

Nel tipo di discorso colloquiale presente nei live streaming, le persone non parlano sempre in modo chiaro o aspettano il proprio turno per parlare. Il rumore di fondo imprevedibile, la grande varietà di accenti e dialetti e l’ampia gamma di toni che influenzano il linguaggio umano, rendono l’ASR ancora più difficile.

Il sistema deve anche imparare a riconoscere centinaia di milioni di parole diverse in molte lingue, inclusi nomi e vocaboli gergali non comuni.

Un’attività dal dominio aperto come questa è molto diversa e molto più complessa rispetto ad attività ASR più vincolate, come le chiamate automatiche al servizio clienti, in cui il sistema deve considerare solo un insieme relativamente piccolo di possibilità.

I sistemi ASR convenzionali sono costituiti da tre componenti principali: un modello acustico che predice i fonemi da brevi segmenti di audio, un lessico di pronuncia, che descrive come i fonemi sono combinati per formare le parole di una data lingua, e un modello linguistico che cattura le relazioni tra quelle parole, ad esempio quali sono le parole più comuni e quali è probabile che appaiano insieme.

Una delle prime scoperte fondamentali da parte del team di Facebook AI è stata che il lessico della pronuncia fonetica poteva essere eliminato e che i modelli acustici potevano essere addestrati per prevedere direttamente i grafemi (o caratteri) di una parola con, all’inizio, una migliore accuratezza per i sistemi end-to-end, cosa successivamente confermata anche per i sistemi ibridi. Ciò ha notevolmente semplificato il training e il deployment di questi modelli ASR in diverse lingue, ha evidenziato Facebook.

Il contesto di base, sottolinea ancora Facebook, è quello in cui la rapida diffusione della pandemia Covid-19 ha causato un picco sia nell’offerta che nella domanda di informazioni sulla salute pubblica.

Diversi governi locali e statali, che erano abituati a tenere conferenze stampa dal vivo ma non avevano le risorse, il personale o la tecnologia per registrare, trasmettere in streaming e sottotitolare i loro eventi dal vivo, si sono rivolti a Facebook Live.

E diversi governi hanno anche scoperto che i sottotitoli dei video non erano solo un’opzione nice-to-have, ma una funzione indispensabile, soprattutto in mancanza di interpreti del linguaggio dei segni: molti avevano bisogno dei sottotitoli per rispettare le proprie regole di accesso per i disabili alle trasmissioni pubbliche.

Nel frattempo, il numero di trasmissioni broadcast su Facebook Live da Pages è raddoppiato a giugno 2020 rispetto allo stesso periodo dell’anno scorso, e questa enorme quantità di traffico è in grado di porre sotto un enorme stress qualsiasi sistema ASR.

Per questo gli ingegneri di Facebook hanno messo in atto una serie di modifiche per far sì che i modelli ASR fossero molto più veloci in produzione e numerose ottimizzazione nelle infrastrutture, cosa che ha consentito all’azienda di servire tutto il traffico video aggiuntivo e ha portato addirittura a un risparmio sulle macchine, nonostante l’aumento del carico. I modelli sono stati addestrati utilizzando PyTorch che ha consentito iterazioni rapide sulle idee e sui deployment in produzione.

È la stessa Facebook ad affermare che, benché i dati di training per il sistema includessero molti diversi tipi di discorso, esso è tutt’altro che perfetto, soprattutto quando si tratta di accenti diversi. Può essere difficile o addirittura impossibile raccogliere dati di training sufficienti di ogni tipo, quindi i ricercatori stanno esplorando metodi per migliorare e adattare i modelli facendo in modo che imparino anche da grandi quantità di audio non etichettato.

Nel frattempo, i broadcaster possono ora comunque contare su sottotitoli automatici basati sull’intelligenza artificiale.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

iscriviti alla newsletter