Meta ha presentato SeamlessM4T, un modello multilingue e multitask che traduce e trascrive senza soluzione di continuità il parlato e il testo.

Meta ha reso noto di aver rilasciato pubblicamente SeamlessM4T con licenza CC BY-NC 4.0 per consentire a ricercatori e sviluppatori di sviluppare ulteriormente questo lavoro. L’azienda sta anche rilasciando i metadati di SeamlessAlign, che Meta descrive come il più grande set di dati aperti sulla traduzione multimodale, con un totale di 270.000 ore di allineamenti di voce e testo estratti.

L’intento di Meta, afferma l’azienda, è di rendere più semplice per la community eseguire l’estrazione sui propri set di dati monolingua con SONAR, una suite completa di codificatori di frasi vocali e testuali, e stopes, la libreria per l’elaborazione di dati multimodali e il parallel data mining. Tutti i progressi della ricerca sono supportati da fairseq2, la libreria di modellazione di sequenze di nuova generazione di Meta.

SeamlessM4T supporta una serie di funzionalità ragguardevole:

Riconoscimento vocale automatico per quasi 100 lingue

Traduzione speech-to-text per quasi 100 lingue di ingresso e di uscita

Traduzione speech-to-speech, con supporto di quasi 100 lingue di ingresso e 35 lingue di uscita (più l’inglese)

Traduzione text-to-text per quasi 100 lingue

Traduzione text-to-speech, con supporto di quasi 100 lingue di ingresso e 35 (più l’inglese) lingue di uscita

Secondo Meta, SeamlessM4T rappresenta una svolta significativa nel campo dello speech-to-speech e dello speech-to-text, in quanto affronta le sfide della copertura linguistica limitata e della dipendenza da sistemi separati, che dividono il compito della traduzione speech-to-speech in più fasi attraverso sottosistemi. Questi sistemi possono sfruttare grandi quantità di dati e in genere funzionano bene per una sola modalità. La sfida affrontata da Meta è stata quella di creare un modello multilingue unificato che potesse fare tutto.

L’azienda ritiene che il lavoro ora annunciato rappresenti un significativo passo avanti in questo percorso. Il modello unico di Meta fornisce traduzioni on-demand che consentono a persone che parlano lingue diverse di comunicare in modo più efficace. E migliora significativamente le prestazioni per le lingue a bassa e media risorsa che sono supportate, cioè le lingue che hanno un’impronta linguistica digitale più piccola. Mantenendo inoltre prestazioni elevate per le lingue ad alta risorsa, come l’inglese, lo spagnolo e il tedesco.

SeamlessM4T riconosce implicitamente le lingue di origine, senza bisogno di un modello di identificazione linguistica separato.

Questo lavoro, sottolinea l’azienda, si basa sui progressi che Meta e altri hanno fatto nel corso degli anni nella ricerca per un traduttore universale. SeamlessM4T attinge ai risultati di svariati progetti precedenti per consentire un’esperienza di traduzione multilingue e multimodale derivante da un unico modello, costruito su un’ampia gamma di fonti di dati parlati e con risultati all’avanguardia, secondo Meta.

L’azienda descrive infatti SeamlessM4T (Massive Multilingual Multimodal Machine Translation) come il primo modello multimodale capace di rappresentare una svolta significativa nella traduzione e trascrizione speech-to-speech e speech-to-text, con il suo supporto per quasi 100 lingue per l’input (parlato + testo), 100 lingue per l’output del testo e 35 lingue (più l’inglese) per l’output del parlato.

Con il suo approccio innovativo, invece di affidarsi a modelli multipli e separati, SeamlessM4T è in grado di svolgere più attività tra parlato e testo: speech-to-text, speech-to-speech, text-to-speech, traduzione text-to-text e riconoscimento vocale. Questo approccio con un unico sistema riduce gli errori e i ritardi, aumentando l’efficienza e la qualità del processo di traduzione e avvicinando la ricerca alla possibilità di una traduzione senza soluzione di continuità.

Per saperne di più su SeamlessM4T, è possibile consultare il blog di Meta, con possibilità di scaricare il codice, il modello e i dati, leggere il paper e provare la demo.