Home Meta AI: traduzione automatica in 200 lingue con un unico modello

Meta AI: traduzione automatica in 200 lingue con un unico modello

Per aiutare le persone a connettersi meglio e a far parte del metaverso di domani, i ricercatori di Meta AI hanno ideato No Language Left Behind (NLLB): un progetto per sviluppare funzionalità di traduzione automatica di alta qualità per la maggior parte delle lingue del mondo.

Dopo la presentazione di qualche mese fa, ora Meta ha annunciato un’importante svolta in NLLB: l’azienda ha creato un unico modello IA chiamato NLLB-200, che traduce 200 lingue diverse con risultati all’avanguardia.

Molte di queste lingue, come il kamba e il lao, erano scarsamente supportate o non supportate affatto anche dai migliori strumenti di traduzione esistenti. Al momento, gli strumenti di traduzione più diffusi supportano meno di 25 lingue africane e molti di essi con una qualità insufficiente. NLLB-200 supporta invece 55 lingue africane con risultati ottimali.

Nel complesso – spiega Meta –, questo singolo modello è in grado di fornire traduzioni di alta qualità per lingue parlate da miliardi di persone in tutto il mondo. In totale, NLLB-200 ha ottenuto punteggi BLEU mediamente più elevati del 44% rispetto allo stato dell’arte precedente in tutte le 10.000 direzioni linguistiche previste dal benchmark FLORES-101. Per alcune lingue africane e indiane, l’aumento è superiore al 70% rispetto ai sistemi di traduzione recenti.

Attualmente Meta sta rendendo disponibile il modello NLLB-200 e pubblicando una serie di strumenti di ricerca per consentire ad altri ricercatori di estendere il proprio lavoro a più lingue e di creare tecnologie più inclusive. Meta AI fornisce inoltre alle organizzazioni no profit fino a 200.000 USD per finanziare le applicazioni di NLLB-200 nel mondo reale.

Gli sviluppi di ricerca offerti da NLLB – ha sottolineato l’azienda – supporteranno oltre 25 miliardi di traduzioni fornite ogni giorno nella sezione Notizie di Facebook, su Instagram e su altre piattaforme.

Meta AI

La disponibilità di traduzioni estremamente accurate in più lingue aiuta inoltre a individuare contenuti pericolosi e disinformazione, proteggere l’integrità delle elezioni e bloccare eventuali istanze di sfruttamento sessuale e tratta di esseri umani online, mette in evidenza Meta.

Secondo la società di Facebook, l’impatto sulla vita quotidiana delle persone rende la traduzione una delle aree più interessanti dell’IA. L’obiettivo di NLLB – ha dichiarato l’azienda – non è solo offrire l’accesso a contenuti sul web, ma rendere più semplice per le persone apportare il proprio contributo e condividere informazioni in varie lingue.

Tra i casi d’uso, Meta AI ha collaborato con la Wikimedia Foundation, l’organizzazione no profit che gestisce Wikipedia e altri progetti di informazione gratuiti, per contribuire a migliorare i sistemi di traduzione su questa piattaforma.

Esistono versioni di Wikipedia in più di 300 lingue, ma la maggior parte offre molti meno articoli degli oltre sei milioni disponibili in inglese. La disparità aumenta ulteriormente se si considerano le lingue parlate soprattutto al di fuori di Europa e Nord America.

Ad esempio, esistono circa 3260 articoli di Wikipedia in lingala, una lingua parlata da 45 milioni di persone nella Repubblica Democratica del Congo, nella Repubblica del Congo, nella Repubblica Centrafricana e nel Sudan del Sud. Per una lingua come lo svedese, invece, parlata da 10 milioni di persone in Svezia e Finlandia, gli articoli sono più di 2,5 milioni.

Attualmente – ha sottolineato Meta –, gli editor di Wikipedia sfruttano la tecnologia alla base di NLLB-200, tramite lo strumento Content Translation della Wikimedia Foundation, per tradurre articoli in più di 20 lingue a bassa disponibilità di risorse (ovvero quelle che non dispongono di grandi dataset per la formazione dei sistemi IA), tra cui 10 precedentemente non supportate da nessuno strumento di traduzione automatica sulla piattaforma.

Meta AI

Per valutare e migliorare NLLB-200, Meta AI ha creato FLORES-200, un dataset unico di valutazione molti-a-molti che consente ai ricercatori di valutare le prestazioni in 40.000 direzioni linguistiche diverse. L’azienda sta rendendo disponibile questo nuovo dataset per aiutare altri ricercatori a testare e perfezionare rapidamente i propri modelli di traduzione.

FLORES-200 può essere usato per valutare sistemi di traduzione per una vasta gamma di applicazioni, tra cui filmati, libri, contenuti online e volantini sulla salute, in Paesi e regioni in cui si parlano molte lingue a bassa disponibilità di risorse.

Per eseguire il passaggio a 200 lingue, è stato necessario affrontare il rischio di generare contenuti tossici: un problema che può essere difficile da gestire in un sistema di traduzione multidirezionale, ha spiegato Meta.

L’azienda ci è riuscita creando elenchi di elementi tossici per tutte le lingue supportate, in modo da consentire il rilevamento e il filtraggio di volgarità e altri contenuti potenzialmente offensivi. Meta AI ha reso noto che sta rilasciando benchmark ed elenchi di valutazione della tossicità per tutte le 200 lingue, per fornire ad altri ricercatori gli strumenti necessari per ridurre i rischi nei propri modelli.

Solo pochi anni fa, la traduzione automatica di alta qualità funzionava solo per un ridotto numero di lingue. NLLB-200, secondo Meta AI, ci avvicina al giorno in cui disporremo di sistemi che permetteranno alle persone di comunicare con chiunque.

Affinché ciò avvenga in modo responsabile, Meta sta collaborando con un team interdisciplinare composto da linguisti, sociologi ed esperti di etica, per imparare di più su ognuna delle lingue prese in considerazione.

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche
css.php