Meta festeggia i 10 anni del FAIR, il team di Meta AI che si occupa della ricerca sull’intelligenza artificiale. Negli ultimi dieci anni, il FAIR è stato all’origine di molte scoperte nel campo dell’intelligenza artificiale e una guida per la ricerca aperta e responsabile. Che si tratti di documenti, codici, modelli, demo o guide all’uso responsabile, sottolinea l’azienda, Meta si impegna sempre per adottare un approccio aperto, condividendo il suo lavoro.

Negli ultimi 10 il team ha fatto enormi progressi nel riconoscimento degli oggetti con Segment Anything, che è in grado di individuare gli oggetti nelle immagini. Inoltre, è stato tra i primi a sperimentare tecniche di traduzione automatica non supervisionata, che hanno permesso a Meta AI di costruire un modello in grado di tradurre in 100 lingue senza dipendere dalla lingua inglese. Questo ha portato a No Language Left Behind, che recentemente ha esteso la tecnologia text-to-speech e speech-to-text a più di 1.000 lingue.

All’inizio di quest’anno Meta ha lanciato Llama, un modello linguistico aperto e pre-addestrato di grandi dimensioni, seguito da Llama 2, gratuito per la ricerca e l’uso commerciale. Inoltre, in occasione di Connect 2023, abbiamo presentato nuovi prodotti ed esperienze basate sull’IA, che sono ora disponibili per milioni di persone, e che rappresentano il risultato delle prime ricerche su cui si sono concentrati i team di IA generativa e di prodotto di Meta.

Ora l’azienda ha condiviso i suoi ultimi progressi relativamente a Ego-Exo4D, Audiobox e Seamless Communication.

Fornire ai modelli di intelligenza artificiale una visione sia egocentrica che esocentrica

Per insegnare all’intelligenza artificiale a percepire il mondo attraverso i nostri occhi, Meta aggiornato Ego-Exo. L’ultima versione di Ego-Exo4D permette di riprodurre simultaneamente la visuale in prima persona (egocentrica) attraverso una telecamera indossabile, e la visuale esterna (esocentrica) tramite telecamere che circondano il soggetto. Insieme, queste prospettive forniscono ai modelli di intelligenza artificiale una panoramica su ciò che vedono e sentono le persone, insieme a un quadro più ampio dell’ambiente circostante.

In futuro, sottolinea Meta, questi progressi nel campo dell’IA permetteranno a una persona che indossa occhiali smart di acquisire rapidamente nuove abilità, grazie a un assistente virtuale IA che la guiderà tramite un video tutorial. Ad esempio, si potrebbe immaginare di guardare un esperto mentre ripara la ruota di una bicicletta, si destreggia con un pallone da calcio o realizza un cigno con la tecnica dell’origami, e poi di poter seguire le sue azioni di pari passo.

Voice generation ed effetti sonori con Audiobox

All’inizio di quest’anno Meta ha presentato Voicebox, un modello di intelligenza artificiale generativa in grado di fornire assistenza durante i processi di editing, sampling e styling dell’audio. Ora Audiobox, il suo successore, rappresenta un ulteriore progresso dell’IA generativa nel campo dell’audio.

Con Audiobox, è possibile utilizzare messaggi vocali o porzioni di testo per descrivere i suoni o le tipologie di discorso che si desidera generare. Ad esempio, si può creare una colonna sonora con una richiesta del tipo “un fiume che scorre e degli uccelli che cinguettano“. Si può anche generare un output vocale scrivendo: “Una giovane donna parla con un tono di voce acuto e velocemente“. Audiobox semplifica la creazione di tracce audio personalizzate per tutti i tipi di progetti.

Sbloccare la traduzione linguistica senza interruzioni

Sulla base dei risultati raggiunti con SeamlessM4T, Meta sta ora introducendo Seamless Communication: una suite di modelli di traduzione basata sull’IA in grado di preservare in modo migliore le espressioni caratteristiche che si utilizzano nelle diverse lingue, e di tradurre simultaneamente le parole dell’interlocutore, migliorando la velocità di traduzione.

Le versioni precedenti dei servizi di traduzione linguistica spesso faticano a cogliere il tono di voce, le pause e l’enfasi, tralasciando aspetti importanti per esprimere emozioni e intenzioni. SeamlessExpressive secondo Meta è il primo sistema aperto a tutti in grado di restituire uno scambio linguistico senza tralasciare gli aspetti legati all’espressività.

SeamlessExpressive utilizza un modello capace di riprodurre le emozioni e lo stile di chi parla, tenendo conto della velocità e del ritmo del discorso. Il modello è attualmente disponibile in inglese, spagnolo, tedesco, francese, italiano e cinese.

SeamlessStreaming permette di conversare in tempo reale con chi parla una lingua diversa. A differenza dei sistemi tradizionali, che effettuano la traduzione una volta che le frasi sono terminate, SeamlessStreaming è in grado di tradurre mentre il dialogo è ancora in corso, mettendo più velocemente a disposizione di chi ascolta la traduzione.

Dal punto di vista della società americana, Meta è in una posizione privilegiata nell’affrontare le sfide più importanti dell’intelligenza artificiale, poiché i suoi investimenti in software, hardware e infrastrutture le permettono di trasformare i risultati delle sue attività di ricerca in prodotti di cui possono beneficiare miliardi di persone.

Inoltre, Meta considera FAIR un tassello fondamentale per il suo successo, e lo ritiene uno tra i pochi team al mondo che possiede tutti i requisiti per realizzare vere scoperte grazie ad alcune delle menti più brillanti del settore, a una cultura basata sull’apertura e, soprattutto, alla libertà di condurre ricerche esplorative. Questa libertà ha aiutato i team di Meta a rimanere agili e a contribuire a costruire il futuro della connessione sociale.

Infine, Meta dichiara di dare valore alla ricerca responsabile sull’intelligenza artificiale e all’apertura, perché la condivisione di un lavoro ponderato attraverso il confronto con i colleghi spinge verso l’eccellenza e crea fiducia nei progressi. Inoltre, permette di collaborare con una comunità sempre più ampia, che porta a progressi più rapidi e a un insieme più diversificato di collaboratori.