Intelligenza artificiale, Meta presenta gli assistenti virtuali per il metaverso

24 Febbraio 2022

L’opinione di Meta è che, se potessimo interagire con un assistente basato su intelligenza artificiale in un linguaggio naturale e colloquiale, come facciamo con le persone, ciò potrebbe rendere la nostra vita più facile in numerosi modi.

Ma – sottolinea la società di Mark Zuckerberg – gli assistenti con cui abbiamo familiarità oggi sono poco convincenti, sia nelle interazioni con la voce che con il testo.

Ed è per realizzare una migliore intelligenza artificiale conversazionale che Meta ha annunciato il Project CAIRaoke.

Per questo progetto, i ricercatori di Meta hanno sviluppato un modello neurale end-to-end che è in grado di alimentare conversazioni molto più personali e contestuali rispetto ai sistemi attuali.

Meta sta già utilizzando il modello nato dal Progetto CAIRaoke in uno dei suoi prodotti, Portal. E ha in programma di integrarlo con dispositivi di realtà aumentata e virtuale per abilitare interazioni immersive e multimodali con gli assistenti, in futuro.

Secondo i ricercatori di Meta, è l’architettura stessa che alimenta anche gli assistenti più avanzati di oggi, caratterizzata da componenti separati, a costringere una user experience ristretta all’interno di opzioni limitate.

Sono quattro, questi componenti separati: natural language understanding (NLU), dialog state tracking (DST), dialog policy (DP) management e natural language generation (NLG).

Questi componenti distinti devono essere collegati tra loro, sono difficili da ottimizzare, poco adattabili a compiti nuovi o non familiari e fortemente dipendenti da laboriosi insiemi di dati annotati.

Ed è sempre per questo che gli assistenti digitali attuali dimenticano il contesto della conversazione e seguono flussi di dialogo per lo più prescritti.

Intelligenza artificiale conversazionale di prossima generazione

Con i modelli creati con Project CAIRaoke – sostiene invece Meta –, le persone saranno in grado di parlare in modo naturale con gli assistenti vocali.

Potranno, ad esempio, fare riferimento a un passaggio precedente della conversazione, cambiare completamente argomento o menzionare cose che si basano sulla comprensione di un contesto complesso e sfumato.

Le persone saranno anche in grado di interagire con gli assistenti virtuali in nuovi modi, ad esempio utilizzando i gesti.

Meta ha iniziato a utilizzare il modello su Portal per facilitare la creazione e la gestione dei promemoria. Ad esempio, con la possibilità di chiarire il proprio comando con passaggi successivi dell’interazione vocale con l’assistente virtuale.

Anche in questo primo test, Meta ritiene che il modello superi le prestazioni degli approcci standard.

Ma questo – sottolinea l’azienda – è solo un primo passo nelle applicazioni della nuova tecnologia.

Secondo Meta, i progressi compiuti con Project CAIRaoke consentiranno di offrire comunicazioni più ricche tra le persone e l’intelligenza artificiale, e queste saranno uno strumento essenziale nella costruzione del metaverso.

Nella vision di Meta, in futuro un assistente basato su CAIRaoke incorporato in occhiali di realtà aumentata potrebbe seguirci e aiutarci in modi nuovi e utili. Oltretutto, potendo accedere alle immagini del nostro stesso punto di vista.

Per esempio, alla domanda “Cosa sta bene con questi pantaloni?” potrebbe rispondere “Ecco una camicia del tuo colore preferito, il rosso“, mostrando in realtà aumentata l’immagine di un articolo che ha trovato per noi.

E se rispondessimo “Mi piace, ma ha le righe troppo larghe“, ci mostrerebbe in cambio una versione a righe più strette.

Un nuovo modello unificato

L’approccio canonico agli assistenti basati su intelligenza artificiale – come dicevamo – necessita di quattro insiemi di input e output, uno per ogni livello della pipeline (NLU, DST, DP e NLG). E richiede anche standard definiti per gli input e gli output di ogni livello.

Il modello di Project CAIRaoke, al contrario, utilizza una rete neurale e non richiede alcun flusso conversazionale imposto. Con questo modello, basta un solo insieme di dati di addestramento.

Project CAIRaoke riduce poi il lavoro necessario per l’aggiunta di un nuovo dominio.

Con l’approccio tradizionale, l’espansione a un nuovo dominio richiede la creazione e la correzione sequenziale di ogni singolo modulo, prima che il seguente possa essere addestrato in modo affidabile. E questa interdipendenza rallenta i progressi nei moduli successivi.

Invece, con la nuova tecnica end-to-end di Meta è possibile rimuovere questa dipendenza nei moduli a monte, in modo da potenziare la velocità di sviluppo e training. E diventa possibile mettere a punto altri modelli con meno sforzi e meno dati.

Con questo nuovo approccio – afferma Meta – i sistemi di dialogo diventano molto più robusti, perché sono in grado di prendere decisioni cercando su tutta la gamma di informazioni disponibili, in un unico luogo.

In precedenza, perfino un piccolo errore in un componente poteva propagarsi agli altri, in modi inattesi e difficili da risolvere.

Inoltre, Project CAIRaoke fonde la tecnologia che supporta il più recente bot conversazionale dell’intelligenza artificiale di Meta, BlenderBot 2.0, nei sistemi di dialogo orientati ai compiti.

Ciò significa che gli assistenti costruiti usando il nuovo modello di Meta potranno presentare un linguaggio empatico, trasmettere conoscenze reperite cercando su Internet in tempo reale e dimostrare una personalità coerente.

Il tema della privacy e sicurezza

Quando i sistemi sono in grado di generare un linguaggio naturale – sottolinea Meta –, è essenziale affrontare le potenziali sfide a livello di sicurezza e privacy.

La maggior parte dei componenti NLG oggi utilizza script, così i moderatori dei contenuti possono accertarsi che non diano risposte discutibili agli utenti. Ma quando l’assistente si connette direttamente con l’utente, c’è il rischio di sbagli o interazioni offensive.

Per questo, Meta ha integrato le tutele incorporate in BlenderBot, che contribuiranno a ridurre i casi di risposte offensive.

La nuova tecnologia per assistenti con intelligenza artificiale che Meta sta costruendo tiene conto anche della privacy, assicura l’azienda.

Ad esempio, sia su Ray-Ban Stories che su Portal, l’uso dei comandi vocali è facoltativo, è possibile visualizzare ed eliminare le trascrizioni dei propri comandi vocali e l’utente ha sempre la possibilità di disattivare l’archiviazione della voce.

Per mitigare il rischio di generare risposte discutibili agli utenti, la prima pietra miliare di Project CAIRaoke è stata la generazione delle azioni di dialogo e del linguaggio naturale.

Nel breve termine, Meta genera le azioni di dialogo e fa riferimento a un sistema NLG addestrato e strettamente vincolato per fornire all’utente la risposta. Nel lungo termine, Meta esporrà le frasi generate dopo essersi accertata dell’integrità end-to-end del suo modello.

Un’altra problematica comune ad altri tipi di sistemi NLP è l’”allucinazione”, ossia quando il modello afferma con certezza informazioni non corrette.

Questa è una grossa sfida per le tecniche end-to-end, poiché i modelli potrebbero essere inclini ad aggiungere o modificare le entità nel dialogo in base ai dati di addestramento.

Meta ha utilizzato diverse tecniche di arricchimento dei dati e varie reti di attenzione per migliorare la robustezza di Project CAIRaoke, oltre a sfruttare il lavoro già fatto con BlenderBot 2.0 per ridurre l’allucinazione.

Gli assistenti digitali del futuro

L’implementazione a breve termine del modello di Project CAIRaoke riguarda i promemoria su Portal, ma Meta spera di applicarlo presto su domini molto più vasti.

Con implementazioni che aiuteranno – ad esempio – a creare esperienze di shopping più personali. Oltre a consentire agli assistenti di mantenere il contesto tra numerose chat e alle persone di guidare il flusso della conversazione.

Meta ritiene peraltro che questo progresso sia particolarmente utile per costruire capacità di dialogo guidate dall’intelligenza artificiale per la realtà aumentata.

In un futuro non troppo lontano, secondo la vision di Meta le persone useranno regolarmente gli assistenti vocali nei loro occhiali di realtà aumentata, come adesso fanno con speaker, orologi e altri dispositivi smart.

Meta sta lavorando per ridurre le dimensioni dei modelli end-to-end in modo da poterli integrare sul dispositivo, perché i modelli on-device offrono anche vantaggi aggiuntivi in termini di sicurezza, privacy e prestazioni.

L’altro lavoro che l’azienda sta facendo è quello di rendere il modello più efficiente in termini di debug. È una sfida complessa, questa, perché con il nuovo framework l’informazione è rappresentata nello spazio di incorporamento, mentre nel modello canonico è esplicita.

Per realizzare pienamente la sua visione di Project CAIRaoke, Meta avrà anche bisogno di trasferirlo in molte lingue e di trovare modi per usare efficientemente il modello sulla scala dei miliardi di utenti.

Meta immagina che, in pochi anni, la tecnologia del progetto CAIRaoke sarà alla base dell’interazione di prossima generazione tra persone e dispositivi.

Su dispositivi come gli headset VR e gli occhiali AR, Meta si aspetta che questo tipo di comunicazione sarà il metodo onnipresente e senza soluzione di continuità per la navigazione e l’interazione. Proprio come i touchscreen hanno sostituito le tastiere sugli smartphone.

Leggi tutti i nostri articoli su Meta

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

iscriviti alla newsletter