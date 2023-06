Meta ha annunciato un’innovazione che secondo l’azienda rappresenta una svolta nell’AI generativa per il parlato. Meta ha infatti sviluppato Voicebox, un modello di intelligenza artificiale all’avanguardia in grado di eseguire task di generazione del parlato – come l’editing, il campionamento e la stilizzazione – per i quali non è stato specificamente addestrato, attraverso l’apprendimento nel contesto.

Voicebox – spiega Meta – è in grado di produrre clip audio di alta qualità e di modificare l’audio preregistrato, ad esempio eliminando i clacson delle auto o l’abbaiare di un cane, il tutto preservando il contenuto e lo stile dell’audio. Il modello è anche multilingue e può produrre il parlato in sei lingue.

In futuro, sottolinea l’azienda, modelli di intelligenza artificiale generativa multipurpose come Voicebox potrebbero dare voci naturali agli assistenti virtuali e ai personaggi nel metaverso. Oppure, potrebbero consentire alle persone ipovedenti di ascoltare i messaggi scritti degli amici, letti dall’IA con la loro voce, dare ai creatori di contenuti nuovi strumenti per creare e modificare facilmente le tracce audio dei video e molto altro ancora.

La versatilità di Voicebox consente di svolgere diverse attività, tra cui la sintesi vocale in contesto: utilizzando un campione audio di soli due secondi, Voicebox è in grado di adattarsi allo stile audio e di utilizzarlo per la generazione text-to-speech.

Oppure anche per l’editing del parlato e la riduzione del rumore: Voicebox – spiega Meta – è in grado di ricreare una porzione di discorso interrotta dal rumore o di sostituire le parole pronunciate in modo errato senza dover registrare nuovamente un intero discorso. Ad esempio, è possibile identificare un segmento di un discorso interrotto dall’abbaiare di un cane, ritagliarlo e chiedere a Voicebox di rigenerare quel segmento, come una gomma da cancellare per l’editing audio.

O ancora, per il trasferimento tra lingue: quando si riceve un campione del discorso di qualcuno e un brano di testo in inglese, francese, tedesco, spagnolo, polacco o portoghese, Voicebox può produrre una lettura del testo in una qualsiasi di queste lingue, anche se il campione del discorso e il testo sono in lingue diverse. Questa capacità – evidenzia Meta – potrebbe essere utilizzata in futuro per aiutare le persone a comunicare in modo naturale e autentico anche se non parlano la stessa lingua.

Essendo stato addestrato da dati diversi, inoltre, Voicebox può generare un parlato più rappresentativo di come le persone parlano nel mondo reale e nelle sei lingue sopra elencate.

Secondo Meta, Voicebox è un importante passo avanti nella ricerca sull’intelligenza artificiale generativa e l’azienda ha annunciato continuerà tale esplorazione nello spazio audio.