Nvidia Fugatto, il modello AI che da un prompt genera qualsiasi mix di musica, voci e suoni

27 Novembre 2024

Un team di ricercatori di IA generativa di NVIDIA ha creato un “coltellino svizzero per il suono”, che consente agli utenti di controllare l’output audio semplicemente utilizzando del testo.

Mentre alcuni modelli di AI possono comporre una canzone o modificare una voce, nessuno ha le capacità della nuova proposta, afferma NVIDIA.

Denominato Fugatto (acronimo di Foundational Generative Audio Transformer Opus 1), genera o trasforma qualsiasi mix di musica, voci e suoni descritti con prompt che utilizzano qualsiasi combinazione di testo e file audio.

Ad esempio, spiega NVIDIA, è in grado di creare un frammento musicale basato su un prompt di testo, di rimuovere o aggiungere strumenti da un brano esistente, di cambiare l’accento o l’emozione di una voce e persino di far produrre suoni mai sentiti prima.

“Questa cosa è incredibile”, ha dichiarato Ido Zmishlany, produttore e autore di brani certificati multi-platino e cofondatore di One Take Audio, membro del programma NVIDIA Inception per le startup all’avanguardia. “Il suono è la mia ispirazione. È ciò che mi spinge a creare musica. L’idea di poter creare al volo suoni completamente nuovi in studio è incredibile”.

“Volevamo creare un modello che comprendesse e generasse il suono come fanno gli esseri umani”, ha dichiarato Rafael Valle, manager della applied audio research di NVIDIA e uno dei più di dieci ricercatori che hanno contribuito allo sviluppo di Fugatto, nonché direttore d’orchestra e compositore.

Supportando numerosi compiti di generazione e trasformazione audio, Fugatto è il primo modello di intelligenza artificiale generativa che mostra proprietà emergenti – capacità che nascono dall’interazione delle sue diverse abilità addestrate – e la capacità di combinare istruzioni di forma libera, sottolinea NVIDIA.

“Fugatto è il nostro primo passo verso un futuro in cui l’apprendimento multitask non supervisionato nella sintesi e nella trasformazione audio emerge dai dati e dalla scala dei modelli”, ha dichiarato Valle.

Per esempio, evidenzia NVIDIA, i producer musicali possono usare Fugatto per prototipare o modificare rapidamente un’idea per una canzone, provando diversi stili, voci e strumenti. Potrebbero anche aggiungere effetti e migliorare la qualità audio complessiva di un brano esistente.

“La storia della musica è anche una storia di tecnologia. La chitarra elettrica ha dato al mondo il rock and roll. Quando è arrivato il campionatore, è nato l’hip-hop”, ha detto Zmishlany. “Con l’intelligenza artificiale stiamo scrivendo il prossimo capitolo della musica. Abbiamo un nuovo strumento, un nuovo mezzo per fare musica, e questo è molto eccitante”.

Un’agenzia pubblicitaria potrebbe applicare Fugatto per targetizzare rapidamente una campagna esistente per più regioni o situazioni, applicando accenti ed emozioni diverse alle voci fuori campo. Gli strumenti di apprendimento delle lingue potrebbero essere personalizzati per utilizzare qualsiasi voce scelta da chi parla: ad esempio un corso online con la voce di un membro della propria famiglia o di un amico.

Gli sviluppatori di videogiochi potrebbero utilizzare il modello per modificare le risorse preregistrate del loro titolo in modo da adattarle all’azione che cambia quando gli utenti giocano. Oppure, potrebbero creare nuove risorse al volo a partire da istruzioni testuali e input audio opzionali.

“Una delle capacità del modello di cui siamo particolarmente orgogliosi è quella che chiamiamo la ‘avocado chair’, sedia di avocado”, ha detto Valle, riferendosi a un’immagine inedita creata da un modello di intelligenza artificiale generativa per le immagini.

Per esempio, Fugatto può far abbaiare una tromba o miagolare un sassofono. Qualsiasi cosa gli utenti riescano a descrivere, il modello è in grado di crearla.

Con un fine-tuning e piccole quantità di dati sul canto, i ricercatori hanno scoperto che era in grado di gestire compiti per i quali non era stato preaddestrato, come la generazione di una voce canora di alta qualità a partire da una richiesta di testo.

La novità di Fugatto è data da diverse funzionalità, spiega NVIDIA.

Durante l’inferenza, il modello utilizza una tecnica chiamata ComposableART per combinare istruzioni che sono state viste solo separatamente durante l’addestramento. Per esempio, una combinazione di istruzioni potrebbe richiedere un testo pronunciato con un sentimento triste e con accento francese.

La capacità del modello di interpolare tra le istruzioni consente agli utenti di avere un controllo a grana fine sulle istruzioni del testo, in questo caso la pesantezza dell’accento o il grado di tristezza.

“Volevo che gli utenti potessero combinare gli attributi in modo soggettivo o artistico, scegliendo quanta enfasi dare a ciascuno di essi”, ha dichiarato Rohan Badlani, ricercatore di intelligenza artificiale che ha progettato questi aspetti del modello.

“Nei miei test, i risultati erano spesso sorprendenti e mi facevano sentire un po’ come un artista, anche se sono un informatico”, ha detto Badlani, che ha conseguito un master in informatica con specializzazione in IA a Stanford.

Il modello genera anche suoni che cambiano nel tempo, una caratteristica che Badlani chiama interpolazione temporale. Può, ad esempio, creare i suoni di un temporale che attraversa un’area con crescendo di tuoni che si attenuano lentamente in lontananza. Inoltre, consente agli utenti di controllare con precisione l’evoluzione del paesaggio sonoro.

Inoltre, a differenza della maggior parte dei modelli, che possono solo ricreare i dati di addestramento a cui sono stati esposti, Fugatto permette agli utenti di creare paesaggi sonori mai visti prima, come ad esempio un temporale che si dissolve in un’alba con il canto degli uccelli.

Sotto il cofano, Fugatto è un modello transformer generativo foundational che si basa sul lavoro precedente del team in aree quali modellazione del parlato, vocoding audio e comprensione dell’audio.

La versione completa utilizza 2,5 miliardi di parametri ed è stata addestrata su un gruppo di sistemi NVIDIA DGX con 32 GPU NVIDIA H100 Tensor Core.

Fugatto è stato realizzato da un gruppo eterogeneo di persone provenienti da tutto il mondo, tra cui India, Brasile, Cina, Giordania e Corea del Sud. La loro collaborazione ha rafforzato le capacità multiaccento e multilinguistiche di Fugatto.

Una delle parti più difficili del lavoro – mette in evidenza NVIDIA – è stata la generazione di un set di dati misti che contiene milioni di campioni audio utilizzati per l’addestramento. Il team ha impiegato una strategia multiforme per generare dati e istruzioni che ampliassero notevolmente la gamma di compiti che il modello poteva svolgere, ottenendo al contempo prestazioni più accurate e consentendo nuovi compiti senza richiedere dati aggiuntivi.

Hanno anche analizzato i set di dati esistenti per rivelare nuove relazioni tra i dati. Il lavoro complessivo è durato più di un anno.

Valle ricorda due momenti in cui il team ha capito di essere sulla buona strada. “La prima volta che ha generato musica da un prompt ci ha lasciato a bocca aperta”, ha detto.

In seguito, il team ha mostrato Fugatto che rispondeva a una richiesta di creare musica elettronica con cani che abbaiavano a tempo.

“Quando il gruppo si è sciolto in una risata, mi ha davvero scaldato il cuore”.

https://youtu.be/qj1Sp8He6e4

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

iscriviti alla newsletter