Un musicista professionista – nella visione di Meta – potrà esplorare nuove composizioni senza dover suonare una sola nota su uno strumento. Oppure, un piccolo imprenditore potrà aggiungere con facilità una colonna sonora al suo ultimo video pubblicitario per Instagram.

Questa è la promessa di AudioCraft, l’ultimo strumento di intelligenza artificiale della società di Mark Zuckerberg, che genera audio e musica realistici e di alta qualità a partire dal testo.

AudioCraft, spiega Meta, è composto da tre modelli: MusicGen, AudioGen ed EnCodec. MusicGen, che è stato addestrato con musica di proprietà di Meta e su licenza specifica, genera musica dai prompt di testo, mentre AudioGen, che è stato addestrato con effetti sonori pubblici, genera audio dai prompt.

Meta ha ora rilasciato una versione migliorata del decoder EnCodec, che consente di generare musica di qualità superiore con meno artefatti. L’azienda sta anche rilasciando i modelli AudioGen pre-addestrati, che consentono di generare suoni ambientali ed effetti sonori come l’abbaiare di un cane, il clacson di un’auto o i passi su un pavimento di legno. Infine, sta condividendo tutti i pesi e il codice dei modelli AudioCraft.

L’azienda sta rilasciando come open source questi modelli, dando l’accesso a ricercatori e professionisti in modo che possano addestrare i propri modelli con i propri set di dati e contribuire a far progredire il campo dell’audio e della musica generati dall’intelligenza artificiale.

Secondo Meta, mentre si sta assistendo a un grande entusiasmo per l’AI generativa per immagini, video e testo, l’audio sembra essere rimasto un po’ indietro. Esistono già dei lavori in questo campo, che però Meta ritiene essere molto complicato e non molto aperto, quindi non ancora accessibile in modo facile per le persone. La generazione di audio ad alta fedeltà di qualsiasi tipo richiede la modellazione di segnali e modelli complessi a varie scale. E la musica è con ogni probabilità il tipo di audio più impegnativo da generare.

La famiglia di modelli AudioCraft, sottolinea Meta, è in grado di produrre audio di alta qualità con coerenza a lungo termine ed è facile da usare. Con AudioCraft, l’azienda ritiene di aver semplificato la progettazione complessiva dei modelli generativi per l’audio rispetto al lavoro precedente nel campo, dando alle persone la possibilità di operare con i modelli esistenti che Meta ha sviluppato negli ultimi anni, ma anche di spingersi oltre i loro limiti e sviluppare i modelli propri.

Una solida base open source secondo l’azienda favorirà l’innovazione e completerà il modo in cui produrremo e ascolteremo l’audio e la musica in futuro. Con un numero ancora maggiore di controlli, Meta pensa che MusicGen possa diventare un nuovo tipo di strumento, proprio come i sintetizzatori al loro esordio.

Meta considera la famiglia di modelli AudioCraft come strumenti per musicisti e sound designer in grado di fornire ispirazione, aiutare le persone a fare rapidamente brainstorming e iterare le loro composizioni in modi nuovi.

AudioCraft funziona per la musica, il suono, la compressione e la generazione, tutto nella stessa posizione. Poiché è facile da costruire e riutilizzare, chi vuole sviluppare generatori di suoni, algoritmi di compressione o generatori di musica migliori può farlo sulla stessa code base e basarsi su ciò che altri hanno fatto per spingersi oltre.

Maggiori informazioni su AudioCraft sono disponibili sul blog dedicato all’AI di Meta.