Audiocraft, la famille de modèles d'IA de génération d'audio et de musique open source de Meta

Les modèles text-to-audio ont fait parler d’eux avant que les modèles de génération d’image, de video ou de texte ne leur volent dernièrement la vedette. Meta s’est appuyé sur ses récentes recherches pour la génération audio pour publier en open source AudioCraft, un framework générant de la musique et de l’audio à partir d’invites textuelles.

Selon Meta, la famille de modèles AudioCraft se distingue par sa capacité à produire un son de haute qualité avec une cohérence à long terme, tout en restant facile à utiliser et simplifiera la conception globale des modèles génératifs pour l’audio.

Différents modèles d’IA générant des échantillons audio conditionnés sur des entrées de texte ont précédemment été développés : Diffsound, Jukebox par Open AI, et en début d’année, MusicLM de Google Research. Leurs concepteurs se sont tous heurtés à la rareté des annotations textuelles, limitant la possibilité de mettre les modèles à l’échelle et au fait que la modélisation audio haute fidélité nécessite d’encoder l’audio à un taux d’échantillonnage élevé, ce qui conduit à des séquences extrêmement longues.

D’après les chercheurs de Meta, la musique est sans doute le type d’audio le plus difficile à générer car il est composé de motifs locaux et à longue portée, d’une suite de notes à une structure musicale globale avec plusieurs instruments.

La bibliothèque AudioCraft

AudioCraft, bibliothèque PyTorch pour la recherche en apprentissage profond sur la génération audio, contient du code d’inférence et d’apprentissage les modèles génératifs AudioGen et MusicGen.

AudioCraft se compose de trois modèles : AudioGen, un modèle d’IA auto-régressif basé sur Transformer générant des échantillons audio présenté par Meta en septembre 2022, MusicGen, un modèle de langage simple open source générant de la musique à partir d’invites textuelles et musicales et une version améliorée du décodeur EnCodec, qui, selon Meta génère de la musique de meilleure qualité avec moins d’artefacts.

Le modèle MusicGen, publié en juin dernier, est un décodeur basé sur un transformateur auto-régressif à un étage entraîné avec un tokenizer EnCodec de 32 kHz publié précédemment par Meta et quatre livres de codes de 50 Hz. Contrairement aux modèles précédents, il ne nécessite pas de représentation sémantique auto-supervisée et crée les quatre livres de codes en même temps. Les chercheurs ont introduit un petit délai entre les livres de codes, ce qui se traduit par seulement 50 étapes audio auto-régressives par seconde.

Il a été entraîné sur 20 000 heures de musique sous licence, notamment sur 10 000 pistes musicales provenant de la base de données interne de Facebook, et 390 000 de Shutterstock et Pond5, une banque de musique en ligne. Meta a amélioré EnCodec pour AudioCraft.

Cette approche unifiée pour la musique, le son, la compression facilite la construction et la réutilisation, permettant à tous ceux qui souhaitent développer de meilleurs générateurs de son, des algorithmes de compression ou même des générateurs de musique d’explorer dans une base de code cohérente et solide.

Meta présente plusieurs échantillons audio générés par AudioCraft sur son blog et a partagé tous les poids et le code du modèle AudioCraft : https://bit.ly/3QnMya3.