Google Research présente MusicLM, un nouveau modèle text-to-audio

Les modèles text-to-audio ont fait parler d’eux avant que les modèles text-to-image ne leur volent la vedette. Cependant, les recherches pour améliorer les premiers se poursuivent, la preuve en est avec la publication récente du modèle MusicLM de Google et sa publication récente sur arXiv : « MusicLM : Generating Music From Text ».

Différents modèles d’IA générant des échantillons audio conditionnés sur des entrées de texte ont précédemment été développés : Diffsound, Jukebox par Open AI, AudioGen par Meta AI. Leurs concepteurs se sont tous heurtés à la rareté des annotations textuelles, limitant la possibilité de mettre les modèles à l’échelle et au fait que la modélisation audio haute fidélité nécessite d’encoder l’audio à un taux d’échantillonnage élevé, ce qui conduit à des séquences extrêmement longues.

MusicLM, le nouveau modèle text-to-audio

AudioLM, un framework pour la génération audio de haute qualité avec cohérence à long terme, avait été présenté par Google en septembre dernier lors d’une précédente publication.

Ce cadre atteignait à la fois une haute fidélité et une cohérence à long terme sur des dizaines de secondes. De plus, en ne faisant aucune hypothèse sur le contenu du signal audio, AudioLM apprenait à générer un son réaliste à partir de corpus audio uniquement, qu’il s’agisse de parole ou de musique de piano, sans aucune annotation. La capacité de modéliser divers signaux suggérait qu’un tel système pourrait générer des sorties plus riches s’il était formé sur les données appropriées.

Dans cette nouvelle recherche, le modèle pour générer de la musique haute fidélité à partir de descriptions textuelles, MusicLM, exploite la modélisation autorégressive en plusieurs étapes d’AudioLM en tant que composant génératif, tout en l’étendant pour incorporer le conditionnement de texte. Pour relever le principal défi de la rareté des données jumelées, les chercheurs se sont appuyés sur MuLan, un modèle conjoint musique-texte formé pour projeter la musique et sa description textuelle correspondante à des représentations proches les unes des autres dans un espace d’intégration partagé, éliminant totalement le besoin de sous-titres au moment de la formation et permettant une formation sur des corpus audio massifs.

Les résultats

Lorsqu’il est formé sur un grand ensemble de données de musique non étiquetée, MusicLM apprend à générer de la musique longue et cohérente à 24 kHz, pour des descriptions textuelles d’une complexité significative, telles que « chanson de jazz enchanteresse avec un solo de saxophone mémorable et un chanteur solo » ou « techno berlinoise des années 90 avec une basse basse et un coup de pied fort ».

Les chercheurs ont étendu MusicLM pour qu’il accepte une mélodie supplémentaire sous forme audio (par exemple, sifflement ou bourdonnement) comme conditionnement pour générer un clip musical qui suit la mélodie souhaitée, rendu dans le style décrit par l’invite.
Certaines limites du modèle sont héritées de MuLan, il comprend mal les négations et n’adhère pas à l’ordre temporel précis décrit dans le texte. L’équipe concède également que des améliorations de ses évaluations quantitatives sont nécessaires.

Selon elle, les travaux futurs pourraient se concentrer sur la génération de paroles, ainsi que sur l’amélioration du conditionnement du texte et de la qualité vocale. Un autre aspect est la modélisation de la structure des chansons de haut niveau comme l’introduction, le couplet et le refrain. Modéliser la musique à une fréquence d’échantillonnage plus élevée est un objectif supplémentaire.

L’équipe se dit consciente des risques associés à son modèle et au cas d’utilisation qu’il aborde: « Les échantillons générés refléteront les biais présents dans les données de formation, soulevant la question de la pertinence de la production musicale pour les cultures sous-représentées dans les données de formation, tout en soulevant des préoccupations quant à l’appropriation culturelle ».

D’autre part, pour remédier au manque de données d’évaluation pour cette tâche, l’équipe publie MusicCaps, un nouvel ensemble de données de sous-titres musicaux de haute qualité avec 5,5 milliers d’exemples préparés par des musiciens experts, afin de soutenir les recherches futures.

Pour retrouver des exemples d’audio générés : MusicLM

Pour retrouver le jeu de données : MusicCaps

Sources de l’article :

“MusicLM: Generating Music From Text”

arXiv:2301.11325v1,26 Jan 2023
Auteurs : Andrea Agostinelli, Timo I. Denk, Zalán Borsos, Jesse Engel, Mauro Verzetti, Antoine Caillon, Qingqing Huang, Aren Jansen, Adam Roberts, Marco Tagliasacchi, Matt Sharifi, Neil Zeghidour, Christian Frank
Google Research