AudioGen, le modèle d'IA text-to-audio de Meta AI

Des chercheurs de Meta AI et de l’Université Hébraïque de Jérusalem présentent AudioGen, un modèle d’IA auto-régressif basé sur Transformer générant des échantillons audio conditionnés sur des entrées de texte. Leur étude intitulée : « AudioGen : textually guided audio generation » a été publiée sur arXiv le 30 septembre dernier.

La génération d’échantillons audio conditionnés par des légendes textuelles descriptives est une tâche complexe. Parmi les défis cités par les chercheurs, on trouve notamment la différenciation des sources (par exemple, séparer plusieurs personnes parlant simultanément) en raison de la façon dont le son se propage dans un support. D’ailleurs, cette tâche peut être encore compliquée par les conditions d’enregistrement réelles (bruit de fond, réverbération …). La rareté des annotations textuelles impose une autre contrainte, limitant la possibilité de mettre les modèles à l’échelle. Enfin, la modélisation audio haute fidélité nécessite d’encoder l’audio à un taux d’échantillonnage élevé, ce qui conduit à des séquences extrêmement longues.

AudioGen, un modèle de génération auto-régressif guidé textuellement

Pour surmonter ces défis, les chercheurs ont utilisé une technique d’augmentation qui mélange différents échantillons audio, conduisant le modèle à apprendre en interne à séparer plusieurs sources. Ils ont organisé 10 ensembles de données contenant différents types d’annotations audio et textuelles pour gérer la rareté des points de données texte-audio et entraîné AudioGen pendant environ 4 000 heures.

Celui-ci repose sur deux étapes principales. Dans la 1ère, l’audio brut est encodé en une séquence discrète de jetons à l’aide d’un modèle de compression audio neuronale. Ce modèle de bout en bout est formé pour reconstruire l’audio d’entrée à partir de la représentation compressée, avec un addition d’une perte perceptuelle sous la forme d’un ensemble de discriminations et permet de générer des échantillons audio haute fidélité tout en restant compact.

La deuxième étape exploite un modèle de langage transformateur-décodeur autorégressif qui fonctionne sur les jetons audio discrets obtenus dès la première étape tout en étant conditionné par des entrées textuelles.

Les résultats

AudioGen peut produire une très grande variété de sons et les associer dans un même échantillon, il peut également générer un morceau de musique à partir d’un court extrait musical.

Les chercheurs ont demandé à des évaluateurs recrutés à l’aide de la plateforme Amazon Mechanical Turk de noter des échantillons audio sur une échelle de 1 à 100. Quatre modèles ont été évalués : DiffSound basé sur CLIP avec 400 millions de paramètres et trois AudioGen basés sur T5 comptant de 285 millions à un milliard de paramètres.

Ils devaient noter la qualité du son mais aussi la pertinence du texte, c’est à dire la correspondance entre l’audio et le texte. Le modèle AudioGen basé sur 1 milliard de paramètres a obtenu les meilleurs résultats en qualité et en pertinence ( environ 70 et 68 respectivement) tandis que Diffsound a obtenu environ 66 et 55 points.

Il est possible d’écouter quelques échantillons sur cette page du projet.

Limitation d’AutoGen

Les chercheurs concèdent que leur modèle bien qu’ayant la capacité à séparer les sources et créer des compositions complexes, manque encore de compréhension pour l’ordre temporel dans une scène. Il ne fait pas la différence entre un chien aboie puis un oiseau chante et un chien aboie tandis qu’un oiseau chante en arrière-plan.

Cependant, ce travail pourra servir de base à la construction de meilleurs modèles de synthèse vocale. En outre, la recherche proposée pourrait ouvrir des orientations futures en matière d’analyse comparative, édition audio sémantique, séparation des sources audio des unités discrètes…

Sources de l’article :

“AudioGen : textually guided audio generation”
arXiv:2209.15352v1 ,30 Sep 2022.

FAIR Team, Meta AI : Felix Kreuk , Gabriel Synnaeve , Adam Polyak , Uriel Singer , Alexandre Défossez ,Jade Copet , Devi Parikh , Yaniv Taigman ;

Yossi Adi, FAIR team AI et Université Hébraïque de Jérusalem.