Stability AI dévoile Stable Audio, son modèle pour la génération de musique et de son

Stability AI, licorne basée à Londres et San Francisco, a connu la notoriété en annonçant en août 2022 la sortie publique du modèle-text-to-image Stable Diffusion. Aujourd’hui, ce leader de l’IA générative ouverte, annonce le lancement de Stable Audio, le premier produit d’IA de la société pour la génération de musique et de son.

Les modèles génératifs basés sur la diffusion ont apporté une révolution dans l’IA générative au cours des dernières années. Ils ont permis des améliorations rapides en termes de qualité et de contrôlabilité dans la création d’images, de vidéos et d’audio. Ces modèles fonctionnent dans l’espace de codage latent d’un autoencodeur pré-entraîné, ce qui a accéléré considérablement leur processus d’entraînement et d’inférence.

Cependant, l’un des défis majeurs dans la génération audio était la limitation à la création de segments audio de taille fixe. Par exemple, un modèle de diffusion audio formé sur des clips de 30 secondes ne pouvait générer que des segments de 30 secondes. Cela posait un problème majeur lors de la création de morceaux audio de longueurs variables, comme des chansons complètes.

En outre, les modèles de diffusion audio sont entraînés en utilisant des extraits aléatoires provenant de fichiers audio plus longs, ce qui implique de les découper ou de les étendre pour qu’ils correspondent à la durée d’entraînement souhaitée du modèle. Lorsqu’il s’agit de musique, cette approche peut conduire le modèle à produire des portions aléatoires d’une chanson, sans prendre en compte le début ou la fin naturelle d’une phrase musicale.

Pour résoudre ces problèmes, l’architecture de Stable Audio repose sur un modèle de diffusion latent qui est conditionné par des métadonnées textuelles, la durée et l’heure de début du fichier audio, ce qui permet un contrôle précis du contenu et de la longueur de l’audio généré. En utilisant une représentation latente fortement sous-échantillonnée de l’audio, les temps d’inférence sont considérablement réduits par rapport à l’audio brut.

Selon la société, “Stable Audio est un produit unique en son genre qui utilise les dernières techniques d’IA générative pour fournir de la musique et des effets sonores plus rapides et de meilleure qualité via une interface Web facile à utiliser”.

Stability AI propose une version gratuite de base de Stable Audio, qui peut être utilisée pour générer et télécharger des pistes jusqu’à 45 secondes, et un abonnement Pro, qui fournit des pistes de 90 secondes téléchargeables pour des projets commerciaux.

Les composants clés de l’architecture de Stable Audio

Les modèles Stable Audio comprennent comme ceux de la famille Stable Diffusion un auto-encodeur variationnel (VAE), un encodeur de texte et un modèle de diffusion conditionné basé sur U-Net.

Le VAE compresse l’audio stéréo en un codage latent résistant au bruit et inversible, ce qui accélère l’entraînement du modèle et la génération. Le laboratoire de recherche audio générative de Stability AI, Harmonai, a utilisé une architecture entièrement convolutive basée sur les architectures d’encodeur et de décodeur Descript Audio Codec pour faciliter l’encodage et le décodage audio de longueur arbitraire, ainsi que des sorties haute fidélité.

Pour avoir un contrôle précis du contenu audio généré en fonction des indications textuelles fournies, l’équipe utilise un encodeur de texte figé d’un modèle CLAP, entraîné à partir de zéro sur son jeu de données, ce qui permet au modèle de non seulement de comprendre les informations textuelles mais également les relations entre les mots et les sons. Ces caractéristiques textuelles sont fournies au modèle de diffusion par le biais de couches d’attention croisée.

Des intégrations de synchronisation permettent de spécifier la longueur totale de la sortie audio générée. Deux propriétés clés sont calculées pendant la phase d’entraînement : la 1ère appelée “seconds-start”, représente le moment exact où le morceau audio commence dans le fichier original, la 2ème, “seconds-total”, correspond à la durée totale du fichier audio original.

Ces valeurs en secondes sont converties en intégrations discrètes apprises par seconde et sont combinées avec les jetons d’invite et ensuite transmises aux couches d’attention croisée du modèle de diffusion.

Ce dernier est un paramètre 907M U-Net qui utilise diverses techniques, telles que les calques résiduels, les calques d’auto-attention et les calques d’attention croisée pour améliorer la qualité de la sortie audio.

Un énorme jeu de données

Stable Audio a été entraîné sur un ensemble de données massif comprenant plus de 800 000 fichiers audio contenant de la musique, des effets sonores et des pistes d’instruments individuels, ainsi que des métadonnées textuelles correspondantes, fournies dans le cadre d’un accord avec le fournisseur de musique AudioSparx. Cet ensemble de données totalise plus de 19 500 heures d’audio, ce qui garantit une diversité et une qualité exceptionnelles dans la génération audio.

Le modèle phare Stable Audio est capable de générer rapidement de l’audio stéréo de haute qualité, avec une fréquence d’échantillonnage de 44,1 kHz, à une vitesse impressionnante. La flexibilité offerte par cette architecture ouvre de nouvelles possibilités dans la création musicale et la production audio.

L’équipe de recherche d’Harmonai continue de travailler sur l’amélioration de l’architecture de Stable Audio et s’efforce d’augmenter la qualité de sortie, la contrôlabilité, la vitesse d’inférence et la longueur de génération. Elle prévoit de publier des modèles open source basés sur Stable Audio, ainsi que leur code de formation, pour permettre à d’autres de générer leur propre audio de haute qualité.

Pour essayer gratuitement le modèle, cliquez sur ce lien stableaudio.com