Les modèles text-to-audio ont fait parler d’eux avant que les modèles text-to-image ne leur volent la vedette. Les recherches pour améliorer les premiers se poursuivent, NVIDIA vient ainsi de dévoiler son “couteau suisse du son” : Fugatto (Foundational Generative Audi...
Les modèles text-to-audio ont fait parler d’eux avant que les modèles text-to-image ne leur volent la vedette. Cependant, les recherches pour améliorer les premiers se poursuivent, la preuve en est avec la publication récente du modèle MusicLM de Google et sa publication ré...
Des chercheurs de Meta AI et de l’Université Hébraïque de Jérusalem présentent AudioGen, un modèle d’IA auto-régressif basé sur Transformer générant des échantillons audio conditionnés sur des entrées de texte. Leur étude intitulée : « AudioGen : textually guided audio gene...