Zhipu AI dévoile CogVideoX-5B, son dernier modèle text-to-video open source

Zhipu AI, licorne chinoise spin-off de l’Université Tsinghua de Pékin a annoncé récemment le lancement de son dernier modèle text-to-vidéo CogVideoX-5B. Comme son prédécesseur, CogVideoX-2B, le modèle est open source, mais est, quant à lui, publié sous la licence CogVideoX qui permet une utilisation gratuite uniquement à des fins de recherche.

Développé avec les techniques d’IA les plus récentes, notamment un auto-encodeur variationnel (VAE) 3D et un transformateur expert pour améliorer l’alignement entre le contenu vidéo et les descriptions textuelles, CogVideoX se distingue par sa capacité à créer des vidéos cohérentes, capturant non seulement des détails visuels riches, mais aussi des mouvements complexes avec une fluidité sans précédent.

Les deux modèles génèrent des vidéos de six secondes, à une fréquence de 8 images par seconde et une résolution de 720×480 pixels. Cette dernière version surpasse son prédécesseur en termes de qualité et de performance.

Des technologies de pointe

L’un des éléments clés de l’architecture de CogVideoX est le VAE causal 3D qui permet une compression efficace des données vidéo, à la fois dans les dimensions spatiales et temporelles. Contrairement aux modèles de génération vidéo antérieurs utilisant un VAE 2D, où l’on observe couramment des scintillements, il permet d’assurer une continuité entre les images dans les vidéos produites par CogVideoX.

La structure du VAE comprend un encodeur, un décodeur et un régularisateur d’espace latent, permettant de réduire la longueur des séquences et les exigences computationnelles pendant l’entraînement, tout en maintenant une reconstruction vidéo de haute qualité.

Un Transformateur Expert pour fusionner les données textuelles et visuelles

L’Expert Transformer est lui aussi un élément essentiel de l’architecture de CogVideoX, spécialement conçu pour gérer l’interaction complexe entre les données textuelles et vidéo.

Dans les transformateurs classiques, toutes les modalités de données sont traitées de manière uniforme, ce qui peut entraîner des inefficacités, notamment lors de la combinaison d’entrées textuelles et vidéo aux caractéristiques et échelles variées. Le transformateur expert de CogVideoX utilise la technique de normalisation “Adaptive LayerNorm” (AdaLN), pour traiter distinctement les caractéristiques du texte et de la vidéo, facilitant leur intégration fluide.

Un entraînement progressif

Les chercheurs ont adopté et conçu plusieurs techniques d’entraînement avancées pour optimiser les performances du modèle. L’entraînement à durée mixte avec la méthode Frame Pack améliore les capacités de généralisation du modèle pour différentes longueurs de vidéo, tout en maintenant une qualité constante, tandis que l’entraînement progressif, utilisant tout d’abord des vidéos basse résolution puis des vidéos de résolution de plus en plus haute, permet au modèle de capturer d’abord les détails généraux avant de les affiner.

L’échantillonnage uniforme explicite, quant à lui, stabilise la courbe de perte d’entraînement et accélère la convergence en définissant différents intervalles d’échantillonnage temporel sur chaque rang parallèle de données. Le modèle apprend ainsi efficacement sur l’ensemble de la séquence vidéo.

CogVideoX-5B

CogVideoX-2B avait été salué pour ses performances, notamment en matière de capture de mouvement humain, de contenu dynamique et de restauration de scènes. Le nouveau modèle, avec ses paramètres plus élevés, le surpasse non seulement dans ces domaines, mais également en termes de suivi des instructions, de génération vidéo et d’effets visuels.

Des exemples de vidéos qu’il a générées sont partagées sur Hugging Face.

Pour faciliter les développements futurs, les chercheurs ont rendu open-source une partie des poids du modèle CogVideoX accessible sur GitHub et du VAE 3D. Ils travaillent au développement de modèles plus grands. Pour plus d’informations sur leur approche, vous pouvez consulter leur article de recherche sur arXiv.

La sortie du modèle marque une nouvelle étape dans le domaine de la génération vidéo à partir de texte, avec des implications potentielles dans divers secteurs, allant de la production cinématographique à l’éducation, en passant par le marketing et les médias.