Le laboratoire NVIDIA AI de Toronto présente un modèle Text-to-Video basé sur Stable Diffusion

Dans le cadre de la Conférence IEEE sur la vision par ordinateur et la reconnaissance des formes (CVPR) 2023, l'équipe de recherche du laboratoire NVIDIA AI de Toronto présente ses recherches sur la synthèse vidéo haute résolution avec les modèles de diffusion latente, notamment un modèle de synthèse Text-to-Video haute résolution basé sur le modèle Stable Diffusion open source de Stability AI. Entraîner un modèle de diffusion dans un espace latent permet d'obtenir une synthèse d’image de haute qualité tout en évitant les demandes de calcul excessives. Pour appliquer le paradigme LDM à la génération vidéo haute résolution, une tâche particulièrement gourmande en ressources, l'équipe de recherche a utilisé des LDM d’image pré-entraînés prêts à l’emploi.

Les LDM vidéo

https://research.nvidia.com/labs/toronto-ai/VideoLDM/assets/figures/video_ldm_animation.mp4

"Nous présentons des modèles de diffusion latente vidéo (LDM vidéo) pour une génération vidéo haute résolution efficace sur le plan informatique. Pour alléger les besoins intensifs en calcul et en mémoire de synthèse vidéo haute résolution, nous exploitons le paradigme LDM et l’étendons à la génération vidéo. Nos LDM vidéo mappent les vidéos dans un espace latent comprimé et modélisent des séquences de variables latentes correspondant aux images vidéo (voir animation ci-dessus). Nous initialisons les modèles à partir de LDM d’image et insérons des calques temporels dans les réseaux neuronaux débruiteurs des LDM pour modéliser temporellement des séquences d’images vidéo codées. Les couches temporelles sont basées sur l’attention temporelle ainsi que sur Convolutions 3D. Nous affinons également le décodeur du modèle pour la génération vidéo".

Les applications

L'équipe a validé son approche sur deux applications distinctes : la génération de vidéos de scènes de conduite dans la nature, et la création de contenu créatif avec la modélisation texte-vidéo.

La synthèse Text-to-Video

Les vidéos générées ont une résolution de 1280 x 2048 pixels, tirant parti de Stable Diffusion comme image dorsale LDM, ainsi que du Stable Diffusion upscaler, qui se composent de 113 images et sont rendues à 24 ips. Cela nous permet d'obtenir des clips de 4,7 secondes.

"Notre LDM vidéo pour la génération de texte en vidéo est basé sur la diffusion stable et dispose d’un total de 4,1 milliards de paramètres, y compris tous les composants à l’exception de l’encodeur de texte CLIP. Seulement 2,7 milliards de ces paramètres sont entraînés sur des vidéos. Cela signifie que nos modèles sont nettement plus petits que ceux de plusieurs œuvres concurrentes. Néanmoins, nous pouvons produire des vidéos haute résolution, temporellement cohérentes et diversifiées".

[embed]https://research.nvidia.com/labs/toronto-ai/VideoLDM/assets/text_to_video/teddy_bear_guitar.mp4[/embed] Invite textuelle : « Un ours en peluche joue de la guitare électrique, haute définition, 4k. » Les chercheurs ont exploré la synthèse de vidéos se composant de 175 images rendues à 24 ips, résultant en des clips de 7,3 secondes mais ils ont constaté une légère dégradation de leur qualité.

La génération de vidéos de scènes de conduite

Le LDM vidéo de scènes de conduite a été entraîné pour générer des vidéos à une résolution de 512 x 1024 pixels [embed]https://research.nvidia.com/labs/toronto-ai/VideoLDM/assets/driving/high_res_driving_3.mp4[/embed] "Nous entraînons également des modèles de prédiction pour permettre la génération de vidéos longues, ce qui nous permet de générer des vidéos temporellement cohérentes de plusieurs minutes. En outre, plusieurs vidéos générées de 5 minutes peuvent être trouvées ici." Références de l'article : "High-Resolution Video Synthesis with Latent Diffusion Models" Auteurs : Andreas Blattmann1, Robin Rombach1, Huan Ling2,3,4, Tim Dockhorn2,3,5 , Seung Wook Kim2,3,4, Sanja Fidler2,3,4, Karsten Kreis2. Affiliations : 1 LMU Munich, 2 NVIDIA, 3 Vector Institute, 4 Université de Toronto, 5 Université de Waterloo. Retrouver le document de recherche

Marie-Claude Benoit

Rédaction ActuIA — actualités, données et analyses sur l'intelligence artificielle pour les décideurs.

Le laboratoire NVIDIA AI de Toronto présente un modèle Text-to-Video basé sur Stable Diffusion

Les LDM vidéo

Les applications

La synthèse Text-to-Video

La génération de vidéos de scènes de conduite

Vers une nouvelle ère du storytelling : après Gen-4, Runway lance Gen-4 Turbo

Meta AI présente DINOv3, sa nouvelle génération de modèles de vision par ordinateur avec apprentissage auto-supervisé

Alibaba : l'équipe Qwen annonce l'ajout de deux nouveaux modèles open source à Qwen2.5-1M