Les LDM vidéo
https://research.nvidia.com/labs/toronto-ai/VideoLDM/assets/figures/video_ldm_animation.mp4"Nous présentons des modèles de diffusion latente vidéo (LDM vidéo) pour une génération vidéo haute résolution efficace sur le plan informatique. Pour alléger les besoins intensifs en calcul et en mémoire de synthèse vidéo haute résolution, nous exploitons le paradigme LDM et l’étendons à la génération vidéo. Nos LDM vidéo mappent les vidéos dans un espace latent comprimé et modélisent des séquences de variables latentes correspondant aux images vidéo (voir animation ci-dessus). Nous initialisons les modèles à partir de LDM d’image et insérons des calques temporels dans les réseaux neuronaux débruiteurs des LDM pour modéliser temporellement des séquences d’images vidéo codées. Les couches temporelles sont basées sur l’attention temporelle ainsi que sur Convolutions 3D. Nous affinons également le décodeur du modèle pour la génération vidéo".
Les applications
L'équipe a validé son approche sur deux applications distinctes : la génération de vidéos de scènes de conduite dans la nature, et la création de contenu créatif avec la modélisation texte-vidéo.La synthèse Text-to-Video
Les vidéos générées ont une résolution de 1280 x 2048 pixels, tirant parti de Stable Diffusion comme image dorsale LDM, ainsi que du Stable Diffusion upscaler, qui se composent de 113 images et sont rendues à 24 ips. Cela nous permet d'obtenir des clips de 4,7 secondes."Notre LDM vidéo pour la génération de texte en vidéo est basé sur la diffusion stable et dispose d’un total de 4,1 milliards de paramètres, y compris tous les composants à l’exception de l’encodeur de texte CLIP. Seulement 2,7 milliards de ces paramètres sont entraînés sur des vidéos. Cela signifie que nos modèles sont nettement plus petits que ceux de plusieurs œuvres concurrentes. Néanmoins, nous pouvons produire des vidéos haute résolution, temporellement cohérentes et diversifiées".
[embed]https://research.nvidia.com/labs/toronto-ai/VideoLDM/assets/text_to_video/teddy_bear_guitar.mp4[/embed] Invite textuelle : « Un ours en peluche joue de la guitare électrique, haute définition, 4k. » Les chercheurs ont exploré la synthèse de vidéos se composant de 175 images rendues à 24 ips, résultant en des clips de 7,3 secondes mais ils ont constaté une légère dégradation de leur qualité.