Meta AI dévoile Make-A-Video, un modèle de génération de vidéos

Meta AI a dévoilé un nouveau projet de recherche et présenté, fin septembre, des clips produits avec Make-A- Video, un système d’IA qui génère des vidéos de quelques secondes à partir d’invites textuelles. Make-A-Video s’appuie sur les récents progrès de Meta AI en matière de recherche sur les technologies génératives, notamment sur Make-A-Scene, annoncé en juillet dernier. L’objectif de Meta AI est de rendre cette technologie prochainement accessible au public, l’article de recherche et les résultats sont d’ores et déjà mis à disposition de la communauté afin d’obtenir un retour d’expérience en continu, d’affiner et de faire évoluer l’approche des équipes vis-à-vis de cette technologie émergente.

Les modèles text-to-image ont fait l’objet de nombreuses publications ces derniers temps, en matière de vidéo, le challenge s’avère nettement plus complexe : en plus de générer correctement chaque pixel, le système doit également prédire comment ce dernier évoluera. Mark Zuckerberg, dans un post sur Facebook, déclare :

« Make-A-Video résout ce problème en ajoutant une couche d’apprentissage non supervisé qui permet au système de comprendre le mouvement dans le monde physique et de l’appliquer à la génération traditionnelle de texte en image. »

Make-A-Video n’est pas le premier modèle text-to-video, Cog Video, par exemple, a récemment été présenté par une équipe de chercheurs de l’Université Tsinghua et de l’Académie d’IA de Beijing.

Le modèle générateur de clips Make-A-Video

Le modèle a été formé à partir de données texte-image appariées et de séquences vidéo sans texte associé « pour lui apprendre comment le monde se déplace ». Chaque clip est sous-titré avec l’invite utilisée pour générer l’image de départ, comme ci-dessous:

Chat regardant la télévision avec une télécommande à la main

Make-A-Video permet également de transformer des images fixes en vidéos ou de créer des variantes ou des extensions de vidéos existantes.

Dans l’article publié par les chercheurs de Meta AI, ceux-ci indiquent avoir utilisé deux ensembles de données (WebVid-10M et HD-VILA100M), comptant des millions de vidéos, soit des centaines de milliers d’heures de séquences, pour la formation de leur modèle.

Ils reconnaissent que celui-ci présente des limitations : certaines séances sont floues, les animations disjointes, le rendu des mouvements, comme la marche, n’est pas réellement satisfaisant. Ils devront d’autre part améliorer la résolution des vidéos.

Afin de réduire le risque de contenu nuisible dans les vidéos, l’équipe de recherche a nettoyé de manière préventive l’ensemble de données de formation de tout contenu pornographique ainsi que de phrases toxiques.

Un projet open-source

A l’instar d’autres recherches de Meta AI, le projet a été publié en open source en même temps que son annonce. Meta AI déclare :

« Nous voulons réfléchir à la façon dont nous construisons de nouveaux systèmes d’IA générative comme celui-ci. Make-A-Video utilise des ensembles de données accessibles au public, ce qui ajoute un niveau supplémentaire de transparence à la recherche. Nous partageons ouvertement cette recherche générative sur l’IA et les résultats avec la communauté pour obtenir leurs commentaires, et nous continuerons à utiliser notre cadre d’IA responsable pour affiner et faire évoluer notre approche de cette technologie émergente. »