OpenAI dévoile SORA, son premier modèle text-to-video

Jeudi dernier, le jour même où Meta présentait V-Jepa, OpenAI dévoilait SORA, un modèle de génération de vidéos. Plusieurs modèles text-to-video ont été présentés dernièrement comme Stable Video Diffusion de Stability AI ou W.A.L.T, au développement duquel a participé Google Research qui vient de dévoiler Lumiere, Make A Video, le modèle de Meta, avait quant à lui fait son apparition dès 2022. Alors que ces modèles peuvent générer des vidéos de quelques secondes, Sora peut produire des vidéos très réalistes d’une minute.

Entraîné sur un large corpus de vidéos et d’images provenant d’Internet, couvrant une grande variété de sujets et de scènes, Sora est capable de générer des vidéos de haute qualité, de différentes durées, résolutions et formats.

Comment fonctionne Sora ?

Sora utilise une architecture de transformer qui opère sur des patchs spatio-temporels de codes latents de vidéos et d’images. Les patchs sont des morceaux de vidéos ou d’images qui servent de tokens pour le transformeur. Les patchs permettent à Sora de traiter des vidéos et des images de tailles variables, sans avoir besoin de les redimensionner ou de les recadrer. Sora utilise également un réseau de compression qui réduit la dimensionnalité des données visuelles, et un réseau de décompression qui reconstruit les pixels à partir des latents générés.

Sora est un modèle de diffusion, c’est-à-dire qu’il génère des vidéos en partant d’un bruit aléatoire et en le rapprochant progressivement de la distribution cible. Il est conditionné par du texte, que ce soit une invite de l’utilisateur ou une description plus détaillée générée par un modèle de langage. Il utilise la technique de retitrage de DALL-E 3 ce qui lui permet de suivre plus fidèlement les instructions textuelles de l’utilisateur.

Cependant, il peut également être invité par d’autres entrées, comme des images générées par les modèles DALL-E qu’il va animer ou des vidéos existantes, qu’il va rallonger ou auxquelles il va ajouter de nouveaux éléments.

Sora peut simuler des effets de caméra, comme des mouvements, des rotations ou des zooms, en respectant la cohérence 3D des scènes. Selon OpenAI, il peut maintenir une cohérence temporelle sur de longues durées, en préservant les objets, les personnages et les actions même quand ils sont occultés ou qu’ils sortent du cadre.

OpenAi a partagé quelques vidéos sur son site et sur son compte X :

Invite (traduction) : La caméra fait directement face à des bâtiments colorés à Burano, en Italie. Une adorable dalmatien regarde à travers une fenêtre d’un immeuble au rez-de-chaussée. De nombreuses personnes marchent et font du vélo le long des rues du canal devant les bâtiments.

Invite (traduction) : Plusieurs mammouths laineux géants s’approchent en marchant dans une prairie enneigée, leur longue fourrure laineuse souffle légèrement dans le vent pendant qu’ils marchent, des arbres couverts de neige et des montagnes enneigées spectaculaires au loin, la lumière du milieu de l’après-midi avec des nuages vaporeux et un soleil haut au loin crée une lueur chaude, la vue de la caméra basse est époustouflante capturant le grand mammifère à fourrure avec de belles photographies, profondeur de champ.

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf

— OpenAI (@OpenAI) February 15, 2024

Les limites de SORA

Bien que très performant, Sora peut toutefois avoir du mal à modéliser la physique complexe, la causalité, les détails spatiaux et temporels, et les interactions entre les objets et les personnages.

Il peut ainsi faire apparaître des animaux ou des personnes de manière aléatoire, surtout dans des scènes contenant de nombreuses entités, comme on peut le voir avec les cinq louveteaux dans la vidéo générée par Sora ci-dessous.

Invite (traduction) : Cinq louveteaux gris gambadent et se poursuivent autour d’une route de gravier isolée, entourés d’herbe. Les chiots courent et sautent, se pourchassent et se mordillent les uns les autres, jouent.

Sora peut également mélanger les détails spatiaux d’un texte, comme la gauche et la droite ou produire des incohérences, comme un cookie ne présentant pas de marque de morsure après avoir été croqué.

Les mesures de sécurité prises par OpenAI

Avant de rendre Sora disponible dans ses produits, OpenAI travaille avec une Red Team, des experts en sécurité, en biais, et en désinformation pour tester et améliorer le modèle.

Outre les méthodes de sécurité conçues pour DALL-E 3 pour garantir le respect des politiques d’utilisation, comme l’interdiction de la violence, du contenu haineux ou de la divulgation d’informations personnelles qui sont appliquées à Sora, OpenAI travaille au développement d’un classificateur de détection de vidéos générées par Sora.

En plus de toutes ces précautions de sécurité, OpenAI a également déclaré qu’il travaillerait avec les décideurs, les éducateurs et les artistes pour comprendre leurs préoccupations et identifier les cas positifs d’utilisation du modèle.