Runway, pionnier dans les outils de création multimédia alimentés par l'IA, a introduit cette semaine Gen-4 Turbo, une version améliorée de son modèle Gen-4 présenté fin mars. Permettant la création de séquences vidéo de 5 à 10 secondes à partir d’une image d’entrée et d’une description textuelle, la famille Gen-4 s’adresse à un large spectre d’utilisateurs, allant des créateurs indépendants aux professionnels de l’audiovisuel en passant par les publicitaires.

 
La série Gen-4 est conçue pour produire des séquences visuelles cohérentes et expressives à partir d’une image de référence et d’une description textuelle. Elle représente, selon Runway, une nouvelle avancée vers ce qu'il appelle un "General World Model", un système d’IA qui construit une représentation interne d’un environnement et l’utilise pour simuler des événements futurs dans cet environnement. Un tel modèle sera capable de représenter et de simuler un large éventail de situations et d’interactions, comme celles rencontrées dans le monde réel.
Gen-4 s’intègre naturellement dans les chaînes de production audiovisuelle, aux côtés de contenus live-action, animés ou générés par effets visuels. Le système permet de générer des vidéos de 5 ou 10 secondes, en 24 images par seconde, dans différents formats d’image adaptés aux plateformes numériques (16:9, 9:16, 1:1, 21:9, ...). Le processus repose sur une image d’entrée obligatoire, qui agit comme point de départ visuel, et une invite textuelle concentrée sur la description du mouvement souhaité. Aucune phase d'entraînement personnalisé n’est requise : les modèles sont immédiatement opérationnels.

Deux modèles pour des usages complémentaires

Gen-4 Turbo a été optimisé pour l’itération rapide, avec un coût réduit de 5 crédits par seconde. Ne prenant que 30 secondes pour générer une vidéo de 10 secondes, il permet d’explorer de multiples variantes en peu de temps. Gen-4 standard est quant à lui plus coûteux (12 crédits/seconde) et peut prendre jusqu’à quelques minutes pour générer une vidéo de la même durée. Cependant, il offre une qualité accrue, utile pour les versions finales.
Runway recommande ainsi de tester d’abord les idées en Turbo, avant de les affiner avec Gen-4 si nécessaire. Les générations sont illimitées en mode Explorer, qui n’utilise pas de crédit, ce qui facilite l’expérimentation.

Processus de génération

L'utilisateur doit tout d'abord avoir téléchargé, sélectionné ou créé l’image d’entrée, avant de suivre ces 3 étapes:
  1. Rédaction de l’invite
    L’image importée définit le cadre visuel initial (style, composition, couleurs, éclairage), l’invite textuelle doit préciser les dynamiques attendues (mouvement, transformation, interaction). La limite de texte est fixée à 1 000 caractères.
  1. Configuration des paramètres
    Il est alors possible de définir la durée, la résolution, et d'opter pour une graine fixe, qui garantira des générations avec un style et un mouvement similaires.
  1. Génération et itération
    L'utilisateur peut alors lancer la génération. Les vidéos peuvent être examinées dans la session en cours ou retrouvées dans la bibliothèque personnelle de projets, elles peuvent être affinées en modifiant l’image d’entrée ou l’invite textuelle.

Fonctionnalités post-génération

Plusieurs options sont proposées pour enrichir ou ajuster le contenu généré. Elles permettent de :
  • Lui appliquer un nouveau style visuel ;
  • D'étendre une scène ;
  • D'ajuster la vidéo pour corriger la composition ou le rythme ;
  • De l’aligner avec un dialogue grâce à la synchronisation labiale ;
  • De passer à la 4K pour une version haute résolution ;
  • D'utiliser le cadre actuel comme point de départ d’une nouvelle génération .
L’ensemble des productions est archivé par session, avec des options de renommage, de partage ou de téléchargement. Ces outils favorisent une approche itérative, orientée vers la précision visuelle sans complexité technique.
Les premiers commentaires sont très positifs. Runway, qui vient de lever 308 millions de dollars lors d’un tour de table mené par General Atlantic, le valorisant à plus de 3 milliards de dollars, démocratise des technologies autrefois réservées aux grandes productions, ouvrant ainsi de nouvelles opportunités pour les créateurs de contenus