Une intelligence artificielle créé des dessins animés des Pierrafeu à partir de descriptions textuelles

Une intelligence artificielle créé des dessins animés des Pierrafeu à partir de descriptions textuelles
Actu IA

Produire une animation vidéo à partir d’un texte, c’est ce que propose CRAFT, système basé sur une intelligence artificielle. Entraîné à reconnaitre des éléments des dessins animés des Pierrafeu, ce programme a réalisé des scènes des Pierrafeu suivant le contenu des textes qu’il a analysés. Afin de parvenir à ce résultat, CRAFT a eu accès à 25.000 vidéos de 3 secondes incluant une description de la scène et de la situation.

“Imaginer une scène décrite en langage naturel avec une disposition et une apparence des entités réalistes est le test ultime de la connaissance spatiale, visuelle et sémantique du monde. Pour atteindre cet objectif, nous présentons CRAFT (Composition, Retrieval and Fusion Network), un modèle capable d’apprendre à partir de données vidéo avec descriptions et d’appliquer ses connaissances tout en générant des vidéos à partir de nouvelles descriptions”.

Le 8 avril dernier, le Allen Institute for Artificial Intelligence (AI2) a mis en ligne la vidéo ci-dessus intitulée Imagine This! Scritps to Compositons to Videos. Derrière CRAFT on retrouve une équipe de chercheurs composée de Tanmay Gupta et Derek Hoiem de University of Illinois Urbana-Champaign et Dustin Schwenk, Ali Farhadi et Aniruddha Kembhavi du Allen Institute for Artificial Intelligence.

L’intelligence artificielle qu’ils ont développée parvient à partir d’une ou deux phrases à créer une scènette avec des personnages effectuant une action, un fond et des accessoires. Le style d’animation des Pierrafeu rend la réalisation de ses petits clips plus facile que s’il s’agissait de dessins animés plus dynamiques ou composés de davantage de détails. CRAFT a été présenté sur Arxiv et l’équipe a notamment précisé :

“CRAFT prédit explicitement la disposition temporelle des entités mentionnées (caractères et objets), récupère des segments d’entités spatio-temporels à partir d’une base de données vidéo et les fusionne pour générer des vidéos de scène. Nos contributions incluent la formation séquentielle des composants de CRAFT tout en modélisant conjointement la disposition et les apparences, et les pertes qui encouragent l’apprentissage des représentations compositionnelles pour la récupération. Nous évaluons CRAFT sur la fidélité sémantique à la description, la cohérence de la composition et la qualité visuelle.”

Plus d’infos : http://arxiv.org/abs/1804.03608