Mind-to-Image : quand l'IA permet de visualiser l'imagination

Lors du lancement de son laboratoire de recherche au sein de la Sorbonne en septembre dernier, le trio d’artistes du collectif Obvious annonçait travailler sur la conversion d’ondes cérébrales en images. Il a présenté récemment le fruit de ses premiers travaux : l’algorithme Mind-to-Image, développé en collaboration avec l’Institut du Cerveau et de la Moelle Epinière et l’Université de la Sorbonne au cours des six derniers mois.

Le Collectif Obvious, qui réunit trois amis d’enfance amateurs d’art, Pierre Fautrel, Hugo Caselles-Dupré et Gauthier Vernier, utilise des algorithmes d’IA pour créer des œuvres d’art.

En 2018, l’une d’entre elles, le “Portrait d’Edmond de Belamy”, a été vendue 432 500$ par la célèbre maison d’enchères américaine Christie’s alors qu’elle était estimée au plus à 10 000 euros, créant la stupéfaction dans le monde de l’art. Depuis, leurs tableaux ont été exposés dans des musées prestigieux de par le monde, notamment au Musée de l’Ermitage à Saint-Pétersbourg, au Musée National de Chine ou encore au Haus der Kunst, à Munich. Célèbre à l’étranger, Obvious a également réalisé différents projets en France, parmi ceux-ci Marianne en 2022 ou l’Alpine A110 Sastruga.

Le laboratoire Obvious Research est une initiative conjointe entre le collectif et le professeur Matthieu Cord de l’Université La Sorbonne (MLIA), reconnu pour ses recherches en vision par ordinateur, un des auteurs de l’article de recherche consacré à Mind-to-Image.

Mind-to-Image: projection de l’imagination mentale visuelle du cerveau à partir de l’IRMf

L’idée d’utiliser l’IRMf (imagerie par résonance magnétique fonctionnelle) pour décoder et reconstruire des vidéos ou des images n’est pas nouvelle : en 2011, des chercheurs du laboratoire Jack Gallant de l’Université de Berkeley, en Californie, dont Shinji Nishimoto, chercheur postdoctoral au laboratoire, l’ont associée à la simulation informatique pour reconstruire, plus ou moins approximativement, des bandes-annonces de films hollywoodiens visionnées par les chercheurs.

Depuis, les progrès dans le domaine du deep learning ont permis de développer des IA génératives permettant d’explorer de nouvelles approches.

Ainsi, Shinji Nishimoto, aujourd’hui professeur à l’Université d’Osaka au Japon et l’un de ses collègues, Yu Takagi, ont utilisé Stable Diffusion, le générateur de texte en image publié par Stability AI en août 2022, pour transformer les activités cérébrales mesurées par IRMf en images fixes.

L’équipe de Mind-to-Image s’est attaquée à un défi plus ardu : reconstruire des images à partir de l’imagination visuelle mentale grâce à l’IA générative.

Ils ont utilisé le modèle open source publié en 2023 MindEye dont ils ont adapté l’architecture à la complexité inhérente aux données d’imagination visuelle. Ils ont ensuite introduit deux protocoles de collecte de données : l’imagination faible (basée sur la mémoire) et l’imagination forte (pure imagination).

L’imagination faible implique la reconstruction d’images de portraits et de paysages que le sujet a précédemment vues, tandis que l’imagination forte demande au sujet d’imaginer des images en se basant sur une instruction écrite.

Au départ, l’équipe a entraîné le modèle en utilisant un ensemble de données issu du protocole d’imagination faible. Cette phase impliquait la reconstruction d’images déjà connues et visualisées par le sujet.

Par la suite, le modèle, dont les paramètres ont été figés pour préserver l’apprentissage acquis, a été appliqué aux données provenant du protocole d’imagination forte pour générer des images imaginées à partir d’instructions textuelles.

Pour les auteurs de l’article :

“Notre étude démontre que le modèle réussit à distinguer entre des catégories larges telles que les portraits et les paysages, saisissant efficacement la catégorie du contenu imaginé par le sujet. La capture précise des contenus détaillés de ces images imaginées a été partiellement réussie, mais s’est avérée plus difficile. Cette recherche offre une voie prometteuse vers la génération de représentations visuelles directement à partir de la pensée humaine”.

Références :

“Mind-to-Image: Projecting Visual Mental Imagination of the Brain from fMRI”

https://doi.org/10.48550/arXiv.2404.05468

Auteurs : Hugo Caselles-Dupré, Charles Mellerio, Paul Hérent, Alizée Lopez-Persem, Benoit Béranger, Mathieu Soularue, Pierre Fautrel, Gauthier Vernier, Matthieu Cord.