L’intelligence artificielle peut-elle voir comme les êtres humains ?

27 octobre 2023

Le cerveau comme source d’inspiration pour l’IA

En août 2023, des chercheurs de l’Université de Shanghai Jiao Tong et Microsoft Research ont publié sur la plateforme arXiv un nouveau pipeline capable de reconstruire une image proche de celle visualisée par un sujet à partir de son activité cérébrale : NeuroImagen [1]. Cette publication s’inscrit dans un domaine de recherche translationnelle entre intelligence artificielle et neurosciences. En effet, de nombreux progrès en intelligence artificielle découlent de la compréhension du cerveau des mammifères. Ceci est parfaitement illustré par le perceptron, premier modèle d’apprentissage automatique proposé par Franck Rosenblatt en 1957 [2]. En effet, ce dernier reproduit, de façon simplifiée, la capacité des neurones biologiques à intégrer des informations entrantes pour générer une information de sortie binaire (0 ou 1). Cette génération est pondérée par la force des connexions dites synaptiques avec les entrées. Ces connexions étant ajustables, elles confèrent à ce modèle une capacité d’ajustement et donc d’apprentissage. Comme autre exemple notable, les réseaux de neurones convolutifs (CNN), initialement conçus pour l’analyse d’images, ont été inspirés du travail précurseur sur les circuits de la vision des neurobiologistes David Hubel et Torsten Wiesel. En étudiant leur activité électrique à partir du cerveau du chat et du singe, ils ont découvert comment ceux-ci détectent les caractéristiques pertinentes des stimuli visuels et les traitent de manière hiérarchique [3] [4]. Comprendre le fonctionnement du cerveau permet encore aujourd’hui de développer de nouvelles approches computationnelles. Néanmoins, des différences notables persistent entre le fonctionnement des réseaux de neurones biologiques et artificiels et pouvoir reproduire son fonctionnement demeure un défi conséquent [5] [6].

C’est ainsi que la reconstruction d’images visuelles à partir de l’activité cérébrale à l’aide de réseaux de neurones profonds (deep learning, DL) est devenue un champ de recherche à part entière. Simuler au mieux la perception visuelle humaine permet d’améliorer non seulement notre compréhension du cerveau humain, mais aussi la performance des modèles existants. Dans cet article intitulé Seeing through the Brain les chercheurs décrivent le fonctionnement et la performance de NeuroImagen capable de reconstruire une image proche de celle perçue par un sujet à partir de son activité cérébrale, avec une résolution remarquable [1]. En effet, plusieurs modèles cités par les chercheurs ont été développés dans ce but, mais NeuroImagen semble particulièrement performant.

Reconstruire ce qui est vu à partir de ce qui est perçu

Notre seule fenêtre de vue sur le monde qui nous entoure est notre œil. Les réseaux de neurones biologiques qui s’étendent de notre œil à notre cortex cérébral nous permettent de forger une perception visuelle subjective qui correspond à un patron d’activité cérébral individuel. Le consensus que nous partageons sur ce que nous voyons tous provient de notre apprentissage : nous sommes tous d’accord pour dire que le rouge est rouge, qu’une pomme est une pomme, car nous avons appris la même sémantique associée à ces stimuli visuels. C’est ce phénomène que de nombreux chercheurs tentent de reproduire en concevant des modèles variés ayant appris automatiquement à reproduire une image, ce qui est vu, à partir d’une activité cérébrale, qui en est sa perception. Mais cette entreprise ambitieuse présente de nombreuses difficultés.

La première difficulté relève des données utilisées. Les activités cérébrales récoltées chez des sujets humains constituent généralement des jeux de données de taille relativement petite pour entraîner des modèles de DL. Par ailleurs, ces données doivent être anonymisées pour préserver l’identité des sujets et posent une problématique éthique : l’activité cérébrale est une donnée hautement personnelle. Bien que notre lecture de ces données soit limitée, ces informations doivent être traitées comme telles, au même titre que des données d’identité. Une autre difficulté réside dans la donnée en elle-même. En effet, l’activité cérébrale est récoltée chez l’humain soit par imagerie à résonance magnétique fonctionnelle (IRMf) soit par électroencéphalographie (EEG). Ces méthodes d’enregistrement dites non invasives, car elles ne nécessitent pas de geste chirurgical, présentent donc une résolution spatio-temporelle limitée. En effet, les signaux d’IRMf sont des images représentant les changements d’oxygénation dans l’afflux sanguin (Blood Oxygen Level Dependent, BOLD signals). Ces changements sont corrélés à l’activité électrique des neurones, mais ils se produisent avec un certain délai par rapport à l’activité neuronale réelle, ce qui appauvrit la résolution temporelle de ces signaux. À l’inverse, les signaux EEG sont des séries temporelles directement issues de l’activité électrique se propageant depuis les neurones jusqu’au capteur. Ainsi, bien que la résolution spatiale soit moins élevée que pour l’IRMf, la résolution temporelle est bien meilleure. L’information sensorielle étant encodée en fréquence dans notre cerveau, c’est-à-dire dans le temps, l’activité EEG est particulièrement pertinente. Du fait de la portabilité et de la disponibilité des données EEG, celles-ci ont été privilégiées par les chercheurs de l’étude que nous abordons ici. Cependant, ce sont des signaux difficiles à traiter, car ils sont très bruités, et sensibles aux mouvements mécaniques qui peuvent produire de nombreux artefacts. Le rapport signal sur bruit (Signal to Noise Ratio, SNR), qui correspond à la proportion de la donnée contenant du signal pertinent par rapport au bruit inhérent, est donc faible. Du fait de la faiblesse du SNR et de la résolution spatiale, capturer l’information pour reconstruire une image précise représente un défi majeur.

Les modèles de reconstruction de stimuli visuels

Plusieurs modèles ont déjà été utilisés pour tenter de reconstruire des images à partir de l’activité cérébrale, chacun avec leurs avantages et leurs difficultés. Parmi les méthodes les plus simples à mettre en œuvre, les décodeurs linéaires, les réseaux de neurones artificiels ou encore les CNN peuvent être utilisés, mais avec une précision limitée dans la reconstruction d’image, à plus forte raison avec des données bruitées, et peuvent nécessiter une grande quantité de données et de ressources computationnelles pour leur entraînement. Des modèles génératifs entraînés de manière traditionnelle tels que les Generative Adversarial Networks (GAN), ou des modèles larges pré-entraînés et ajustés (fine-tuned) sont capables de générer des reconstructions plus précises, mais ces capacités sont limitées par le bruit et la faible résolution spatiale des données d’entrée. Les modèles de diffusion probabilistes modélisent chaque élément de la donnée à partir des éléments précédents : la donnée d’entrée est représentée dans un espace virtuel et le modèle apprend comment une image évolue en augmentant son niveau de bruit et, par extension, comment la reconstruire à partir d’un bruit total. Ils représentent donc une bonne alternative pour la reconstruction d’image à partir de signaux EEG. Parmi les modèles de diffusion, les modèles dits latents ont la particularité de représenter la donnée dans un espace compressé, ce qui permet d’économiser du temps de calcul et d’effectuer des inférences plus rapidement. Par ailleurs, des annotations basées sur les légendes textuelles des images permettent d’orienter le modèle avec un apprentissage conjoint de l’image et du texte associés. Ces outils ont été combinés par les chercheurs pour développer NeuroImagen.

NeuroImagen : une méthode innovante et efficace

La particularité de ce pipeline réside dans l’extraction de deux niveaux d’information et de granularité. En effet, à partir des signaux EEG, sont décodés d’une part une vue d’ensemble « grossière » de l’image perçue, et d’autre part les détails qui la composent (contours, formes, couleurs). La combinaison de ces deux niveaux d’information permet d’avoir en parallèle le contenu global de l’image et d’autre part les subtilités qu’elle contient. Ces informations guident le modèle de diffusion latente dans sa phase de débruitage pour reconstruire une image à haute résolution. Les résultats expérimentaux obtenus avec ce pipeline suggèrent qu’il est particulièrement efficace par rapport aux autres modèles existants : trois métriques ont été employées pour mesurer la qualité de la reconstruction (précision, score d’inception et index de similarité structurelle) avec des scores globalement plus élevés que les autres modèles existants. Ces scores ont été atteints à partir de seulement 6 sujets, malgré la variabilité inter-individuelle inhérente à l’activité cérébrale. Reproduire ces résultats avec plus de sujets conforterait cette hypothèse.

Non seulement cette méthode démontre qu’il est possible de faire progresser les performances des modèles d’IA existants, mais elle présente également un intérêt pour les neurosciences. En effet, l’efficacité de cette méthode suggère que les deux types d’informations extraites de l’activité EEG sont nécessaires et suffisants pour encoder l’image perçue. Ces résultats contribuent à la compréhension de comment les stimuli visuels sont représentés dans le cerveau. Ils pourraient non seulement permettre de valider ou compléter les modèles théoriques existants dans la communauté neuroscientifique, mais également ouvrir la voie pour faire progresser les technologies d’interface cerveau-machine, de contrôle par la pensée, voire de soins pour les patients atteints de troubles visuels et moteurs. Enfin, les progrès pour l’intelligence artificielle dépassent cette thématique en particulier : si l’extraction multi-niveau semble particulièrement efficace pour la reconstruction visuelle, intégrer cette méthode à d’autres modèles appliqués à d’autres tâches pourrait permettre d’améliorer les performances des méthodes actuelles. Enfin, cette étude souligne l’importance des démarches translationnelles faisant progresser les domaines de l’IA et des neurosciences de concert.

Cette étude propose donc une approche innovante avec un progrès dans les performances quantitatives et qualitatives, et souligne l’importance des approches translationnelles. À noter que les images reproduisent la sémantique des contours d’objet et du contenu global de l’image, et non pas une reproduction exacte au sens photographique qui est reconstruite, mais plutôt son aspect sémantique avec un niveau de précision particulièrement élevé. Lire dans les pensées relève donc toujours de la science-fiction.

Sources bibliographiques

[1] Y.-T. Lan et al., « Seeing through the Brain: Image Reconstruction of Visual Perception from Human Brain Signals ». ArXiv, 16 août 2023. Consulté le: 25 août 2023. [En ligne]. Disponible sur: http://arxiv.org/abs/2308.02510

[2] F. Rosenblatt, « The perceptron: A probabilistic model for information storage and organization in the brain. », Psychol. Rev., vol. 65, no 6, p. 386‑408, 1958, doi: 10.1037/h0042519.

[3] D. H. Hubel et T. N. Wiesel, « Receptive fields of single neurones in the cat’s striate cortex », J. Physiol., vol. 148, no 3, p. 574‑591, oct. 1959, doi: 10.1113/jphysiol.1959.sp006308.

[4] D. H. Hubel et T. N. Wiesel, « Receptive fields, binocular interaction and functional architecture in the cat’s visual cortex », J. Physiol., vol. 160, no 1, p. 106‑154, janv. 1962, doi: 10.1113/jphysiol.1962.sp006837.

[5] L. E. Van Dyck, R. Kwitt, S. J. Denzler, et W. R. Gruber, « Comparing Object Recognition in Humans and Deep Convolutional Neural Networks—An Eye Tracking Study », Front. Neurosci., vol. 15, p. 750639, oct. 2021, doi: 10.3389/fnins.2021.750639.

[6] Y. Xu et M. Vaziri-Pashkam, « Limits to visual representational correspondence between convolutional neural networks and the human brain », Nat. Commun., vol. 12, no 1, p. 2065, avr. 2021, doi: 10.1038/s41467-021-22244-7.