Une équipe du MIT présente PFGM++, une famille de modèles génératifs inspirés de la physique

Une équipe du CSAIL, le laboratoire d’informatique et d’intelligence artificielle du MIT (Massachusets Institute of Technology), a développé un modèle d’IA innovant inspiré de la physique, baptisé “Poisson Flow Generative Model ++” ou “PFGM++”, qui surpasse les modèles de diffusion dans la génération d’images.

Dans leur article, les chercheurs introduisent PFGM++, une nouvelle famille de modèles génératifs inspirés de la physique qui unifie les modèles de diffusion et les modèles génératifs de flux de Poisson (PFGM) pour une meilleure reconnaissance des formes.

La diffusion et le flux de poisson sont deux lois physiques apparemment sans rapport qui sous-tendent les modèles génératifs les plus performants à ce jour : la diffusion, illustre généralement le mouvement aléatoire d’éléments, comme la chaleur qui imprègne une pièce ou un gaz qui se dilate dans l’espace. Le flux de poisson, de son côté, s’appuie sur les principes régissant l’activité des charges électriques.

Le PFGM++ a la capacité de générer des modèles complexes, comme la création d’images réalistes et de reproduire des processus réels. Il s’appuie sur le travail précédent de l’équipe, le modèle PFGM, qui se base sur l’équation mathématique de Poisson (du nom du mathématicien français Siméon Denis Poisson, qui a contribué à son développement au XIXe siècle). Les chercheurs l’avaient appliquée aux données d’entraînement.

Pour cette nouvelle recherche, l’équipe a utilisé une astuce : elle a ajouté une dimension supplémentaire à l’espace de son modèle, un peu comme si l’on passait d’un croquis 2D à un modèle 3D. Cette dimension supplémentaire donne plus de marge de manœuvre, ce qui lui permet d’explorer les données sous de multiples angles, ouvrant ainsi la porte à une génération plus précise et réaliste.

Jesse Thaler, physicien théoricien des particules au Centre de physique théorique du Laboratoire des sciences nucléaires du MIT et Directeur de l’Institut de l’IA pour l’intelligence artificielle et les interactions fondamentales (NSF AI IAIFI) de la National Science Foundation, qui n’a pas participé aux travaux, déclare :

“PFGM++ est un exemple des types d’avancées en matière d’IA qui peuvent être réalisées grâce à des collaborations interdisciplinaires entre physiciens et informaticiens. Ces dernières années, les modèles génératifs basés sur l’IA ont donné de nombreux résultats époustouflants, allant d’images photoréalistes à des flux de texte clairs. Fait remarquable, certains des modèles génératifs les plus puissants sont fondés sur des concepts physiques éprouvés, tels que les symétries et la thermodynamique. PFGM++ reprend une idée centenaire de la physique fondamentale – qu’il pourrait y avoir des dimensions supplémentaires de l’espace-temps – et la transforme en un outil puissant et robuste pour générer des ensembles de données synthétiques mais réalistes. Je suis ravi de voir la myriade de façons dont l’intelligence physique transforme le domaine de l’intelligence artificielle”.

Le mécanisme sous-jacent de la PFGM n’est pas aussi complexe qu’il n’y paraît. Il repose sur la comparaison de points de données à de minuscules charges électriques placées dans un espace de dimension supérieure. Ces charges produisent un champ électrique qui, en rembobinant leur mouvement, génère des données correspondant à la distribution d’origine.

Le modèle PFGM++ étend le champ électrique de PFGM à un cadre complexe et de dimension supérieure. Les modèles PFGM et de diffusion se situent aux extrémités opposées d’un spectre : l’un est robuste mais complexe à manipuler, l’autre plus simple mais moins robuste. Le modèle PFGM++ offre un “sweet spot”, trouvant un équilibre entre robustesse et facilité d’utilisation.

Outre les dimensions réglables, les chercheurs ont également proposé une nouvelle méthode d’apprentissage qui améliore l’efficacité du modèle. Ils ont évalué la performance du PFGM++ en utilisant le score FID, qui mesure la qualité des images générées par rapport aux images réelles, montrant ainsi sa supériorité en termes de résistance aux erreurs et de robustesse.

Depuis son développement, le “Poisson Flow Generative Model ++” a trouvé des applications potentielles dans divers domaines, de la génération de séquences d’anticorps et d’ARN à la production audio et à la génération de graphes.

Les chercheurs visent à présent à affiner certains aspects du modèle, en particulier de manière systématique pour identifier la valeur du “sweet spot” pour que le modèle fonctionne de manière optimale. Ils prévoient également d’appliquer le PFGM++ à la génération moderne de texte en image et de texte en vidéo à grande échelle.

Yang Song, chercheur chez OpenAI, commente :

“Les modèles de diffusion sont devenus une force motrice essentielle de la révolution de l’IA générative. PFGM++ présente une puissante généralisation des modèles de diffusion, permettant aux utilisateurs de générer des images de meilleure qualité en améliorant la robustesse de la génération d’images contre les perturbations et les erreurs d’apprentissage. De plus, PFGM++ met au jour un lien surprenant entre l’électrostatique et les modèles de diffusion, fournissant de nouvelles perspectives théoriques dans la recherche sur les modèles de diffusion”.

Références de l’article : blog du MIT

Article : “PFGM++ : Unlocking the Potential of Physics-Inspired Generative Models” arXiv :2302.04265

Auteurs : Yilun Xu, Ziming Liu, Yonglong Tian, Shangyuan Tong, Max Tegmark, Tommi Jaakkola.

Trois d’entre eux sont des étudiants diplômés du MIT : Yilun Xu du Département de génie électrique et d’informatique (EECS) et CSAIL, Ziming Liu du Département de physique et de l’IAIFI de la NSF, et Shangyuan Tong de l’EECS et du CSAIL, ainsi que le chercheur principal de Google, Yonglong Tian, PhD ’23.

Les professeurs du MIT Max Tegmark et Tommi Jaakkola ont conseillé la recherche.