"PFGM++ est un exemple des types d’avancées en matière d’IA qui peuvent être réalisées grâce à des collaborations interdisciplinaires entre physiciens et informaticiens. Ces dernières années, les modèles génératifs basés sur l’IA ont donné de nombreux résultats époustouflants, allant d’images photoréalistes à des flux de texte clairs. Fait remarquable, certains des modèles génératifs les plus puissants sont fondés sur des concepts physiques éprouvés, tels que les symétries et la thermodynamique. PFGM++ reprend une idée centenaire de la physique fondamentale – qu’il pourrait y avoir des dimensions supplémentaires de l’espace-temps – et la transforme en un outil puissant et robuste pour générer des ensembles de données synthétiques mais réalistes. Je suis ravi de voir la myriade de façons dont l’intelligence physique transforme le domaine de l’intelligence artificielle".
Le mécanisme sous-jacent de la PFGM n'est pas aussi complexe qu'il n'y paraît. Il repose sur la comparaison de points de données à de minuscules charges électriques placées dans un espace de dimension supérieure. Ces charges produisent un champ électrique qui, en rembobinant leur mouvement, génère des données correspondant à la distribution d'origine. Le modèle PFGM++ étend le champ électrique de PFGM à un cadre complexe et de dimension supérieure. Les modèles PFGM et de diffusion se situent aux extrémités opposées d’un spectre : l’un est robuste mais complexe à manipuler, l’autre plus simple mais moins robuste. Le modèle PFGM++ offre un "sweet spot", trouvant un équilibre entre robustesse et facilité d’utilisation. Outre les dimensions réglables, les chercheurs ont également proposé une nouvelle méthode d'apprentissage qui améliore l'efficacité du modèle. Ils ont évalué la performance du PFGM++ en utilisant le score FID, qui mesure la qualité des images générées par rapport aux images réelles, montrant ainsi sa supériorité en termes de résistance aux erreurs et de robustesse. Depuis son développement, le "Poisson Flow Generative Model ++" a trouvé des applications potentielles dans divers domaines, de la génération de séquences d’anticorps et d’ARN à la production audio et à la génération de graphes. Les chercheurs visent à présent à affiner certains aspects du modèle, en particulier de manière systématique pour identifier la valeur du "sweet spot" pour que le modèle fonctionne de manière optimale. Ils prévoient également d’appliquer le PFGM++ à la génération moderne de texte en image et de texte en vidéo à grande échelle. Yang Song, chercheur chez OpenAI, commente :"Les modèles de diffusion sont devenus une force motrice essentielle de la révolution de l’IA générative. PFGM++ présente une puissante généralisation des modèles de diffusion, permettant aux utilisateurs de générer des images de meilleure qualité en améliorant la robustesse de la génération d’images contre les perturbations et les erreurs d’apprentissage. De plus, PFGM++ met au jour un lien surprenant entre l’électrostatique et les modèles de diffusion, fournissant de nouvelles perspectives théoriques dans la recherche sur les modèles de diffusion".
Références de l'article : blog du MIT Article : "PFGM++ : Unlocking the Potential of Physics-Inspired Generative Models" arXiv :2302.04265 Auteurs : Yilun Xu, Ziming Liu, Yonglong Tian, Shangyuan Tong, Max Tegmark, Tommi Jaakkola. Trois d'entre eux sont des étudiants diplômés du MIT : Yilun Xu du Département de génie électrique et d’informatique (EECS) et CSAIL, Ziming Liu du Département de physique et de l’IAIFI de la NSF, et Shangyuan Tong de l’EECS et du CSAIL, ainsi que le chercheur principal de Google, Yonglong Tian, PhD '23. Les professeurs du MIT Max Tegmark et Tommi Jaakkola ont conseillé la recherche.