Les modèles de diffusion sont une forme relativement nouvelle de modèles d’apprentissage automatique qui utilisent l’inférence variationnelle pour apprendre la structure cachée d’un jeu de données. Ces modèles ont été initialement proposés en 2015 par des chercheurs qui se sont inspirés des principes thermo-dynamiques. Ils fonctionnent en mappant le jeu de données sur un espace latent plus petit et plus facile à comprendre.
Les modèles de diffusion peuvent être très utiles pour le traitement d’images, car ils offrent une façon flexible et efficace de transformer les données. Ils peuvent être appliqués à la restauration d’images, à la segmentation, à l’amélioration et à la génération de contenu.
Les modèles de diffusion sont basés sur l’inférence variationnelle qui est un concept issu des principes thermo-dynamiques. L’inférence variationnelle est une forme d’apprentissage automatique qui permet aux machines d’apprendre non seulement les relations entre différents ensembles de données mais aussi leur structure cachée.
Les avantages des modèles de diffusion pour la génération d‘images sont qu’ils peuvent être utilisés pour produire des images très réalistes à partir de descriptions textuelles. Cependant, les modèles de diffusion présentent également quelques limitations et difficultés à prendre en compte lorsqu’on travaille avec ce type d’outil, notamment le besoin d’avoir beaucoup de données d’entraînement, le fait que certaines caractéristiques spécifiques ne peuvent pas être contrôlées et la difficulté à aborder des données multi–modales.
Par conséquent, les chercheurs ont développé plusieurs autres algorithmes tels que le Stable Diffusion Generative Adversarial Network (SD–GAN) ou encore Latent Space Model (LSM) afin de contourner ces obstacles et permettre aux modèles de diffusion d‘atteindre leur plein potentiel.
Avec le développement constant des technologies liées aux modèles de diffusion, il est possible que cette technologie puisse révolutionner certains secteurs comme celui du design ou du divertissement grâce à sa capacité à génerer rapidement des images tridimensionnelles ou bien encore du discours naturellement réaliste.