GFP-GAN, un modèle de restauration d'images exploitant les GAN avec des résultats prometteurs

Dans le cadre d’un projet mené par Tencent, plusieurs chercheurs ont réussi à développer un modèle de restauration d’images et de photographies de visages. Il est loin d’être le premier outil du genre, mais les résultats qu’il propose sont bien meilleurs que la moyenne, comme l’attestent les différents comparatifs (cf. illustration). L’outil exploite les réseaux antagonistes génératifs couplés à un module de suppression de la dégradation.

Le défi de la restauration d’images et photos de visage à l’aide de l’intelligence artificielle

La restauration d’image ne doit pas être confondue avec la seule action de retouche numérique. Les deux processus sont assez similaires, mais les techniques utilisées peuvent être différentes. Si la première semble plutôt objective, l’autre est subjective. La retouche numérique est le processus visant à faire en sorte qu’une image puisse avoir un meilleur rendu tandis que la restauration a pour objectif d’inverser les opérations connues de dégradations appliquées aux images et de faire en sorte qu’on ne puisse plus les voir sur les images.

En temps normal, la restauration de visage repose sur plusieurs facteurs comme la géométrie faciale. Toutefois, la faible qualité des images en entrée qui est souvent de mise n’aide pas à appliquer des techniques en lien avec cette géométrie, ce qui limite les applications de restauration. Pour faire en sorte de contourner cette problématique, une équipe de recherche propose GFP-GAN qui exploite d’autres caractéristiques et d’autres techniques pour réussir à restaurer au mieux une photographie sur laquelle un visage apparait grâce à l’intelligence artificielle.

Leur modèle a fait l’objet d’une publication rédigée par Xintao Wang, Yu Li, Honglun Zhang Ying Shan, travaillant tous pour le centre de recherche appliquée de Tencent.

De quoi le modèle GFP-GAN est-il constitué ? Comment fonctionne-t-il ?

Pour concevoir le modèle GFP-GAN, les chercheurs avaient pour objectif d’atteindre un bon équilibre entre réalité et fidélité de l’image initialement dégradée. Comme son nom l’indique, il se compose d’un réseau antagoniste génératif (GAN) qui a été associé à Generative Facial Prior (GFP), un outil spécialement conçu pour la restauration d’images.

Les modèles de restaurations traditionnels exploitaient la méthode d’inversion : ils inversent d’abord l’image dégradée pour qu’il puisse être dans un état que le GAN préentrainé puisse reconnaitre puis exécutent des techniques d’optimisation spécifiques à l’image pour la restaurer. GFP-GAN, lui, utilise un module de suppression de la dégradation (U-Net) et du GAN de visage préentrainé pour qu’il capture les caractéristiques faciales. Ces derniers sont interconnectés par un mappage de code et à l’aide de couches CS-SFT (Channel-Split Spatial Feature Transform).

GFP-GAN est préformé sur le jeu de données FFHQ, qui comporte environ 70 000 images de haute qualité. Toutes les images ont été redimensionnées à 512×512 pixels pendant l’entrainement. Ainsi le modèle a pu être formé sur des données synthétiques qui se rapprochent d’images réelles de faible qualité et se généralisent à des images du monde réel lors de la synthèse de sortie d’inférence. Comme nous pouvons en comparant l’image en sortie par rapport à l’image en entrée, plusieurs types de dégradation des images ont été supprimés.

Selon les chercheurs, le modèle GFP-GAN avec les couches CS-SFT atteint un bon équilibre entre fidélité et réalité de l’image en un seul passage. Le code est disponible librement sur GitHub.