Focus sur l'algorithme de deep learning pour changer l’éclairage des photos et de vidéos créé par l'équipe Graphdeco d’Inria Sophia Antipolis, Adobe et UC Berkeley

À l’occasion de la conférence SIGGRAPH à Los Angeles début août, les premiers résultats de la méthode pour changer l’éclairage des photos et de vidéos en quelques clics, développée par les chercheurs de l’équipe Graphdeco d’Inria Sophia Antipolis en collaboration avec Adobe et UC Berkeley, ont été présentés. Retour sur ce projet d’algorithme deep learning financé par le projet européen H2020 EMOTIVE et le projet ERC Advanced Grant FUNGRAPH.

Les chercheurs de l’équipe Graphdeco d’Inria Sophia Antipolis en collaboration avec Adobe et UC Berkeley ont développé une méthode qui permet de changer l’éclairage des photos et de vidéos en quelques clics. Cet algorithme innovant utilise un réseau de neurones entrainé sur des images de synthèse mais utilisable sur de vraies photos. Les résultats de cet algorithme innovant démontrent qu’il est possible de prendre une photo à midi et de la modifier automatiquement pour qu’elle semble avoir été prise au coucher du soleil.

Être au bon endroit au bon moment pour prendre des photos n’est pas toujours chose facile. C’est pourtant une des composantes essentielles pour avoir des photos avec un rendu professionnel. La lumière d’un coucher de soleil ou l’alignement de celle-ci avec certains objets impose parfois d’attendre longuement pour obtenir les meilleures conditions. Avec l’avènement des smartphones et des réseaux sociaux de plus en plus d’utilisateurs prennent et partagent des photos. Ils utilisent souvent des filtres pour embellir celles-ci mais sans pouvoir en changer le contenu. Grâce au machine learning, et plus spécifiquement à un réseau de neurones, les chercheurs ont développé une méthode qui repousse la frontière du possible en termes de filtres et permet de modifier les conditions d’éclairage d’une photo ou même d’une vidéo.

Les premiers résultats présentés à la conférence SIGGRAPH

Julien Philip, doctorant sous la direction de George Drettakis dans l’équipe Graphdeco d’Inria Sophia Antipolis est principal contributeur sur le papier décrivant la méthode. Il a présenté leurs résultats à la conférence SIGGRAPH à Los Angeles début août. SIGGRAPH (Special Interest Group on Computer GRAPHics and Interactive Techniques) est une conférence internationale majeure sur l’infographie : elle regroupe chaque année depuis 1974 un grand nombre d’acteurs industriels, artistiques et scientifiques de l’univers de l’image de synthèse, qu’il s’agisse de films d’animation, de création d’effets spéciaux, de jeux vidéo ou de logiciels permettant la modélisation 3D.

D’après Julien Philip la méthode, qui reste expérimentale, permet déjà d’obtenir des résultats bluffants de réalisme.

« Souvent les réseaux de neurones ne peuvent que traiter de petites images dont la qualité n’est pas suffisante pour la photo ou se concentrent sur des tâches plus bas niveau comme le débruitage. Ici le contrôle de l’éclairage est redonné aux utilisateurs, ce sont eux qui décident si la photo finale semblera être prise le matin, à midi ou le soir. En fait, les utilisateurs peuvent laisser s’exprimer toute leur créativité et imaginer des éclairages totalement irréalistes »

Épaulé par Michaël Gharbi, chercheur à Adobe, Tinghui Zhou et Alexei Efros de l’université de Berkeley et par son directeur de thèse George Drettakis, Julien Philipp a montré qu’une seule photo n’était pas suffisante pour obtenir un résultat convaincant avec les méthodes actuelles. Pour pallier cette difficulté il utilise d’autres images (« vues ») du même lieu pour estimer la 3D de celui-ci et guider le changement d’éclairage. Ces multiples « vues » peuvent être obtenues en enregistrant une vidéo, en prenant plusieurs photos en se déplaçant, ou même en utilisant d’autres photos du même lieu récupérées automatiquement sur internet.

L’algorithme peut alors être utilisé pour modifier une photo, générer un effet de « time lapse » sur celle-ci ou éditer une vidéo. La méthode peut également être adaptée aux pipelines multi-vues traditionnels tels que le « rendu à base d’images (IBR) » ou la photogrammétrie notamment utilisée dans le milieu des effets spéciaux, ce qui ouvre la voie à des applications industrielles dans l’avenir.

Un jeu d’ombres et de lumière

Produire une modification réaliste des ombres portées est un défi majeur lorsque l’on cherche à réaliser un changement d’éclairage. La méthode est capable d’enlever celles-ci et de les modifier pour simuler une autre direction d’éclairage. Les auteurs guident leur algorithme en utilisant la 3D et en appliquant des méthodes utilisées dans les jeux vidéo pour le calcul des ombres. Malheureusement ces méthodes ne sont pas directement applicables :

« La 3D que nous obtenons n’est pas suffisamment bonne pour enlever et créer des ombres réalistes, mais elle donne néanmoins une base solide. C’est là qu’intervient le réseau de neurones, nous lui avons appris à corriger les erreurs générées par la mauvaise qualité de la 3D » commente Julien Philipp.

Pour réaliser cet apprentissage, leur intelligence artificielle avait besoin d’exemples de lieux sous de nombreux éclairages différents, pour estimer les transformations. Ce type de donnée étant compliqué et coûteux à acquérir, ils ont donc décidé d’utiliser des méthodes de rendu 3D très réalistes qui simulent la physique de la lumière à la place de vraies photos. Ils ont, alors, pu obtenir assez de données pour que le réseau de neurones apprenne à changer l’éclairage malgré la mauvaise 3D.

Plus d’informations sur le site d’Inria.