Intel ISL dévoile un modèle de réseau de neurones convolutif rendant les images de jeux vidéo plus réalistes

Les développeurs de jeux vidéo élaborent des mondes virtuels aussi réalistes que possible et certains chercheurs ont réussi à rendre ces environnements encore plus crédibles. Dans le cadre du projet Enhancing Photorealism Enhancement, le groupe de recherche Intel ISL a crée un modèle de machine learning capable de faire en sorte que des images tirées d’un jeu vidéo puisse être réalistes au point de croire qu’elles proviennent du monde réel. Exemple avec ces vidéos tirées du jeu vidéo Grand Theft Auto V modifiées de telle sorte à ce qu’on puisse croire que le jeu se déroule dans la vraie vie.

Un modèle de machine learning réalisant une analyse image par image

Stephan R. Richter, Hassan Abu AlHaija et Vladlen Koltun sont les chercheurs ayant mis au point ce modèle de machine learning dans l’optique d’améliorer le réalisme des jeux vidéo. À l’heure actuelle, les jeux vidéo les plus performants en termes de graphisme sont certes réalistes, mais pas au point de confondre l’environnement du jeu avec la réalité. Avec ce tout nouvel outil, l’équipe de recherche a développé une image qui se rapproche au mieux de ce que l’on peut apercevoir dans le monde réel en utilisant l’intelligence artificielle.

Afin de fonctionner, le système analyse chacune des images générées lors de la lecture du jeu vidéo pour les améliorer. Le modèle s’appuie sur une série de facteurs et de données qui existent dans chaque image, comme la profondeur des éléments, leur saturation, la direction de la lumière ou l’ombrage de certains objets.

Grâce à cela, on se retrouve avec des images photoréalistes comme celle-ci :

image photoréaliste tirée du modèle machine learning Intel ISL

Un système entraîné grâce à une base de données de paysages urbains

L’intelligence artificielle compare également les frames avec des images du monde réel contenant des objets et des environnements similaires. Cela est possible grâce à la base de données Cityscapes permettant au logiciel de reconnaître un feu tricolore et de s’inspirer d’un des feux tricolores de la base de données pour le modéliser de manière photo-réaliste. L’image est ainsi beaucoup détaillée.

modèle machine learning transforme image photoréaliste

Comme on peut le remarquer l’image ci-dessus, la tonalité et les couleurs sont un peu moins saturées que dans le jeu vidéo. Cela est dû au fait que les images réelles de la base de données Cityscapes ont été prises en Allemagne, un pays plus froid que la région californienne, théâtre du jeu vidéo Grand Theft Auto V. De plus, certains détails sont bien différents : l’asphalte est plus “granuleux” dans le jeu, tout comme les voitures qui ont beaucoup plus de reflets. Toutefois, la végétation est bien plus détaillée dans l’image photo-réaliste que dans celle du jeu.

L’outil a été conçu, en principe, pour pouvoir générer des images en temps réel pendant qu’un utilisateur joue au jeu. Cependant, il n’a pas encore été mis en pratique dans cette situation et n’a pas été lancé publiquement afin que des joueurs puissent l’expérimenter. Seules quelques vidéos et images sont disponibles à l’heure actuelle.