Instant NeRF de NVIDIA : transformer des images 2D en scènes 3D en un temps record

C’est lors d’une session de NVIDIA GTC, en mars dernier, que Instant NeRF, technologie basée sur un réseau de neurones capable de transformer un ensemble de photos 2D en scènes 3D haute résolution en quelques secondes a été présentée. Selon l’équipe NVIDIA Research, ce serait l’un des premiers modèles de ce genre à combiner une formation de réseau neuronal ultra-rapide et un rendu rapide.

Dans son communiqué, NVIDIA rappelle la révolution technologique qu’a apportée Edwin Land le 21 février 1947 en produisant une photo instantanée avec un appareil photo polaroid. NVIDIA Research lui rend d’ailleurs hommage en recréant une photo emblématique d’Andy Warhol prenant une photo instantanée, la transformant en une scène 3D à l’aide d’Instant NeRF.

Les chercheurs en intelligence artificielle de NVIDIA Research ont suivi une démarche inverse dans l’objectif de transformer un ensemble d’images fixes en une scène numérique 3D en quelques secondes.

Les NeRFS, Neural Radiance Fields ou champs de rayonnement neuronal

Un NeRF est une technique basée sur l’IA qui permet de créer une scène en trois dimensions à partir d’images 2D (rendu inverse). Selon la profondeur souhaitée, il faut aux algorithmes des heures ou des jours pour obtenir des résultats.
Selon NVIDIA :

« Collecter des données pour alimenter un NeRF, c’est un peu comme être un photographe de tapis rouge essayant de capturer la tenue d’une célébrité sous tous les angles – le réseau de neurones nécessite quelques dizaines d’images prises à partir de plusieurs positions autour de la scène, ainsi que la position de la caméra de chacun d’entre eux. »

Cependant, s’il y a beaucoup de mouvement lors des prises de photos, le rendu 3D peut être flou, il vaut mieux dans ce cas accélérer les prises de vue.

Ensuite, le NeRF remplit les blancs, entraînant un petit réseau de neurones pour reconstruire la scène en prédisant la couleur de la lumière rayonnant dans n’importe quelle direction, à partir de n’importe quel point de l’espace 3D. Il peut aussi corriger les occlusions, lorsque des objets vus dans certaines images sont cachés dans d’autres.

Instant Nerf : un temps de rendu 1 000 fois plus rapide

Créer une scène 3D avec des méthodes traditionnelles nécessite au minimum des heures, selon la complexité et la résolution de la visualisation. L’utilisation de l’IA a permis d’accélérer le processus et si les premiers systèmes NeRFs sont capables de produire des scènes nettes sans artefacts en quelques minutes, ils nécessitent eux aussi des heures d’entraînement.

Instant NeRF permet de réduire le temps de rendu : il n’aurait besoin que de quelques secondes pour s’entraîner sur quelques dizaines d’images fixes prises sous plusieurs angles, puis de quelques dizaines de millisecondes de plus pour restituer une vue 3D de la scène.

NVIDIA Research a développé une technique appelée codage de grille de hachage multi-résolution, optimisée pour fonctionner efficacement sur les GPU NVIDIA. Grâce à cette nouvelle méthode de codage des entrées et l’implémentation d’un minuscule réseau neuronal très rapide, les chercheurs peuvent obtenir des résultats qui allient haute qualité et vitesse.

Le modèle a été développé à l’aide de la boîte à outils NVIDIA CUDA et de la bibliothèque Tiny CUDA Neural Networks. Ce réseau de neurones léger offre l’avantage de pouvoir être formé et exécuté sur un seul GPU NVIDIA, fonctionnant plus rapidement sur des cartes avec NVIDIA Tensor Cores.

David Luebke, vice-président de la recherche graphique de NVIDIA, a déclaré :

« Si les représentations 3D traditionnelles telles que les maillages polygonaux s’apparentent à des images vectorielles, les NeRF sont comme des images bitmap : elles capturent de manière dense la façon dont la lumière rayonne à partir d’un objet ou à l’intérieur d’une scène. En ce sens , Instant NeRF pourrait être aussi important pour la 3D que les appareils photo numériques, et la compression JPEG l’a été pour la photographie 2D, augmentant considérablement la vitesse, la facilité et la portée de la capture et du partage 3D. »

Selon NVIDIA, cette technologie pourrait être utilisée pour entraîner des robots et des voitures autonomes ou être utilisée dans l’architecture et le divertissement pour générer rapidement des représentations numériques d’environnements réels que les créateurs peuvent modifier et développer.

Les chercheurs de NVIDIA explorent de quelle façon cette technique d’encodage d’entrée pourrait être utilisée pour accélérer plusieurs défis d’IA, notamment l’apprentissage par renforcement, la traduction linguistique et les algorithmes d’apprentissage en profondeur à usage général.