Deep learning : Neuralangelo, le nouveau modèle d'IA de Nvidia Research pour la reconstruction 3D

Neuralangelo est l’un des projets de NVIDIA Research qui seront présentés à la Conférence sur la vision par ordinateur et la reconnaissance des formes (CVPR), qui se tiendra du 18 au 22 juin prochain à Vancouver. Ce nouveau modèle d’IA pour la reconstruction 3D à l’aide de réseaux neuronaux, transforme des clips vidéo 2D en structures 3D détaillées, générant ainsi des répliques virtuelles réalistes de bâtiments, de sculptures et d’autres objets du monde réel.

Neuralangelo génère des structures 3D avec des détails et des textures complexes que les professionnels de la création peuvent ensuite importer dans des applications de conception, puis les éditer pour les utiliser dans le domaine artistique, le développement de jeux vidéo, la robotique et les jumeaux numériques industriels.

Selon Nvidia research, la capacité de Neuralangelo à traduire les textures de matériaux complexes, y compris les bardeaux de toit, les vitres et le marbre lisse, des vidéos 2D aux actifs 3D surpassent considérablement les méthodes précédentes. La haute fidélité permet aux développeurs et aux professionnels de la création de créer rapidement des objets virtuels utilisables pour leurs projets à l’aide de séquences capturées par les smartphones.

Ming-Yu Liu, directeur principal de la recherche et co-auteur de l’article, déclare :

« Les capacités de reconstruction 3D offertes par Neuralangelo seront un énorme avantage pour les créateurs, les aidant à recréer le monde réel dans le monde numérique. Cet outil permettra éventuellement aux développeurs d’importer des objets détaillés – qu’il s’agisse de petites statues ou de bâtiments massifs – dans des environnements virtuels pour les jeux vidéo ou les jumeaux numériques industriels ».

Dans la vidéo ci-dessous, les chercheurs de NVIDIA montrent comment le modèle peut recréer des objets emblématiques comme le David de Michel-Ange ou plus ordinaires comme un camion à plateau. Neuralangelo peut également reconstruire l’intérieur et l’extérieur des bâtiments, comme ici le parc sur le campus de la baie de NVIDIA.

À l’aide d’une vidéo 2D d’un objet ou d’une scène filmée sous différents angles, le modèle sélectionne plusieurs images qui capturent différents points de vue, comme le ferait un artiste pour avoir une idée de la profondeur, de la taille et de la forme.

Nvidia Research qui compare son modèle à Michel-Ange explique :

« Une fois déterminée la position de la caméra de chaque image, l’IA de Neuralangelo crée une représentation 3D approximative de la scène, comme un sculpteur commençant à ciseler la forme du sujet. Le modèle optimise ensuite le rendu pour affiner les détails, tout comme un sculpteur taille minutieusement la pierre pour imiter la texture d’un tissu ou d’une figure humaine ».

Le résultat final est un objet 3D ou une scène à grande échelle qui peut être utilisée dans des applications de réalité virtuelle, des jumeaux numériques ou le développement robotique.