Meta AI a récemment présenté DINOv2, une méthode innovante pour entraîner des modèles performants de vision par ordinateur reposant sur l'apprentissage auto-supervisé. Cette nouvelle approche surpasse les méthodes classiques et offre une puissance et une flexibilité inégalées pour diverses tâches de vision par ordinateur.
Exemple d'estimation de profondeur réalisée avec DINOv2 présenté par META AI.[/caption]
L'apprentissage auto-supervisé au cœur de DINOv2
DINOv2 utilise l'apprentissage auto-supervisé, comme le font les modèles linguistiques à grande échelle pour les applications textuelles. Cette méthode d'apprentissage automatique permet aux modèles d'IA d'apprendre à partir des données brutes sans nécessiter de labels ou d'annotations fournies par des humains. Cette approche tire parti de la structure intrinsèque des données pour extraire des caractéristiques pertinentes et construire des représentations utiles pour diverses tâches. Ainsi, les modèles utilisant la méthode DINOv2 peuvent être entraînés sur n'importe quelle collection d'images sans nécessiter de métadonnées associées, ce qui a permis à Meta de réaliser un pré-entrainement sur un jeu de données de 142 millions d'images. Contrairement aux méthodes récentes basées sur la reconstruction auto-supervisée, DINOv2 ne nécessite pas de fine tuning. Il offre des caractéristiques performantes qui peuvent être utilisées directement en entrée pour des classificateurs linéaires simples. Cette flexibilité permet à DINOv2 de créer des structures polyvalentes pour diverses tâches de vision par ordinateur.Surpasser les limites du préapprentissage basé sur des images annotées
Les méthodes basées sur le préapprentissage image-texte ont été la norme pour de nombreuses tâches en vision par ordinateur ces dernières années. Cependant, cette approche rencontre des limites en raison de sa dépendance aux légendes écrites. DINOv2 contourne ce problème en se basant sur l'apprentissage auto-supervisé sans dépendre des descriptions textuelles, offrant ainsi des résultats de pointe pour des tâches telles que l'estimation de la profondeur monoculaire. [caption id="attachment_43488" align="alignnone" width="600"]
Exemple d'estimation de profondeur réalisée avec DINOv2 présenté par META AI.[/caption]