DeepGlobe 2018: un défi de vision artificielle pour analyser la Terre à l'aide d'images satellites

Les images prises par des satellites offrent de multiples données sur l’état de la planète et leur analyse est majoritairement confiée à des experts entraînés à identifier et comprendre les détails de ces clichés. Cependant, le développement des nouvelles technologies et notamment de la vision artificielle pourrait avoir un impact majeure dans ce domaine.

Organisé par des chercheurs de Facebook, DigitalGlobe et des partenaires académiques dont le MIT, le challenge DeepGlobe 2018 propose à ce titre d’utiliser des techniques de vision artificielle pour automatiser l’analyse d’images satellite. Comme l’indique Technology Review :

“Les organisateurs de ce défi ont développé plusieurs algorithmes pour mesurer l’exactitude des données générées par les machines qu’ils peuvent utiliser pour évaluer chacun des participants. Et ils sont nombreux : quelque 950 équipes se sont inscrites pour participer. Les gagnants seront annoncés lors d’une conférence à Salt Lake City le 18 juin”.

Un article sur le défi a été mis en ligne le 17 mai dernier sur Arvix par Ilke Demir, Krzysztof Koperski, David Lindenbaum, Guan Pang, Jing Huang, Saikat Basu, Forest Hughes, Devis Tuia et Ramesh Raskar.

“Nous présentons le DeepGlobe 2018 Satellite Image Understanding Challenge, qui comprend trois compétitions publiques pour des tâches de segmentation, de détection et de classification d’images satellites. Similaire à d’autres challenges dans le domaine de la vision par ordinateur tels que DAVIS et COCO, DeepGlobe propose trois ensembles de données et les méthodologies d’évaluation correspondantes, regroupées de manière cohérente dans trois compétitions avec un atelier dédié co-localisé avec CVPR 2018.

Nous avons observé que l’imagerie satellitaire est une source d’information riche et structurée, mais qu’elle est moins étudiée que les images quotidiennes par les chercheurs en vision artificielle. Cependant, faire le lien entre la vision par ordinateur moderne et l’analyse de données provenant d’une source distante pourrait avoir un impact majeur sur la façon dont nous comprenons notre environnement et mener à des découvertes majeures dans la planification urbaine mondiale ou la recherche sur le changement climatique.

Gardant à l’esprit cet objectif de transition, DeepGlobe a pour objectif de rassembler des chercheurs de différents domaines afin de sensibiliser à l’analyse de données provenant d’une source distante dans la communauté de la vision artificielle et inversement. Notre but est d’améliorer et d’évaluer les approches de compréhension d’images satellitaires les plus récentes, qui pourront servir de référence pour de futures recherches sur le même sujet. Dans cet article, nous analysons les caractéristiques de chaque ensemble de données, définissons les critères d’évaluation des compétitions et fournissons des lignes de base pour chaque tâche.”

Les participants devront pouvoir identifier automatiquement trois types d’informations sur les images satellites, à savoir : le réseau routier, les bâtiments et l’utilisation des terrains.

“Il s’agissait donc de prendre une image en entrée et de produire en sortie l’un des éléments suivants: un masque montrant le réseau routier; un ensemble de polygones superposés représentant des bâtiments; ou une carte à code de couleur montrant comment la terre est utilisée – pour l’agriculture, la vie urbaine, la foresterie, et ainsi de suite”.

Les trois tâches de ce challenge se basent chacune sur un ensemble de données comprenant des images annotées pouvant être utilisées pour l’entrainement du système. Comme on peut le lire sur Arvix et Technology Review:

“Les ensembles de données sont complets. Celui concernant l’identification routière comprend environ 9.000 images avec une résolution au sol de 50 centimètres, couvrant une superficie totale de plus de 2.000 kilomètres carrés en Thaïlande, en Indonésie et en Inde. Les images comprennent des zones urbaines et rurales avec des routes pavées et non pavées. L’ensemble de données d’apprentissage comprend également un masque pour chaque image montrant le réseau routier dans cette zone.

L’ensemble de données sur les bâtiments contient plus de 24.000 images, chacune montrant une superficie de 200 mètres sur 200 mètres à Las Vegas, Paris, Khartoum ou Shanghai. Plus de 300.000 bâtiments sont représentés dans le jeu de données d’entraînement, chacun étant marqué par des experts humains comme un polygone superposé.

L’ensemble de données sur l’utilisation des terres comprend plus de 1.000 images RVB (ou en couleurs vraies) avec une résolution de 50 centimètres, associées à un masque indiquant l’utilisation des terres, telle que déterminée par des experts humains. Les désignations d’usage comprennent l’urbain, l’agriculture, les pâturages, la forêt, l’eau, stérile et inconnue (c’est-à-dire couverte de nuages)”.