Google a sorti en version officielle Dataset Search, un moteur de recherche de jeu de données

Google a sorti en version officielle Dataset Search, un moteur de recherche de jeu de données
Actu IA
Dataset Search

En septembre 2018, Google annonçait le lancement de Dataset Search, un moteur de recherche de jeux de données destiné aux data scientists en version bêta. Ce 23 janvier, le géant américain a annoncé que la phase de test était finalisée. La version officielle est donc d’ores et déjà disponible.

Comme l’indique Natasha Noy, Research Scientist chez Google Research, dans l’article publié sur le blog de Google, Dataset Search a indexé près de 25 millions de ces ensembles de données. Depuis son lancement en version bêta, le moteur de recherche a été testé et l’équipe travaillant sur le projet a pu analyser de nombreux commentaires et retours d’utilisation. De nouvelles fonctionnalités ont été ajoutées pour le lancement de la version officielle.

Les utilisateurs pourront désormais filtrer les résultats en fonction des types d’ensembles de données (par exemple, tableaux, images, texte), ou selon que l’ensemble de données est disponible gratuitement auprès du fournisseur. Si un ensemble de données concerne une zone géographique, il est possible de le visualiser sur une carte.

Parallèlement, la qualité des descriptions des jeux de données a été améliorée et Dataset Search est également disponible sur mobile. Les utilisateurs de ce moteur de recherche sont très divers : chercheurs universitaires, étudiants, analystes business ou encore data scientists. À partir d’une recherche, ils peuvent obtenir des fichiers CSV, des tableaux mais également des informations et informations relatives au machine learning, créer des écosystèmes de partage de données afin de partager leur travail.

Pour cela, les fournisseurs de données doivent obligatoirement documenter le sitemap et préciser pour les ensembles de données le nom et la description. Il est également conseillé d’ajouter des mots clés, citations, format de téléchargements, etc.

Dataset Search est d’ores et déjà disponible et rassemble selon Google déjà plus de 25 millions d’ensembles de données. Les thématiques le plus présentes sont les géo-sciences, la biologie et l’agriculture. Les recherches les plus courantes varient entre ‘éducation’, ‘météo’, ‘cancer’ et ‘chien’.