Google lance un moteur de recherche de jeux de données destiné aux datascientists

Google lance un moteur de recherche de jeux de données destiné aux datascientists
Actu IA
BO99AzQyhaw.max-1000×1000

Le mercredi 5 septembre dernier, Google a publié sur son blog un article signé Natasha Noy, Research Scientist chez Google AI, annonçant le lancement de Dataset Search, un moteur de recherche de jeux de données destiné aux datascientists. Nous nous permettons de publier ici une traduction non officielle de cet article :

“Dans le monde d’aujourd’hui, des scientifiques de nombreuses disciplines et un nombre croissant de journalistes vivent et respirent ‘données’. Il existe des milliers de référentiels de données sur le Web, donnant accès à des millions de jeux de données; et les gouvernements du monde entier publient également leurs données. Pour faciliter l’accès à ces données, nous avons lancé Dataset Search afin que les scientifiques, les spécialistes des données, les utilisateurs de données puissent trouver les données nécessaires à leur travail.

À l’instar de Google Scholar, la recherche de jeux de données vous permet de trouver des jeux de données où qu’ils soient hébergés, qu’il s’agisse d’un site d’éditeur, d’une bibliothèque numérique ou d’une page Web personnelle. Pour créer une recherche par jeu de données, nous avons élaboré des directives pour les fournisseurs de jeux de données afin de décrire leurs données de manière à ce que Google (et les autres moteurs de recherche) puissent mieux comprendre le contenu de leurs pages. Ces directives contiennent des informations essentielles sur les ensembles de données: qui a créé le jeu de données, quand il a été publié, comment les données ont été collectées, quels termes utiliser pour utiliser les données, etc. jeu de données pourrait être, et trouver des publications qui peuvent décrire ou discuter de l’ensemble de données. Notre approche est basée sur un standard ouvert pour décrire ces informations ( schema.org ) et quiconque publie des données peut décrire leur ensemble de données de cette manière. Nous encourageons les fournisseurs de jeux de données, grands et petits, à adopter cette norme commune afin que tous les ensembles de données fassent partie de cet écosystème robuste.
Dans cette nouvelle version, vous pouvez trouver des références à la plupart des ensembles de données en sciences environnementales et sociales, ainsi que des données provenant d’autres disciplines, notamment des données gouvernementales et des données fournies par des organisations de presse telles que ProPublica . À mesure que davantage de référentiels de données utilisent le standard schema.org pour décrire leurs ensembles de données, la variété et la couverture des jeux de données que les utilisateurs trouveront dans Dataset Search continueront de croître.
Dataset Search fonctionne dans plusieurs langues. Entrez simplement ce que vous recherchez et nous vous aiderons à accéder au jeu de données publié sur le site du fournisseur de référentiel.
Par exemple, si vous souhaitez analyser des enregistrements météorologiques quotidiens, vous pouvez essayer cette requête dans Recherche de jeu de données:

Vous verrez des données de la NASA et de la NOAA , ainsi que des dépôts universitaires tels que Dataverse de Harvard et Consortium interuniversitaire pour la recherche politique et sociale (ICPSR) . Ed Kearns, directeur des données chez NOAA, est un fervent défenseur de ce projet et a aidé la NOAA à rendre consultables dans cet outil nombre de ses jeux de données. «Ce type de recherche a longtemps été le rêve de nombreux chercheurs des communautés de données ouvertes et scientifiques», a-t-il déclaré. «Et pour la NOAA, dont la mission comprend le partage de nos données avec d’autres utilisateurs, cet outil est essentiel pour rendre nos données plus accessibles à une communauté d’utilisateurs encore plus vaste.»

Ce lancement fait partie d’une série d’initiatives visant à mettre davantage en évidence les ensembles de données dans nos produits. Nous avons récemment facilité la découverte de données tabulaires dans Search , qui utilise ces mêmes métadonnées avec les données tabulaires liées pour fournir des réponses aux requêtes directement dans les résultats de recherche. Bien que cette initiative se concentre davantage sur les organisations de presse et les journalistes de données, la recherche de données peut être utile à un public beaucoup plus large, que vous recherchiez des données scientifiques, des données gouvernementales ou des données fournies par des organisations de presse.
Un outil de recherche comme celui-ci ne vaut que les métadonnées que les éditeurs de données sont disposés à fournir. Nous espérons que vous serez nombreux à utiliser les normes ouvertes pour décrire vos données, permettant ainsi à nos utilisateurs de trouver les données qu’ils recherchent. Si vous publiez des données et ne les voyez pas dans les résultats, consultez nos instructions sur notre site de développeurs qui comprend également un lien pour poser des questions et fournir des commentaires.