Actualité Google lance un moteur de recherche de jeux de données destiné aux...

Pour approfondir le sujet

Mise en ligne de la base de données COVID-19 Open Research Dataset (CORD-19)

En réponse à la pandémie COVID-19, le Allen Institute for AI et plusieurs groupes de recherche de premier plan se sont associés pour préparer...

La RSNA lance un défi aux chercheurs en IA pour le développement d’algorithmes de détection de pneumonie

La Radiological Society of North America (RSNA) a annoncé le lancement du RSNA Pneumonia Detection Challenge à destination des chercheurs en intelligence artificielle. L'objectif est...

Conférence “Modèles enrichis par les données et données enrichies par les modèles pour une intelligence hybride” de Francisco Chinesta à la Journée Sciences...

Cette année la Journée Sciences Navales a eu pour thématique l'intelligence artificielle - ruptures technologiques majeures pour le naval civil et militaire. À cette...

Détourer des images rapidement sur Adobe Photoshop grâce à l’intelligence artificielle c’est possible

L'an dernier, Adobe Photoshop avait annoncé l'arrivée d'une nouvelle fonctionnalité : Select Subject. Présentée notamment dans la vidéo ci-dessus, elle permettait de détourer rapidement,...

Google lance un moteur de recherche de jeux de données destiné aux datascientists

Le mercredi 5 septembre dernier, Google a publié sur son blog un article signé Natasha Noy, Research Scientist chez Google AI, annonçant le lancement de Dataset Search, un moteur de recherche de jeux de données destiné aux datascientists. Nous nous permettons de publier ici une traduction non officielle de cet article :

“Dans le monde d’aujourd’hui, des scientifiques de nombreuses disciplines et un nombre croissant de journalistes vivent et respirent ‘données’. Il existe des milliers de référentiels de données sur le Web, donnant accès à des millions de jeux de données; et les gouvernements du monde entier publient également leurs données. Pour faciliter l’accès à ces données, nous avons lancé Dataset Search afin que les scientifiques, les spécialistes des données, les utilisateurs de données puissent trouver les données nécessaires à leur travail.

À l’instar de Google Scholar, la recherche de jeux de données vous permet de trouver des jeux de données où qu’ils soient hébergés, qu’il s’agisse d’un site d’éditeur, d’une bibliothèque numérique ou d’une page Web personnelle. Pour créer une recherche par jeu de données, nous avons élaboré des directives pour les fournisseurs de jeux de données afin de décrire leurs données de manière à ce que Google (et les autres moteurs de recherche) puissent mieux comprendre le contenu de leurs pages. Ces directives contiennent des informations essentielles sur les ensembles de données: qui a créé le jeu de données, quand il a été publié, comment les données ont été collectées, quels termes utiliser pour utiliser les données, etc. jeu de données pourrait être, et trouver des publications qui peuvent décrire ou discuter de l’ensemble de données. Notre approche est basée sur un standard ouvert pour décrire ces informations ( schema.org ) et quiconque publie des données peut décrire leur ensemble de données de cette manière. Nous encourageons les fournisseurs de jeux de données, grands et petits, à adopter cette norme commune afin que tous les ensembles de données fassent partie de cet écosystème robuste.
Dans cette nouvelle version, vous pouvez trouver des références à la plupart des ensembles de données en sciences environnementales et sociales, ainsi que des données provenant d’autres disciplines, notamment des données gouvernementales et des données fournies par des organisations de presse telles que ProPublica . À mesure que davantage de référentiels de données utilisent le standard schema.org pour décrire leurs ensembles de données, la variété et la couverture des jeux de données que les utilisateurs trouveront dans Dataset Search continueront de croître.
Dataset Search fonctionne dans plusieurs langues. Entrez simplement ce que vous recherchez et nous vous aiderons à accéder au jeu de données publié sur le site du fournisseur de référentiel.
Par exemple, si vous souhaitez analyser des enregistrements météorologiques quotidiens, vous pouvez essayer cette requête dans Recherche de jeu de données:

Vous verrez des données de la NASA et de la NOAA , ainsi que des dépôts universitaires tels que Dataverse de Harvard et Consortium interuniversitaire pour la recherche politique et sociale (ICPSR) . Ed Kearns, directeur des données chez NOAA, est un fervent défenseur de ce projet et a aidé la NOAA à rendre consultables dans cet outil nombre de ses jeux de données. «Ce type de recherche a longtemps été le rêve de nombreux chercheurs des communautés de données ouvertes et scientifiques», a-t-il déclaré. «Et pour la NOAA, dont la mission comprend le partage de nos données avec d’autres utilisateurs, cet outil est essentiel pour rendre nos données plus accessibles à une communauté d’utilisateurs encore plus vaste.»

Ce lancement fait partie d’une série d’initiatives visant à mettre davantage en évidence les ensembles de données dans nos produits. Nous avons récemment facilité la découverte de données tabulaires dans Search , qui utilise ces mêmes métadonnées avec les données tabulaires liées pour fournir des réponses aux requêtes directement dans les résultats de recherche. Bien que cette initiative se concentre davantage sur les organisations de presse et les journalistes de données, la recherche de données peut être utile à un public beaucoup plus large, que vous recherchiez des données scientifiques, des données gouvernementales ou des données fournies par des organisations de presse.
Un outil de recherche comme celui-ci ne vaut que les métadonnées que les éditeurs de données sont disposés à fournir. Nous espérons que vous serez nombreux à utiliser les normes ouvertes pour décrire vos données, permettant ainsi à nos utilisateurs de trouver les données qu’ils recherchent. Si vous publiez des données et ne les voyez pas dans les résultats, consultez nos instructions sur notre site de développeurs qui comprend également un lien pour poser des questions et fournir des commentaires.

Pierre-yves Gerlat

Partager l'article

Comment la mairie de Barcelone souhaite favoriser une utilisation éthique de l’intelligence artificielle

La mairie de Barcelone souhaite mettre en œuvre vingt mesures pour garantir que les algorithmes d'intelligence artificielle utilisés par la ville et ceux qui...

Atos et DreamQuark lancent une plateforme numérique destinée aux assureurs et aux banques

Après son acquisition de trois sociétés annoncée cette semaine afin de développer son portefeuille technologique dans plusieurs domaines, Atos a dévoilé une plateforme digitale...

Les archives nationales américaines utiliseront l’intelligence artificielle pour gérer leurs documents numériques

L'Administration des archives des Etats-Unis (ou National Archives and Records Administration - NARA) qui détient tous les documents gouvernementaux du pays, gère des millions...

Mastercard et Ekata, une acquisition pour renforcer sa solution d’identification en ligne

L'entreprise américaine de paiement et de retrait Mastercard a annoncé la prochaine acquisition de la société de solutions de vérification d'identité Ekata pour la...