Retrouvez le magazine de l'intelligence artificielle
Actualité Google lance un moteur de recherche de jeux de données destiné aux...

Pour approfondir le sujet

Mise en ligne de la base de données COVID-19 Open Research Dataset (CORD-19)

En réponse à la pandémie COVID-19, le Allen Institute for AI et plusieurs groupes de recherche de premier plan se sont associés pour préparer...

La RSNA lance un défi aux chercheurs en IA pour le développement d’algorithmes de détection de pneumonie

La Radiological Society of North America (RSNA) a annoncé le lancement du RSNA Pneumonia Detection Challenge à destination des chercheurs en intelligence artificielle. L'objectif est...

Conférence “Modèles enrichis par les données et données enrichies par les modèles pour une intelligence hybride” de Francisco Chinesta à la Journée Sciences...

Cette année la Journée Sciences Navales a eu pour thématique l'intelligence artificielle - ruptures technologiques majeures pour le naval civil et militaire. À cette...

Détourer des images rapidement sur Adobe Photoshop grâce à l’intelligence artificielle c’est possible

L'an dernier, Adobe Photoshop avait annoncé l'arrivée d'une nouvelle fonctionnalité : Select Subject. Présentée notamment dans la vidéo ci-dessus, elle permettait de détourer rapidement,...

Google lance un moteur de recherche de jeux de données destiné aux datascientists

Le mercredi 5 septembre dernier, Google a publié sur son blog un article signé Natasha Noy, Research Scientist chez Google AI, annonçant le lancement de Dataset Search, un moteur de recherche de jeux de données destiné aux datascientists. Nous nous permettons de publier ici une traduction non officielle de cet article :

“Dans le monde d’aujourd’hui, des scientifiques de nombreuses disciplines et un nombre croissant de journalistes vivent et respirent ‘données’. Il existe des milliers de référentiels de données sur le Web, donnant accès à des millions de jeux de données; et les gouvernements du monde entier publient également leurs données. Pour faciliter l’accès à ces données, nous avons lancé Dataset Search afin que les scientifiques, les spécialistes des données, les utilisateurs de données puissent trouver les données nécessaires à leur travail.

À l’instar de Google Scholar, la recherche de jeux de données vous permet de trouver des jeux de données où qu’ils soient hébergés, qu’il s’agisse d’un site d’éditeur, d’une bibliothèque numérique ou d’une page Web personnelle. Pour créer une recherche par jeu de données, nous avons élaboré des directives pour les fournisseurs de jeux de données afin de décrire leurs données de manière à ce que Google (et les autres moteurs de recherche) puissent mieux comprendre le contenu de leurs pages. Ces directives contiennent des informations essentielles sur les ensembles de données: qui a créé le jeu de données, quand il a été publié, comment les données ont été collectées, quels termes utiliser pour utiliser les données, etc. jeu de données pourrait être, et trouver des publications qui peuvent décrire ou discuter de l’ensemble de données. Notre approche est basée sur un standard ouvert pour décrire ces informations ( schema.org ) et quiconque publie des données peut décrire leur ensemble de données de cette manière. Nous encourageons les fournisseurs de jeux de données, grands et petits, à adopter cette norme commune afin que tous les ensembles de données fassent partie de cet écosystème robuste.
Dans cette nouvelle version, vous pouvez trouver des références à la plupart des ensembles de données en sciences environnementales et sociales, ainsi que des données provenant d’autres disciplines, notamment des données gouvernementales et des données fournies par des organisations de presse telles que ProPublica . À mesure que davantage de référentiels de données utilisent le standard schema.org pour décrire leurs ensembles de données, la variété et la couverture des jeux de données que les utilisateurs trouveront dans Dataset Search continueront de croître.
Dataset Search fonctionne dans plusieurs langues. Entrez simplement ce que vous recherchez et nous vous aiderons à accéder au jeu de données publié sur le site du fournisseur de référentiel.
Par exemple, si vous souhaitez analyser des enregistrements météorologiques quotidiens, vous pouvez essayer cette requête dans Recherche de jeu de données:

Vous verrez des données de la NASA et de la NOAA , ainsi que des dépôts universitaires tels que Dataverse de Harvard et Consortium interuniversitaire pour la recherche politique et sociale (ICPSR) . Ed Kearns, directeur des données chez NOAA, est un fervent défenseur de ce projet et a aidé la NOAA à rendre consultables dans cet outil nombre de ses jeux de données. «Ce type de recherche a longtemps été le rêve de nombreux chercheurs des communautés de données ouvertes et scientifiques», a-t-il déclaré. «Et pour la NOAA, dont la mission comprend le partage de nos données avec d’autres utilisateurs, cet outil est essentiel pour rendre nos données plus accessibles à une communauté d’utilisateurs encore plus vaste.»

Ce lancement fait partie d’une série d’initiatives visant à mettre davantage en évidence les ensembles de données dans nos produits. Nous avons récemment facilité la découverte de données tabulaires dans Search , qui utilise ces mêmes métadonnées avec les données tabulaires liées pour fournir des réponses aux requêtes directement dans les résultats de recherche. Bien que cette initiative se concentre davantage sur les organisations de presse et les journalistes de données, la recherche de données peut être utile à un public beaucoup plus large, que vous recherchiez des données scientifiques, des données gouvernementales ou des données fournies par des organisations de presse.
Un outil de recherche comme celui-ci ne vaut que les métadonnées que les éditeurs de données sont disposés à fournir. Nous espérons que vous serez nombreux à utiliser les normes ouvertes pour décrire vos données, permettant ainsi à nos utilisateurs de trouver les données qu’ils recherchent. Si vous publiez des données et ne les voyez pas dans les résultats, consultez nos instructions sur notre site de développeurs qui comprend également un lien pour poser des questions et fournir des commentaires.

Pierre-yves Gerlat

Partager l'article

Gestion de la relation client : C3.ai, Microsoft et Adobe lancent C3 AI CRM, alimentée par Microsoft Dynamics 365

C3.ai, Microsoft et Adobe ont annoncé ce 27 octobre le lancement de C3 AI CRM, alimentée par Microsoft Dynamics 365. Il s'agit de leur...

L’ANR dévoile les 9 projets sélectionnés dans le cadre de l’appel franco-germano-japonais

La France, l'Allemagne et le Japon ont lancé en 2019 l'appel à projets IA ANR-DFG-JST visant à renforcer leurs collaborations de recherche dans le domaine...

L’Appel à projets bilatéral franco-allemand en intelligence artificielle est ouvert jusqu’au 21 décembre 2020

L'appel à projets bilatéral franco-allemand en intelligence artificielle a été ouvert le 22 octobre dernier et sera clôt le 21 décembre 2020. Deux instruments...

Le Parlement européen ouvre la voie à une première série de règles sur l’intelligence artificielle

Le Parlement européenne a adopté une première série de propositions visant à l'établissement d'une réglementation sur l'intelligence artificielle (IA) dans l'Union européenne (UE). Les objectifs...