Intelligence artificielle Mise en ligne de la base de données COVID-19 Open Research Dataset...

Pour approfondir le sujet

Sur le même thème :

Le corpus d’articles arXiv est désormais disponible sur Kaggle

Le corpus d'articles arXiv permet depuis plus de 30 ans à la communauté de chercheurs et au public d'avoir accès aux articles scientifiques dans...

Intelligence artificielle en santé : visionnez la table ronde de la Mutualité française Auvergne-Rhône-Alpes

Le 2 juillet, la Mutualité française Auvergne-Rhône-Alpes et l’Espace de Réflexion éthique Régional Auvergne-Rhône-Alpes organiseront une table ronde autour de l'intelligence artificielle. Cet événement,...

L’ANR dévoile les 9 projets sélectionnés dans le cadre de l’appel franco-germano-japonais

La France, l'Allemagne et le Japon ont lancé en 2019 l'appel à projets IA ANR-DFG-JST visant à renforcer leurs collaborations de recherche dans le domaine...

ARIES for SEEA : la plateforme de l’ONU pour atteindre les objectifs de développement durable

Mesurer plus facilement l'impact de la nature et des écosystèmes sur l'économie des pays et le sentiment de bien-être, c'est l'objectif du nouvel outil...

Mise en ligne de la base de données COVID-19 Open Research Dataset (CORD-19)

En réponse à la pandémie COVID-19, le Allen Institute for AI et plusieurs groupes de recherche de premier plan se sont associés pour préparer et distribuer l’ensemble de données de recherche ouvert COVID-19 (CORD-19), une ressource gratuite de plus de 29 000 articles scientifiques, dont plus de 13 000 en texte intégral, sur COVID-19 et la famille des coronavirus à l’usage de la communauté mondiale des chercheurs.

Une ressource gratuite et ouverte pour la communauté mondiale des chercheurs

Cet ensemble de données vise à mobiliser les chercheurs pour qu’ils appliquent les récentes avancées en matière de traitement du langage naturel afin de générer de nouvelles connaissances pour soutenir la lutte contre cette maladie infectieuse. Le corpus sera mis à jour chaque semaine au fur et à mesure que les nouvelles recherches seront publiées dans des publications évaluées par des pairs et des services comme bioRxiv, medRxiv, et autres.

Participer au défi CORD-19

Kaggle accueille le COVID-19 Open Research Dataset Challenge, une série de questions importantes conçues pour inciter la communauté à utiliser la base de données CORD-19 pour trouver de nouvelles informations sur la pandémie COVID-19, notamment sur l’histoire naturelle, la transmission et le diagnostic du virus, les mesures de gestion de l’interaction homme-animal, les leçons tirées des études épidémiologiques précédentes, etc.

Télécharger CORD-19

En téléchargeant cet ensemble de données, vous acceptez la Dataset License. Des informations spécifiques sur la licence pour les différents articles de l’ensemble de données sont disponibles dans le fichier de métadonnées.

Des informations supplémentaires sur les licences sont disponibles sur le site web de PMC, celui de medRxiv et celui de bioRxiv.

La dernière version contient des articles jusqu’au 2020-03-13 avec plus de 13 000 articles en texte intégral.

Télécharger ici :

Chaque papier est représenté comme un objet JSON unique. Le schéma est disponible ici.

Et également fourni un fichier de métadonnées complet de 29 000 articles de recherche sur les coronavirus et COVID-19 avec des liens vers PubMed, Microsoft Academic et la base de données de publications COVID-19 de l’OMS (comprend les articles sans texte intégral en libre accès) :

Fichier de métadonnées (readme) — 47Mb

L’ensemble de données contient toutes les recherches liées à COVID-19 et aux coronavirus (par exemple, SRAS, MERS, etc.) provenant des sources suivantes :

  • Le corpus en libre accès PMC de PubMed utilisant cette requête (COVID-19 et recherche sur les coronavirus)
  • Autres articles de recherche COVID-19 provenant d’un corpus maintenu par l’OMS
  • Pré-impressions bioRxiv et medRxiv utilisant la même requête que PMC (COVID-19 et recherche sur les coronavirus)

Il est recommandé d’utiliser les métadonnées du fichier complet lorsqu’elles sont disponibles, au lieu des métadonnées analysées dans l’ensemble de données. Veuillez noter que l’ensemble de données peut contenir des entrées multiples pour des ID PMC individuels dans les cas où des documents supplémentaires sont disponibles.

Ce dépôt est lié à la base de données de l’OMS des publications sur les maladies à coronavirus et à d’autres ressources, telles que Microsoft Academic Graph, PubMed et Semantic Scholar. Une coalition comprenant The Chan Zuckerberg Initiative, Georgetown University’s Center for Security and Emerging Technology, Microsoft Research, et la National Library of Medicine of the National Institutes of Health a été créée pour fournir ce service.

Le Allen Institute for AI et en particulier l’équipe Semantic Scholar continueront à fournir des mises à jour de cet ensemble de données à mesure que la situation évolue et que de nouvelles recherches sont publiées.

Contribuer à CORD-19

Afin de maximiser l’impact et d’augmenter le nombre de textes intégraux disponibles pour la communauté mondiale de la recherche, la coalition demande activement aux éditeurs de rendre leur contenu de recherche disponible pour des projets d’IA comme celui-ci qui bénéficient au bien commun. Si vous êtes un éditeur intéressé à contribuer au corpus CORD-19, veuillez contacter partnerships@allenai.org.

Ressources du Allen Institute for AI

Additional Resources

Publisher Resources


1ère Marketplace de l'IA et de la transformation numérique vous recommande :
 
Thomas Calvi

Partager l'article

Covid-19 : Focus sur Early Warning System (EWS) développé par BioNTech et InstaDeep pour détecter les variants à haut risque du SARS-CoV-2

En ce moment, nous entendons beaucoup parler de Delta et Omicron, les deux variants circulant le plus en France, mais on est loin d'imaginer...

La CNIL lance une consultation publique sur l’usage des caméras intelligentes dans les espaces publics

Devant la recrudescence des caméras intelligentes ou augmentées dans les espaces publics et les problèmes éthiques ou juridiques que ces dispositifs posent, la CNIL,...

Est-ce que Python est sécurisé ? Etude réalisée par Snyk

Selon une étude réalisée par Snyk, aujourd'hui, 43 % de toutes les fuites de données sont directement liées à des vulnérabilités découvertes au sein...

Bouches-du-Rhône et Var : 12 000 piscines non déclarées détectées grâce à l’Intelligence Artificielle

Il y a et il y aura toujours des fraudeurs... L'intelligence artificielle va permettre de repérer ceux qui ont «omis» de déclarer certains bâtis...
Recevoir une notification en cas d'actualité importante    OK Non merci