Retrouvez le magazine de l'intelligence artificielle
Actualité Le corpus d'articles arXiv est désormais disponible sur Kaggle

Pour approfondir le sujet

Intelligence artificielle pour la compréhension du langage parlé contrôlée sémantiquement – AISSPER

L'Agence Nationale pour la Recherche finance chaque année des projets de recherche dont plusieurs sur l'intelligence artificielle. Focus sur le projet d'AISSPER porté par...

SystemX prévoit dans sa feuille de route 2019-2025 d’apporter des réponses à 3 défis clés de l’IA

L'IRT SystemX a placé l'intelligence artificielle au coeur de sa feuille de route pour 2019-2025. Son objectif est d'accélérer davantage le transfert des innovations IA vers l'industrie....

IMT Mines Alès se dote d’un département d’enseignement sur l’intelligence artificielle adossé au laboratoire LGI2P

IMT Mines Alès a annoncé avoir pris la décision de faire évoluer son offre pédagogique pour la maintenir en adéquation avec les besoins de...

Le corpus d’articles arXiv est désormais disponible sur Kaggle

Le corpus d’articles arXiv permet depuis plus de 30 ans à la communauté de chercheurs et au public d’avoir accès aux articles scientifiques dans des domaines très variés dont l’informatique, la recherche en intelligence artificielle, la physique, les mathématiques, les statistiques, l’électrotechnique, la biologie quantitative ou encore l’économie. Désormais le corpus arXiv sera également disponible sur Kaggle comme l’a annoncé sur son blog l’organisme.

Le grand nombre de documents de recherche arXiv est à la fois bénéfique et stimulant. Qu’il s’agisse d’une étudiante diplômée qui veut approfondir ses connaissances dans son domaine, d’un professeur établi explorant des domaines adjacents ou de chercheurs à la recherche d’un aperçu global, ce riche corpus d’informations offre une profondeur significative, mais parfois écrasante.

Pour aider à rendre arXiv plus accessible, l’organisme a présenté un pipeline ouvert et gratuit sur Kaggle vers l’ensemble de données arXiv, machine-readable : un référentiel de 1,7 million d’articles, avec des fonctionnalités pertinentes telles que les titres d’articles, les auteurs, les catégories, les résumés, les PDF en texte intégral, et plus.

“Le fait d’avoir l’intégralité du corpus arXiv sur Kaggle accroît énormément le potentiel des articles arXiv”, a déclaré Eleonora Presani, directrice exécutive d’arXiv. “En proposant l’ensemble de données sur Kaggle, nous allons au-delà de ce que l’homme peut apprendre en lisant tous ces articles et nous mettons les données et les informations derrière arXiv à la disposition du public dans un format lisible par machine”.

Kaggle est une destination pour les scientifiques des données et les ingénieurs en machine learning à la recherche d’ensembles de données intéressants, de notebooks publics, etc. Les chercheurs peuvent utiliser les outils d’exploration de données étendus de Kaggle et partager facilement leurs scripts et résultats pertinents avec d’autres.

“ArXiv est plus qu’un référentiel d’articles, c’est une plate-forme de partage de connaissances”, a déclaré Eleonora Presani. “Cela nécessite une innovation constante sur la façon dont nous présentons et interprétons les connaissances que nous mettons à disposition. Les utilisateurs de Kaggle peuvent aider à repousser les limites de cette innovation et cela peut être un nouveau moyen de collaboration pour notre communauté”.

“Avec de grands ensembles de données, on s’attend généralement à ce que des découvertes, des connexions, des outils ou des perspectives innovantes soient négligés, ce qui peut conduire à des informations supplémentaires, non seulement sur le sujet d’origine, mais dans d’autres domaines d’études, permettant encore plus de découvertes et d’innovation”, a déclaré Steinn Sigurdsson, directeur scientifique d’arXiv.

Le Call to action d’arXiv

“Notre espoir est de permettre de nouveaux cas d’utilisation qui peuvent conduire à l’exploration de techniques de machine learning plus riches qui combinent des fonctionnalités multimodales vers des applications telles que l’analyse des tendances, les moteurs de recommandation d’articles, la prédiction de catégories, les réseaux de co-citation, la construction de graphes de connaissances et les interfaces de recherche sémantique.

Un exemple d’une telle application de recherche sémantique construite sur un corpus spécifique serait le Google’s COVID-19 Research Explorer, un outil qui aide les chercheurs à parcourir l’ensemble de données CORD-19 – un référentiel de plus de 190000 articles scientifiques sur la COVID-19. Les interfaces construites sur des ensembles de données tels que celui-ci utilisent des techniques NLU avancées pour comprendre l’intention d’un utilisateur derrière une requête. En fin de compte, cela peut permettre une recherche plus efficace en faisant apparaître des données et des preuves pertinentes à des questions scientifiques complexes. Nous espérons que la publication de l’ensemble de données arXiv machine-readable inspirera la création d’outils NLU similaires sur ce nouveau corpus.

Alex Alemi, chercheur principal chez Google, a également poursuivi des applications passionnantes de ML en utilisant arXiv. Comme décrit dans l’article sur l’utilisation d’arXiv en tant qu’ensemble de données, Alex et ses collègues ont cherché à propulser arXiv en tant que référence pour les tâches multi-relationnelles à grande échelle, telles que les réseaux de neurones graphiques. ‘Je suis ravi de voir la communauté de recherche relever le défi d’un ensemble de données riche et multiforme avec autant de praticité dans le monde réel, et les nouvelles questions que cela soulèvera’, déclare Alex.

Accès

L’ensemble de données est désormais disponible sur Kaggle et sera mis à jour chaque semaine.

Thomas Calvi

Partager l'article

Des scientifiques utilisent le machine learning pour rendre visible des phénomènes astrophysiques jusqu’ici inaccessibles

Une équipe de scientifiques du CNRS, de l’IRAM, de l’Observatoire de Paris-PSL, et des écoles Centrale Marseille et Centrale Lille rassemblés au sein du...

La Fondation l’IA pour l’Ecole publie un livre blanc sur le confinement et continuité pédagogique

La situation sanitaire liée à la pandémie de Covid-19 a fait du confinement l'une des mesures phares pour lutter contre la propagation du virus....

Deep Tech – GrAI Matter Labs lève 13 millions d’euros pour commercialiser sa puce dédiée à l’IA embarquée

GrAI Matter Labs a annoncé cette semaine avoir bouclé son dernier tour de financement de 13 millions d'euros. L'entreprise avait lancé en octobre 2019...

Roche établit un partenariat avec l’Amii, Mila et l’Institut Vecteur pour stimuler la transformation numérique dans le secteur de la santé

Roche Canada a présenté le Centre national d'excellence en intelligence artificielle (CdE). Il s'agit du premier organisme collaboratif de cette nature à conjuguer l'expertise...