Le corpus d'articles arXiv est désormais disponible sur Kaggle

Le corpus d’articles arXiv permet depuis plus de 30 ans à la communauté de chercheurs et au public d’avoir accès aux articles scientifiques dans des domaines très variés dont l’informatique, la recherche en intelligence artificielle, la physique, les mathématiques, les statistiques, l’électrotechnique, la biologie quantitative ou encore l’économie. Désormais le corpus arXiv sera également disponible sur Kaggle comme l’a annoncé sur son blog l’organisme.

Le grand nombre de documents de recherche arXiv est à la fois bénéfique et stimulant. Qu’il s’agisse d’une étudiante diplômée qui veut approfondir ses connaissances dans son domaine, d’un professeur établi explorant des domaines adjacents ou de chercheurs à la recherche d’un aperçu global, ce riche corpus d’informations offre une profondeur significative, mais parfois écrasante.

Pour aider à rendre arXiv plus accessible, l’organisme a présenté un pipeline ouvert et gratuit sur Kaggle vers l’ensemble de données arXiv, machine-readable : un référentiel de 1,7 million d’articles, avec des fonctionnalités pertinentes telles que les titres d’articles, les auteurs, les catégories, les résumés, les PDF en texte intégral, et plus.

“Le fait d’avoir l’intégralité du corpus arXiv sur Kaggle accroît énormément le potentiel des articles arXiv”, a déclaré Eleonora Presani, directrice exécutive d’arXiv. “En proposant l’ensemble de données sur Kaggle, nous allons au-delà de ce que l’homme peut apprendre en lisant tous ces articles et nous mettons les données et les informations derrière arXiv à la disposition du public dans un format lisible par machine”.

Kaggle est une destination pour les scientifiques des données et les ingénieurs en machine learning à la recherche d’ensembles de données intéressants, de notebooks publics, etc. Les chercheurs peuvent utiliser les outils d’exploration de données étendus de Kaggle et partager facilement leurs scripts et résultats pertinents avec d’autres.

“ArXiv est plus qu’un référentiel d’articles, c’est une plate-forme de partage de connaissances”, a déclaré Eleonora Presani. “Cela nécessite une innovation constante sur la façon dont nous présentons et interprétons les connaissances que nous mettons à disposition. Les utilisateurs de Kaggle peuvent aider à repousser les limites de cette innovation et cela peut être un nouveau moyen de collaboration pour notre communauté”.

“Avec de grands ensembles de données, on s’attend généralement à ce que des découvertes, des connexions, des outils ou des perspectives innovantes soient négligés, ce qui peut conduire à des informations supplémentaires, non seulement sur le sujet d’origine, mais dans d’autres domaines d’études, permettant encore plus de découvertes et d’innovation”, a déclaré Steinn Sigurdsson, directeur scientifique d’arXiv.

Le Call to action d’arXiv

“Notre espoir est de permettre de nouveaux cas d’utilisation qui peuvent conduire à l’exploration de techniques de machine learning plus riches qui combinent des fonctionnalités multimodales vers des applications telles que l’analyse des tendances, les moteurs de recommandation d’articles, la prédiction de catégories, les réseaux de co-citation, la construction de graphes de connaissances et les interfaces de recherche sémantique.

Un exemple d’une telle application de recherche sémantique construite sur un corpus spécifique serait le Google’s COVID-19 Research Explorer, un outil qui aide les chercheurs à parcourir l’ensemble de données CORD-19 – un référentiel de plus de 190000 articles scientifiques sur la COVID-19. Les interfaces construites sur des ensembles de données tels que celui-ci utilisent des techniques NLU avancées pour comprendre l’intention d’un utilisateur derrière une requête. En fin de compte, cela peut permettre une recherche plus efficace en faisant apparaître des données et des preuves pertinentes à des questions scientifiques complexes. Nous espérons que la publication de l’ensemble de données arXiv machine-readable inspirera la création d’outils NLU similaires sur ce nouveau corpus.

Alex Alemi, chercheur principal chez Google, a également poursuivi des applications passionnantes de ML en utilisant arXiv. Comme décrit dans l’article sur l’utilisation d’arXiv en tant qu’ensemble de données, Alex et ses collègues ont cherché à propulser arXiv en tant que référence pour les tâches multi-relationnelles à grande échelle, telles que les réseaux de neurones graphiques. ‘Je suis ravi de voir la communauté de recherche relever le défi d’un ensemble de données riche et multiforme avec autant de praticité dans le monde réel, et les nouvelles questions que cela soulèvera'”, déclare Alex.

Accès

L’ensemble de données est désormais disponible sur Kaggle et sera mis à jour chaque semaine.

Depuis 2020 et l’intégration du corpus arXiv sur la plateforme web qui propose aux scientifiques des données et aux ingénieurs en machine learning des ensembles de données et des notebooks, la notoriété de Kaggle s’est encore accrue. En effet, le référentiel de 1,7 million d’articles scientifiques a permis d’étendre le corpus commencé il y a trente ans par des communautés de chercheurs.

Grâce à Kaggle, la mise à disposition des outils d’exploration de données ainsi que la recherche d’ensemble de données a pu être facilité pour les scientifiques et les chercheurs.