Le corpus d'articles arXiv permet depuis plus de 30 ans à la communauté de chercheurs et au public d'avoir accès aux articles scientifiques dans des domaines très variés dont l'informatique, la recherche en intelligence artificielle, la physique, les mathématiques, les statistiques, l'électrotechnique, la biologie quantitative ou encore l'économie. Désormais le corpus arXiv sera également disponible sur Kaggle comme l'a annoncé sur son blog l'organisme.
Le grand nombre de documents de recherche arXiv est à la fois bénéfique et stimulant. Qu'il s'agisse d'une étudiante diplômée qui veut approfondir ses connaissances dans son domaine, d'un professeur établi explorant des domaines adjacents ou de chercheurs à la recherche d'un aperçu global, ce riche corpus d'informations offre une profondeur significative, mais parfois écrasante.
Pour aider à rendre arXiv plus accessible, l'organisme a présenté un pipeline ouvert et gratuit sur Kaggle vers l'ensemble de données arXiv, machine-readable : un référentiel de 1,7 million d'articles, avec des fonctionnalités pertinentes telles que les titres d'articles, les auteurs, les catégories, les résumés, les PDF en texte intégral, et plus.
"Le fait d'avoir l'intégralité du corpus arXiv sur Kaggle accroît énormément le potentiel des articles arXiv", a déclaré Eleonora Presani, directrice exécutive d'arXiv. "En proposant l'ensemble de données sur Kaggle, nous allons au-delà de ce que l'homme peut apprendre en lisant tous ces articles et nous mettons les données et les informations derrière arXiv à la disposition du public dans un format lisible par machine".Kaggle est une destination pour les scientifiques des données et les ingénieurs en machine learning à la recherche d'ensembles de données intéressants, de notebooks publics, etc. Les chercheurs peuvent utiliser les outils d'exploration de données étendus de Kaggle et partager facilement leurs scripts et résultats pertinents avec d'autres.
"ArXiv est plus qu'un référentiel d'articles, c'est une plate-forme de partage de connaissances", a déclaré Eleonora Presani. "Cela nécessite une innovation constante sur la façon dont nous présentons et interprétons les connaissances que nous mettons à disposition. Les utilisateurs de Kaggle peuvent aider à repousser les limites de cette innovation et cela peut être un nouveau moyen de collaboration pour notre communauté".
"Avec de grands ensembles de données, on s'attend généralement à ce que des découvertes, des connexions, des outils ou des perspectives innovantes soient négligés, ce qui peut conduire à des informations supplémentaires, non seulement sur le sujet d'origine, mais dans d'autres domaines d'études, permettant encore plus de découvertes et d'innovation", a déclaré Steinn Sigurdsson, directeur scientifique d'arXiv.