Intelligence artificielle Le corpus d'articles arXiv est désormais disponible sur Kaggle

Pour approfondir le sujet

Sur le même thème :

Un modèle de machine learning pour identifier les épaves dans le cadre de recherches en archéologie sous-marine

Leila Character, doctorante en géographie à l'université du Texas à Austin, a développé un modèle d'IA capable de reconnaitre les épaves dans les fonds...

Google élabore un modèle d’apprentissage par renforcement pour fabriquer des puces plus rapidement

En mai dernier, Google a annoncé dans son édition 2021 du Google I/O, la quatrième génération de ses puces TPU (TPUv4). Une équipe de...

Atos et Graphcore annoncent leur partenariat pour concevoir des solutions de calcul haute performance

D'un côté, Atos, un spécialiste français de la transformation numérique, qui a présenté en début de mois sa nouvelle plateforme de computer vision, mais...

T-Systems et Google Cloud prolongent leur partenariat

Dans le cadre d'un partenariat entre T-systems et Google Cloud, la filiale de Deutsche Telekom propose désormais des services managés pour la plateforme de...

Le corpus d’articles arXiv est désormais disponible sur Kaggle

Le corpus d’articles arXiv permet depuis plus de 30 ans à la communauté de chercheurs et au public d’avoir accès aux articles scientifiques dans des domaines très variés dont l’informatique, la recherche en intelligence artificielle, la physique, les mathématiques, les statistiques, l’électrotechnique, la biologie quantitative ou encore l’économie. Désormais le corpus arXiv sera également disponible sur Kaggle comme l’a annoncé sur son blog l’organisme.

Le grand nombre de documents de recherche arXiv est à la fois bénéfique et stimulant. Qu’il s’agisse d’une étudiante diplômée qui veut approfondir ses connaissances dans son domaine, d’un professeur établi explorant des domaines adjacents ou de chercheurs à la recherche d’un aperçu global, ce riche corpus d’informations offre une profondeur significative, mais parfois écrasante.

Pour aider à rendre arXiv plus accessible, l’organisme a présenté un pipeline ouvert et gratuit sur Kaggle vers l’ensemble de données arXiv, machine-readable : un référentiel de 1,7 million d’articles, avec des fonctionnalités pertinentes telles que les titres d’articles, les auteurs, les catégories, les résumés, les PDF en texte intégral, et plus.

“Le fait d’avoir l’intégralité du corpus arXiv sur Kaggle accroît énormément le potentiel des articles arXiv”, a déclaré Eleonora Presani, directrice exécutive d’arXiv. “En proposant l’ensemble de données sur Kaggle, nous allons au-delà de ce que l’homme peut apprendre en lisant tous ces articles et nous mettons les données et les informations derrière arXiv à la disposition du public dans un format lisible par machine”.

Kaggle est une destination pour les scientifiques des données et les ingénieurs en machine learning à la recherche d’ensembles de données intéressants, de notebooks publics, etc. Les chercheurs peuvent utiliser les outils d’exploration de données étendus de Kaggle et partager facilement leurs scripts et résultats pertinents avec d’autres.

“ArXiv est plus qu’un référentiel d’articles, c’est une plate-forme de partage de connaissances”, a déclaré Eleonora Presani. “Cela nécessite une innovation constante sur la façon dont nous présentons et interprétons les connaissances que nous mettons à disposition. Les utilisateurs de Kaggle peuvent aider à repousser les limites de cette innovation et cela peut être un nouveau moyen de collaboration pour notre communauté”.

“Avec de grands ensembles de données, on s’attend généralement à ce que des découvertes, des connexions, des outils ou des perspectives innovantes soient négligés, ce qui peut conduire à des informations supplémentaires, non seulement sur le sujet d’origine, mais dans d’autres domaines d’études, permettant encore plus de découvertes et d’innovation”, a déclaré Steinn Sigurdsson, directeur scientifique d’arXiv.

Le Call to action d’arXiv

“Notre espoir est de permettre de nouveaux cas d’utilisation qui peuvent conduire à l’exploration de techniques de machine learning plus riches qui combinent des fonctionnalités multimodales vers des applications telles que l’analyse des tendances, les moteurs de recommandation d’articles, la prédiction de catégories, les réseaux de co-citation, la construction de graphes de connaissances et les interfaces de recherche sémantique.

Un exemple d’une telle application de recherche sémantique construite sur un corpus spécifique serait le Google’s COVID-19 Research Explorer, un outil qui aide les chercheurs à parcourir l’ensemble de données CORD-19 – un référentiel de plus de 190000 articles scientifiques sur la COVID-19. Les interfaces construites sur des ensembles de données tels que celui-ci utilisent des techniques NLU avancées pour comprendre l’intention d’un utilisateur derrière une requête. En fin de compte, cela peut permettre une recherche plus efficace en faisant apparaître des données et des preuves pertinentes à des questions scientifiques complexes. Nous espérons que la publication de l’ensemble de données arXiv machine-readable inspirera la création d’outils NLU similaires sur ce nouveau corpus.

Alex Alemi, chercheur principal chez Google, a également poursuivi des applications passionnantes de ML en utilisant arXiv. Comme décrit dans l’article sur l’utilisation d’arXiv en tant qu’ensemble de données, Alex et ses collègues ont cherché à propulser arXiv en tant que référence pour les tâches multi-relationnelles à grande échelle, telles que les réseaux de neurones graphiques. ‘Je suis ravi de voir la communauté de recherche relever le défi d’un ensemble de données riche et multiforme avec autant de praticité dans le monde réel, et les nouvelles questions que cela soulèvera’, déclare Alex.

Accès

L’ensemble de données est désormais disponible sur Kaggle et sera mis à jour chaque semaine.


1ère Marketplace de l'IA et de la transformation numérique vous recommande :
 
Thomas Calvi

Partager l'article

Rendez-vous du 17 au 19 novembre 2021 pour la 4ème édition du Soph.I.A. Summit

Cette année, le Soph.I.A. Summit se tiendra du 17 au 19 novembre 2021. Organisé par Université Côte d’Azur, la Communauté d’Agglomération de Sophia Antipolis et...

France Num publie le 1er Baromètre sur la transformation numérique des TPE/PME réalisé par le CREDOC

France Num, initiative pilotée par la Direction Générale des entreprises (DGE) a remis à Alain Griset, ministre délégué chargé des petites et moyennes entreprises,...

Retour sur l’adoption de la première stratégie de l’OTAN en matière d’Intelligence Artificielle

Les 30 pays de l'OTAN ont pour objectif de garantir la liberté et la sécurité aux membres de leur alliance. Créé en 1949, l'OTAN...

Changement climatique : Mila permet de vivre l’expérience de catastrophes naturelles pour sensibiliser l’opinion

Ces dernières années, les catastrophes naturelles semblent s'amplifier et se succéder à un rythme exponentiel. Que ce soient les incendies dévastateurs comme en Californie,...