Prochain numéro du magazine ActuIA le 15 octobre
Actualité Le corpus d'articles arXiv est désormais disponible sur Kaggle

Pour approfondir le sujet

Intelligence artificielle pour la compréhension du langage parlé contrôlée sémantiquement – AISSPER

L'Agence Nationale pour la Recherche finance chaque année des projets de recherche dont plusieurs sur l'intelligence artificielle. Focus sur le projet d'AISSPER porté par...

SystemX prévoit dans sa feuille de route 2019-2025 d’apporter des réponses à 3 défis clés de l’IA

L'IRT SystemX a placé l'intelligence artificielle au coeur de sa feuille de route pour 2019-2025. Son objectif est d'accélérer davantage le transfert des innovations IA vers l'industrie....

IMT Mines Alès se dote d’un département d’enseignement sur l’intelligence artificielle adossé au laboratoire LGI2P

IMT Mines Alès a annoncé avoir pris la décision de faire évoluer son offre pédagogique pour la maintenir en adéquation avec les besoins de...

Le corpus d’articles arXiv est désormais disponible sur Kaggle

Le corpus d’articles arXiv permet depuis plus de 30 ans à la communauté de chercheurs et au public d’avoir accès aux articles scientifiques dans des domaines très variés dont l’informatique, la recherche en intelligence artificielle, la physique, les mathématiques, les statistiques, l’électrotechnique, la biologie quantitative ou encore l’économie. Désormais le corpus arXiv sera également disponible sur Kaggle comme l’a annoncé sur son blog l’organisme.

Le grand nombre de documents de recherche arXiv est à la fois bénéfique et stimulant. Qu’il s’agisse d’une étudiante diplômée qui veut approfondir ses connaissances dans son domaine, d’un professeur établi explorant des domaines adjacents ou de chercheurs à la recherche d’un aperçu global, ce riche corpus d’informations offre une profondeur significative, mais parfois écrasante.

Pour aider à rendre arXiv plus accessible, l’organisme a présenté un pipeline ouvert et gratuit sur Kaggle vers l’ensemble de données arXiv, machine-readable : un référentiel de 1,7 million d’articles, avec des fonctionnalités pertinentes telles que les titres d’articles, les auteurs, les catégories, les résumés, les PDF en texte intégral, et plus.

“Le fait d’avoir l’intégralité du corpus arXiv sur Kaggle accroît énormément le potentiel des articles arXiv”, a déclaré Eleonora Presani, directrice exécutive d’arXiv. “En proposant l’ensemble de données sur Kaggle, nous allons au-delà de ce que l’homme peut apprendre en lisant tous ces articles et nous mettons les données et les informations derrière arXiv à la disposition du public dans un format lisible par machine”.

Kaggle est une destination pour les scientifiques des données et les ingénieurs en machine learning à la recherche d’ensembles de données intéressants, de notebooks publics, etc. Les chercheurs peuvent utiliser les outils d’exploration de données étendus de Kaggle et partager facilement leurs scripts et résultats pertinents avec d’autres.

“ArXiv est plus qu’un référentiel d’articles, c’est une plate-forme de partage de connaissances”, a déclaré Eleonora Presani. “Cela nécessite une innovation constante sur la façon dont nous présentons et interprétons les connaissances que nous mettons à disposition. Les utilisateurs de Kaggle peuvent aider à repousser les limites de cette innovation et cela peut être un nouveau moyen de collaboration pour notre communauté”.

“Avec de grands ensembles de données, on s’attend généralement à ce que des découvertes, des connexions, des outils ou des perspectives innovantes soient négligés, ce qui peut conduire à des informations supplémentaires, non seulement sur le sujet d’origine, mais dans d’autres domaines d’études, permettant encore plus de découvertes et d’innovation”, a déclaré Steinn Sigurdsson, directeur scientifique d’arXiv.

Le Call to action d’arXiv

“Notre espoir est de permettre de nouveaux cas d’utilisation qui peuvent conduire à l’exploration de techniques de machine learning plus riches qui combinent des fonctionnalités multimodales vers des applications telles que l’analyse des tendances, les moteurs de recommandation d’articles, la prédiction de catégories, les réseaux de co-citation, la construction de graphes de connaissances et les interfaces de recherche sémantique.

Un exemple d’une telle application de recherche sémantique construite sur un corpus spécifique serait le Google’s COVID-19 Research Explorer, un outil qui aide les chercheurs à parcourir l’ensemble de données CORD-19 – un référentiel de plus de 190000 articles scientifiques sur la COVID-19. Les interfaces construites sur des ensembles de données tels que celui-ci utilisent des techniques NLU avancées pour comprendre l’intention d’un utilisateur derrière une requête. En fin de compte, cela peut permettre une recherche plus efficace en faisant apparaître des données et des preuves pertinentes à des questions scientifiques complexes. Nous espérons que la publication de l’ensemble de données arXiv machine-readable inspirera la création d’outils NLU similaires sur ce nouveau corpus.

Alex Alemi, chercheur principal chez Google, a également poursuivi des applications passionnantes de ML en utilisant arXiv. Comme décrit dans l’article sur l’utilisation d’arXiv en tant qu’ensemble de données, Alex et ses collègues ont cherché à propulser arXiv en tant que référence pour les tâches multi-relationnelles à grande échelle, telles que les réseaux de neurones graphiques. ‘Je suis ravi de voir la communauté de recherche relever le défi d’un ensemble de données riche et multiforme avec autant de praticité dans le monde réel, et les nouvelles questions que cela soulèvera’, déclare Alex.

Accès

L’ensemble de données est désormais disponible sur Kaggle et sera mis à jour chaque semaine.

Thomas Calvi

Partager l'article

8 startups et PME françaises lauréates de l’appel à projets EUREKA – Challenge international COVID-19

Bpifrance a annoncé ce jour les lauréats du Challenge international Covid-19. Suite à l'appel à projets ouvert du 15 avril au 15 mai 2020,...

Une approche européenne de l’intelligence artificielle : EIT Digital fait part de ses recommandations

EIT Digital a présenté son troisième rapport de sa série Policy Perspective. Il aborde la manière dont l'Europe devrait gérer l'intelligence artificielle et fournit...

Replay – Conférence 1re Pierre : Cité de l’Intelligence Artificielle organisée par le département des Alpes-Maritimes et l’Institut EuropIA

Le lundi 14 septembre 2020 s'est déroulé le troisième #IADATES organisé par le département des Alpes-Maritimes et l’Institut EuropIA. Intitulée "1re Pierre : Cité...

reciTAL, spécialiste du TAL, lève 3,5 M€ auprès de Breega

Paris, le 10 septembre 2020 - reciTAL, start-up IA spécialisée dans les solutions de Document Intelligence, effectue une première levée de fonds de 3,5 M€...