DELPHI : un framework du MIT utilisant le machine learning pour estimer l'impact d'un article scientifique

Deux chercheurs du Massachussets Institue of Technology (MIT) ont développé un framework grâce à l’intelligence artificielle. Basée sur le machine learning, cette infrastructure logicielle a été conçue pour prédire l’impact d’une nouvelle technologie en analysant des articles scientifiques parus autour du domaine lié à cette innovation. L’outil analyse également les potentiels modèles développés par les chercheurs, explicités dans ces publications.

Un framework conçu grâce au machine learning

James W. Weis, chercheur associé au MIT Media Lab, et Joseph Jacobson, professeur au sein du cursus “Media Arts & Sciences” et chef du groupe de recherche Molecular Machines du Media Lab, ont publié un article autour de l’outil qu’ils ont développé : le framework Dynamic Early-warning by Learning to Predict High Impact (DELPHI).

Il s’agit d’un algorithme de machine learning prenant en compte de nombreux articles scientifiques. Les chercheurs ont souhaité exploiter cette base de données qui ne cesse de croître depuis les années 1980. Le modèle a été élaboré grâce à une compilation chronologique complète d’articles qui ne prend pas seulement en compte le nombre de citations de la publication, mais l’ensemble des métadonnées disponibles permettant de saisir réellement la propagation de cette information dans le monde scientifique.

James W. Weis explique le fonctionnement de l’outil :

“Essentiellement, notre algorithme fonctionne en apprenant des modèles de l’histoire scientifique, puis en faisant correspondre ces modèles sur de nouvelles publications pour essayer de déterminer les premiers signaux à fort impact. En suivant la diffusion précoce des idées issues de ces nouveaux articles, nous pouvons prédire dans quelle mesure les publications sont susceptibles de devenir virales ou susceptibles de se propager à l’ensemble de la communauté universitaire et scientifique de manière significative.”

Le résultat donne un graphe contenant plusieurs connexions : elles correspondent aux citations d’un article. Au bout des deux extrémités de la connexion, on retrouve les noeuds qui contiennent l’ensemble des informations d’une publication : contenu, auteurs, institutions, etc. Plus un nœud est au centre du graphe et occasionne la création de nouvelles connexions, plus la publication est considérée comme ayant un fort impact. Plusieurs de ces graphes simplifiés sont représentés dans l’image ci-dessous :

Grâce à ce système, l’impact scientifique des articles est estimé et les articles se situant au centre du graphe, à hauteur de 5 % des nœuds, sont considérés comme “très impactant”. 5 % correspondent à la valeur de base, mais celle-ci peut être ajustée entre 1 à 10 % des nœuds.

Un système qui déduit le fort impact potentiel d’un article

Des graphes générés, DELPHI suggère que les articles à fort impact se propagent à grande échelle : auprès de petites communautés scientifiques, voire même dans des domaines pas forcément liés à celui de la publication. DELPHI considère qu’entre deux articles qui ont le même nombre de citations, celui qui a le plus fort impact est celui qui atteint le public le plus large. Toutefois, même si le programme réussit à identifier et à valoriser les articles considérés comme impactant, les publications ayant un impact plus faible, elles, ne sont pas vraiment exploitées.

James W. Weis, un des deux investigateurs du projet, évoque les possibles usages de sa création :

“Le framework pourrait être utile pour inciter des équipes à travailler ensemble, même si elles ne se connaissent pas. Par exemple, elles pourraient ainsi mieux gérer leurs fonds entre elles pour se réunir et travailler sur d’importants problèmes multidisciplinaires.”

Joseph Jacobson, le second chercheur, fait référence aux objectifs de cette étude :

“Cette étude visait à savoir s’il était possible de créer un processus de manière plus échelonnée, en utilisant la communauté scientifique dans son ensemble, telle qu’elle est intégrée dans le graphique académique, et en étant plus inclusif dans l’identification des orientations de recherche à fort impact.”

Les chercheurs préviennent toutefois que DELPHI ne prédit pas l’avenir. Le machine learning est utilisé pour extraire et quantifier des signaux présents dans l’ensemble des données. Néanmoins, ils ont été surpris de la rapidité avec laquelle un article peut être considéré comme ayant un fort impact.

Un modèle utilisé pour découvrir la perle rare des publications scientifiques

DELPHI a été utilisé pour mettre en évidence une cinquantaine de publications scientifiques dont les impacts seraient élevés d’ici 2023. Plusieurs domaines y sont abordés : nanorobots utilisés pour le traitement du cancer, réseaux de neurones profonds pour aider la chimie, nouvelles découvres autour des batteries au lithium, etc.

Les deux chercheurs considèrent que DELPHI sera un outil qui pourra aider les institutions, gouvernements et autres décideurs à mieux gérer les investissements dans la recherche scientifique. Le modèle identifiera les technologies considérées comme des “perles rares” de la science moderne, ce qui pourrait guider les décisionnaires afin de faire les bons choix.

C’est un aspect également évoqué par James W. Weis :

“Je suis devenu de plus en plus conscient que les investisseurs, y compris moi-même, recherchaient constamment de nouvelles entreprises aux mêmes endroits et avec les mêmes idées préconçues autour de la recherche. Il existe pourtant une énorme richesse de personnes hautement talentueuses et des technologies incroyables que j’ai commencé à entrevoir, mais que beaucoup négligent. Je pensais qu’il devait y avoir un moyen de travailler dans cet espace et que le machine learning pourrait nous aider à trouver plus efficacement tout ce potentiel inexploité.”