Intelligence artificielle Des chercheurs de l'EPFL proposent une plateforme ouverte pour la gestion des...

Pour approfondir le sujet

Sur le même thème :

Cloudera publie le rapport d’étude de marché « Illimité : le pouvoir positif de l’IA »

La nouvelle étude de Cloudera, société de cloud de données d'entreprises, intitulée « Limitless : The Positive Power of AI », publiée en mars...

Intelligence artificielle : Détecter le burn-out grâce au traitement naturel du langage (NLP)

L'épuisement professionnel, ou burn out, est un état de fatigue profonde à la fois physique et psychique résultant d'un stress chronique dans le cadre...

Robotique : le robot chirurgien STAR effectue des coelioscopies de façon autonome

En 2016, une équipe de l'Université Johns Hopkins (JHU), avait démontré lors d'une étude que STAR, un robot chirurgien, pouvait s'adapter au mouvement subtil...

Docaposte annonce la création d’un pôle en data et intelligence artificielle

Docaposte, filiale numérique du groupe La Poste, ambitionne de devenir le référent français des solutions de confiance numérique. Dans cet objectif, elle a annoncé,...

Des chercheurs de l’EPFL proposent une plateforme ouverte pour la gestion des données chimiques

Les laboratoires de chimie génèrent une quantité importante de données. Cependant, une partie d’entre elles l’est encore sous format papier et reste difficilement accessibles dans leur intégralité. Trois scientifiques de l’EPFL présentent une plateforme modulaire de science ouverte pour gérer les grandes quantités de données produites dans la recherche en chimie. Leur  étude intitulée « Rendre la connaissance collective de la chimie ouverte et exploitable par la machine » a été publiée dans la Nature Chemistry.

La gestion des données de la chimie moderne est ardue. Si on prend l’exemple de la synthèse d’un nouveau composé, de nombreux essais et erreurs ont lieu avant de trouver les bonnes conditions de réaction et génèrent ainsi d’importantes quantités de données brutes. Ces données sont très importantes car, comme les êtres humains, les algorithmes d’apprentissage machine apprennent aussi des expériences ratées ou partiellement réussies.

Actuellement, seules les expériences les plus réussies sont publiées. L’’intelligence artificielle, en particulier le machine learning, peut permettre de traiter les données des expériences ratées à condition qu’elles soient stockées dans un format exploitable par les machines et utilisable par tous.

Le professeur Berend Smit, qui dirige le Laboratoire de simulation moléculaire de l’EPFL Valais Wallis, explique :

« Pendant longtemps, nous devions comprimer les données en raison du nombre limité de pages des articles de journaux papier. Aujourd’hui, de nombreux journaux n’ont même plus d’éditions papier. Pourtant, les chimistes sont toujours confrontés à des problèmes de reproductibilité car les articles de journal font l’impasse sur des détails importants. Les chercheuses et chercheurs perdent du temps et des ressources à reproduire les expériences ratées des autrices et auteurs. Ils ont des difficultés à s’appuyer sur les résultats publiés car les données brutes sont rarement publiées. »

Berend Smit, Luc Patiny et Kevin Jablonka de l’EPFL ont publié une perspective qui présente une plateforme ouverte pour l’ensemble du flux de travail en chimie : du lancement d’un projet à sa publication.

Des données FAIR exploitables par les machines

Leur thèse principale est que, si on veut faire progresser la chimie avec une recherche intensive en données et également résoudre les problèmes de reproductibilité, il faut changer la façon dont les données expérimentales sont collectées et rapportées.

Trois étapes sont essentielles: la collecte, le traitement et la publication des données, pour un coût minimal pour les chercheuses et chercheurs. Le principe directeur est que les données doivent être facilement trouvables, accessibles, interopérables et réutilisables (FAIR).

Berend Smit déclare :

« Au moment de la collecte de données, ces dernières seront automatiquement converties dans un format standard FAIR, ce qui permettra de publier automatiquement toutes les expériences ratées ou partiellement réussies, ainsi que l’expérience la plus réussie. »

Les auteurs proposent que les données soient également exploitables par les machines.

Kevin Jablonka affirme :

« Nous voyons de plus en plus d’études de science des données en chimie. En effet, les derniers résultats de l’apprentissage machine tentent de s’attaquer à certains des problèmes que les chimistes estiment insolubles. Par exemple, notre groupe a accompli d’importants progrès dans la prédiction des conditions de réaction optimales à l’aide de modèles d’apprentissage machine. Ces modèles auraient beaucoup plus de valeur s’ils pouvaient également apprendre les conditions de réaction qui échouent, mais ils restent biaisés car seules les conditions réussies sont publiées. »

Pour établir un plan de gestion des données FAIR, les chercheurs présentent 5 mesures :

  • La communauté de chimistes devrait adopter ses propres normes et solutions;
  • Les journaux doivent rendre obligatoire le dépôt de données brutes réutilisables, lorsqu’il existe des normes communautaires;
  • Nous devons accepter la publication des expériences « ratées » ;
  • Les cahiers de laboratoire électroniques qui ne permettent pas d’exporter toutes les données sous une forme ouverte exploitable par les machines doivent être évités;
  • La recherche axée sur les données doit faire partie de nos programmes d’études.

Luc Patiny déclare :

« Nous pensons qu’il n’est pas nécessaire d’inventer de nouveaux formats de fichier ou technologies. En principe, nous avons toutes les technologies. Nous devons les adopter et les rendre interopérables. »

Les auteurs soulignent que stocker des données dans un cahier de laboratoire électronique, ce qui est la tendance actuelle, ne signifie pas que les êtres humains et les machines peuvent les réutiliser. Structurer et publier les données dans un format standardisé est la meilleure alternative à condition que le contexte soit suffisant.

Berend Smit ajoute :

« Notre point de vue offre une vision de ce que l’on pense être les éléments clés pour combler le fossé entre les données et l’apprentissage machine pour les problèmes fondamentaux en chimie. Nous fournissons également une solution scientifique ouverte dans laquelle l’EPFL peut montrer l’exemple. »

Sources de l’article :

Kevin Maik Jablonka, Luc Patiny, Berend Smit. Making the collective knowledge of chemistry open and machine-actionable. Nature Chemistry 4 avril 2022. DOI: 10.1038/s41557-022-00910-7


1ère Marketplace de l'IA et de la transformation numérique vous recommande :
 
Thomas Calvi

Partager l'article

Découvrez ActuIA n°8, le nouveau numéro du magazine de l’intelligence artificielle

L’été est bien là et c’est déjà l’heure du nouveau numéro d’ActuIA, votre magazine de l’intelligence artificielle ! Pour ce n°8 d’ActuIA, disponible dès...

Victor Schmidt, doctorant sous la direction de Yoshua Bengio, est le lauréat de la 6ème bourse Antidote en TAL

Druide informatique a annoncé fin mai la nomination du lauréat de la 6e Bourse Antidote en traitement automatique de la langue (TAL). Victor Schmidt,...

Retour sur le lauréat du Prix CNIL-INRIA pour la protection de la vie privée

Fin mai, François Pelligrini et Mathieu Cunche, co-présidents du Jury du Prix CNIL-Inria, ont remis le prix pour la protection de la vie privée...

La Lufthansa s’appuie sur le logiciel « Virtual Aviation Training » de NMY pour former ses équipes de cabine

La pandémie a fortement impacté les compagnies aériennes. Depuis la levée des restrictions sanitaires, elles doivent affronter un autre problème : malgré une forte...
Recevoir une notification en cas d'actualité importante    OK Non merci