Quelles sont les causes de la crise de reproductibilité dans le domaine de la science basée sur le ML ?

L’utilisation de méthodes d’apprentissage automatique pour la prédiction et la prévision s’est généralisée dans les sciences quantitatives. Cependant, il existe de nombreux pièges méthodologiques connus, y compris des fuites de données; pour le professeur Arvind Narayanan et son doctorant Sayash Kapoor, une crise de la reproductibilité se prépare. Ils ont organisé le 28 juillet dernier un atelier pour mettre en évidence l’ampleur de cette crise, identifier les causes profondes de reproductibilité observées et trouver des solutions à ce problème.

Avant cet atelier, Arvind Narayanan et Sayash Kapoor avaient examiné systématiquement les problèmes de reproductibilité dans la science basée sur le ML, leur étude « Fuite et crise de reproductibilité dans la science basée sur le ML » a d’ailleurs été publiée sur arXiv en février 2020.

Pour étudier l’impact des erreurs de reproductibilité et l’efficacité des fiches d’informations sur les modèles, leurs travaux portaient sur la reproductibilité dans un domaine où l’on pense que les modèles ML complexes surpassent largement les modèles statistiques plus anciens tels que la régression logistique (LR) : prédiction de la guerre civile. Ils ont pu constater que les articles revendiquant les performances supérieures des modèles ML complexes par rapport aux modèles LR ne se reproduisent pas en raison de fuites de données et que les modèles ML complexes ne fonctionnent pas vraiment mieux que les modèles LR vieux de plusieurs décennies.

Ils ont découvert que d’autres chercheurs avaient identifié 329 articles concernant 17 domaines scientifiques dans lesquels un apprentissage automatique mal mis en œuvre donnait des résultats discutables. Dans le domaine des sciences politiques, l’un d’eux prétendait qu’il était possible de prédire quand une guerre civile éclatera avec plus de 90% de précision, grâce à l’IA.

L’atelier sur la crise de reproductibilité

Les deux chercheurs de Princeton ont décidé d’organiser un atelier en ligne. Hébergé par le Center for Statistics and Machine Learning de l’Université de Princeton, cet atelier en ligne visait à mettre en évidence l’ampleur et la portée de la crise, à identifier les causes profondes des défaillances de reproductibilité observées et à progresser vers des solutions.

Ils attendaient une trentaine de participants mais plus de 1 500 personnes se sont inscrites, une surprise qui, selon eux, suggère que les problèmes d’apprentissage automatique en science sont répandus.

Au cours de l’événement, les conférenciers invités ont cité plusieurs exemples de situations où l’IA est utilisée à mauvais escient dans des domaines tels que les sciences médicales et sociales :

Michael Roberts, associé de recherche principal à l’Université de Cambridge, a discuté des problèmes posés par des dizaines d’articles prétendant utiliser l’apprentissage automatique pour lutter contre le COVID-19, notamment lorsque les données étaient faussées car elles avaient été exposées à différentes machines d’imagerie.

Jessica Hulman, professeure agrégée à la Northwestern University, a comparé les problèmes avec des études utilisant l’apprentissage automatique pour prouver le phénomène impossible à reproduire des résultats majeurs en psychologie. Selon elle, « Dans les deux cas, les chercheurs risquent d’utiliser trop peu de données et de mal interpréter la signification statistique des résultats. »

Momin Malik, data scientist à la Mayo Clinic, a parlé de son travail de suivi des utilisations problématiques de l’apprentissage automatique en science. Selon lui, « En plus des erreurs courantes dans la mise en œuvre de la technologie, les chercheurs appliquent parfois l’apprentissage automatique lorsque ce n’est pas le bon outil pour le travail. » Il a notamment cité un exemple d’apprentissage automatique qui a produit des résultats trompeurs : Google Flu Trends, un outil développé en 2008 pour identifier plus rapidement les épidémies de grippe à partir des journaux de requêtes de recherche tapées par les internautes.

Pour lui, Google a obtenu une publicité positive pour le projet mais a échoué de manière spectaculaire à prédire le cours de la saison grippale 2013. Une étude indépendante a conclu plus tard que le modèle reposait sur des conditions saisonnières qui n’ont rien à voir avec la propagation de la grippe. « Vous ne pouvez pas tout mettre dans un seul grand modèle d’apprentissage automatique et voir ce qui en ressort », a expliqué Momin Malik.

Pour certains participants à l’atelier, tous les scientifiques ne sont pas en mesure de maîtriser l’apprentissage automatique, surtout si l’on tient compte de la complexité de certains des problèmes.

Ainsi, Amy Winekoff, scientifique des données au Princeton Center for Information Technology Policy, affirme que bien qu’il soit important pour les scientifiques d’apprendre de bons principes d’ingénierie logicielle, de maîtriser les techniques statistiques et de prendre le temps de maintenir des ensembles de données, cela ne devrait pas se faire au détriment du domaine.

Elle a déclaré :

« Par exemple, nous ne voulons pas que les chercheurs sur la schizophrénie en sachent trop sur le génie logiciel, mais trop peu sur les causes du trouble. »

Elle suggère qu’une plus grande collaboration entre scientifiques et informaticiens pourrait aider à trouver le bon équilibre.

Momin Malik, de son côté, assure :

« La leçon générale est qu’il n’est pas juste de tout faire avec l’apprentissage automatique. Malgré la rhétorique, le battage médiatique, les succès et les espoirs, cela reste une approche limitée. »

Pour Sayash Kapoor, il est important que la communauté scientifique commence à réfléchir à la question.

Il déclare :

« La science basée sur l’apprentissage automatique en est encore à ses balbutiements. Mais c’est urgent – cela peut avoir des conséquences très néfastes à long terme. »