Des chercheurs développent une IA pour aider les médecins à trouver les informations pertinentes au sein des dossiers électroniques

Les médecins ont de plus en plus recours aux dossiers électroniques pour y trouver des informations les orientant sur le meilleur traitement à proposer à leurs patients. Pour les aider à le faire plus rapidement, des chercheurs du MIT, du MIT-IBM Watson AI Lab, d’IBM Research, des médecins et experts médicaux, ont élaboré des modèles de machine learning. Leur étude « Apprendre à demander comme un médecin » a été publiée dans Arxiv le 6 juin dernier. Le document de recherche sera d’ailleurs présenté à la Conférence annuelle de la section nord-américaine de l’Association for Computational Linguistics.

Les médecins interrogent souvent les dossiers de santé électroniques (DSE) pour prendre des décisions éclairées concernant les soins aux patients. Cependant, une étude de 2004 a permis de constater qu’il leur fallait en moyenne 8,3 minutes pour trouver une réponse à une seule question, bien qu’ils aient reçu une formation à l’utilisation des DSE, leur laissant ainsi moins de temps pour interagir avec leurs patients.

Les modèles existants peinent à générer des questions pertinentes, celles posées par un médecin ne trouvent pas les bonnes réponses la plupart du temps.

Les chercheurs ont commencé à développer des modèles de machine learning capables de rationaliser le processus en trouvant automatiquement l’information dont les médecins ont besoin dans un DSE. Alors que, pour être efficaces, ces modèles doivent être entraînés sur d’énormes ensembles de données de questions médicales pertinentes, ils se sont trouvés face au problème de la confidentialité des données personnelles.

Surmonter la pénurie de données médicales

Pour surmonter le manque de données, les chercheurs ont travaillé avec 10 experts médicaux de différents niveaux de compétence pour compiler DiSCQ, un nouvel ensemble de données de plus de 2 000 questions.

Eric Lehman, l’auteur principal de l’étude, étudiant diplômé au Laboratoire d’informatique et d’intelligence artificielle (CSAIL), explique :

« Deux mille questions peuvent sembler beaucoup, mais quand vous regardez les modèles d’apprentissage automatique qui sont formés de nos jours, ils ont tellement de données, peut-être des milliards de points de données. Lorsque vous entraînez des modèles d’apprentissage automatique pour qu’ils fonctionnent dans les milieux de soins de santé, vous devez être vraiment créatif parce qu’il y a un tel manque de données. »

Pour construire DiSCQ, les chercheurs du MIT ont demandé à ces experts (des médecins praticiens et des étudiants en médecine au cours de leur dernière année de formation) de lire 100 résumés de DSE et de poser toutes les questions qui leur venaient à l’esprit. Ils n’avaient imposé aucune restriction sur les types ou les structures de questions afin de recueillir des questions naturelles. Comme ils l’avaient prévu, la plupart des questions portaient sur les symptômes, les traitements ou les résultats des tests du patient.

Ils ont également demandé aux experts médicaux d’identifier le « texte déclencheur » dans le DSE qui les avait amenés à poser chaque question. Par exemple, lorsqu’une note dans un DSE indique que les antécédents médicaux d’un patient sont importants pour le cancer de la prostate, le texte déclencheur est alors « cancer de la prostate », il peut amener l’expert à poser des questions telles que « date du diagnostic ? » ou « des interventions effectuées? »

Les chercheurs ont alors compilé leur ensemble de questions et le texte déclencheur qui les accompagne, ils l’ont utilisé pour former des modèles d’apprentissage automatique à poser de nouvelles questions basées sur le texte déclencheur.

Ensuite, les experts médicaux ont déterminé si ces questions étaient « bonnes » en mesurant leur compréhensibilité, leur banalité, leur pertinence médicale et leur pertinence pour le déclencheur (le déclencheur est-il lié à la question?).

Ils ont pu constater que lorsqu’un modèle recevait un texte déclencheur, il était capable de générer une bonne question dans 63% des cas alors qu’un médecin humain posait une bonne question dans 80% des cas.

L’un des auteurs principaux, Peter Szolovits, professeur au Département de génie électrique et d’informatique (EECS) qui dirige le groupe de prise de décision clinique du CSAIL, également membre du MIT-IBM Watson AI Lab, explique :

« Des données réalistes sont essentielles pour les modèles de formation qui sont pertinents pour la tâche mais difficiles à trouver ou à créer. La valeur de ce travail réside dans la collecte minutieuse des questions posées par les cliniciens sur les cas de patients, à partir desquelles nous sommes en mesure de développer des méthodes qui utilisent ces données et des modèles de langage généraux pour poser d’autres questions plausibles. »

De la pertinence des données

D’autre part, les chercheurs ont entraîné des modèles en utilisant les ensembles de données accessibles au public, qu’ils avaient trouvés au début de ce projet. Ces modèles n’ont pu récupérer qu’environ 25 % des réponses aux questions générées par les médecins.

Eric Lehman affirme :

« Ce résultat est vraiment préoccupant. Ce que les gens pensaient être des modèles performants était, dans la pratique, tout simplement horrible parce que les questions d’évaluation sur lesquelles ils testaient n’étaient pas bonnes au départ. »

L’équipe applique maintenant ce travail à son objectif : construire un modèle capable de répondre automatiquement aux questions des médecins dans un DSE.

Il reste encore beaucoup à faire avant que ce modèle ne devienne réalité, Eric Lehman se dit pourtant encouragé par les résultats initiaux solides de par l’équipe.

Sources de l’article :

« Learning to Ask Like a Physician » arXiv:2206.02696v1, 6 juin 2022.

Auteurs : Eric Lehman, Vladislav Lialin, Katelyn Y. Legaspi, Anne Janelle R. Sy, Patricia Therese S. Pile, Nicole Rose I. Alberto, Richard Raymund, R. Ragasa, Corinna Victoria M. Puyat, Isabelle Rose I. Alberto, Pia Gabrielle I. Alfonso, Marianne Taliño, Dana Moukheiber, Byron C. Wallace, Anna Rumshisky, Jenifer J. Liang, Preethi Raghavan, Leo Anthony Celi, Peter Szolovits