DrBERT : le premier modèle de traitement du langage biomédical français open source

“DrBERT” est le premier modèle ouvert de traitement automatique du langage dédié au domaine biomédical et clinique français. S’appuyant sur les travaux de thèse de Yanis Labrak, doctorant à Avignon Université, membre du LIA, le Laboratoire Informatique d’Avignon, alternant chez l’éditeur de logiciels Zenidoc, et d’Adrien Bazoge, doctorant à Nantes Université et membre du LS2N, le Laboratoire des Sciences du Numérique de Nantes, il est le fruit d’une collaboration de scientifiques du LS2N, du LIA et du CHU de Nantes.

L’étude “DrBERT: A Robust Pre-trained Model in French for Biomedical and Clinical domains” a été présentée au cours des derniers mois à DEFT 2023, CORIA-TALN 2023 et plus récemment à la conférence de l’Association for Computational Linguistics (ACL).

Elle porte sur les modèles de langage pré-entraînés (PLM) en français dans le contexte du domaine médical. Les scientifiques y comparent les performances des PLM entraînés à partir de données publiques disponibles sur le web et de données privées provenant d’établissements de santé et évaluent diverses stratégies d’apprentissage sur un ensemble de tâches liées au domaine biomédical.

Ils mettent à disposition du public les premiers PLM spécialisés dans le domaine biomédical en français, nommés DrBERT, accompagnés du corpus de données médicales open source sur lequel ces modèles ont été entraînés. Ils ont en effet fait le choix de ne publier que les poids des modèles entraînés à partir de données exclusivement open source pour éviter toute fuite d’informations personnelles et respecter le RGPD.

Pour entraîner leur famille de modèles DrBERT, les chercheurs ont bénéficié de l’accès au supercalculateur Jean Zay (CNRS/Genci), opéré par l’Institut du Développement et des Ressources en Informatique Scientifique (IDRIS – CNRS).

DrBERT, le PLM dédié au langage biomédical et clinique français

Basé sur l’architecture RoBERTa, une variante du modèle de langage BERT (Bidirectional Encoder Representations from Transformers) largement utilisé dans le domaine du traitement automatique du langage naturel (TALN) développé par des chercheurs de Google AI Language en 2018. DrBERT est un modèle de langage pré-entraîné sur des données publiques et privées.

Les données publiques proviennent du corpus biomédical open source NACHOS, (opeN crAwled frenCh Healthcare cOrpuS), un ensemble de données textuelles médicales françaises provenant du web. Il se compose de plus d’un milliard de mots, tirés de 24 sites web francophones de haute qualité et comprend un large éventail d’informations médicales : descriptions de maladies, informations sur les traitements et les médicaments, thèses…

Quat au corpus privé, la CNIL a autorisé les chercheurs a utilisé l’entrepôt de données du CHU de Nantes : 1,7 million de comptes-rendus désidentifiés provenant de différents services hospitaliers, tels que les urgences, la gynécologie et la cardiologie, ont été sélectionnés aléatoirement.

Evaluation et limitations

DrBERT a été évalué sur 11 applications biomédicales pratiques distinctes pour la langue française, notamment le marquage d’une partie de la parole (POS), la reconnaissance d’entités nommées (REN), la classification Multi-label et la réponse aux questions à choix multiples.

Les résultats ont démontré que DrBERT a amélioré la performance de la quasi-totalité des tâches biomédicales, surpassant le modèle généraliste français CamemBERT, mais aussi que les pré-entraînements sur des ressources spécialisées de taille limitées (4 Go) obtenues sur le web permettent de très souvent dépasser les modèles entraînés avec des données spécialisées provenant de comptes-rendus médicaux.

S’ils se sont avérés performants sur ces tâches, il existe d’autres applications potentielles pour lesquelles les modèles DrBERT le sont moins.

Richard Dufour, Professeur en informatique à Nantes Université, membre du LS2N, co-auteur de l’étude, explique :

“C’est pourquoi, nous sommes en train de développer un jeu de données de référence pour une vingtaine de tâches qui permettront de mieux évaluer les capacités des modèles produits par la recherche et ainsi de comparer de façon plus large leurs performances”.

Il ajoute :

“Grâce à la diffusion de notre modèle et à l’ouverture de ses données, les utilisateurs peuvent l’adapter au traitement de tâches qui les intéressent pour un coût de calcul largement inférieur au pré-entraînement complet du modèle. Nous nous plaçons aussi dans le cadre d’une recherche reproductible”.

DrBERT pourrait être adapté au classement de documents par spécialité médicale, à la structuration automatique des documents à l’aide de la catégorisation de mots ou encore à la traduction de documents médicaux.

Dans la continuité de cette étude, Richard Dufour portera en octobre prochain, le projet “MALADES : Grands Modèles de Langue Adaptables et Souverains pour le Domaine Médical Français”, sélectionné dans le cadre de l’Appel à Projets Thématiques Spécifiques en Intelligence Artificielle (TSIA) – Edition 2023, dans la thématique “Giga-modèles pour le traitement automatique du langage naturel et des données multimodales”.

L’objectif : mettre au point un modèle génératif de langue fiable, adaptable et dynamique pour les acteurs de la santé dans un contexte de ressources contraintes. Ces modèles fonctionneront sur un système de questions-réponses. Le projet, qui impliquera les co-auteurs de cette étude Emmanuel Morin, Béatrice Daille, Pierre-Antoine Gourraud, Mickael Rouvier, Dr Stéphane Huet, s’intéressera également aux aspects légaux et éthiques en France de leur développement et de leurs usages.

Références de l’article :

“DrBERT: A Robust Pre-trained Model in French for Biomedical and Clinical domains” arXiv:2304.00958v2

Auteurs :

Yanis Labrak (Laboratoire Informatique d’Avignon (LIA) / ZENIDOC), Adrien Bazoge (Laboratoire des Sciences du Numérique de Nantes (LS2N)), Richard Dufour (LS2N), Mickael Rouvier (LIA), Emmanuel Morin (LS2N), Béatrice Daille (LS2N) et Pierre-Antoine Gourraud (Nantes Université / CHU de Nantes).

DrBERT sur Hugging Face