Données de santé & intelligence artificielle : rencontre avec Emmanuel Bacry

Lors de la précédente édition de France is AI, nous avons eu l’occasion de nous entretenir avec Emmanuel Bacry, l’un des plus grands spécialistes mondiaux des données de santé. L’occasion d’échanger avec lui sur le sujet complexe de l’utilisation de ces données. Sujet plus que jamais d’actualité, comme le rappelle l’annonce la semaine dernière de la migration de l’équipe de DeepMind Health vers Google Health.

Notons que depuis la réalisation de cette interview, Emmanuel Bacry occupe désormais le poste de directeur scientifique de l’INDS (Institut National des Données de Santé) et du health Data Hub.

ActuIA: L’école Polytechnique et la CNAM ont établi un accord sur les données de santé, pourriez-vous nous en parler ?

Emmanuel Bacry : Il y a 4 ans, on a signé un partenariat avec la CNAM, qui est l’institution qui gère la base de données de la carte vitale. Donc tous les remboursements santé. Elle contient tous les remboursements des individus en France qui ont droit aux remboursements. Ce n’est pas une base de données santé à proprement parler, c’est une base de données comptable, mais dont on peut évidemment tirer des événements de santé. Ce n’est pas simple car il y a tout un processing à faire. C’est ce que l’on appelle une base de données “médico-administrative”. Elle est énorme puisque tout le monde est centralisé, c’est plus de 65 millions de personnes. En terme de taille, c’est 250 téra-octets à peu près, donc on est vraiment dans du Big Data. L’analyse de ce style de base, c’est vraiment un standard dans le milieu académique. Les gens qui sont spécialistes de bases de données médico-administratives, c’est un classique. Notamment pour la pharmaco-vigilance, identifier des médicaments qui sont sur le marché, qui posent des problèmes avec des effets secondaires néfastes, c’est des sujets classiques qui sont adressés avec ce type de base.

C’est une des plus grosses bases au monde. Pour comparaison, aux Etats-Unis, les plus grosses mutuelles privées vont avoir à peu près 8 millions d’adhérents. Donc c’est vraiment un ordre de grandeur en dessous, mais c’est pas simplement ça. Aux Etats-Unis, les bases sont biaisées car les gens qui sont dans des mutuelles, c’est les jeunes, riches, en bonne santé. Ce matin, il y avait une conférence sur le problème d’éthique et de biais dans les bases. Là on a une base qui est, en tout cas, beaucoup moins biaisée que d’autres bases, et qui en plus est énorme.

Il y avait un gros enjeu au début, je tiens à le préciser, car ça a été 2 ans de travail d’une grosse équipe de développeurs, de restructurer cette base dont l’infrastructure est vraiment pensée pour les remboursements de soins, et ça marche très bien pour les remboursements, mais qui n’est pas du tout pensé pour faire de l’analytique. Aujourd’hui, cette base est accessible aux gens qui posent des projets au sein du SNDS, mais c’est toujours cette infrastructure un peu vieillotte dont on s’est débarrassés quand on est arrivés à la CNAM. On a fait toute une pipeline, comme je l’expliquais ce matin, c’est 5 développeurs à temps plein. Je pourrais en avoir 10, je les occuperais sans aucun problème. En plus, ensuite, des matheux et statisticiens qui vont ensuite refaire tous les algorithmes derrière. Ca a donc pris 2 ans pour avoir une plateforme qui commençait à être utilisable.

On a travaillé sur des algorithmes de pharmaco-vigilance ou pharmaco-épidémiologie, où il s’agissait de détecter des médicaments potentiellement dangereux sur le marché. Il fallait donc poser des questions précises du type : est-ce que tel médicament provoque tel effet secondaire. Là on réunit des spécialistes de la pathologie en question, qui vont décider : qu’est-ce que ça veut dire être sous exposition de tel ou tel médicament ? Est-ce qu’il faut l’avoir pris 3 fois, 4 fois, en combien de temps ? Est-ce qu’il faut le prendre régulièrement ou pas ? Ainsi de suite. Une fois qu’ils auront décidé cette règle métier, on va devoir extraire les données. Il y a un problème de réalignement des gens, parcequ’ils n’ont pas commencé le traitement au même moment, il y a un travail qui n’est pas simple. Ensuite, on va répondre à la question avec des algorithmes standards, c’est vraiment l’état de l’art aujourd’hui en biostatistique, ce sont des algorithmes de survie. On va répondre à la question : est-ce que oui ou non ça augmente le risque ? Et on va avoir une réponse avec une certaine marge d’erreur. On ne fait pas mieux aujourd’hui avec cette pipeline là. Le seul problème de cette pipeline là, c’est que ça peut durer plusieurs mois pour une question, pour une validation d’hypothèse, pour un médicament, sur un effet secondaire.

Donc l’idée, c’est de se dire quoi ? Et si on fabriquait un algorithme moins précis, mais qui va travailler en amont, et qui va faire une sorte de dépistage automatique où il n’y aura pas besoin de préparer les données. Et qui va dire : attention, il faut peut-être regarder de plus près ce médicament, ce médicament et ce médicament, avec cet effet secondaire. Et là, on lance la pipeline standard sur plusieurs mois. On a eu un premier succès, c’est un début, mais au bout de trois ans, après avoir refait l’infrastructure etc. On a développé une première version de cet algorithme, qu’on a testé pour vérifier que ça marchait. Etant donné qu’on avait refait toute la pipeline, toute l’infrastructure, on ne pouvait pas le faire sur un cas nouveau, c’était trop risqué.

On a donc ré-identifié un médicament qui avait été identifié par des méthodes traditionnelles. Donc c’était un antidiabétique qui avait été retiré du marché il y a 7 ans car il augmentait les risques de cancer de la vessie. Donc on a pris 7 ou 8 antidiabétiques, et on a un algorithme qui avec près peu de préparation de données, sans trop de règles d’exposition, est capable de dire “attention il faut aller regarder cet anti-diabétique”. C’est le premier succès qu’on a eu fin de l’année dernière et maintenant on l’applique sur des cas réels. On est passés à l’échelle. On était sur la corde des diabétiques. Les diabétiques de type 2, c’est 2.5 millions de personnes à peu près en France. Là, on travaille sur les personnes agées de plus de 65 ans, à peu près 12 millions de personnes. On travaille sur à peu près 40 téra-octets de mémoire. On était plutôt sur 3,4 avant. L’effet secondaire qu’on étudie, c’est les chutes de personnes âgées. A terme, on aimerait avoir un pool d’effets secondaires. Pour le moment on arrive à avoir un pool de médicaments et un effet secondaire.

Actuellement, on gère 400 médicaments en même temps, qui pourraient augmenter le risque de chute, et on essaie d’identifier ceux pour lesquels c’est le cas.

On travaille également en fraude, sur de la détection de réseaux de pharmaciens ou médecins qui font du trafic de drogues, du subutex essentiellement. Et puis on travaille sur un sujet passionnant mais très difficile, qui est l’analyse de parcours de soin. Donc on regarde tout le parcours de soin et on veut comprendre comment le parcours se structure. Idéalement, si j’arrivais à faire du clustering, c’est à dire que si j’arrivais à grouper des parcours, identifier des parcours type, ce serait le jackpot. Aussi bien au niveau de la santé, car on pourrait dire : tel parcours soigne mieux que tel parcours. Mais aussi au niveau de l’économie, car on pourrait dire : tel parcours coûte moins cher que ce parcours là. Mais c’est évidemment plus complexe, car même si l’on peut imaginer qu’il y a des parcours type, les gens ne cessent d’en changer. C’est donc nettement plus compliqué que la façon dont je l’explique. Mais ce sont des problèmes extrêmement fondamentaux.

Et nous, on travaille sur un outil de visualisation, en amont, qui devrait permettre de visualiser et interagir dynamiquement avec ces 2 millions de parcours, en même temps. Un peu de la même façon que l’on peut visualiser des interactions sur Twitter. Cela nous permettrait de voir des choses apparaître, d’avoir une intuition de ce qui se passe dans le soin d’une pathologie. Le problème de visualisation de parcours est un sujet fondamental dans toutes les entreprises, dans toutes les verticales. En marketing, les gens sont obsédés par les Consumer Journey. C’est le même problème. Aucune startup ne fait ça, mais s’il y a un outil qui sort, il sera utilisé par tout le monde : les boîtes de gaming, les marketeurs, la santé, tout le monde veut ce genre d’outil mais personne ne l’a fait encore.

ActuIA : Que pensez-vous de l’incursion des GAFA dans le domaine de la santé ?

Emmanuel Bacry: Il y a plein de gens qui sont terrifiés, moi je trouve que c’est une super nouvelle. Ils arrivent en santé, c’est très bien, ça veut dire que ça se passe. Il se passe plein de choses en santé en France, il se passe plein de choses en IA, donc c’est une bonne nouvelle. Maintenant ce qui est sûr, c’est qu’il faut un minimum de contre-pouvoir. Alors, contre-pouvoir financier de la part de l’état, c’est juste pas possible. Ils ne vont pas se mettre à payer 10 fois plus leurs chercheurs malheureusement. Il y a un contre-pouvoir à mon avis qui est possible, c’est justement un contre-pouvoir sur les données. On a de super données. Il n’y a pas que la santé, on a de supers données. Il y a d’énormes administrations dans l’état. Alors, ça peut être embêtant quand on est un individu et qu’on veut faire des démarches, mais c’est super car on a des bases de données incroyables, dont le SNDS. Donc les organiser et en faire de vraies sources extrêmement intéressantes d’études, et faire un contre-pouvoir face au GAFA en leur disant : Voilà, maintenant il y a des conditions d’accès à ces données là, c’est un des contre-pouvoirs que peut organiser l’état. Et c’est un contre-pouvoir sain, ce n’est pas se dire “Attention, les GAFA arrivent, il faut les contrer”, c’est que c’est bien qu’il y ait différentes actions qui soient importantes.

ActuIA : Justement, selon vous, où faut-il placer le curseur dans l’ouverture des données de santé ?

Emmanuel Bacry: Je ne sais pas exactement, je ne pourrais pas vous dire “c’est là”. Je ne connais pas la solution. Entre les deux, mon coeur balance. Je suis citoyen, donc je me dis “Ben oui, il faut protéger les données”, et je suis chercheur, donc je me dis “Ben non, il faut juste ouvrir, parceque c’est pas bien de ne pas ouvrir”. Il faut trouver un entre-deux. Il y a le RGPD en Europe, ça c’est un super truc. C’est vraiment une très belle construction européenne.

Maintenant, on est un peu les champions de la fermeture des données en France, et là il faut juste qu’on se calme un tout petit peu je pense. On parle toujours du risque d’ouverture des données, enfin le citoyen parle toujours du risque d’ouverture des données. Il y a un vrai risque de fermeture des données, de non-ouverture des données. Si on ouvre bien les données de santé, que l’on commence à faire des algorithmes de détection de médicaments qui ne sont pas bons pour la santé, on va les détecter beaucoup plus vite et il y a moins de gens qui vont mourir. Il faut aussi penser à ça, pas seulement penser qu’on est traqués par Google.

Il y a un point clef qui à mon avis n’était pas assez poussé dans le rapport Villani, qui est un point fondamental, c’est l’éducation. Ils ont poussé l’éducation, mais ils ont poussé l’éducation dans le sens “il faut donner des cours d’algorithme, il faut sensibiliser..”. Il y a ça, c’est très bien de faire ça, mais il faut éduquer les citoyens, et à mon avis c’est trop tard pour les adultes, mais les enfants à “Qu’est ce que sont les données, qu’est-ce que sont les GAFA, qu’est-ce que ça veut dire donner ses données, qu’est-ce que c’est d’aller sur un réseau social, quel est le business model de ces choses là.” Les enfants, vous les voyez devant une pub TV, ils ont une distance parfaite. Ils savent très bien que la pub TV est construite pour vendre et c’est pour ça qu’on va montrer le super mec et la super nana à côté de la voiture. On est dûpes et on n’est pas dûpes. Ca marche, car sinon les publicitaires ne continueraient pas à faire ça, mais en même temps on en rigole. Et les enfants lisent ça et le voient très bien, parce que les adultes le connaissent et l’ont enseigné à leurs enfants.

Quand on est sur un téléphone portable, il y a zéro distance, adultes comme enfants. Il y a des initiés mais la majeure partie des gens ne comprennent pas. Donc ça laisse la place à tous les fantasmes, qui soient positifs ou négatifs. C’est la pire des choses. Il faut éduquer les gens sur : qu’est-ce qui se passe dans une téléphone ,qu’est-ce qui se passe quand vous allez sur internet, qu’est-ce que ça veut dire donner ses données, à quel moment vous les donnez, à quel moment elles peuvent être partagées. Là il y a une éducation fondamentale qu’on est en train de louper en France. Et je pense que c’est très important car on est dans un état ou les citoyens ont leur mot à dire, c’est eux qui vont devoir voter. C’est important. Il y a des discours alarmistes qui sont n’importe quoi tout comme il y a des discours qui disent que l’IA va tout révolutionner, que l’on va vivre jusqu’à 1000 ans, que tout est beau, que ça va être super. Les deux sont aberrants, maintenant j’ai pas la solution pour dire comment on ferme. J’aurais tendance à penser qu’il faut ouvrir totalement les données dans un endroit totalement sécurisé, et ensuite on contrôle ce qui se passe.