L’apprentissage automatique pour définir différents sous-types du Covid long

Intelligence artificielle covid long

Les scientifiques estiment qu’environ 664 millions de personnes ont été infectées par le virus SARS-CoV2 responsable du COVID-19. Parmi elles, entre 10 et 15% ont eu ou ont des symptômes persistants, souffrant de ce qu’on appelle le Covid long. Des chercheurs de différentes institutions, dirigés par Justin Reese de Berkeley Lab et Peter Robinson de Jackson Lab, ont utilisé les données de dossiers de santé électroniques (DSE) pour identifier des symptômes communs entre ces personnes et définir les sous-types de la maladie. L’étude, publiée dans eBioMedicine, a, d’autre part, mis en lumière de fortes corrélations entre différents sous-types de Covid long et des conditions préexistantes telles que le diabète et l’hypertension.

Les symptômes du Covid long peuvent persister plusieurs semaines voire plusieurs mois. Dans une étude menée à partir des données de 968 personnes, des chercheurs de l’Assistance Publique-Hôpitaux de Paris et d’Université Paris Cité ont montré que 12 mois après le début des symptômes, 85% des patients qui avaient eu des symptômes persistants rapportaient encore des symptômes de Covid long.

Ces symptômes sont très variés : fatigue, malaise post-effort, dyspnée, toux, douleurs thoraciques, palpitations, maux de tête, arthralgie, asthénie, paresthésies, diarrhée, alopécie, éruption cutanée, troubles de l’équilibre et dysfonctionnement de la mémoire ou cognitif…

Prendre en charge ces symptômes avant qu’ils ne s’amplifient peut s’avérer essentiel pour l’évolution de la santé de ces patients. Selon Justin Reese, chercheur en informatique dans le domaine des biosciences au Berkeley Lab, cette nouvelle recherche permettra de mieux comprendre comment et pourquoi certaines personnes développent de longs symptômes COVID et aidera les cliniciens à développer des thérapies sur mesure pour chaque groupe.

Caractériser les sous-types de Covid long

Les chercheurs sont partis du constat que les méthodes informatiques permettant de caractériser les sous-types longs de Covid sur la base d’une analyse phénotypique complète faisaient défaut, tout comme les approches permettant d’évaluer la généralisabilité des grappes résultantes dans différentes cohortes de patients.

Pour leur étude, ils ont construit une cohorte de 6469 patients diagnostiqués avec un long Coviden utilisant le code U09.9 à partir des données des dossiers de santé électroniques (DSE) multicentriques disponibles via le National COVID Cohort Collaborative (N3C), un référentiel harmonisé de DSE avec 5 434 528 patients COVID-19 positifs au 10 août 2022.

Leur approche calcule la similitude sémantique entre les patients en transformant les données du DSE en profils phénotypiques à l’aide du HPO (ontologie du phénotype humain).  La méthode identifie des groupes distincts de patients Covid long qui présentent des corrélations très significatives avec des conditions préexistantes et se généralisent dans différents systèmes hospitaliers.

Justin Reese déclare :

“Fondamentalement, nous avons trouvé de longues caractéristiques COVID dans les données du DSE pour chaque patient COVID long, puis évalué la similitude patient-patient en utilisant la similitude sémantique, ce qui permet essentiellement une correspondance floue  entre les caractéristiques – par exemple, “toux ” n’est pas la même chose que  “essoufflement” , mais elles sont similaires car elles impliquent toutes deux des problèmes pulmonaires . Nous comparons tous les symptômes de la paire de patients de cette manière et obtenons un score de la similitude des deux patients COVID longs. Nous pouvons ensuite effectuer un apprentissage automatique non supervisé sur ces scores pour trouver différents sous-types de COVID long”.

Ils ont appliqué l’apprentissage automatique à ces scores de similitude patient-patient pour regrouper les patients en groupes, qui ont ensuite été caractérisés en analysant les relations entre les symptômes et les maladies préexistantes et d’autres caractéristiques démographiques, telles que l’âge, le sexe ou la race.

Limitations de cette approche

Les chercheurs ont utilisé pour cette étude le nouveau code CIM U09.9 pour identifier les patients atteints de Covid long. Or, le nombre de patients étiquetés disponible pour l’analyse était alors faible et peu représentatif de la population américaine. Ainsi, la proportion d’Afro-Américains de l’étude n’était que d’environ 5%

Conclusions de l’étude

Pour les chercheurs, il y a une association significative entre l’appartenance à une grappe et une gamme de conditions préexistantes avec les taux de gravité durant la COVID-19 aiguë. L’une des grappes (laboratoire multisystémique) était associée à des manifestations graves et affichait une mortalité accrue, et d’autres grappes présentaient un enrichissement pour les maladies pulmonaires, neuropsychiatriques, cardiovasculaires, douleur/fatigue, et un profil multisystémique/douleur non associé à une augmentation significative de la mortalité.

Le regroupement phénotypique sémantique pourrait ainsi fournir une base pour assigner les patients à des sous-groupes stratifiés pour des études d’histoire naturelle ou de thérapie.

Référence : 

“Generalisable long COVID subtypes : Findings from the NIH N3C and RECOVER programmes”, EBioMedicine, 21 décembre 2022, https://doi.org/10.1016/j.ebiom.2022.104413

Auteurs :

Justin T. Reese, Hannah Blau, Elena Casiraghi, Timothy Bergquist, Johanna J. Loomba, Tiffany J. Callahan, Bryan Laraway, Corneliu Antonescu, Ben Coleman, Michael Gargano, Kenneth J. Wilkins, Luca Cappelletti, Tommaso Fontana, Nariman Ammar, Peter N. Robinson et al.

Recevez gratuitement l'actualité de l'intelligence artificielle

Suivez la Newsletter de référence sur l'intelligence artificielle (+ de 18 000 membres), quotidienne et 100% gratuite.


Tout comme vous, nous n'apprécions pas le spam. Vos coordonnées ne seront transmises à aucun tiers.
Partager l'article
intelligence artificielle
À PROPOS DE NOUS
Le portail francophone consacré à l'intelligence artificielle et à la datascience, à destination des chercheurs, étudiants, professionnels et passionnés.