Classifier les cancers primitifs non diagnostiqués grâce au deep learning

Si le cancer est une des 1éres causes de mortalité dans le monde (environ 1 décès sur 6), un diagnostic précoce augmente les chances d’en guérir. Des chercheurs du Koch Institute for Integrative Cancer Research du MIT et du Massachusetts General Hospital (MGH) ont utilisé le deep learning et construit un classificateur de perceptron multicouche développemental (D-MLP) pour identifier l’origine du cancer. Leur étude intitulée « Developmental Deconvolution for Classification of Cancer Origin » a été publiée fin août par Cancer Discovery.

Le cancer primitif inconnu (CPI ou CPU en anglais) est un cancer qui s’est déjà propagé à d’autres organes du corps (métastases), mais dont les médecins n’ont pas trouvé la tumeur initiale. Généralement de petite taille, il est cependant très agressif, les oncologues doivent donc rapidement mettre en place des traitements non ciblés, souvent toxiques pour le patient.

Cette nouvelle approche basée sur le deep learning pourrait aider à classer les cancers primitifs inconnus en examinant de plus près les programmes d’expression génique liés au développement et à la différenciation cellulaires précoces.

Salil Garg, Chercheur clinique Charles W. (1955) et Jennifer C. Johnson à l’Institut Koch et pathologiste à l’HGM, auteur principal de l’étude, explique :

« Parfois, vous pouvez appliquer tous les outils que les pathologistes ont à offrir, et vous êtes toujours sans réponse. Des outils d’apprentissage automatique comme celui-ci pourraient permettre aux oncologues de choisir des traitements plus efficaces et de donner plus de conseils à leurs patients. »

Une étude basée sur l’expression génique et le deep learning

Les cellules cancéreuses ont un aspect et un comportement très différents des cellules normales, en partie à cause d’altérations importantes de la manière dont leurs gènes sont exprimés. Les progrès du profilage unicellulaire et les efforts déployés pour cataloguer différents modèles d’expression cellulaire dans des atlas cellulaires, ont fourni de nombreuses données contenant des indices sur l’origine de différents cancers. Le deep learning est une technologie idéale pour exploiter ces données.

Pour rendre leur modèle plus efficace, les chercheurs ont dû réduire le nombre de caractéristiques tout en extrayant les informations les plus pertinentes, et ont concentré le modèle sur les signes de voies de développement altérées dans les cellules cancéreuses.

Lors du développement d’un embryon, les cellules indifférenciées se spécialisent dans divers organes, de nombreuses voies orientent la façon dont les cellules se divisent, se développent, changent de forme et migrent. Lorsque la tumeur se développe, les cellules cancéreuses perdent de nombreux traits spécialisés d’une cellule mature. On peut les comparer à des cellules embryonnaires sous certains aspects, car elles ont la capacité de proliférer, de se transformer et de métastaser.

Les chercheurs ont comparé deux atlas de grandes cellules, identifiant les corrélations entre les cellules tumorales et embryonnaires :

l’Atlas du génome du cancer (TCGA), qui contient des données sur l’expression génique de 33 types de tumeurs;
l’Atlas des cellules organogenèses de souris (MOCA), qui décrit 56 trajectoires distinctes de cellules embryonnaires au fur et à mesure qu’elles se développent et se différencient.

Enrico Moiso, postdoctorant au MIT, également auteur principal de l’étude, explique :

« Les outils de résolution unicellulaire ont radicalement changé la façon dont nous étudions la biologie du cancer, mais comment nous rendons cette révolution percutante pour les patients est une autre question. Avec l’émergence d’atlas cellulaires développementaux, en particulier ceux qui se concentrent sur les premières phases de l’organogenèse telles que le MOCA, nous pouvons étendre nos outils au-delà des informations histologiques et génomiques et ouvrir la porte à de nouvelles façons de profiler et d’identifier les tumeurs et de développer de nouveaux traitements. »

Les chercheurs ont décomposé l’expression génique d’échantillons tumoraux du TCGA en composants individuels correspondant à un moment précis d’une trajectoire de développement et leur ont attribué à chacun une valeur mathématique.

Ils ont ensuite construit un modèle de deep learning, un perceptron multicouche développemental (D-MLP), qui note une tumeur pour ses composants de développement et prédit ensuite son origine.

Classification des tumeurs

Après la formation, le D-MLP a été appliqué à 52 nouveaux échantillons de cancers parmi les cas les plus difficiles rencontrés à l’HGM de 2017 à 2020, qui n’avaient pu être diagnostiqués. Le modèle a classé les tumeurs en quatre catégories et a fourni des prédictions et d’autres informations qui pourraient guider le diagnostic et le traitement de ces patients.

L’un de ces 52 échantillons provenait d’une patiente ayant des antécédents de cancer du sein qui présentait des signes d’un cancer agressif dans les espaces fluides autour de l’abdomen. Le D-MLP a fortement prédit le cancer de l’ovaire et, en effet, une masse avait été trouvée dans l’ovaire six mois plus tard, à l’origine de ce cancer.

Les résultats de cette étude ont fourni un atlas des origines du développement tumoral, un outil pour la pathologie diagnostique et suggèrent que la classification du développement peut être une approche utile pour les tumeurs des patients.

Pour leurs prochains travaux, les chercheurs envisagent d’accroître la puissance prédictive de leur modèle en ajoutant d’autres types de données, notamment des informations collectées en radiologie, en microscopie et dans d’autres types d’imagerie tumorale.

Salil Garg conclut :

« L’expression génique du développement ne représente qu’une petite partie de tous les facteurs qui pourraient être utilisés pour diagnostiquer et traiter les cancers L’intégration de la radiologie, de la pathologie et de l’information sur l’expression des gènes est la véritable prochaine étape de la médecine personnalisée pour les patients atteints de cancer. »

Sources de l’article :

« Developmental Deconvolution for Classification of Cancer Origin »

Cancer Discovery,30/08/2022 https://doi.org/10.1158/2159-8290.CD-21-1443

Auteurs :

Enrico Moiso, Koch Institute for Integrative Cancer Research, Massachusetts Institute of Technology, Cambridge MA et Broad Institute of Harvard-MIT, Cambridge MA;
Alexander Farahani, Department of Pathology, Massachusetts General Hospital, Harvard Medical School, Boston MA;
Hetal D. Marble, Department of Pathology, Massachusetts General Hospital, Harvard Medical School, Boston MA;
Austin Hendricks,Koch Institute for Integrative Cancer Research, Massachusetts Institute of Technology, Cambridge MA;
Samuel Mildrum, Koch Institute for Integrative Cancer Research, Massachusetts Institute of Technology, Cambridge MA;
Stuart Levine, Koch Institute for Integrative Cancer Research, Massachusetts Institute of Technology, Cambridge MA;
Jochen K. Lennerz, Department of Pathology, Massachusetts General Hospital, Harvard Medical School, Boston MA;
Salil Garg, Koch Institute for Integrative Cancer Research, Massachusetts Institute of Technology, Cambridge MA.