Prédire la fonction des protéines grâce au deep learning

Les protéines sont présentes dans toutes les cellules vivantes où elles assurent des fonctions essentielles. Comprendre la relation entre la séquence d’acides aminés d’une protéine, par exemple, ses domaines et sa structure ou sa fonction est le sujet de nombreuses recherches scientifiques. Une équipe composée de chercheurs de Google, de BigHat Biosciences, de l’Université de Cambridge, du Laboratoire européen de biologie moléculaire, de l’Institut Francis Crick et du MIT a utilisé le deep learning pour prédire la fonction des protéines. Leur étude intitulée « Using Deep Learning to Annotate the Protein Universe » a été publiée dans Nature Biotechnology.

La prédiction informatique de la structure des protéines à partir de séquences d’acides aminés a fait de grands progrès, le modèle AlphaFold de DeepMind ou l’approche de classification computationnelle de ProfileView en sont des exemples.

Les approches existantes ont réussi à prédire la fonction de centaines de millions de protéines, cependant, les fonctions de nombreuses autres sont encore inconnues, une étude publiée dans Nature a souligné qu’1/3 des protéines microbiennes ne sont pas annotées de manière fiable. Le volume et la diversité des séquences de protéines dans les bases de données publiques vont croissant, prédire avec précision la fonction de séquences très divergentes est un défi primordial.

Utiliser le deep learning pour annoter l’univers des protéines

Pour déduire la fonction des protéines directement à partir de séquences, la base de données de 137 millions de protéines et près de 18 000 classifications de familles de protéines, Pfam, qui contient de nombreuses annotations informatiques très détaillées décrivant la fonction d’un domaine protéique, comme les familles de la globine et de la trypsine, est très souvent utilisée.

L’équipe a entraîné des modèles de deep learning pour prédire avec précision les annotations fonctionnelles pour les séquences d’acides aminés non alignées à partir de 17 929 familles de la base de données Pfam, ce qui a d’ailleurs permis d’ajouter environ 6,8 millions d’entrées à l’ensemble de Pfam, ce qui correspond à peu près à la somme des progrès réalisés au cours de la dernière décennie.

Son approche est basée sur les réseaux de neurones convolutionnels dilatés (CNN), qui sont adaptés à la modélisation d’interactions d’acides aminés par paires non locales et peuvent être exécutés sur du matériel ML moderne comme les GPU. Ils ont ainsi formé des CNN unidimensionnels pour prédire la classification des séquences de protéines, qu’ils ont nommé ProtCNN, ainsi qu’un ensemble de modèles ProtCNN formés indépendamment, appelé ProtENN.

Résultats de l’étude

ProtENN a atteint une précision de 99,8 %, supérieure à la fois aux représentations comparatives (99,2 %) et à la méthode BLAST (98,3 %). Pour la classification des membres de familles à faibles ressources, la méthode de représentation-comparaison a atteint une précision de 85,1 %.

La combinaison de modèles profonds avec des méthodes existantes a considérablement amélioré la détection d’homologie à distance, suggérant que les modèles profonds apprennent des informations complémentaires. Pour l’équipe, ces résultats suggèrent que les modèles d’apprentissage profond seront un élément central des futurs outils d’annotation des protéines.

Pour encourager d’autres recherches dans ce sens, elle a publié le modèle ProtENN et un article interactif qui permet à l’utilisateur de saisir une séquence et d’obtenir des résultats pour une fonction protéique prédite en temps réel, dans le navigateur, sans configuration requise.

Sources de l’article :

« Using deep learning to annotate the protein universe », nature biotechnology,
doi.org/10.1038/s41587-021-01179

Auteurs :

Maxwell L. Bileschi,Google Research, Cambridge, MA, États-Unis;
David Belanger, Google Research, Cambridge, MA, États-Unis;
Drew H. Bryant, Google Research, Cambridge, MA, États-Unis;
Theo Sanderson, Google Research, Cambridge, MA, États-Unis, Institut Francis Crick, Londres, Royaume-Uni;
Brandon Carter, LABORATOIRE d’informatique et d’intelligence artificielle du MIT, Cambridge, MA, États-Unis;
D. Sculley, Google Research, Cambridge, MA, États-Unis;
Alex Bateman, Laboratoire européen de biologie moléculaire, Institut européen de bioinformatique (EMBL-EBI), Hinxton, Royaume-Uni;
Mark A. DePristo, Google Research, Cambridge, MA, États-Unis, BigHat Biosciences, San Mateo, CA, États-Unis;
Lucy J. Colwell, Google Research, Cambridge, MA, États-Unis, Département de chimie, Université de Cambridge, Cambridge, Royaume-Uni