Intelligence artificielle Prédire la fonction des protéines grâce au deep learning

Pour approfondir le sujet

Sur le même thème :

Une étude analyse le lien entre le score esthétique attribué aux poissons coralliens et leur statut de conservation grâce aux CNN

Préserver la biodiversité est un enjeu scientifique et sociétal majeur pour répondre aux défis posés par le changement climatique et contribuer aux objectifs du...

Vision par ordinateur : Reconnaître les objets plus rapidement et plus précisément grâce aux CNN

Malgré des mouvements incessants du corps, de la tête ou des yeux, la perception visuelle que nous avons des objets nous entourant reste stable...

Une équipe de chercheurs entraîne un réseau de neurones à une dégustation virtuelle

Une équipe de chercheurs du National Institute of Standards and Technology (NIST), de l'Université du Maryland ainsi que de Western Digital a développé un...

Etudier la variabilité du PH en zone côtière grâce au deep learning

L’eau de mer a un pH d’environ 8,2 bien qu’il puisse varier entre 7,5 et 8,5 en fonction de la salinité locale, on estime...

Prédire la fonction des protéines grâce au deep learning

Les protéines sont présentes dans toutes les cellules vivantes où elles assurent des fonctions essentielles. Comprendre la relation entre la séquence d’acides aminés d’une protéine, par exemple, ses domaines et sa structure ou sa fonction est le sujet de nombreuses recherches scientifiques. Une équipe composée de chercheurs de Google, de BigHat Biosciences, de l’Université de Cambridge, du Laboratoire européen de biologie moléculaire, de l’Institut Francis Crick et du MIT a utilisé le deep learning pour prédire la fonction des protéines. Leur étude intitulée « Using Deep Learning to Annotate the Protein Universe » a été publiée dans Nature Biotechnology. 

La prédiction informatique de la structure des protéines à partir de séquences d’acides aminés a fait de grands progrès, le modèle AlphaFold de DeepMind ou l’approche de classification computationnelle de ProfileView en sont des exemples.

Les approches existantes ont réussi à prédire la fonction de centaines de millions de protéines, cependant, les fonctions de nombreuses autres sont encore inconnues, une étude publiée dans Nature a souligné qu’1/3 des protéines microbiennes ne sont pas annotées de manière fiable. Le volume et la diversité des séquences de protéines dans les bases de données publiques vont croissant, prédire avec précision la fonction de séquences très divergentes est un défi primordial.

Utiliser le deep learning pour annoter l’univers des protéines

Pour déduire la fonction des protéines directement à partir de séquences, la base de données de 137 millions de protéines et près de 18 000 classifications de familles de protéines, Pfam, qui contient de nombreuses annotations informatiques très détaillées décrivant la fonction d’un domaine protéique, comme les familles de la globine et de la trypsine, est très souvent utilisée.

L’équipe a entraîné des modèles de deep learning pour prédire avec précision les annotations fonctionnelles pour les séquences d’acides aminés non alignées à partir de 17 929 familles de la base de données Pfam, ce qui a d’ailleurs permis d’ajouter environ 6,8 millions d’entrées à l’ensemble de Pfam, ce qui correspond à peu près à la somme des progrès réalisés au cours de la dernière décennie.

Son approche est basée sur les réseaux de neurones convolutionnels dilatés (CNN), qui sont adaptés à la modélisation d’interactions d’acides aminés par paires non locales et peuvent être exécutés sur du matériel ML moderne comme les GPU. Ils ont ainsi formé des CNN unidimensionnels pour prédire la classification des séquences de protéines, qu’ils ont nommé ProtCNN, ainsi qu’un ensemble de modèles ProtCNN formés indépendamment, appelé ProtENN.

Résultats de l’étude

ProtENN a atteint une précision de 99,8 %, supérieure à la fois aux représentations comparatives (99,2 %) et à la méthode BLAST (98,3 %). Pour la classification des membres de familles à faibles ressources, la méthode de représentation-comparaison a atteint une précision de 85,1 %.

La combinaison de modèles profonds avec des méthodes existantes a considérablement amélioré la détection d’homologie à distance, suggérant que les modèles profonds apprennent des informations complémentaires. Pour l’équipe, ces résultats suggèrent que les modèles d’apprentissage profond seront un élément central des futurs outils d’annotation des protéines.

Pour encourager d’autres recherches dans ce sens, elle a publié le modèle ProtENN et un article interactif qui permet à l’utilisateur de saisir une séquence et d’obtenir des résultats pour une fonction protéique prédite en temps réel, dans le navigateur, sans configuration requise.

Sources de l’article :

« Using deep learning to annotate the protein universe », nature biotechnology,
doi.org/10.1038/s41587-021-01179

Auteurs :

Maxwell L. Bileschi,Google Research, Cambridge, MA, États-Unis;
David Belanger, Google Research, Cambridge, MA, États-Unis;
Drew H. Bryant, Google Research, Cambridge, MA, États-Unis;
Theo Sanderson, Google Research, Cambridge, MA, États-Unis, Institut Francis Crick, Londres, Royaume-Uni;
Brandon Carter, LABORATOIRE d’informatique et d’intelligence artificielle du MIT, Cambridge, MA, États-Unis;
D. Sculley, Google Research, Cambridge, MA, États-Unis;
Alex Bateman, Laboratoire européen de biologie moléculaire, Institut européen de bioinformatique (EMBL-EBI), Hinxton, Royaume-Uni;
Mark A. DePristo, Google Research, Cambridge, MA, États-Unis, BigHat Biosciences, San Mateo, CA, États-Unis;
Lucy J. Colwell, Google Research, Cambridge, MA, États-Unis, Département de chimie, Université de Cambridge, Cambridge, Royaume-Uni


1ère Marketplace de l'IA et de la transformation numérique vous recommande :
Netwave Suite - Product par Netwave

Grâce à sa technologie exclusive d’ia inductive, netwave suite est une plateforme de référence en matière de personnalisation temps réel en mode saas....

 
Thierry Maubant

Partager l'article

IA et Santé : levée de fonds de 27 millions d’euros pour Incepto, spécialiste de la santé digitale

Incepto, plateforme de solutions d’IA appliquées à l’imagerie médicale, a annoncé le 19 septembre dernier, avoir levé 27 Ms€ lors d’un tour de table...

Supply Chain : l’IMT Mines Albi et Scalian dressent le bilan de leurs travaux de recherche au sein de leur laboratoire commun SCAN

Le 2 septembre 2019, Scalian, groupe à dimension internationale spécialisé dans le conseil et l'ingénierie, et l'école d'ingénieurs IMT Mines Albi signaient un partenariat...

Région Occitanie : ANITI et Ekitia lancent une consultation régionale sur le rapport des citoyens à l’IA

Dans le cadre de sa stratégie de diffusion des connaissances en lien avec l’IA, l’Institut Interdisciplinaire d’Intelligence Artificielle de Toulouse (ANITI) et Ekitia (ex...

Les Galeries Lafayette lancent « Tailored Insights », une plateforme de retail media

Pour les entreprises, la compréhension et l’amélioration continue de l’expérience client sont devenues aussi importantes que le développement de produits, l’innovation ou le marketing....
Recevoir une notification en cas d'actualité importante    OK Non merci