L'apprentissage par renforcement au centre de l'IA d'Apple

Ruslan Salakhutdinov, directeur de recherche sur l’intelligence artificielle chez Apple arrivé en octobre dernier, a parlé d’une partie des recherches en cours au sein de la firme, dans le domaine de l’intelligence artificielle, à l’occasion de la conférence EmTech’Digital organisée par la revue technologique au MIT les 27 et 28 mars 2017. Il semblerait qu’Apple se concentre désormais sur l’apprentissage par renforcement (reinforcement learning) pour le développement d’intelligences artificielles via un entraînement intensif sur le jeu vidéo Doom.

L’apprentissage par renforcement intéresse de nombreuses firmes, dont bien évidemment Google. La méthode se réfère à « une classe de problèmes d’apprentissage automatique, dont le but est d’apprendre, à partir d’expériences, ce qu’il convient de faire en différentes situations, de façon à optimiser une récompense quantitative au cours du temps » comme expliqué sur Wikipédia. Selon Ruslan Salakhutdinov, ce type d’apprentissage pourrait permettre à une intelligence artificielle de se souvenir. Apple mène donc différents travaux à cet effet, notamment à partir du jeu vidéo Doom réputé pour la complexité de ses labyrinthes.

L’intérêt de la firme pour ce jeu en particulier vient du fait que « ces systèmes spécialisés dans Doom n’arrivent pas à se souvenir correctement des dispositions des labyrinthes, bloquant ainsi toute planification et construction de stratégies ». L’idée est donc de programmer une intelligence artificielle pouvant se souvenir de l’emplacement des tours dans le jeu pour parvenir en vie au bout des labyrinthes. Au cours de la partie, le programme va différencier les couleurs des torches (rouge ou verte) et les faire correspondre à celles des tours, pouvant ainsi se déplacer dans les labyrinthes. « Ce qui est particulièrement remarquable, c’est qu’il se souvienne de la couleur de la torche à chaque passage d’une tour », explique le directeur de recherche sur l’IA d’Apple.

Cependant, l’apprentissage par renforcement signifie bien évidemment « beaucoup de temps d’entraînement et nécessite des énormes capacités de puissance de calcul. Ce qui rend difficile une industrialisation à grande échelle ». A côté de cette méthode, Apple s’intéresse donc à d’autres formes d’apprentissage, plus rapides, qui lui permettrait de rattraper quelque peu son retard concernant l’intelligence artificielle en comparaison aux autres géants que sont Google et Microsoft.

Vous pouvez retrouver la vidéo de l’intervention de Ruslan Salakhutdinov au cours de la conférence EmTech’Digital ci-dessous :