DeepMind présente une solution de génération automatique d’algorithmes d’apprentissage par renforcement

Les chercheurs de DeepMind ont présenté le 17 juillet dernier dans un article sur Arxiv une étude sur les algorithmes d’apprentissage par renforcement. Junhyuk Oh, Matteo Hessel, Wojciech M. Czarnecki, Zhongwen Xu, Hado van Hasselt, Satinder Singh et David Silver ont travaillé sur une solution de génération d’algorithmes d’apprentissage par renforcement (RL, pour reinforcement learning) interagissant avec des environnements pour savoir quoi prédire et comment l’apprendre.

L’équipe de chercheurs a expliqué dans son papier que les algorithmes avaient été testés sur des jeux vidéos Atari et que les résultats étaient probants.

“Les algorithmes d’apprentissage par renforcement mettent à jour les paramètres d’un agent selon l’une des nombreuses règles possibles, découvertes manuellement au cours d’années de recherche. L’automatisation de la découverte des règles de mise à jour à partir des données pourrait permettre de développer des algorithmes plus efficaces, ou mieux adaptés à des environnements spécifiques.

Bien qu’il y ait eu des tentatives antérieures pour relever ce défi scientifique significatif, il reste à savoir s’il est possible de découvrir des alternatives aux concepts fondamentaux du RL telles que les fonctions de valeur et l’apprentissage par différence temporelle.

Cet article présente une nouvelle approche de méta-apprentissage qui a permis de découvrir une règle de mise à jour complète qui comprend à la fois ‘ce qu’il faut prédire’ (par exemple, les fonctions de valeur) et ‘comment en tirer des leçons’ (par exemple, le bootstrap) en interagissant avec un ensemble d’environnements. Le résultat de cette méthode est un algorithme RL que nous appelons le Learned Policy Gradient (LPG). Les résultats empiriques montrent que notre méthode découvre sa propre alternative au concept de fonctions de valeur. De plus, il découvre un mécanisme de bootstrap pour maintenir et utiliser ses prédictions. Étonnamment, lorsqu’il est formé uniquement sur des environnements de jeux, le LPG se généralise efficacement à des jeux Atari complexes et réalise des performances non triviales. Cela montre le potentiel de découvrir des algorithmes RL généraux à partir de données.”

Au cours de leurs expériences, les chercheurs ont utilisé des jeux Atari complexes dont Tutankham, Breakout et Yars-revenge. Ils estiment que ce premier essai est le point de départ pour de nouvelles expériences prometteuses sur les algorithmes d’apprentissage par renforcement. “L’approche proposée a le potentiel d’accélérer considérablement le processus de découverte de nouveaux algorithmes d’apprentissage par renforcement en automatisant le processus de découverte d’une manière basée sur les données. Si la direction de recherche proposée réussit, cela pourrait déplacer le paradigme de recherche du développement manuel d’algorithmes de RL à la construction d’un ensemble approprié d’environnements afin que l’algorithme résultant soit efficace.

En outre, l’approche proposée peut également servir d’outil pour aider les chercheurs en RL à développer et à améliorer leurs algorithmes développés manuellement. Dans ce cas, l’approche proposée peut être utilisée pour fournir des informations sur ce à quoi ressemble une bonne règle de mise à jour en fonction de l’architecture fournie par les chercheurs en entrée, ce qui pourrait accélérer la découverte manuelle des algorithmes RL.

D’autre part, en raison de la nature axée sur les données de l’approche proposée, l’algorithme qui en résulte peut capturer des biais involontaires dans l’ensemble d’environnements d’apprentissage. Dans notre travail, nous ne fournissons pas d’informations spécifiques au domaine, à l’exception des récompenses lors de la découverte d’un algorithme, ce qui rend difficile pour l’algorithme de capturer les biais dans les environnements d’entrainement. Cependant, plus de travail est nécessaire pour éliminer les biais dans l’algorithme découvert afin d’éviter des résultats négatifs potentiels”.