Intelligence artificielle DeepMind présente une solution de génération automatique d’algorithmes d’apprentissage par renforcement

Pour approfondir le sujet

Sur le même thème :

Des chercheurs utilisent le deep learning et les réseaux neuronaux convolutifs 2D et 3D pour prédire le degré de gravité de la Covid-19

Des chercheurs et médecins de Gustave Roussy, de l'Assistance Publique-Hôpitaux de Paris, de CentraleSupélec, de l’Université de Paris, de l’Université Paris-Saclay, de l’Inserm, de...

Des chercheurs ont mis au point un algorithme de prédiction des maladies dues à des régimes spécifiques

Les consultations auprès de nutritionnistes ont considérablement augmenté ces dernières années. Grâce aux progrès scientifiques, les régimes se sont améliorés et sont beaucoup plus...

Comment Google Maps parvient à être aussi précis pour prédire l’heure d’arrivée de ses usagers ?

Google Maps, le service de cartographie en ligne de la firme de Mountain View, propose une fonctionnalité permettant d'en savoir plus sur l'ETA :...

Recevez le magazine de l’intelligence artificielle ActuIA N°3

Le magazine de l'intelligence artificielle, ActuIA N°3 du 15 février 2021, paraîtra très prochainement. En ce contexte de pandémie, nous vous recommandons fortement de...

DeepMind présente une solution de génération automatique d’algorithmes d’apprentissage par renforcement

Les chercheurs de DeepMind ont présenté le 17 juillet dernier dans un article sur Arxiv une étude sur les algorithmes d’apprentissage par renforcement. Junhyuk Oh, Matteo Hessel, Wojciech M. Czarnecki, Zhongwen Xu, Hado van Hasselt, Satinder Singh et David Silver ont travaillé sur une solution de génération d’algorithmes d’apprentissage par renforcement (RL, pour reinforcement learning)  interagissant avec des environnements pour savoir quoi prédire et comment l’apprendre.

L’équipe de chercheurs a expliqué dans son papier que les algorithmes avaient été testés sur des jeux vidéos Atari et que les résultats étaient probants.

“Les algorithmes d’apprentissage par renforcement mettent à jour les paramètres d’un agent selon l’une des nombreuses règles possibles, découvertes manuellement au cours d’années de recherche. L’automatisation de la découverte des règles de mise à jour à partir des données pourrait permettre de développer des algorithmes plus efficaces, ou  mieux adaptés à des environnements spécifiques.

Bien qu’il y ait eu des tentatives antérieures pour relever ce défi scientifique significatif, il reste à savoir s’il est possible de découvrir des alternatives aux concepts fondamentaux du RL telles que les fonctions de valeur et l’apprentissage par différence temporelle.

Cet article présente une nouvelle approche de méta-apprentissage qui a permis de découvrir une règle de mise à jour complète qui comprend à la fois ‘ce qu’il faut prédire’ (par exemple, les fonctions de valeur) et ‘comment en tirer des leçons’ (par exemple, le bootstrap) en interagissant avec un ensemble d’environnements. Le résultat de cette méthode est un algorithme RL que nous appelons le Learned Policy Gradient (LPG). Les résultats empiriques montrent que notre méthode découvre sa propre alternative au concept de fonctions de valeur. De plus, il découvre un mécanisme de bootstrap pour maintenir et utiliser ses prédictions. Étonnamment, lorsqu’il est formé uniquement sur des environnements de jeux, le LPG se généralise efficacement à des jeux Atari complexes et réalise des performances non triviales. Cela montre le potentiel de découvrir des algorithmes RL généraux à partir de données.”

Au cours de leurs expériences, les chercheurs ont utilisé des jeux Atari complexes dont Tutankham, Breakout et Yars-revenge. Ils estiment que ce premier essai est le point de départ pour de nouvelles expériences prometteuses sur les algorithmes d’apprentissage par renforcement. “L’approche proposée a le potentiel d’accélérer considérablement le processus de découverte de nouveaux algorithmes d’apprentissage par renforcement en automatisant le processus de découverte d’une manière basée sur les données. Si la direction de recherche proposée réussit, cela pourrait déplacer le paradigme de recherche du développement manuel d’algorithmes de RL à la construction d’un ensemble approprié d’environnements afin que l’algorithme résultant soit efficace.

En outre, l’approche proposée peut également servir d’outil pour aider les chercheurs en RL à développer et à améliorer leurs algorithmes développés manuellement. Dans ce cas, l’approche proposée peut être utilisée pour fournir des informations sur ce à quoi ressemble une bonne règle de mise à jour en fonction de l’architecture fournie par les chercheurs en entrée, ce qui pourrait accélérer la découverte manuelle des algorithmes RL.

D’autre part, en raison de la nature axée sur les données de l’approche proposée, l’algorithme qui en résulte peut capturer des biais involontaires dans l’ensemble d’environnements d’apprentissage. Dans notre travail, nous ne fournissons pas d’informations spécifiques au domaine, à l’exception des récompenses lors de la découverte d’un algorithme, ce qui rend difficile pour l’algorithme de capturer les biais dans les environnements d’entrainement. Cependant, plus de travail est nécessaire pour éliminer les biais dans l’algorithme découvert afin d’éviter des résultats négatifs potentiels”.


1ère Marketplace de l'IA et de la transformation numérique vous recommande :
 
Thierry Maubant

Partager l'article

Le groupe Manutan investit dans la Robotic Process Automatisation pour dynamiser son département Finances

Manutan, fournisseur européen de produits et services aux entreprises et aux collectivités et spécialiste du e-commerce BtoB, investit dans la Robotic Process Automatisation (RPA)...

Spice AI veut faciliter l’intégration de l’intelligence artificielle dans les applications

Spice AI, startup basée à Seattle, a pour objectif de faciliter le travail des développeurs lors du développement d'applications intelligentes. Bien que l'IA ait...

Podcast : L’université Paris Dauphine-PSL dévoile le premier épisode de « EX MACHINA, l’ère des algorithmes »

"IA : qui sont les humains derrière la machine ?", c'est le titre du tout premier podcast d'EX MACHINE, lancé par l'université Paris Dauphine-PSL....

Les startups Manitty, PaIRe et Beyond Aero récompensées lors de la 11e édition du prix Jean-Louis Gerondeau – Safran

Manitty, PaIRe et Beyond Aero sont les startups lauréates du prix Jean-Louis Gerondeau - Safran 2021. Leurs innovations dans les domaines de l’aéronautique, des...