Actualité DeepMind présente une solution de génération automatique d’algorithmes d’apprentissage par renforcement

Pour approfondir le sujet

Atos et Siemens testent Digital Twin, solution basée sur l’IA, l’IoT et l’analyse avancée des données auprès de l’industrie pharmaceutique

Atos et Siemens ont annoncé l'introduction de leur solution Process Digital Twin auprès des acteurs de l'industrie pharmaceutique. Alimentée par l'IoT, l'intelligence artificielle et...

Découvrez les 10 start-ups sélectionnées pour le « AI Challenge Paris Region 2018 »

Lancé en avril 2018, le concours « AI Challenge Paris Region 2018 » a fait grand bruit. Ce premier challenge à destination des start-ups...

L’Office québécois de la langue française dévoile 85 fiches du vocabulaire de l’intelligence artificielle

L'Office québécois de la langue française (OFQF) a présenté un vocabulaire spécialisé très utile pour mieux comprendre et utiliser plusieurs concepts en lien avec...

Replay – SophiaConf 2020 : Open Source, Intelligence Artificielle et Containers

Ces 29 et 30 juin étaient organisée SophiaConf, la grande manifestation annuelle de l'animateur azuréen du numérique de Telecom Valley, en version 100% numérique cette...

DeepMind présente une solution de génération automatique d’algorithmes d’apprentissage par renforcement

Les chercheurs de DeepMind ont présenté le 17 juillet dernier dans un article sur Arxiv une étude sur les algorithmes d’apprentissage par renforcement. Junhyuk Oh, Matteo Hessel, Wojciech M. Czarnecki, Zhongwen Xu, Hado van Hasselt, Satinder Singh et David Silver ont travaillé sur une solution de génération d’algorithmes d’apprentissage par renforcement (RL, pour reinforcement learning)  interagissant avec des environnements pour savoir quoi prédire et comment l’apprendre.

L’équipe de chercheurs a expliqué dans son papier que les algorithmes avaient été testés sur des jeux vidéos Atari et que les résultats étaient probants.

“Les algorithmes d’apprentissage par renforcement mettent à jour les paramètres d’un agent selon l’une des nombreuses règles possibles, découvertes manuellement au cours d’années de recherche. L’automatisation de la découverte des règles de mise à jour à partir des données pourrait permettre de développer des algorithmes plus efficaces, ou  mieux adaptés à des environnements spécifiques.

Bien qu’il y ait eu des tentatives antérieures pour relever ce défi scientifique significatif, il reste à savoir s’il est possible de découvrir des alternatives aux concepts fondamentaux du RL telles que les fonctions de valeur et l’apprentissage par différence temporelle.

Cet article présente une nouvelle approche de méta-apprentissage qui a permis de découvrir une règle de mise à jour complète qui comprend à la fois ‘ce qu’il faut prédire’ (par exemple, les fonctions de valeur) et ‘comment en tirer des leçons’ (par exemple, le bootstrap) en interagissant avec un ensemble d’environnements. Le résultat de cette méthode est un algorithme RL que nous appelons le Learned Policy Gradient (LPG). Les résultats empiriques montrent que notre méthode découvre sa propre alternative au concept de fonctions de valeur. De plus, il découvre un mécanisme de bootstrap pour maintenir et utiliser ses prédictions. Étonnamment, lorsqu’il est formé uniquement sur des environnements de jeux, le LPG se généralise efficacement à des jeux Atari complexes et réalise des performances non triviales. Cela montre le potentiel de découvrir des algorithmes RL généraux à partir de données.”

Au cours de leurs expériences, les chercheurs ont utilisé des jeux Atari complexes dont Tutankham, Breakout et Yars-revenge. Ils estiment que ce premier essai est le point de départ pour de nouvelles expériences prometteuses sur les algorithmes d’apprentissage par renforcement. “L’approche proposée a le potentiel d’accélérer considérablement le processus de découverte de nouveaux algorithmes d’apprentissage par renforcement en automatisant le processus de découverte d’une manière basée sur les données. Si la direction de recherche proposée réussit, cela pourrait déplacer le paradigme de recherche du développement manuel d’algorithmes de RL à la construction d’un ensemble approprié d’environnements afin que l’algorithme résultant soit efficace.

En outre, l’approche proposée peut également servir d’outil pour aider les chercheurs en RL à développer et à améliorer leurs algorithmes développés manuellement. Dans ce cas, l’approche proposée peut être utilisée pour fournir des informations sur ce à quoi ressemble une bonne règle de mise à jour en fonction de l’architecture fournie par les chercheurs en entrée, ce qui pourrait accélérer la découverte manuelle des algorithmes RL.

D’autre part, en raison de la nature axée sur les données de l’approche proposée, l’algorithme qui en résulte peut capturer des biais involontaires dans l’ensemble d’environnements d’apprentissage. Dans notre travail, nous ne fournissons pas d’informations spécifiques au domaine, à l’exception des récompenses lors de la découverte d’un algorithme, ce qui rend difficile pour l’algorithme de capturer les biais dans les environnements d’entrainement. Cependant, plus de travail est nécessaire pour éliminer les biais dans l’algorithme découvert afin d’éviter des résultats négatifs potentiels”.


1ère Marketplace de l'IA et de la transformation numérique vous recommande :
 
Thierry Maubant

Partager l'article

Pénurie des semi-conducteurs : Intel évoque ses prévisions et présente sa stratégie pour limiter les dégâts

À l'heure actuelle, l'industrie de l'informatique traverse une crise particulière : une pénurie de semi-conducteurs, essentiels dans la production de certains composants ou au...

Espagne : un projet de centre européen pour l’intelligence artificielle pour rivaliser avec les infrastructures européennes

En Espagne, un projet ambitieux autour de l'IA tend à se mettre en place. Un groupe d'investisseurs privés, dirigé par les propriétaires du téléopérateur...

L’apprentissage supervisé et par renforcement pour aider les robots à s’adapter à tout type d’environnement

A travers Rapid Motor Adaptation (RMA), Facebook progresse dans l'adaptation des robots à leur environnement, afin de développer leur motricité. Adapter les robots à un...

Cinéma et Deepfake : zoom sur la synchronisation des lèvres avec le doublage en langue étrangère

Le deepfake est une technique reposant sur l'intelligence artificielle qui permet de superposer des fichiers audio ou vidéos sur d'autres fichiers déjà existants pour...