Retrouvez le magazine de l'intelligence artificielle
Actualité DeepMind présente une solution de génération automatique d’algorithmes d’apprentissage par renforcement

Pour approfondir le sujet

Atos et Siemens testent Digital Twin, solution basée sur l’IA, l’IoT et l’analyse avancée des données auprès de l’industrie pharmaceutique

Atos et Siemens ont annoncé l'introduction de leur solution Process Digital Twin auprès des acteurs de l'industrie pharmaceutique. Alimentée par l'IoT, l'intelligence artificielle et...

Découvrez les 10 start-ups sélectionnées pour le « AI Challenge Paris Region 2018 »

Lancé en avril 2018, le concours « AI Challenge Paris Region 2018 » a fait grand bruit. Ce premier challenge à destination des start-ups...

L’Office québécois de la langue française dévoile 85 fiches du vocabulaire de l’intelligence artificielle

L'Office québécois de la langue française (OFQF) a présenté un vocabulaire spécialisé très utile pour mieux comprendre et utiliser plusieurs concepts en lien avec...

Replay – SophiaConf 2020 : Open Source, Intelligence Artificielle et Containers

Ces 29 et 30 juin étaient organisée SophiaConf, la grande manifestation annuelle de l'animateur azuréen du numérique de Telecom Valley, en version 100% numérique cette...

DeepMind présente une solution de génération automatique d’algorithmes d’apprentissage par renforcement

Les chercheurs de DeepMind ont présenté le 17 juillet dernier dans un article sur Arxiv une étude sur les algorithmes d’apprentissage par renforcement. Junhyuk Oh, Matteo Hessel, Wojciech M. Czarnecki, Zhongwen Xu, Hado van Hasselt, Satinder Singh et David Silver ont travaillé sur une solution de génération d’algorithmes d’apprentissage par renforcement (RL, pour reinforcement learning)  interagissant avec des environnements pour savoir quoi prédire et comment l’apprendre.

L’équipe de chercheurs a expliqué dans son papier que les algorithmes avaient été testés sur des jeux vidéos Atari et que les résultats étaient probants.

“Les algorithmes d’apprentissage par renforcement mettent à jour les paramètres d’un agent selon l’une des nombreuses règles possibles, découvertes manuellement au cours d’années de recherche. L’automatisation de la découverte des règles de mise à jour à partir des données pourrait permettre de développer des algorithmes plus efficaces, ou  mieux adaptés à des environnements spécifiques.

Bien qu’il y ait eu des tentatives antérieures pour relever ce défi scientifique significatif, il reste à savoir s’il est possible de découvrir des alternatives aux concepts fondamentaux du RL telles que les fonctions de valeur et l’apprentissage par différence temporelle.

Cet article présente une nouvelle approche de méta-apprentissage qui a permis de découvrir une règle de mise à jour complète qui comprend à la fois ‘ce qu’il faut prédire’ (par exemple, les fonctions de valeur) et ‘comment en tirer des leçons’ (par exemple, le bootstrap) en interagissant avec un ensemble d’environnements. Le résultat de cette méthode est un algorithme RL que nous appelons le Learned Policy Gradient (LPG). Les résultats empiriques montrent que notre méthode découvre sa propre alternative au concept de fonctions de valeur. De plus, il découvre un mécanisme de bootstrap pour maintenir et utiliser ses prédictions. Étonnamment, lorsqu’il est formé uniquement sur des environnements de jeux, le LPG se généralise efficacement à des jeux Atari complexes et réalise des performances non triviales. Cela montre le potentiel de découvrir des algorithmes RL généraux à partir de données.”

Au cours de leurs expériences, les chercheurs ont utilisé des jeux Atari complexes dont Tutankham, Breakout et Yars-revenge. Ils estiment que ce premier essai est le point de départ pour de nouvelles expériences prometteuses sur les algorithmes d’apprentissage par renforcement. “L’approche proposée a le potentiel d’accélérer considérablement le processus de découverte de nouveaux algorithmes d’apprentissage par renforcement en automatisant le processus de découverte d’une manière basée sur les données. Si la direction de recherche proposée réussit, cela pourrait déplacer le paradigme de recherche du développement manuel d’algorithmes de RL à la construction d’un ensemble approprié d’environnements afin que l’algorithme résultant soit efficace.

En outre, l’approche proposée peut également servir d’outil pour aider les chercheurs en RL à développer et à améliorer leurs algorithmes développés manuellement. Dans ce cas, l’approche proposée peut être utilisée pour fournir des informations sur ce à quoi ressemble une bonne règle de mise à jour en fonction de l’architecture fournie par les chercheurs en entrée, ce qui pourrait accélérer la découverte manuelle des algorithmes RL.

D’autre part, en raison de la nature axée sur les données de l’approche proposée, l’algorithme qui en résulte peut capturer des biais involontaires dans l’ensemble d’environnements d’apprentissage. Dans notre travail, nous ne fournissons pas d’informations spécifiques au domaine, à l’exception des récompenses lors de la découverte d’un algorithme, ce qui rend difficile pour l’algorithme de capturer les biais dans les environnements d’entrainement. Cependant, plus de travail est nécessaire pour éliminer les biais dans l’algorithme découvert afin d’éviter des résultats négatifs potentiels”.

Thierry Maubant

Partager l'article

Entreprise et IA : seulement 10% des entreprises percevraient un impact financier très significatif selon une étude

Le BCG GAMMA, le BCG Henderson Institute et le MIT Sloan Management Review ont présenté la 4e édition de leur éditeur Expanding AI’s Impact...

Où se procurer le magazine de l’intelligence artificielle ?

Le magazine ActuIA N°2 du dernier trimestre 2020 vient de paraître. Il est disponible en kiosque dans l'ensemble de la France Métropolitaine. Afin de...

Focus sur le laboratoire WISeKey spécialisé dans l’intelligence artificielle des objets créé en PACA

WISeKey International Holding, entreprise spécialisée dans les domaines de la cybersécurité et de l’Internet des objets (IoT), a lancé son laboratoire, situé à Meyreuil,...

Replay SEPEM Industries : Intelligence artificielle et Maintenance 4.0 avec un cas d’usage pour EDF par Matthieu Jolens

Le salon SEPEM Industries s'est tenu du 29 septembre au 1er octobre 2020 à Avignon avec au programme de nombreuses conférences. Sur la thématique...