Intelligence artificielle DayDreamer : former les robots dans le monde réel grâce à l'apprentissage...

Pour approfondir le sujet

Sur le même thème :

Des chercheurs de l’Université de Buffalo identifient les principaux facteurs du cancer du poumon grâce à l’IA

Le cancer du poumon et des bronches (LBC) est l'une des causes les plus courantes de décès par cancer dans le monde, représentant 11,6...

Deep learning : des chercheurs de l’Université Johns Hopkins présentent une nouvelle approche pour la prédiction des crises cardiaques dues à l’arythmie cardiaque

Les applications d'intelligence artificielle dans le domaine de la santé sont nombreuses, la prévention des crises cardiaques est notamment au cœur de nombreuses recherches. Une...

De l’importance du rôle des algues terrestres dans le cycle du carbone

Le mot algue évoque la mer, pourtant il existe aussi des algues terrestres et on peut les trouver aussi bien dans les déserts, les...

Angela Fan, chercheuse chez META AI, veut générer des biographies des groupes marginalisés grâce à l’IA

Environ 20 % seulement des biographies sur le site en anglais de Wikipédia, l'un des sites web les plus consultés au monde, concernent des...

DayDreamer : former les robots dans le monde réel grâce à l’apprentissage par renforcement en ligne

L’apprentissage par renforcement profond (deep RL), combinaison de RL et de deep learning, est une approche courante pour l’apprentissage des robots dans des environnements simulés. Des chercheurs de l’Université de Californie à Berkeley ont tiré parti des développements récents du modèle du monde « Dreamer » et utilisé le renforcement en ligne dans le monde réel pour former des robots sans simulateur ni démonstration. Leur étude intitulée « DayDreamer : World Models for Physical Robot Learning » a été publiée dans ArXiv.

Entraîner une IA dans un environnement virtuel est une approche beaucoup plus simple que dans le monde réel, elle permet des économies d’argent, de temps, d’éviter la casse des prototypes… Mais le passage de la simulation au monde réel est perçu comme très difficile car la modélisation d’un environnement virtuel ne peut être parfaitement fidèle à la réalité de notre monde physique.

Le modèle du monde Dreamer

Danijar Hafner, Timothy Lillicrap, Jimmy Ba et Mohammad Norouzi avaient présenté l’algorithme « Dreamer » à ICLR 2020. Cet agent RL est capable de planifier les actions futures à partir de celles effectuées via l’imagination latente. Récemment, l’algorithme a surpassé l’apprentissage par renforcement pur dans les jeux vidéo à partir de brèves interactions dans un modèle mondial. Des chercheurs de l’UC Berkeley ont voulu savoir si Dreamer pouvait faciliter un apprentissage plus rapide sur des robots physiques.

Un apprentissage sans simulateur

Danijar Hafner, qui avait présenté Dreamer en 2020, fait également partie de l’équipe de l’UC Berkeley. Doctorant en IA à Toronto, il est pour l’instant au laboratoire de Pieter Abbeel, autre membre de l’équipe ainsi que Philipp Wu, Alejandro Escontrela et Ken Goldberg. L’étude utilise les développements récents du modèle du monde Dreamer pour former une gamme de robots grâce à l’apprentissage par renforcement en ligne dans le monde réel, sans simulateur ou démonstration.


La figure ci-dessus illustre la façon dont Dreamer construit un modèle du monde à partir d’un tampon de relecture d’expériences antérieures, apprend des comportements à partir de déploiements imaginés dans l’espace latent du modèle du monde et interagit en permanence avec l’environnement pour explorer et affiner ses comportements.

L’objectif de l’équipe est de repousser les limites de l’apprentissage des robots dans le monde réel et de fournir une plateforme robuste pour de futures recherches qui démontreront les avantages des modèles mondiaux pour cet apprentissage.

Les chercheurs ont appliqué Dreamer à 4 robots, démontrant qu’un apprentissage dans le monde réel était possible sans introduire de nouveaux algorithmes. Les tâches étaient variées, se déroulaient dans différents espaces d’action, modalités sensorielles et structures de récompense :

  • Ils ont ainsi entraîné un quadrupède à rouler sur le dos, se lever et marcher en seulement une heure.. Ils ont ensuite poussé le robot et ont pu constater que Dreamer s’adapte dans les 10 minutes pour résister ou se retourner rapidement et se relever.

  • Visual Pick and Place (ci-dessus) : Sur deux bras robotiques différents, Dreamer apprend à choisir et à placer plusieurs objets directement à partir d’images de caméra et de récompenses éparses, approchant ainsi la performance humaine.
  • Sur un robot à roues, Dreamer apprend à naviguer vers un objectif uniquement à partir d’images de caméra, résolvant automatiquement l’ambiguïté sur l’orientation du robot.

En utilisant les mêmes hyperparamètres dans toutes les expériences, ils ont pu constater que Dreamer est capable d’apprendre en ligne dans le monde réel, ce qui établit une base solide.

Les chercheurs publient en open source l’infrastructure logicielle pour toutes leurs expériences, ce qui prend en charge différents espaces d’action et modalités sensorielles, offrant une plate-forme flexible pour l’avenir de la recherche de modèles du monde pour l’apprentissage des robots dans le monde réel.

Sources de l’article :

arXiv:2206.14176

DayDreamer: World Models for Physical Robot Learning
Philipp Wu, Alejandro Escontrela, Danijar Hafner, Ken Goldberg, Pieter Abbeel.

 
Pierre-yves Gerlat

Partager l'article

La plateforme miniature de chirurgie assistée par robot MIRA devrait rejoindre l’ISS en 2024

En collaboration avec Virtual Incision, une société de robotique, des ingénieurs de l'Université du Nebraska ont développé MIRA, un petit robot chirurgien télécommandé qui...

France 2030 : le gouvernement dévoile les 66 premiers lauréats de l’appel à manifestations « Compétences et métiers d’avenir »

Le plan France 2030 vise à soutenir l’émergence de talents et accélérer l’adaptation des formations aux besoins de compétences des nouvelles filières et des...

Allemagne : T-Systems s’associe à Envision Digital pour réduire les émissions de carbone

Le 4 août dernier, Deutsche Telekom, un des leaders mondiaux des télécommunications intégrées, a annoncé que sa filiale T-Systems s’associera à la société  chinoise...

Enquête Premier emploi 2022 de Telecom Paris : des ingénieurs recherchés et bien rémunérés

Télécom Paris, école de l'Institut Mines-Télécom et membre fondateur de l'Institut Polytechnique de Paris, forme des ingénieurs généralistes du numérique. Elle a récemment publié...
Recevoir une notification en cas d'actualité importante    OK Non merci