DeepLoco: un modèle informatique bipède entrainé par apprentissage à renforcement hiérarchique

Des chercheurs de l’Université Nationale de Singapour et de l’Université de Colombie-Britannique travaillent sur un modèle informatique bipède capable de se déplacer et d’effectuer des trajets sur des terrains difficiles.

L’apprentissage de la capacité de locomotion

Baptisé DeepLoco, ce projet mené par Xue Bin Peng, Glen Berseth, KangKang Yin et Michiel van de Panne vise à parvenir à faire se déplacer un modèle bipède dans un environnement dont il serait conscient, en lui ayant fourni au préalable peu de connaissances.

D’autres projets de recherche se focalisent sur un apprentissage préalable des formes afin que le modèle informatique puisse se repérer. DeepLoco privilégie quant à lui le contrôle hiérarchique.

Le Hierarchical Reinforcement Learning

Pour ce faire, l’équipe de chercheurs a utilisé le Hierarchical Reinforcement Learning et un framework de contrôle hiérarchique à deux niveaux. La combinaison de contrôleurs bas niveau et haut niveau permet la simulation du bipède 3D de cette vidéo. Ces deux types de contrôleurs sont entraînés par deep reinforcement learning.

Les contrôleurs haut niveau permettent au modèle de prendre des décisions, de suivre les chemins, d’éviter les obstacles, etc. Les contrôleurs bas niveau visent quant à eux à développer le rythme de déplacement, les mouvements et la robustesse en fonction notamment du terrain.

Source:

DeepLoco: Dynamic Locomotion Skills Using Hierarchical Deep Reinforcement Learning ; Xue Bin Peng, Glen Berseth, KangKang Yin et Michiel van de Panne ; ACM Transactions on Graphics (Proc. SIGGRAPH 2017) ;
vol. 36, n°4, article 41, 2017.