Google Research présente Code as Policies (CaP), un nouvel outil de génération de code

Les modèles de langage à grande échelle (LLM) font de plus en plus souvent la une de l’actualité ces derniers temps. En avril dernier, Google Research avait présenté PaLM (Pathways Language Model), un décodeur de 540 milliards de paramètres. En août dernier, les chercheurs se sont associés à Everyday Robots pour développer PaLM-SayCan, un algorithme robotique combinant la compréhension de modèles de langage avec les capacités réelles d’un robot auxiliaire. Ils présentent aujourd’hui CaP (Code as Policies), un nouvel outil d’IA s’appuyant sur ces travaux pour permettre aux robots de créer du code à partir du langage naturel.

PaLM-SayCan vise à tirer parti des connaissances des modèles linguistiques pour permettre à un robot de suivre des instructions textuelles de haut niveau afin d’effectuer des tâches physiquement ancrées. Contrairement aux démonstrations robotiques typiques qui effectuent une seule tâche dans un environnement contraint, cette recherche a démontré qu’un robot peut effectuer la demande dans un environnement réel en utilisant le raisonnement. CaP étendra cette approche en permettant aux modèles de langage d’effectuer des tâches robotiques encore plus complexes avec l’expression complète de code Python à usage général.

Afin de contrôler les robots, dans la majorité des cas, on les programme avec du code pour détecter les objets, des commandes de séquençage pour déplacer les actionneurs et des boucles de rétroaction pour préciser comment le robot doit effectuer une tâche. Bien que ces programmes soient expressifs, reprogrammer les stratégies pour chaque nouvelle tâche peut prendre beaucoup de temps et nécessite une expertise du domaine.

Le modèle PaLM, selon l’article de blog écrit par Jacky Liang, stagiaire de recherche, et Andy Zeng, chercheur scientifique, robotique chez Google, est capable de raisonnement complexe car il a été entraîné sur des millions de lignes de code et démontre son efficacité pour produire du code capable de contrôler le comportement du robot en plus du code ordinaire.

Code as Policies, outil de génération de code

Les chercheurs de Google présentent Code as Policies (CaP) : une formalisation centrée sur le robot des programmes générés par des modèles de langage (LMP) exécutés sur systèmes réels.

CaP utilise un modèle de langage d’écriture de code qui lui permet de générer du code pour de nouvelles tâches à partir de quelques invites. Cette approche s’appuie sur la génération de code hiérarchique, qui incite les modèles de langage à définir récursivement de nouvelles fonctions, à accumuler leurs propres bibliothèques au fil du temps et à auto-concevoir une base de code dynamique.

Les modèles de langage d’écriture de code peuvent exprimer une variété d’opérations arithmétiques et de boucles de rétroaction fondées sur le langage. Les LMP pythoniques peuvent exprimer des politiques complexes en utilisant des :

Structures logiques classiques, par exemple, séquences, sélection (si/si), et
boucles (for/while) pour assembler de nouveaux comportements au moment de l’exécution;
Bibliothèques tierces pour interpoler des points (NumPy), analyser et
générer des formes (Shapely) pour le raisonnement spatio-géométrique…

CaP hérite également de fonctionnalités de modèle de langage qui ne sont pas liées à l’écriture de code, telles que la prise en charge d’instructions avec des langues et des emojis autres que l’anglais.

Les expériences ont permis aux chercheurs de Google de démontrer que la sortie de code a conduit à une amélioration de la généralisation et de la performance des tâches par rapport à l’apprentissage direct des tâches robotiques et à la production d’actions en langage naturel. CaP permet à un seul système d’effectuer une variété de tâches robotiques variées sans formation spécifique à la tâche mais peine à appréhender les invites complexes ou abstraites.

Les chercheurs ont publié le code nécessaire pour reproduire leurs expériences et une démonstration interactive de robot simulé sur le Site web du projet, qui contient également des démos supplémentaires du monde réel avec des vidéos et du code généré.

Sources de l’article :

“Robots that write their own code”

Blog de Jacky Liang, stagiaire de recherche, et Andy Zeng, chercheur scientifique, robotique chez Google, 2 novembre 2022

“Code as Policies: Language Model Programs for Embodied Control” arXiv:2209.07753v2 19 Sep 2022

Auteurs:
Jacky Liang, Wenlong Huang, Fei Xia, Peng Xu, Karol Hausman, Brian Ichter, Pete Florence, Andy Zeng de Google Robotics