Intelligence artificielle : démonstration en direct des nouvelles performances de DeepMind

DeepMind présentera aujourd’hui à 19H heure française les nouvelles performances de son intelligence artificielle sur l’environnement de StarCraft II dans un live stream.

Pourquoi DeepMind s’intéresse autant aux jeux ?

On ne présente plus DeepMind, véritable référence dans le domaine de l’intelligence artificielle. Son apparente fascination pour l’univers des jeux peut prêter à sourire les néophytes : DeepMind s’est penchée sur le jeu d’échecs, sur le jeu de Go, sur StarCraft II pour ne citer qu’eux.

Ces travaux sont pourtant tout ce qu’il y a de plus sérieux et ne doivent pas être regardés par le simple petit bout de la lorgnette. Le grand public voit souvent les jeux comme un moyen de confronter l’IA à des humains. Il est certain que le fait qu’une IA batte des experts fait sensation et assure un joli coup de pub. Mais il est surtout important de comprendre que ces jeux représentent avant tout des terrains d’expérimentation. StarCraft II est un jeu de stratégie dans lequel des personnages évoluent au sein d’un environnement virtuel complexe. En permettant aux développeurs d’utiliser cet environnement grâce à une API, Blizzard, l’éditeur du jeu, met à disposition des chercheurs un gigantesque laboratoire. Le système est principalement utilisé pour expérimenter l’apprentissage par renforcement.

Qu’est-ce que l’apprentissage par renforcement ?

L’apprentissage par renforcement est une technique de Machine Learning (apprentissage machine) permettant d’entraîner un agent par le biais de stimulus positifs ou négatifs. L’agent (robot, personnage de jeu vidéo, voiture..) a un comportement érratique lors de son initialisation, et est encouragé à explorer, tout en étant sensible aux récompenses et punitions. Il adaptera alors son comportement, qui nous semblera de plus en plus cohérent. Cet apprentissage est sensiblement analogue à celui d’un humain qu’on larguerait sur une ile déserte, livré à lui même, ne pouvant apprendre que par l’expérimentation. Au même titre qu’une personne qui découvre le feu apprendra à s’en méfier après s’être brûlée ou au contraire, cherchera à renouveler des expériences qui lui sont positives, un agent virtuel peut apprendre à se déplacer et survivre dans un environnement de jeu vidéo. Cela tout en tentant de maximiser ses gains et de préserver ses points de vie.

Le fait d’utiliser l’apprentissage par renforcement dans un jeu a-t-il un intérêt en dehors de ce jeu lui-même ?

Outre la démonstration technologique pure, l’intérêt de l’expérimentation dans des univers virtuels est réel. Il est aisé de comprendre qu’il est beaucoup plus simple et économique de pouvoir entraîner une IA dans un environnement virtuel, dans lequel l’apprentissage représente un coût quasiment nul et peut se faire de façon massivement parallèle et à vitesse accélérée, tout cela en évitant la casse qui serait occasionnée dans le monde réel.

Mais l’apprentissage dans une simulation virtuelle peut-il être transposé au mondé réel ?

Bien sûr, il est difficilement envisageable de transposer directement une IA dont l’apprentissage s’est fait sur Starcraft 2 dans le monde réel. L’utilisation des simulations virtuelles pour l’apprentissage, ou du moins, le préapprentissage, est pourtant une piste extrêmement intéressante. Notamment dans le domaine des voitures autonomes. Une application grand public de cette combinaison de simulation virtuelle et monde physique est la mini-voiture Deep Racer d’Amazon. Bien plus qu’un jouet, elle permet de s’initier à l’apprentissage par renforcement en participant à des courses physiques tout autant qu’à des courses virtuelles en ligne, cela grâce à la même IA, qui peut tantôt animer les déplacements du véhicule dans le monde réel où affronter des adversaires en réseau.

Pour aller plus loin, n’hésitez pas à visionner les vidéos de Thibault Neveu sur l’implémentation de PySC2, le wrapper Python pour StarCraft 2 développé par DeepMind:

Créer une IA sur l’environnement de StarCraft II
Apprendre à un agent à se déplacer grâce à l’apprentissage par renforcement