Libratus : Poker - Une intelligence artificielle championne

Dans une étude publiée dans la revue Science, Noam Brown et Tuomas Sandholm ont expliqué quelle avait été l’approche de Libratus pour s’imposer face à quatre des meilleurs joueurs de poker professionnels au monde. La maîtrise développée par l’intelligence artificielle avait surpris les observateurs et marqué l’histoire du domaine en début d’année.

Une victoire décisive

Les victoires des intelligences artificielles dans des jeux de stratégies tels que le go, les échecs et le poker ont mis en avant l’essor du domaine. Celle de Libratus au poker a particulièrement impressionné. En effet, peu de spécialistes pensaient possible une victoire d’une IA dans un jeu où le bluff était constant et les informations cachées. Aux échecs et au go les deux joueurs connaissent la situation exacte du jeu à tout moment, ils ont accès à ce que Noam Brown et Tuomas Sandholm appellent l’information parfaite.

C’est dans ce contexte que Libratus a été présenté en compétition en janvier dernier, durant 20 jours. Le programme a joué 120.000 mains au Revers Casino de Pittsburg et s’est imposé comme la première IA à battre les meilleurs joueurs actuels au no-limit Texas Hold’em Poker. Libratus a vaincu ses adversaires individuellement et collectivement et remporté plus d’1,8 millions de dollars.

Noam Brown et Tuomas Sandholm ont indiqué:

“Les techniques de Libratus ne se basent pas sur des connaissances d’experts du domaine ou sur des données humaines et ne sont pas spécifiques au poker. Ainsi, elles peuvent s’appliquer à beaucoup d’autres jeux fonctionnant sur des informations imparfaites”.

Une approche en trois modules

Ces informations imparfaites ou cachées sont omniprésentes dans les interactions stratégiques du monde réel, y compris en négociation commerciale, en cybersécurité, dans la finance, lorsque l’on fixe des prix stratégiques ou en planification militaire.

Les chercheurs à l’origine de Libratus ont expliqué que leur programme se basait sur trois modules principaux. Le premier calcule une abstraction du jeu plus petite et plus facile à résoudre qu’en considérant tous les points de décision possibles – environ 10 multipliés par 161 – dans le jeu. Il crée ensuite sa propre stratégie détaillée pour les premiers tours de Texas Hold’em et une ébauche de stratégie pour les tours suivants, la blueprint strategy.

Intervient ensuite le deuxième module de Libratus. Il va construire une nouvelle abstraction plus élaborée et basée sur l’état du jeu. Il calcule également une stratégie pour cette sous-partie, en temps réel, qui permet d’équilibrer les stratégies entre les différents sous-jeux. Pour ce faire, il utilise la blueprint strategy globale. Si l’adversaire effectue une action qui n’est pas prévue dans l’abstraction, la sous-partie est recalculée en temps réel en fonction de celle-ci.

Le troisième module est conçu pour améliorer la blueprint strategy à mesure que la concurrence joue et calculer la stratégie de jeu. Les chercheurs l’ont baptisé le self-improver. Traditionnellement, les IA utilisent le machine learning pour trouver des erreurs dans la stratégie de l’adversaire et les exploiter.

Un module d’amélioration en temps réel

Cependant, cela ouvre également l’IA à l’exploitation si l’adversaire change de stratégie, a déclaré Sandholm. Au lieu de cela, le module self-improver de Libratus analyse les tailles de pari des adversaires pour détecter les trous potentiels dans la stratégie prévue par Libratus. Libratus peut ensuite combler ces prises de décision manquantes, calculer des stratégies pour celles-ci et les ajouter au plan directeur de la stratégie générale.

“Les techniques que nous avons développées sont largement indépendantes du domaine et peuvent donc être appliquées à d’autres interactions stratégiques imparfaites, y compris des applications non récréatives”, ont déclaré les chercheurs.

“En raison de l’omniprésence de l’information cachée dans les interactions stratégiques du monde réel, nous croyons que le paradigme introduit par Libratus sera essentiel à la croissance future et à l’application généralisée de l’IA”, ont-ils déclaré.