Intelligence artificielle Comment l'intelligence artificielle de Libratus est devenue la championne incontestée au Poker

Pour approfondir le sujet

Sur le même thème :

Concevoir des algorithmes et des modèles de Machine Learning plus éthiques : 3 questions à Michael Kearns

Michael Kearns, professeur de sciences informatique et de l'information à l'Université de Pennsylvanie, travaille notamment sur les sujets de l'apprentissage automatique, de la théorie algorithmique...

Des chercheurs du MIT présentent un outil de deep learning pour analyser la contrainte des matériaux à partir de photos

Des chercheurs du Massachusetts Institute of Technology (MIT) ont présenté plus tôt ce mois-ci un outil d'intelligence artificielle. Ce modèle de deep learning permettra de...

Appel à papiers pour la conférence sur l’Apprentissage Automatique CAp 2018

La conférence sur l'Apprentissage Automatique CAp se tiendra du 20 au 22 juin prochain. Organisée par l'INSA de Rouen, elle se veut un rassemblement...

Quand le design fiction interroge l’intelligence artificielle : le projet « utop/dystop(IA) » du Laboratoire Arts & Technologies de Stereolux à Nantes

Depuis septembre dernier et toujours dans le cadre de son cycle « Art, Design et Intelligence Artificielle », le Laboratoire Arts & Technologies de Stereolux...

Comment l’intelligence artificielle de Libratus est devenue la championne incontestée au Poker

Dans une étude publiée dans la revue Science, Noam Brown et Tuomas Sandholm ont expliqué quelle avait été l’approche de Libratus pour s’imposer face à quatre des meilleurs joueurs de poker professionnels au monde. La maîtrise développée par l’intelligence artificielle avait surpris les observateurs et marqué l’histoire du domaine en début d’année.

Une victoire décisive

Les victoires des intelligences artificielles dans des jeux de stratégies tels que le go, les échecs et le poker ont mis en avant l’essor du domaine. Celle de Libratus au poker a particulièrement impressionné. En effet, peu de spécialistes pensaient possible une victoire d’une IA dans un jeu où le bluff était constant et les informations cachées. Aux échecs et au go les deux joueurs connaissent la situation exacte du jeu à tout moment, ils ont accès à ce que Noam Brown et Tuomas Sandholm appellent l’information parfaite.

C’est dans ce contexte que Libratus a été présenté en compétition en janvier dernier, durant 20 jours. Le programme a joué 120.000 mains au Revers Casino de Pittsburg et s’est imposé comme la première IA à battre les meilleurs joueurs actuels au no-limit Texas Hold’em Poker. Libratus a vaincu ses adversaires individuellement et collectivement et remporté plus d’1,8 millions de dollars.

Noam Brown et Tuomas Sandholm ont indiqué:

“Les techniques de Libratus ne se basent pas sur des connaissances d’experts du domaine ou sur des données humaines et ne sont pas spécifiques au poker. Ainsi, elles peuvent s’appliquer à beaucoup d’autres jeux fonctionnant sur des informations imparfaites”.

Une approche en trois modules

Ces informations imparfaites ou cachées sont omniprésentes dans les interactions stratégiques du monde réel, y compris en négociation commerciale, en cybersécurité, dans la finance, lorsque l’on fixe des prix stratégiques ou en planification militaire.

Les chercheurs à l’origine de Libratus ont expliqué que leur programme se basait sur trois modules principaux. Le premier calcule une abstraction du jeu plus petite et plus facile à résoudre qu’en considérant tous les points de décision possibles – environ 10 multipliés par 161 – dans le jeu. Il crée ensuite sa propre stratégie détaillée pour les premiers tours de Texas Hold’em et une ébauche de stratégie pour les tours suivants, la blueprint strategy.

Intervient ensuite le deuxième module de Libratus. Il va construire une nouvelle abstraction plus élaborée et basée sur l’état du jeu. Il calcule également une stratégie pour cette sous-partie, en temps réel, qui permet d’équilibrer les stratégies entre les différents sous-jeux. Pour ce faire, il utilise la blueprint strategy globale. Si l’adversaire effectue une action qui n’est pas prévue dans l’abstraction, la sous-partie est recalculée en temps réel en fonction de celle-ci.

Le troisième module est conçu pour améliorer la blueprint strategy à mesure que la concurrence joue et calculer la stratégie de jeu. Les chercheurs l’ont baptisé le self-improver. Traditionnellement, les IA utilisent le machine learning pour trouver des erreurs dans la stratégie de l’adversaire et les exploiter.

Un module d’amélioration en temps réel

Cependant, cela ouvre également l’IA à l’exploitation si l’adversaire change de stratégie, a déclaré Sandholm. Au lieu de cela, le module self-improver de Libratus analyse les tailles de pari des adversaires pour détecter les trous potentiels dans la stratégie prévue par Libratus. Libratus peut ensuite combler ces prises de décision manquantes, calculer des stratégies pour celles-ci et les ajouter au plan directeur de la stratégie générale.

“Les techniques que nous avons développées sont largement indépendantes du domaine et peuvent donc être appliquées à d’autres interactions stratégiques imparfaites, y compris des applications non récréatives”, ont déclaré les chercheurs.

“En raison de l’omniprésence de l’information cachée dans les interactions stratégiques du monde réel, nous croyons que le paradigme introduit par Libratus sera essentiel à la croissance future et à l’application généralisée de l’IA”, ont-ils déclaré.


1ère Marketplace de l'IA et de la transformation numérique vous recommande :
 
Pierre-yves Gerlat

Partager l'article

Laurent Félix devient Directeur Général France d’Ekimetrics

Ekimetrics, spécialiste européen en data science et intelligence artificielle au service des entreprises, a annoncé cette semaine la nomination de Laurent Félix au poste...

Forum de l’évaluation de l’intelligence artificielle : Créer la confiance et valider les performances, ou comment définir un environnement favorable au développement de...

Le Laboratoire national de métrologie et d’essais (LNE) organise le premier forum d'évaluation de l'intelligence artificielle (IA). Cet événement sera l'occasion d'échanger autour du développement de...

Zoom sur l’automatisation des rapports COVID-19 de Santé Publique France par Dynacentrix

L'agence Santé publique France, en charge de la surveillance épidémiologique du covid-19, pilote le système national de veille et d’alerte et de surveillance sanitaire...

Retour sur le lancement de MAESTRIA, plateforme numérique de diagnostic intégratif de la cardiomyopathie auriculaire

Le projet de recherche MAESTRIA (Machine Learning and Artificial Intelligence for Early Detection of Stroke and Atrial Fibrillation) a été officiellement lancé fin septembre....