Décryptage #1 : AlphaGo et AlphaGo Zero

5 novembre 2018

AlphaGo, c’est l’intelligence artificielle de DeepMind capable de battre Lee Sedol , le meilleur joueur Humain de GO. Alors, premièrement, pourquoi est-il si intéressant de créer une IA capable de jouer au jeu de go ? Et enfin, qu’est-ce qui différencie AlphaGo d’Alpha Go Zero ?

La raison principale pour laquelle le jeu de Go suscite l’intérêt ces chercheurs, c’est la complexité du jeu de Go par rapport à d’autres jeux, comme celui des échecs. À chaque tour de jeu le nombre de positions possible est simplement beaucoup plus étendu que dans les échecs ou la marge de manœuvre est souvent limitée aux pions toujours en vie sur le plateau de jeu ainsi qu’aux contraintes de l’environnement. De plus, le jeu de Go est souvent considéré comme un jeu plus stratégique, alors que les échecs sont davantage considérés comme étant plus tactiques.

La tactique peut être présentée comme l’ensemble de moyens habiles employés pour obtenir le résultat voulu. La vraie différence c’est que la stratégie voit à long terme, alors que la tactique s’applique plus à des actions ponctuelles. Et comme je l’ai présenté dans ma vidéo sur l’intelligence artificielle Générale, être capable de faire de la planification, long terme est extrêmement compliqué pour une IA.

AlphaGo était ainsi considéré comme le meilleur joueur mondial, jusqu’à l’arrivée d’AlphaGoZero, une nouvelle IA capable de battre AlphaGO, 100 à zero, alors que cette même IA avait battu le meilleur joueur mondial, Lee Sedol. Mais alors qu’est-ce qui différencie tant AlphaGoZero d’AlphaGo, et qu’est-ce qui fait qu’AlphaGOZero affiche de si bons résultats? C’est ce qu’on va découvrir dans le papier du jour.

Pour résumer, AlphaGoZero joue contre lui même, en lançant des simulation de jeu qui se basent sur l’algorithme de MonteCarlo pour prendre des décision et évaluer chaque état. Grâce à toute ces simulation, le réseau de neurones est ensuite entraîné à prendre les meilleures initiatives et à mieux évaluer chaque partie.

Pour créer une meilleur représentation du jeu, et entraîner un seul réseau au lieu de deux, le Policy Network, et le Value network sont à présent combinés en un seul et même réseau. Enfin, AlphaGoZero est basé sur un réseau Résiduel qui permet un meilleur entrainement des poids du réseau.

AlphaGoZero est un énorme succès…ou peut être pas. En réalité il faut tout de même relativiser la pusisance d’AlphaGoZero en considérant le fait que le jeu est complètement déterministe et non stochastique. Il est complétement observable et chaque action est discrète, on a un simulateur parfait, chaque épisode est court, l’évaluation est facile et directe.

Si vous souhaitez plonger dans l’algorithme et être capable de réutiliser les méthodes présentes dans AlphaGo et AlphaGoZero sur votre propre environnement de jeu, nous vous invitons à consulter les publications sur lesquelles s’appuie cette vidéo :
Mastering the game of Go with deep neural networks and tree search
Mastering the game of Go without human knowledge
Deep Residual Learning for Image Recognition

Ensuite Depth first learning a réalisé un curriculum complet des cours et connaissances à acquérir pour comprendre et s’imprégner des connaissances nécessaires autour d’ AlphaGoZero.