Décryptage #1 : AlphaGo et AlphaGo Zero

5 novembre 2018

AlphaGo, c’est l’intelligence artificielle de DeepMind capable de battre Lee Sedol , le meilleur joueur Humain de GO. Alors, premièrement, pourquoi est-il si intéressant de créer une IA capable de jouer au jeu de go ? Et enfin, qu’est-ce qui différencie AlphaGo d’Alpha Go Zero ?

La raison principale pour laquelle le jeu de Go suscite l’intérêt ces chercheurs, c’est la complexité du jeu de Go par rapport à d’autres jeux, comme celui des échecs. À chaque tour de jeu le nombre de positions possible est simplement beaucoup plus étendu que dans les échecs ou la marge de manœuvre est souvent limitée aux pions toujours en vie sur le plateau de jeu ainsi qu’aux contraintes de l’environnement. De plus, le jeu de Go est souvent considéré comme un jeu plus stratégique, alors que les échecs sont davantage considérés comme étant plus tactiques.

La tactique peut être présentée comme l’ensemble de moyens habiles employés pour obtenir le résultat voulu. La vraie différence c’est que la stratégie voit à long terme, alors que la tactique s’applique plus à des actions ponctuelles. Et comme je l’ai présenté dans ma vidéo sur l’intelligence artificielle Générale, être capable de faire de la planification, long terme est extrêmement compliqué pour une IA.

AlphaGo était ainsi considéré comme le meilleur joueur mondial, jusqu’à l’arrivée d’AlphaGoZero, une nouvelle IA capable de battre AlphaGO, 100 à zero, alors que cette même IA avait battu le meilleur joueur mondial, Lee Sedol. Mais alors qu’est-ce qui différencie tant AlphaGoZero d’AlphaGo, et qu’est-ce qui fait qu’AlphaGOZero affiche de si bons résultats? C’est ce qu’on va découvrir dans le papier du jour.

Pour résumer, AlphaGoZero joue contre lui même, en lançant des simulation de jeu qui se basent sur l’algorithme de MonteCarlo pour prendre des décision et évaluer chaque état. Grâce à toute ces simulation, le réseau de neurones est ensuite entraîné à prendre les meilleures initiatives et à mieux évaluer chaque partie.

Pour créer une meilleur représentation du jeu, et entraîner un seul réseau au lieu de deux, le Policy Network, et le Value network sont à présent combinés en un seul et même réseau. Enfin, AlphaGoZero est basé sur un réseau Résiduel qui permet un meilleur entrainement des poids du réseau.

AlphaGoZero est un énorme succès…ou peut être pas. En réalité il faut tout de même relativiser la pusisance d’AlphaGoZero en considérant le fait que le jeu est complètement déterministe et non stochastique. Il est complétement observable et chaque action est discrète, on a un simulateur parfait, chaque épisode est court, l’évaluation est facile et directe.

Si vous souhaitez plonger dans l’algorithme et être capable de réutiliser les méthodes présentes dans AlphaGo et AlphaGoZero sur votre propre environnement de jeu, nous vous invitons à consulter les publications sur lesquelles s’appuie cette vidéo :
Mastering the game of Go with deep neural networks and tree search
Mastering the game of Go without human knowledge
Deep Residual Learning for Image Recognition

Ensuite Depth first learning a réalisé un curriculum complet des cours et connaissances à acquérir pour comprendre et s’imprégner des connaissances nécessaires autour d’ AlphaGoZero.

Pour approfondir le sujet

ActuIA lance le podcast “Dialogue Machine” animé par Thibault Neveu

Nouvelle avancée d’OpenAI avec GPT-4o, un modèle qui fusionne le traitement de l’audio, de la vision et du texte en temps réel

Le pari français de Microsoft : un investissement de 4 milliards d’euros pour accélérer l’adoption de l’IA

Le Forum TERATEC, plus grand événement en France dédié aux technologies du numérique et du calcul intensif

Décryptage #1 : AlphaGo et AlphaGo Zero

Contributeur expert

Partager l'article

ActuIA lance le podcast “Dialogue Machine” animé par Thibault Neveu

Nouvelle avancée d’OpenAI avec GPT-4o, un modèle qui fusionne le traitement de l’audio, de la vision et du texte en temps réel

Le pari français de Microsoft : un investissement de 4 milliards d’euros pour accélérer l’adoption de l’IA

Le Forum TERATEC, plus grand événement en France dédié aux technologies du numérique et du calcul intensif

Egalement dans l'actualité de l'intelligence artificielle

Meta dévoile les deux premiers modèles de la famille Llama 3

Retour sur cinq temps forts du World AI Cannes Festival 2024

L’ONU adopte une résolution historique sur l’intelligence artificielle

xAI publie son IA générative Grok-1 en open source

Le Parlement européen adopte l’AI ACT

NVIDIA GTC 2024 : un rendez-vous incontournable pour les professionnels de...

Dernières contributions d'experts

Industrie de santé : comment repenser la formation du personnel à...

Marketing : comprendre et surmonter les hésitations relatives à l’utilisation de...

IA et data, une relation fusionnelle pour libérer toute la puissance...

Ajouter ActuIA à votre écran d'accueil