Intelligence artificielle Décryptage #1 : AlphaGo et AlphaGo Zero

Pour approfondir le sujet

Sur le même thème :

ActuIA lance le podcast “Dialogue Machine” animé par Thibault Neveu

A travers cette série de podcasts présentée par Thibault Neveu, nous voulons faire écho à la diversité des points de vue qui façonnent le...

Nouvelle avancée d’OpenAI avec GPT-4o, un modèle qui fusionne le traitement de l’audio, de la vision et du texte en temps réel

Alors que les spéculations allaient bon train sur l'arrivée prochaine de GPT-5, OpenAI crée une fois de plus la surprise en présentant ce 13...

Le pari français de Microsoft : un investissement de 4 milliards d’euros pour accélérer l’adoption de l’IA

Microsoft a annoncé dernièrement ses plus gros investissements pour ses infrastructures d'IA et de cloud dans différents pays, la France en fait désormais partie....

Le Forum TERATEC, plus grand événement en France dédié aux technologies du numérique et du calcul intensif

Couplée au Cloud, l'intelligence artificielle (IA) vient brouiller les frontières et les barrières technologiques, notamment en termes de puissance de calcul et de transfert...

Décryptage #1 : AlphaGo et AlphaGo Zero


AlphaGo, c’est l’intelligence artificielle de DeepMind capable de battre Lee Sedol , le meilleur joueur Humain de GO. Alors, premièrement, pourquoi est-il si intéressant de créer une IA capable de jouer au jeu de go ? Et enfin, qu’est-ce qui différencie AlphaGo d’Alpha Go Zero ?

La raison principale pour laquelle le jeu de Go suscite l’intérêt ces chercheurs, c’est la complexité du jeu de Go par rapport à d’autres jeux, comme celui des échecs. À chaque tour de jeu le nombre de positions possible est simplement beaucoup plus étendu que dans les échecs ou la marge de manœuvre est souvent limitée aux pions toujours en vie sur le plateau de jeu ainsi qu’aux contraintes de l’environnement. De plus, le jeu de Go est souvent considéré comme un jeu plus stratégique, alors que les échecs sont davantage considérés comme étant plus tactiques.

La tactique peut être présentée comme l’ensemble de moyens habiles employés pour obtenir le résultat voulu. La vraie différence c’est que la stratégie voit à long terme, alors que la tactique s’applique plus à des actions ponctuelles. Et comme je l’ai présenté dans ma vidéo sur l’intelligence artificielle Générale, être capable de faire de la planification, long terme est extrêmement compliqué pour une IA.

AlphaGo était ainsi considéré comme le meilleur joueur mondial, jusqu’à l’arrivée d’AlphaGoZero, une nouvelle IA capable de battre AlphaGO, 100 à zero, alors que cette même IA avait battu le meilleur joueur mondial, Lee Sedol. Mais alors qu’est-ce qui différencie tant AlphaGoZero d’AlphaGo, et qu’est-ce qui fait qu’AlphaGOZero affiche de si bons résultats? C’est ce qu’on va découvrir dans le papier du jour.

Pour résumer, AlphaGoZero joue contre lui même, en lançant des simulation de jeu qui se basent sur l’algorithme de MonteCarlo pour prendre des décision et évaluer chaque état. Grâce à toute ces simulation, le réseau de neurones est ensuite entraîné à prendre les meilleures initiatives et à mieux évaluer chaque partie.

Pour créer une meilleur représentation du jeu, et entraîner un seul réseau au lieu de deux, le Policy Network, et le Value network sont à présent combinés en un seul et même réseau. Enfin, AlphaGoZero est basé sur un réseau Résiduel qui permet un meilleur entrainement des poids du réseau.

AlphaGoZero est un énorme succès…ou peut être pas. En réalité il faut tout de même relativiser la pusisance d’AlphaGoZero en considérant le fait que le jeu est complètement déterministe et non stochastique. Il est complétement observable et chaque action est discrète, on a un simulateur parfait, chaque épisode est court, l’évaluation est facile et directe.

Si vous souhaitez plonger dans l’algorithme et être capable de réutiliser les méthodes présentes dans AlphaGo et AlphaGoZero sur votre propre environnement de jeu, nous vous invitons à consulter les publications sur lesquelles s’appuie cette vidéo :
Mastering the game of Go with deep neural networks and tree search
Mastering the game of Go without human knowledge
Deep Residual Learning for Image Recognition

Ensuite Depth first learning a réalisé un curriculum complet des cours et connaissances à acquérir pour comprendre et s’imprégner des connaissances nécessaires autour d’ AlphaGoZero.

Contributeur expert

Thibault Neveu

Thibault Neveu est un entrepreneur, ingénieur de recherche spécialisé dans l’apprentissa

Partager l'article

ActuIA lance le podcast “Dialogue Machine” animé par Thibault Neveu

A travers cette série de podcasts présentée par Thibault Neveu, nous voulons faire écho à la diversité des points de vue qui façonnent le...

Nouvelle avancée d’OpenAI avec GPT-4o, un modèle qui fusionne le traitement de l’audio, de la vision et du texte en temps réel

Alors que les spéculations allaient bon train sur l'arrivée prochaine de GPT-5, OpenAI crée une fois de plus la surprise en présentant ce 13...

Le pari français de Microsoft : un investissement de 4 milliards d’euros pour accélérer l’adoption de l’IA

Microsoft a annoncé dernièrement ses plus gros investissements pour ses infrastructures d'IA et de cloud dans différents pays, la France en fait désormais partie....

Le Forum TERATEC, plus grand événement en France dédié aux technologies du numérique et du calcul intensif

Couplée au Cloud, l'intelligence artificielle (IA) vient brouiller les frontières et les barrières technologiques, notamment en termes de puissance de calcul et de transfert...