Actualité Décryptage #1 : AlphaGo et AlphaGo Zero

Pour approfondir le sujet

Après la victoire d’AlphaGo, DeepMind se concentrera sur d’autres problématiques

La semaine dernière se tenait en Chine le Future of Go Summit qui restera à coup sûr dans l'histoire du go mais également dans...

“L’IA dans nos têtes, là où dialoguent le réel et l’imaginaire” avec Yann LeCun et Enki Bilal – Replay de la conférence du Forum...

Le mercredi 24 janvier dernier, le Forum Libération / France Inter — Voyage au cœur de l'Intelligence Artificielle s'est déroulé au studio 104 de la...

Suivez la deuxième journée #experiences17 en direct vidéo

Nous vous proposons tout comme hier de suivre en direct live la conférence Experiences17 de Microsoft, axée sur l'intelligence artificielle, ainsi que l'interview de...

La Conférence Nationale sur les Applications Pratiques de l’Intelligence Artificielle lance un appel à communications pour sa 4e édition

À l'occasion de sa 4e édition, la Conférence Nationale sur les Applications Pratiques de l'intelligence artificielle (APIA) a lancé un appel à communications. L'APIA...

Décryptage #1 : AlphaGo et AlphaGo Zero


AlphaGo, c’est l’intelligence artificielle de DeepMind capable de battre Lee Sedol , le meilleur joueur Humain de GO. Alors, premièrement, pourquoi est-il si intéressant de créer une IA capable de jouer au jeu de go ? Et enfin, qu’est-ce qui différencie AlphaGo d’Alpha Go Zero ?

La raison principale pour laquelle le jeu de Go suscite l’intérêt ces chercheurs, c’est la complexité du jeu de Go par rapport à d’autres jeux, comme celui des échecs. À chaque tour de jeu le nombre de positions possible est simplement beaucoup plus étendu que dans les échecs ou la marge de manœuvre est souvent limitée aux pions toujours en vie sur le plateau de jeu ainsi qu’aux contraintes de l’environnement. De plus, le jeu de Go est souvent considéré comme un jeu plus stratégique, alors que les échecs sont davantage considérés comme étant plus tactiques.

La tactique peut être présentée comme l’ensemble de moyens habiles employés pour obtenir le résultat voulu. La vraie différence c’est que la stratégie voit à long terme, alors que la tactique s’applique plus à des actions ponctuelles. Et comme je l’ai présenté dans ma vidéo sur l’intelligence artificielle Générale, être capable de faire de la planification, long terme est extrêmement compliqué pour une IA.

AlphaGo était ainsi considéré comme le meilleur joueur mondial, jusqu’à l’arrivée d’AlphaGoZero, une nouvelle IA capable de battre AlphaGO, 100 à zero, alors que cette même IA avait battu le meilleur joueur mondial, Lee Sedol. Mais alors qu’est-ce qui différencie tant AlphaGoZero d’AlphaGo, et qu’est-ce qui fait qu’AlphaGOZero affiche de si bons résultats? C’est ce qu’on va découvrir dans le papier du jour.

Pour résumer, AlphaGoZero joue contre lui même, en lançant des simulation de jeu qui se basent sur l’algorithme de MonteCarlo pour prendre des décision et évaluer chaque état. Grâce à toute ces simulation, le réseau de neurones est ensuite entraîné à prendre les meilleures initiatives et à mieux évaluer chaque partie.

Pour créer une meilleur représentation du jeu, et entraîner un seul réseau au lieu de deux, le Policy Network, et le Value network sont à présent combinés en un seul et même réseau. Enfin, AlphaGoZero est basé sur un réseau Résiduel qui permet un meilleur entrainement des poids du réseau.

AlphaGoZero est un énorme succès…ou peut être pas. En réalité il faut tout de même relativiser la pusisance d’AlphaGoZero en considérant le fait que le jeu est complètement déterministe et non stochastique. Il est complétement observable et chaque action est discrète, on a un simulateur parfait, chaque épisode est court, l’évaluation est facile et directe.

Si vous souhaitez plonger dans l’algorithme et être capable de réutiliser les méthodes présentes dans AlphaGo et AlphaGoZero sur votre propre environnement de jeu, nous vous invitons à consulter les publications sur lesquelles s’appuie cette vidéo :
Mastering the game of Go with deep neural networks and tree search
Mastering the game of Go without human knowledge
Deep Residual Learning for Image Recognition

Ensuite Depth first learning a réalisé un curriculum complet des cours et connaissances à acquérir pour comprendre et s’imprégner des connaissances nécessaires autour d’ AlphaGoZero.


1ère Marketplace de l'IA et de la transformation numérique vous recommande :
 

Contributeur expert

Thibault Neveu

Thibault Neveu est jeune chercheur en intelligence artificielle. Il fut membre de la section rech

Partager l'article

Espagne : un projet de centre européen pour l’intelligence artificielle pour rivaliser avec les infrastructures européennes

En Espagne, un projet ambitieux autour de l'IA tend à se mettre en place. Un groupe d'investisseurs privés, dirigé par les propriétaires du téléopérateur...

L’apprentissage supervisé et par renforcement pour aider les robots à s’adapter à tout type d’environnement

A travers Rapid Motor Adaptation (RMA), Facebook progresse dans l'adaptation des robots à leur environnement, afin de développer leur motricité. Adapter les robots à un...

Cinéma et Deepfake : zoom sur la synchronisation des lèvres avec le doublage en langue étrangère

Le deepfake est une technique reposant sur l'intelligence artificielle qui permet de superposer des fichiers audio ou vidéos sur d'autres fichiers déjà existants pour...

IA et Géopolitique : le comité AIDA du parlement européen propose son approche innovante sur le sujet

Le comité Artificial Intelligence in a Digital Age (AIDA) lié au parlement européen propose une étude sur l'intelligence artificielle et la diplomatie européenne. Intitulé...