Intelligence artificielle Décryptage #1 : AlphaGo et AlphaGo Zero

Pour approfondir le sujet

Sur le même thème :

Après les Etats-Unis, Meta fait le choix de tester son chatbot en Inde et certains pays d’Afrique

En septembre 2023, Meta annonçait le lancement bêta de Meta AI, un assistant IA, aux Etats-Unis. Le chatbot est actuellement en phase de test...

Les géants de la tech, portés par la GenAI : Google franchit de nouveau la barre des 2 billions de dollars

Les GAFAM ou GAMAM (Google, Apple, Facebook (Meta), Amazon, Microsoft) portés par l'essor de l'IA générative, connaissent une croissance importante de leur capitalisation boursière...

Retour sur les principales innovations d’Adobe en matière d’IA générative

Le sommet Adobe Firefly 2023 avait surtout été marqué par la présentation de Firefly, une famille de modèles d’IA générative, qui a d'ailleurs été...

xAI annonce la prochaine disponibilité de Grok 1,5 Vision

La semaine dernière a été, comme pour une grande partie de celles qui l'ont précédée, rythmée par les annonces autour de la GenAI et...

Décryptage #1 : AlphaGo et AlphaGo Zero


AlphaGo, c’est l’intelligence artificielle de DeepMind capable de battre Lee Sedol , le meilleur joueur Humain de GO. Alors, premièrement, pourquoi est-il si intéressant de créer une IA capable de jouer au jeu de go ? Et enfin, qu’est-ce qui différencie AlphaGo d’Alpha Go Zero ?

La raison principale pour laquelle le jeu de Go suscite l’intérêt ces chercheurs, c’est la complexité du jeu de Go par rapport à d’autres jeux, comme celui des échecs. À chaque tour de jeu le nombre de positions possible est simplement beaucoup plus étendu que dans les échecs ou la marge de manœuvre est souvent limitée aux pions toujours en vie sur le plateau de jeu ainsi qu’aux contraintes de l’environnement. De plus, le jeu de Go est souvent considéré comme un jeu plus stratégique, alors que les échecs sont davantage considérés comme étant plus tactiques.

La tactique peut être présentée comme l’ensemble de moyens habiles employés pour obtenir le résultat voulu. La vraie différence c’est que la stratégie voit à long terme, alors que la tactique s’applique plus à des actions ponctuelles. Et comme je l’ai présenté dans ma vidéo sur l’intelligence artificielle Générale, être capable de faire de la planification, long terme est extrêmement compliqué pour une IA.

AlphaGo était ainsi considéré comme le meilleur joueur mondial, jusqu’à l’arrivée d’AlphaGoZero, une nouvelle IA capable de battre AlphaGO, 100 à zero, alors que cette même IA avait battu le meilleur joueur mondial, Lee Sedol. Mais alors qu’est-ce qui différencie tant AlphaGoZero d’AlphaGo, et qu’est-ce qui fait qu’AlphaGOZero affiche de si bons résultats? C’est ce qu’on va découvrir dans le papier du jour.

Pour résumer, AlphaGoZero joue contre lui même, en lançant des simulation de jeu qui se basent sur l’algorithme de MonteCarlo pour prendre des décision et évaluer chaque état. Grâce à toute ces simulation, le réseau de neurones est ensuite entraîné à prendre les meilleures initiatives et à mieux évaluer chaque partie.

Pour créer une meilleur représentation du jeu, et entraîner un seul réseau au lieu de deux, le Policy Network, et le Value network sont à présent combinés en un seul et même réseau. Enfin, AlphaGoZero est basé sur un réseau Résiduel qui permet un meilleur entrainement des poids du réseau.

AlphaGoZero est un énorme succès…ou peut être pas. En réalité il faut tout de même relativiser la pusisance d’AlphaGoZero en considérant le fait que le jeu est complètement déterministe et non stochastique. Il est complétement observable et chaque action est discrète, on a un simulateur parfait, chaque épisode est court, l’évaluation est facile et directe.

Si vous souhaitez plonger dans l’algorithme et être capable de réutiliser les méthodes présentes dans AlphaGo et AlphaGoZero sur votre propre environnement de jeu, nous vous invitons à consulter les publications sur lesquelles s’appuie cette vidéo :
Mastering the game of Go with deep neural networks and tree search
Mastering the game of Go without human knowledge
Deep Residual Learning for Image Recognition

Ensuite Depth first learning a réalisé un curriculum complet des cours et connaissances à acquérir pour comprendre et s’imprégner des connaissances nécessaires autour d’ AlphaGoZero.


1ère Marketplace de l'IA et de la transformation numérique vous recommande :
XLSTAT® par Addinsoft

La solution la plus complète d'analyse de données et de statistique pour microsoft excel® xlstat est à la fois simple d'utilisation et très puissant....

 

Contributeur expert

Thibault Neveu

Thibault Neveu est un chercheur en intelligence artificielle. Il a été membre de la section rec

Partager l'article

Après les Etats-Unis, Meta fait le choix de tester son chatbot en Inde et certains pays d’Afrique

En septembre 2023, Meta annonçait le lancement bêta de Meta AI, un assistant IA, aux Etats-Unis. Le chatbot est actuellement en phase de test...

Les géants de la tech, portés par la GenAI : Google franchit de nouveau la barre des 2 billions de dollars

Les GAFAM ou GAMAM (Google, Apple, Facebook (Meta), Amazon, Microsoft) portés par l'essor de l'IA générative, connaissent une croissance importante de leur capitalisation boursière...

Retour sur les principales innovations d’Adobe en matière d’IA générative

Le sommet Adobe Firefly 2023 avait surtout été marqué par la présentation de Firefly, une famille de modèles d’IA générative, qui a d'ailleurs été...

xAI annonce la prochaine disponibilité de Grok 1,5 Vision

La semaine dernière a été, comme pour une grande partie de celles qui l'ont précédée, rythmée par les annonces autour de la GenAI et...