Movatterモバイル変換

[0]ホーム

Aller au contenu

AlphaGo

Modifier les liens

Un article de Wikipédia, l'encyclopédie libre.

AlphaGo

Informations
Développé par	Google DeepMind
Type	Logiciel de jeu de go Entité artificiellement intelligente(d)
Site web	Site officiel

modifier -modifier le code -voir Wikidata (aide)

AlphaGo est unprogramme informatique capable de jouer aujeu de go, développé par l'entreprise britanniqueDeepMind et racheté en 2014 par Google.

Enoctobre 2015, il devient le premier programme à battre unjoueur professionnel (le FrançaisFan Hui) sur ungoban de taille normale (19 × 19) sans handicap. Il s'agit d'une étape symboliquement forte puisque leprogramme joueur de go est alors un défi complexe de l'intelligence artificielle^[1]. Enmars 2016, il batLee Sedol, un des meilleurs joueurs mondiaux (9^e dan professionnel)[2]^,^[3]. Le27 mai 2017, il bat le champion du mondeKe Jie et le retrait du logiciel est annoncé.

L'algorithme d'AlphaGo combine des techniques d'apprentissage automatique et deparcours de graphe, associées à de nombreux entrainements avec des humains, d'autres ordinateurs, et surtout lui-même.

Cet algorithme sera encore amélioré dans les versions suivantes.AlphaGo Zero enoctobre 2017 atteint un niveau supérieur en jouant uniquement contre lui-même.AlphaZero en décembre 2017 surpasse largement, toujours par auto-apprentissage, le niveau de tous les joueurs humains et logiciels, non seulement au go, mais aussi auxéchecs et aushōgi.

Histoire

[modifier |modifier le code]

Contexte

[modifier |modifier le code]

Développement

[modifier |modifier le code]

AlphaGo a été développé parDeepMind Technologies, une entreprise britannique spécialisée dans l'intelligence artificielle créée parDemis Hassabis,Mustafa Suleyman etShane Legg^[10] en 2010, et rachetée parGoogle en 2014.

AlphaGo représente une amélioration significative par rapport aux précédentsprogrammes de go. Sur 500 parties jouées contre d'autres programmes, y comprisCrazy Stone et Zen^[11], AlphaGo n'en a perdu qu'une^[12].

Match contre Fan Hui

[modifier |modifier le code]

Enoctobre 2015, AlphaGo bat le champion européen de goFan Hui (2^e dan), 5-0 en parties lentes [13] et 3-2 en parties rapides^[14]. C'est la première fois qu'un programme de go bat unjoueur professionnel dans un match avec parties sans handicap sur ungoban de taille normale (19×19)^[14]. La nouvelle n'a été annoncée que le27 janvier 2016 pour coïncider avec la publication d'un article dans le journalNature^[15] décrivant l'algorithme utilisé^[13].

Match contre Lee Sedol

[modifier |modifier le code]

Article détaillé :Match AlphaGo - Lee Sedol.

AlphaGo affronte enmars 2016 le joueursud-coréen Lee Sedol (9^e dan professionnel, niveau maximal), considéré comme le meilleur joueur du monde entre 2000 et 2010 [1]. Le match, récompensé par un prix d'un million de dollars, est diffusé et commenté en direct sur internet^[16]. Lee Sedol reçoit 150 000 $ pour sa participation, et 20 000 $ pour chaque partie gagnée.

Le match en 5 parties se termine par la victoire 4-1 de l'ordinateur :

Victoire d'AlphaGo avec les blancs, par abandon après 3 heures et 39 minutes de jeu [17].
Victoire d'AlphaGo avec les noirs, par abandon^[18].
Victoire d'AlphaGo avec les blancs, par abandon.
Victoire de Lee Sedol avec les blancs (en offrant un jeu de qualité, et découvrant une faille dans le logiciel ; cette faiblesse d'AlphaGo sera réparée dans les versions ultérieures), par abandon^[19].
Victoire d'AlphaGo avec les blancs^[20]. Lee Sedol joue les noirs à sa demande considérant qu'ainsi la partie aurait plus de valeur^[21].

Avant même la dernière partie et assuré de la victoire, AlphaGo est classé9^e dan professionnel de manière honorifique par la Hanguk Kiwon (fédération coréenne de jeu de go)^[22]. Le prix d'un million de dollars, gagné par l'équipe d'AlphaGo, est donné à des associations caritatives.

Après le match contre Lee Sedol

[modifier |modifier le code]

Avant même la rencontre, d'autres professionnels avaient manifesté leur désir de s'opposer à AlphaGo^[23], même siKe Jie estimait, au vu de ses parties contre Fan Hui, que ce n'était pas un adversaire digne de lui^[24]. Après le match, Lee Sedol regrettait de ne pas avoir donné toute sa mesure, et souhaitait une revanche^[25]. Mais ce n'est qu'au début dejuin 2016 que la perspective d'une nouvelle rencontre se précisait ; cependant, le6 juin,Demis Hassabis refusait de confirmer ces informations^[26]^,^[27].

Le18 juillet 2016, AlphaGo devient le meilleur joueur du monde au classement deGoRatings, avec 3612 points Elo (contre 3608 au second,Ke Jie)^[28].

Enseptembre 2016, des commentaires détaillés des parties du match contre Lee Sedol, dus àGu Li etZhou Ruiyang (en) et s’appuyant sur les analyses d’AlphaGo, ont été publiés sur le site de DeepMind^[29] ; d’après Gu Li, la maîtrise d’AlphaGo et la profondeur de ses analyses dépassent encore ce qu’on en avait déjà dit lors du match.

Le4 janvier 2017,Demis Hassabis annonce qu’une version améliorée d'AlphaGo vient de disputer une série de 60 parties rapides contre les meilleurs joueurs mondiaux (Ke Jie,Iyama Yuta,Gu Li,Park Jeong-hwan (en)…)^[30], parties qu’elle a toutes gagnées, et qu’elle disputera des matchs officiels un peu plus tard dans l’année^[31].

Du 23 au27 mai 2017, un festival intituléThe Future of Go Summit est organisé par Google et l’association chinoise de weiqi àWuzhen ; la plus récente version d'AlphaGo y affronteKe Jie dans un match en trois parties, ainsi que d'autres professionnels chinois jouant en consultation. Là encore, AlphaGo gagne toutes les parties jouées^[32]. Après cette rencontre, Google annonce qu'AlphaGo ne jouera plus en compétition, mais qu'ils vont publier des documents techniques décrivant leurs dernières améliorations et un ensemble de parties jouées par la machine contre elle-même ; ils envisagent aussi de développer à l'usage des joueurs un outil d'analyse s'appuyant sur ce logiciel^[33]^,^[34].

Le17 octobre 2017, DeepMind annonce un nouveau développement, qu’ils nommentAlphaGo Zero ; ce programme utilise une architecture simplifiée et part d’une connaissance nulle du jeu (uniquement les règles) ; jouant uniquement contre lui-même, il atteint le niveau débutant en trois heures, bat 100 à 0 la version ayant battu Lee Sedol après 72 heures, et après 40 jours, il bat la version demai 2017 (dite « Master ») 89 parties sur 100^[35]^,^[36].

Le5 décembre 2017, une nouvelle version nomméeAlphaZero généralise encore cet algorithme, obtenant un programme générique capable d'apprendre à jouer au go, aux échecs ou aushōgi à partir de la simple connaissance des règles ; le programme parvient en quelques heures à battre les meilleurs programmes existants (par exemple, pour les échecs, il obtient après quatre heures d'apprentissage une nette victoire surStockfish : sur100 parties,25 victoires avec Blanc, 3 avec Noir, et72 nulles)^[37].

Algorithme

[modifier |modifier le code]

Les premières versions d'AlphaGo utilisent laméthode de Monte-Carlo, guidée par un « value network » et un « policy network » (unréseau de valeur et unréseau d'objectifs), tous deux implémentés en utilisant unréseau de neurones profond^[5].

AlphaGo a initialement été entraîné pour « imiter » les joueurs humains, en retrouvant les coups enregistrés lors de dizaines de milliers de parties menées par des joueurs experts^[2]. Une fois un certain niveau atteint, il s'est entraîné à jouer des millions de parties contre d'autres instances de lui-même^[2], utilisant l'apprentissage par renforcement pour s'améliorer^[5].

Cependant, enoctobre 2017, DeepMind publie dansNature une nouvelle étude, décrivantAlphaGo Zero, une architecture simplifiée et n’utilisant plus ni la méthode de Monte-Carlo, ni des connaissances humaines, mais parvenant pourtant très rapidement à des performances supérieures à celles des versions précédentes^[36].

Projet Leela Zero

[modifier |modifier le code]

L’algorithme d’AlphaGo (ou du moins ses idées essentielles) ayant été rendu public, plusieurs groupes ont essayé de le reproduire, voire de l’améliorer. À partir de 2018 en particulier, un projet collaboratif etopen source,Leela Zero, a obtenu en un an des résultats analogues, portables sur des ordinateurs individuels, et même sur des smartphones.