Comment fonctionne le « cerveau » d’AlphaGo ?

Le verdict final est tombé le 15 mars dernier : après le champion du monde des échecs Garry Kasparov battu en 1997 par l’ordinateur d’IBM Deep Blue, c’est maintenant au tour d’un des plus forts cerveaux humains au jeu de Go de perdre aux mains de la machine !

Le logiciel AlphaGo de la compagnie anglaise DeepMind (achetée par Google) a en effet battu 4 à 1 le champion sud-coréen Lee Sedol. En fait, le véritable choc s’est produit quelques jours auparavant, alors qu’AlphaGo a remporté sans équivoque la première des 5 parties. Puis la seconde. Et la troisième. Il aura fallu attendre la quatrième pour que l’honneur de l’espèce humaine (du moins au jeu de Go…) soit un peu sauvé. Et la cinquième, pour constater l’incroyable pugnacité de la machine, si l’on peut s’exprimer ainsi, qui a remonté la pente après, selon les experts, une erreur en début de partie.

Abonnez-vous à notre infolettre!

Pour ne rien rater de l'actualité scientifique et tout savoir sur nos efforts pour lutter contre les fausses nouvelles et la désinformation!

Il faut tout de suite rappeler ici deux choses. D’abord que l’algorithme d’AlphaGo (sa méthode de calcul) s’était déjà avérée d’une redoutable efficacité, battant en octobre 2015 l’actuel champion européen, Fan Hui , par 5 victoires à zéro et ne perdant qu’une partie sur 500 contre les meilleurs programmes déjà sur le marché.

Il faut aussi rappeler que le nombre de combinaisons possibles, à ce jeu où l’on doit occuper le plus d’espace possible en délimitant des territoires sur une grille de 19 par 19 lignes, est astronomique. Il est estimé à 10 à la puissance 170 (un suivi de 170 zéros, plus que le nombre d’atomes qu’il y aurait dans l’univers !) contre 10 puissance 120 environ aux échecs. C’est pourquoi l’on dit que l’intuition et la créativité sont encore plus importantes au jeu de Go qu’aux échecs.

Malgré la puissance hallucinante de calcul des ordinateurs actuels que ce soit aux échecs ou au jeu de Go, les quelques heures allouées pour chacune de ces parties rend impossible, même aux machines, d’explorer ces milliards de milliards de milliards, etc., de possibilités. Il faut donc restreindre les recherches pour trouver le meilleur coup à chaque stade d’une partie. Mais comment ?

Voilà où cela devient intéressant dans un blogue sur le cerveau et pas seulement pour un joueur d’échecs enfin soulagé que ses camarades du jeu de Go ne puissent plus claironner la supériorité humaine de leur champion sur la machine (après presque 20 ans, il était temps ! ;-)). Car selon le joueur professionnel Kim Seong-Ryong, AlphaGo ferait des coups «extraordinairement inhabituels». Un comportement qu’on n’associe pas habituellement à un algorithme d’optimisation des positions comme aux échecs, où le logiciel explore différents coups en regardant leurs conséquences possibles quelques coups plus tard et choisit celui qui lui procurera la position la plus avantageuse. Or ceci est très difficile à faire au jeu de Go car un coup peut avoir un impact subtil beaucoup plus loin sur la grille.

C’est pourquoi les concepteurs d’AlphaGo se sont tournés vers des dispositifs «d'apprentissage profond» (« Deep learning », en anglais) une approche connexionniste , c’est-à-dire conçue à partir de couches de « neurones artificiels ». Ceux-ci n’ont rien à voir avec les neurones réels de notre cerveau puisqu’ils sont simulés dans un ordinateur. Mais la forme de ce qui est simulée, elle, est très proches des réseaux que forment les neurones dans notre cerveau : d’innombrables points reliés par d’innombrables connexions dont l’efficacité n’est pas fixe mais variable.

Il s’agit donc, pour le dire rapidement, moins d’un logiciel que l’on programme que d’un logiciel capable d’apprendre. Couplé à la puissance de calcul des ordinateurs d’aujourd’hui et à la disponibilité d'énormes bases de données permettant au logiciel de « s’entraîner », on voit un peu comment ces machines peuvent en arriver à faire des coups «extraordinairement inhabituels».

AlphaGo optimise en fait les résultats de ses capacités d’apprentissage connexionnistes avec un algorithme plus classique capable de chercher une solution optimale dans une arborescence (« Monte Carlo tree search », en anglais). Mais c’est vraiment sa capacité d’apprendre qui rend AlphaGo si efficace, le logiciel ayant par exemple étudié 30 millions de positions de parties d’experts et ayant joué contre lui-même par l’entremise de 50 ordinateurs, lui permettant à chaque fois de s’améliorer.

Les réseaux de neurones artificiels sont donc de plus en plus efficaces dans la reconnaissance de patterns et la prise de décision, leur force depuis leur introduction il y a quelques décennies. Mais c'est seulement aujourd’hui qu'ils montrent réellement de dont ils sont capables dans de nombreux domaines grâce à la puissance accrue des ordinateurs.

On pense à l’analyse d’images médicales pour faire des diagnostics ou même en recherche fondamentale avec l’exemple du projet EyeWire de Sebastian Seung qui utilise déjà cette approche des réseaux de neurones artificiels pour comprendre l’architecture des… réseaux de neurones réels de notre rétine !

Même un nouveau logiciel d’échecs basé sur cette approche a réussi à se hisser récemment en quelques jours d’apprentissage à niveau des 2-3% meilleurs joueurs de tournoi.

Tout cela fait dire à des observateurs de la scène de l’intelligence artificielle que l’ère de la conception de logiciels pour gagner aux jeux de table est plus ou moins terminée et qu’on doit maintenant se tourner, grâce à cette approche plus générale d’apprentissage que procurent les réseaux de neurones artificiels, vers justement des problèmes plus généraux où l’intelligence humaine n’a pas encore trop de compétition de la part des machines. Vont-elles bientôt nous dépasser ? C’est là tout un débat où certaines personnes sont promptes à s’imaginer des robots apprenant à se servir d’armes à feu pour prendre le contrôle du monde… Sans entrer dans ledit débat, terminons en citant simplement Richard Sutton, considéré comme l’un des pères fondateurs des algorithmes d’apprentissage par renforcement :

« Je ne pense pas que les gens devraient être effrayés… mais je crois néanmoins qu’ils devraient porter attention [à ce qui se passe dans ce domaine]. »

C’est un peu ce qu’on a essayé de faire aujourd’hui…

Google AI algorithm masters ancient game of Go Jeu de go: le champion du monde de nouveau battu par l'ordinateur de Google Google DeepMind's AlphaGo computer beats top player Lee Sedol for third time to sweep competition Go champion Lee Se-dol strikes back to beat Google's DeepMind AI for first time Google's AlphaGo AI beats Lee Se-dol again to win Go series 4-1 In Just 72 Hours, a Computer Learned How to Beat Nearly Anyone at Chess Computer science: The learning machines