Les chercheurs en intelligence artificielle de DeepMind (une société qui appartient au groupe Alphabet) viennent de publier sur Arvix.org, un nouveau cadre d’apprentissage pour l’IA. Ce modèle appelé Approximate Best Response Information State Monte Carlo Tree Search (ABR IS-MCTS) est capable de s’adapter en fonction de la stratégie d’un joueur.

ABR IS-MCTS : le nouveau cadre d’IA capable de raisonner

Un certain nombre de jeux comme les échecs, le go ou encore le Texas Hold’em ont permis à ABR IS-MCTS de s’exercer. Selon le PDG de DeepMind, Demis Hassabis : « les jeux sont un terrain d’essai extrêmement pratique pour développer des algorithmes qui peuvent être transposés dans le monde réel afin de travailler sur des problèmes difficiles ». Après le travail de DeepMind sur une IA autodidacte, ce nouveau cadre prouve que l’intelligence artificielle est capable d’acquérir une capacité de raisonnement sur son environnement.

C’est une véritable prouesse. Le Saint Graal pour les chercheurs en inteliligence artificielle qui souhaitent montrer que si l’IA est capable de réaliser des tâches automatiques comme de la saisie de données, d’autres formes plus intelligentes encore peuvent raisonner et s’adapter. Ce que vient d’accomplir DeepMind est également le but recherché par OpenAI, un autre pionnier de l’intelligence artificielle qui développe notamment un environnement baptisé Neural MMO, pour entraîner des agents dans un contexte de RPG.

En novembre 2019, le champion du jeu de go Lee Se-dol prenait sa retraite. Il disait alors ne plus pouvoir rivaliser avec l’intelligence artificielle de DeepMind, devenue beaucoup trop forte. Il expliquait à l’époque que : « avec la progression de l’intelligence artificielle dans le jeu de go, je me suis rendu compte que je ne pouvais plus rivaliser, même si je continue de progresser et que je deviens le meilleur joueur au monde, l’intelligence artificielle est beaucoup trop forte, elle ne peut plus être battue ».

L’IA peut calculer la meilleure réponse à apporter

Avec ABR IS-MCTS, DeepMind adopte cette fois-ci une nouvelle technique qui consiste à esquiver les points de décision. Pour contourner le problème, les chercheurs ont voulu adopter une technique qui consiste à analyser un joueur pour s’adapter à sa stratégie. En utilisant l’apprentissage par renforcement (une technique d’entraînement qui incite les agents à atteindre des objectifs grâce un système de récompenses) l’IA peut calculer la meilleure réponse à apporter.

Le jeu de l’intelligence artificielle se rapproche donc de plus en plus de celui des joueurs humains. En analysant les faits et gestes de son adversaire, ABR IS-MCTS est capable d’assimiler sa stratégie et donc de trouver un moyen de la contrer. Cette IA simule ce qu’il se passerait si un humain s’entraînait pendant des années à connaître son adversaire. Le pourcentage de l’intelligence artificielle est supérieur à 50% pour l’ensemble des jeux testés et supérieur à 70% pour le go.