DeepMind, la filiale de Google spécialisée dans l’intelligence artificielle, continue de causer des cauchemars aux professionnels des jeux vidéo. Après avoir construit AlphaStar, l’IA qui avait atomisé ses adversaires à Starcraft 2, la société britannique a fait naître FTW, une intelligence artificielle d’un niveau incommensurable à Quake III Arena. Pour atteindre un haut niveau sur ce jeu, le bébé de DeepMind a dû développer une logique inédite. Encore une fois, le jeu vidéo a prouvé son potentiel à soumettre un challenge de taille aux machines.

Quake III Arena, un jeu plus complexe qu’il n’y paraît

Si Quake III Arena a été choisi comme domaine de spécialisation pour l’IA FTW, ce n’est pas par hasard. Le jeu sorti en 1999 à l’air simpliste, car les deux options principales pour gagner se résument à capturer le drapeau dans le camp adverse et à abattre temporairement les ennemis à coup d’armes à feu. Cependant, cette simplicité pousse les joueurs à développer de multiples stratégies pour faire pencher la balance en leur faveur. Le jeu propose des cartes générées à chaque fois aléatoirement et un champ de vision limité. Les joueurs mettent énormément à profit ces caractéristiques, ils exploitent leur environnement pour obtenir un avantage stratégique, et changent leur manière de joueur en cours de partie en fonction de cela. Pour gagner une partie, il ne suffit donc pas d’obtenir un niveau inhumain au combat et à la capture de drapeau. C’est la capacité à comprendre une multitude de détails sans impacts majeurs dans la réussite au jeu (en apparence) qui a représenté un challenge pour FTW

Développement d’un système d’apprentissage à double niveau

Pour que leur IA soit capable de se dépasser à Quake Arena, les chercheurs de DeepMind ont mis en place un système d’apprentissage à double niveau. Au niveau « externe » , le système s’est concentré sur la victoire et les stratégies globales pour atteindre cet objectif. Au fur et à mesure des parties, l’IA créait ainsi toute une série de sous-objectifs permettant d’obtenir la victoire au sens général du terme. Pour améliorer les performances de cette optimisation externe, les chercheurs de DeepMind ont adopté une approche évolutive appelée « population-based training », ce qui donnerait « formation basée sur la population » en français. Après chaque cycle de formation (autrement dit après chaque partie), les systèmes de l’IA les moins importants dans la victoire étaient éliminés, et remplacés par des « mutations » des systèmes les plus performants.

Dans le même temps, le niveau « interne » de l’IA établissait une politique en fonction des décisions de la couche extérieure. Si l’expérience de la couche extérieure avait déterminé qu’il fallait mieux défendre le drapeau à un moment X de la partie, la couche intérieure déployait ses compétences en matière de défense de drapeau. Pour développer leur IA à double niveau, les chercheurs ont choisi un réseau neuronal standard formé par un apprentissage par renforcement. Pour rappel, l’apprentissage par renforcement consiste, pour un agent autonome, à apprendre de ses expériences pour trouver la meilleure solution.

DeepMind intelligence artificielle FTW

Représentation de certains comportements adoptés par l’IA FTW de DeepMind

Un challenge stupéfiant

Il aura fallu énormément de sessions pour que FTW atteigne le niveau inégalable qu’elle possède désormais. Les chercheurs de DeepMind ont expliqué qu’après 45 000 parties, elle était encore en début d’entraînement, et qu’après 200 000, elle développait encore des comportements inédits pour optimiser ses performances. Au final, FTW aura adopté certaines stratégies humaines, les adeptes du rocket jump ne doivent pas totalement remettre en cause leur gameplay s’ils espèrent prendre leur revanche sur cette IA. Car oui, il faut le préciser, après son entraînement, FTW a mis en échec la totalité de ses opposants humains. Les équipes composées de robot FTW capturaient en moyenne 16 drapeaux de plus que les joueurs traditionnels. La seule fois où ces derniers ont réussi à vaincre une équipe d’IA FTW, c’est quand certaines membres de leur équipe étaient eux-même pilotés par cette IA.

Un petit espoir pour l’humanité face à cette intelligence artificielle

La victoire de l’IA de DeepMind est écrasante et semble inédite en matière de jeux vidéo. En effet, sur Starcraft, AlphaStar avait concédé une défaite aux équipes humaines. Cette fois-ci, les Hommes ont été incapables d’aller chercher une victoire par eux-mêmes. Les chercheurs de DeepMind ont néanmoins expliqué que les capacités des humains en termes de vision en ont fait de meilleurs tireurs à longue distance. Une spécificité difficilement exploitable face à une entité qui réagit deux fois plus vite que vous… En diminuant la vitesse de réaction de FTW au même niveau que les humains, son taux de victoire avait « diminué » à 70%.