Une IA qui marche à l’affect… L’idée de Microsoft rapportée par VentureBeat a quelque chose de saugrenu et de vaguement inquiétant. Récemment déjà l’entreprise annonçait une IA, FastSpeech capable de reproduire la voix humaine. Chaque annonce semble nous rapprocher de l’avènement des machines, ou d’une anthropomorphisation bien trop importante. Pas de panique, il s’agit ici d’une approche innovante et simple (en apparence) pour améliorer l’apprentissage des IA.

Une nouvelle voie de l’apprentissage par renforcement pour les IA

L’équipe de recherche de Microsoft s’est inspirée, comme c’est souvent le cas dans l’innovation, de ce qui l’entourait pour améliorer leur IA. Elle s’est basée sur un principe simple : un visage amical ou perçu comme tel aidait à encourager la curiosité, l’apprentissage.

Ils ont décidé d’explorer cette voie pour aider les IA à apprendre. L’une des techniques les plus courantes pour l’apprentissage des IA est celle de l’apprentissage par Renforcement (Reinforcement Learning, RL). Elle consiste à améliorer l’intelligence d’une machine en la faisait apprendre de ses erreurs et réussites passées en se servant d’un système de récompense.

Le système de récompense est pour le moment étroit et parfois difficile à mettre en place, d’où l’idée de créer des mécanismes portés par l’affect humain. Grâce à un système de détection associé aux systèmes chargés de relever les défis qui lui sont opposés, la machine est récompensée par un sourire.

L’un des chercheurs, relayés par VenterBeat, rassure, « ici nous ne cherchons pas à imiter des processus affectifs, mais plutôt à montrer que les fonctions entraînées sur des signaux de type affect peuvent conduire à une amélioration des performances ».

Des résultats encourageants

Pour développer leur modèle, les chercheurs ont mis cinq personnes face à des labyrinthes numériques tridimensionnels avec un véhicule. Chacun a conduit durant 11 minutes avec pour seule consigne l’exploration du labyrinthe. Les réactions des visages ont été scrutées en fonction des décisions prises, puis tout a été intégré à un algorithme en open source.

différent résultat exploration IA

Crédit : Microsoft

Le modèle créé à partir de ces données a été à son tour lancé dans le labyrinthe. Les scientifiques ont constaté des résultats très positifs. Par rapport à leurs autres expériences leur modèle à couvert 46% d’espace en plus dans le labyrinthe et a subi 29% de collision en moins, « En résumé, nous soutenons qu’un tel cadre d’apprentissage intrinsèquement motivé et inspiré par des mécanismes affectifs peut être efficace pour augmenter la zone couverte pendant l’exploration, diminuer le nombre d’échecs catastrophiques, et que les expériences recueillies peuvent nous aider à apprendre des représentations générales pour résoudre des tâches » se sont félicités les chercheurs.

La piste ouvre, certes, de nouvelles perspectives de machine learning, mais la priorité aujourd’hui semble être plutôt à former des personnes capables de déployer les IA.