Souvent on dit qu’une image vaut mille mots. Une image permet davantage la transmission d’une idée, d’un concept, d’une réflexion. Aujourd’hui nous le voyons clairement dans les réseaux sociaux, les images et les vidéos sont prépondérantes pour la diffusion de l’information. En effet, nous apprenons et retenons plus vite, lorsqu’une information est transmise par l’un de ces formats. Actuellement, nous éduquons l’IA (nous parlerons essentiellement d’apprentissage supervisé) via des bases de données de millions d’images, ou des phrases types. Et si nous leur apprenions via une vidéo ; l’IA pourrait-elle apprendre plus vite des concepts de plus en plus complexes ?

Vers l’apprentissage auto-supervisé

DeepMind a développé une IA qui apprend par elle-même à reconnaître une gamme de concept visuel et audio. Le tout en regardant de minuscules extraits vidéo. Cette IA peut comprendre des comportements comme par exemple « la tonte d’une pelouse », de « chatouillement » ou encore déterminer quel instrument est joué dans une vidéo. Comme je le répète chaque jour, l’IA sait mais ne sait pas qu’elle sait. L’IA est dans l’ère de la connaissance et pas encore dans la compréhension.

«Nous voulons construire des machines qui apprennent en permanence sur leur environnement de manière autonome», explique Pulkit Agrawal à l’Université de Californie à Berkeley.

Un pas de géant dans le monde de l’IA

Je le dis de manière assez simple, sans vous dévoiler les équations mathématiques barbantes. Cependant il faut bien se rendre compte qu’aujourd’hui, le machine learning est efficace uniquement avec des data qualifiées. En d’autres termes, pour apprendre à une IA à quoi ressemble un chien par exemple ; il faut lui monter des millions d’images de chien précisément. On dit dans le jargon que l’image est « étiquetée ». Une fois entraînée, vous pouvez lui montrer une nouvelle photo de chien. L’IA sera capable de comprendre si cette photo représente un chien ou non. La limite de ce type d’apprentissage c’est qu’elle n’est pas évolutive. En effet il suffit d’intégrer une image de cheval pour que l’IA déraille complètement. Au lieu de s’appuyer sur des jeux de données étiquetés par l’homme, son algorithme apprend à reconnaître les images et les sons en faisant correspondre ce qu’il voit avec ce qu’il entend.

Apprendre comme un humain

Les humains sont particulièrement bons pour ce genre d’apprentissage : nous n’avons pas quelqu’un qui nous suit constamment et nous décrit tout ce que nous voyons et entendons. Notre cerveau analyse tout, trie et garde ce qui est essentiel à chaque instant.

L’algorithme est ainsi crée en trois réseaux :

  1. l’un spécialisé dans la reconnaissance des images, sur des courtes vidéos
  2. un autre fait un travail similaire avec l’audio, sur les mêmes séquences vidéos
  3. et le dernier compare les images avec des clips audio pour savoir quels sons correspondent aux vues des vidéos.

Au total, le système a été formé sur 60 millions de paires audio-image issues de 400 000 vidéos.

L’algorithme a appris à reconnaître les concepts audio et visuels. Selon l’étude, cela comprend les foules, la danse, un robinet d’eau etc. Sans jamais voir une étiquette (aucune supervision directe) spécifique pour un concept unique. L’algorithme de DeepMind peut catégoriser correctement un clip audio dans près de 80% du temps. Par conséquent, cela rend la reconnaissance audio-image plus performante que de nombreux algorithmes formés sur les données étiquetées.

De tels résultats prometteurs suggèrent que des algorithmes similaires pourraient être en mesure d’apprendre quelque chose en visionnant d’énormes jeux de données non étiquetés comme les millions de vidéos en ligne de YouTube.
Nous en saurons plus sur les objectifs de DeepMind qui présentera cette étude à la Conférence internationale sur la vision informatique qui aura lieu à Venise, en Italie, fin octobre.

Source.