Cette nouvelle intelligence artificielle dévoilée par Microsoft semble parfaitement adaptée pour aider les personnes malvoyantes. La technologie en question est capable de décrire avec précision le contenu des images, de manière au moins aussi précise que les humains le font, selon Microsoft.

Une IA capable de décrire des images avec une grande précision

Google a déjà proposé en 2016 une technologie similaire, mais cette fois-ci les équipes de Microsoft affirment qu’elles sont allées encore plus loin. Selon l’entreprise, ses chercheurs en intelligence artificielle ont mis au point un système d’intelligence artificielle « encore plus précis que celui des humains », c’est dire. Un modèle capable de décrire avec une précision déconcertante des images. Une technologie particulièrement intéressante pour les personnes malvoyantes ou aveugles. Microsoft propose d’ores et déjà sa technologie au sein des services d’Azure. Cela signifie que tous les développeurs peuvent l’intégrer dans leurs applications.

La technologie est également disponible dans Seeing AI, l’application de Microsoft destinée aux personnes aveugles et malvoyantes, disponibles en cinq langues différentes depuis quelques mois. Cette intelligence artificielle permet aux aveugles de « mieux voir » afin de favoriser l’inclusion sociale, partout à travers le monde. Comme l’explique Microsoft, le fait de légender des images est l’un des problèmes les plus difficiles à résoudre pour l’IA. Cette nouvelle intelligence artificielle y répond parfaitement.

Un apprentissage spécifique par mots clés

Eric Boyd, vice-président chez Azure AI, estime que : « cela nécessite non seulement la compréhension des objets dans une scène, mais aussi la façon dont ils interagissent, et comment les décrire… Notre intelligence artificielle permet de trouver plus facilement les images que vous recherchez dans les moteurs de recherche. Et pour les utilisateurs malvoyants, cela peut améliorer considérablement la navigation sur le web et les logiciels« .

Xuedong Huang, directeur technique chez Azure AI, a insisté pour intégrer rapidement cette technologie sur la plateforme Azure pour qu’elle puisse rapidement servir aux utilisateurs. L’algorithme de cette intelligence artificielle a été formé grâce à un modèle d’images étiquetées avec des mots clés spécifiques. Cela a contribué à lui donner des capacités plus importantes, que la plupart des autres modèles d’intelligence artificielle n’ont pas. Les modèles similaires sont généralement formés avec des images et des légendes complètes, ce qui empêche aux modèles de bien comprendre l’environnement de l’image.

Xuedong Huang précise que : « cette préformation au vocabulaire visuel est une étape nécessaire pour éduquer et former le système. Nous essayons d’apprendre à notre intelligence artificielle à apprendre par elle-même ». C’est évidemment ce qui donne à ce nouveau modèle une longueur d’avance sur les autres solutions du marché. L’intelligence artificielle est aujourd’hui capable de légender des images qu’elle n’a jamais vues auparavant. Désormais le véritable test pour le modèle de Microsoft sera la façon dont il fonctionne dans le monde réel.