Des chercheurs de l’Université du Zhejiang et du Stevens Institute of Technology, en collaboration avec le géant chinois Alibaba, ont mis au point une nouvelle méthode d’intelligence artificielle baptisée LIBS, pour Lip by Speech. Ce système d’IA est capable de lire sur les lèvres avec une précision incroyable.

LIBS l’IA la plus précise du marché

De nombreuses entreprises essayent depuis des années de mettre au point une IA suffisamment pointue pour pouvoir lire sur les lèvres. Même Google s’est cassé les dents sur le sujet. En quête d’un système hyper performant, les chercheurs d’Alibaba ont développé LIBS. Ils affirment que c’est actuellement l’intelligence artificielle la plus précise dans le domaine. Son taux d’erreur n’est que de 2,75%.

Une IA capable de lire sur les lèvres.

Crédit : Alibaba

Une telle intelligence artificielle serait d’une grande aide pour les personnes sourdes ou malentendantes. Grâce à LIBS, elles pourraient suivre sans aucun soucis les vidéos qui n’ont pas de sous-titres. À travers le monde ce sont 466 millions de personnes qui souffrent de troubles auditifs (5% de la population mondiale). Ce nombre pourrait bien doubler d’ici 2050, d’après l’OMS.

Le système d’IA d’Alibaba est basé sur une architecture de séquence à séquence qui prend en compte l’attention. Concrètement, il s’agit d’une méthode de traduction automatique qui associe une entrée d’une séquence (audio ou vidéo) à une sortie (la traduction). L’intelligence artificielle s’est formée grâce à une base de données gigantesques fournies par la BBC (45 000 phrases), ainsi que sur le CMLR, le plus grand corpus de lecture chinois, qui contient plus de 100 000 phrases directement extraites de la télévision chinoise.

De plus en plus d’IA favorisent l’inclusion sociale

Cette intelligence artificielle fait partie de la nouvelle vague des IA dédiées à améliorer la vie de certaines personnes en situation de handicap. Dans le même registre, on pense forcément à Seeing AI, le système de Microsoft qui permet aux aveugles et aux personnes malvoyantes d’avoir un feedback audio de ce qu’il se passe autour d’eux.

Concrètement, Seeing AI permet permet aux aveugles de “voir” des photos ou de lire des textes. On pense aussi à Live Transcribe, une IA de Google qui transmet en direct sur le smartphone les paroles des interlocuteurs. De cette façon, les personnes malentendantes ou sourdes peuvent lire directement et répondre dans l’instant. La conversation peut donc se faire naturellement dans les deux sens.

Google fait partie des acteurs majeurs qui tentent de favoriser l’inclusion sociale grâce à l’intelligence artificielle. Avec DeepMind, l’entreprise tente de combattre certaines maladies, ou d’assister les personnes en situation de handicap. En janvier, Google présentait un système de prévention contre les lésions rénales aiguës. Ce mastodonte est convaincu qu’il est possible d’utiliser la technologie actuelle pour améliorer la vie de chacun.