Avec le développement des assistants personnels, nous sommes de plus en plus souvent amenés à « discuter » avec des intelligences artificielles, dotées de voix, souvent robotiques. Avec l’IA FastSpeech, Microsoft a l’ambition de créer une voix artificielle que n’importe qui pourrait confondre avec celle d’un humain.

Une génération vocale 38 fois plus rapide que la moyenne

L’ensemble des voix artificielles existantes utilisent la même méthode de fonctionnement : la représentation de la puissance d’un son. Concrètement, à partir d’un texte, l’intelligence artificielle synthétise la parole en utilisant un vocodeur (contraction de voice coder). Cette méthode est efficace mais loin d’être parfaite. En effet, elle présente un défaut majeur, à savoir une inférence lente et des mots sautés et répétés. Ce n’est pas toujours fluide, vous l’aurez remarqué.

En collaboration avec des chercheurs de l’Université de Zhejiang, Microsoft a mis au point une intelligence artificielle qui devrait permettre d’humaniser la voix des assistants personnels. Présentée à l’occasion de NeurIPS 2019 à Vancouver, une conférence annuelle sur l’intelligence artificielle, FastSpeech semble disposer d’une architecture unique qui permet d’améliorer les performances de synthèse vocale. Vous pouvez d’ores et déjà tester FastSpeech.

Microsoft lance FastSpeech.

D’après les chercheurs, sa génération vocale est 38 fois plus rapide que celle des IA existantes. FastSpeech est capable d’éliminer les erreurs comme le saut de mots et permet un ajustement idéal de la vitesse de diction. Grâce à un système de régulateur de longueur, Microsoft a su améliorer la dictée de son intelligence artificielle. FastSpeech a su adapter le ton et parfaitement ajuster la vitesse de la voix pour coller le plus possible à celle d’un humain.

Les géants de la tech s’intéressent de près à la voix

Cette innovation n’est pas sans nous rappeler celle de Google avec les prouesses réalisées dans la création de Duplex. L’assistant vocal de la firme californienne reprend les codes des humains à savoir l’attente, mais aussi les “ummm”, “euuhh”  et autres petits signes vocaux qui nous sont propres. Certains experts estiment qu’il est même difficile de faire la différence entre la voix de Duplex et celle d’un humain.

Tous les géants technologiques semblent s’intéresser de près à la voix. En effet, Facebook est aussi sur le coup. Le géant des réseaux sociaux annonçait récemment avoir créé une intelligence artificielle capable de copier la voix de n’importe qui. MelNet, c’est son nom, est un nouveau synthétiseur vocal capable de copier la voix de n’importe qui au monde. Ce petit bijou technologique est le fruit des équipes de recherche de la division IA de Facebook. Une machine qui ouvre également le spectre d’une nouvelle ère des contenus audio.