Google avec son projet Translatotron contribue au développement de la traduction texte-parole. Des chercheurs de Microsoft creusent également de ce côté en concevant une IA encore plus efficace, capable de générer un discours réaliste à partir de 200 échantillons de voix.

Le système est en partie basé sur des réseaux neuronaux profonds qui imitent grossièrement les neurones humains. Ces réseaux évaluent chaque entrée et chaque sortie à la volée comme des liens synaptique. Comme pour Translatotron, les résultats ne sont pas parfaits, avec notamment un léger son robotique. Cependant, l’IA de Microsoft reste très précise avec une compréhension des mots de 99,84 %. Ce projet pourrait permettre de rendre la synthèse vocale plus accessible à l’avenir. Que ce soit pour les PME, ou les particuliers, les chercheurs espèrent se former sur des données non appariées, de sorte qu’il y ait moins de travail pour créer un dialogue réaliste.

Ces réseaux neuronaux utilisés sont basés sur un nouveau type d’architecture neuronale, Transformer, créé en 2017 par des scientifiques de Google Brain. Microsoft a incorporé un composant de Transformer dans la conception de son intelligence artificielle pouvant prendre en charge la parole ou le texte. Pour l’entrainer, l’équipe de scientifiques a utilisé la base de données LJ Speech qui donne accès librement à 13 100 extraits audio. Pour ce projet, Microsoft a commencé par en utiliser 200.

Ce type de projets devrait contribuer au développement d’autres services, comme Google Duplex. Ce dernier est capable de tenir une conversation téléphonique, toutefois, un article du New York Times révèle que l’IA ne parle pas tout le temps, parfois l’humain doit reprendre la main.