Il y a quelques semaines, l’agence de presse chinoise Xinhua, présentait une IA, sous forme d’humain capable de présenter le JT. Une annonce quelque peu révolutionnaire, qui peut cependant paraître effrayante. Et si à la place de mettre un corps sur cette technologie, on passait par les assistants vocaux ? Amazon a en effet présenté via un article de blog, un système d’intelligence artificielle qui permettrait à différents services d’adopter différents styles de conversation.

En travaillant sur la technologie dite de « Neural Text-to-Speech  » ou NTTS, l’intelligence artificielle peut ainsi générer de manière plus rapide des voix expressives. Cette technologie devrait également remplacer celle utilisée depuis plusieurs années maintenant, la synthèse vocale concaténative.
Côté fonctionnement, elle est basée sur un réseau de neurones qui « convertit une séquence de phonèmes en une séquence de spectrogrammes » et un vocodeur qui transforme ces spectogrammes en un signal audio continu. »
Ci-dessous vous pouvez découvrir les différents tests réalisés en fonction de la technologie utilisée :

Synthèse Vocale Concaténative

NTTS avec un style neutre standard

NTTS avec un style présentateur

La voix de type présentateur a été créée grâce à l’enregistrement de plusieurs audios basés sur des chaînes d’actualités. À cela s’ajoute l’identification grâce au machine learning des tendances de lecture du présentateur. Alexa n’a mis que quelques heures a se former à toutes ces données.

De plus, Trevor Wood, employé chez Amazon et qui travaille sur le projet ajoute que les utilisateurs auraient préféré la voix générée avec NTTS à celle utilisant la méthode traditionnelle (concaténative). Il explique « pour les utilisateurs, la parole synthétique produite par les réseaux de neurones semble beaucoup plus naturelle que la parole issue de méthodes concaténatives, qui rassemblent des extraits de parole courts stockés dans une base de données audioGrâce à la flexibilité accrue offerte par [notre système], nous pouvons facilement varier le style de parole d’un discours synthétisé. »
Sur le graphique ci-dessus on voit bien que la majorité des utilisateurs préfèrent l’audio d’un véritable présentateur télé, mais le second choix est celui du NTTS avec un style de présentateur.

Alexa vous donnera bientôt les actualités du jour avec une voix de présentateur télé

Crédits : Amazon

Ce nouveau style de voix devrait être disponible sur Alexa dans les prochaines semaines. On imagine également que ce n’est qu’un début pour l’entreprise qui devrait probablement en présenter de nouveaux par la suite ! Amazon a d’ailleurs récemment dévoilé un mode lui permettant de répondre en chuchotant.