Depuis la création de Siri, Apple se défait peu à peu des nombreuses critiques et blagues portant sur l’assistant personnel. En effet, à ses débuts Siri a été source de blagues sur le web, le phénomène était même répandu dans les séries TV. Et à chaque fois qu’il était mis en scène, l’assistant était incapable de satisfaire l’utilisateur, apportant toujours une réponse à côté de la plaque. Depuis, les ingénieurs d’Apple ont grandement amélioré leur technologie, à l’exemple de ce déport de brevet Apple qui sous entend que Siri sera capable de reconnaître les différentes voix dans le futur (ce que fait d’ailleurs déjà Google Home…). Pour ce qui est de la voix, c’est le sujet sensible pour tout les ingénieurs travaillant sur des assistants intelligents car il est très difficile de reproduire la prosodie humaine et de laisser de côte une voix plus robotique. Apple a récemment mis en ligne un document de recherche qui montre comment Siri a progressé grâce à l’utilisation du deep learning.

La difficulté des ingénieurs tient dans le fait que la voix humaine repose sur la prosodie, soit le ton, l’intonation… Tout ce que l’on choisit de mettre en avant en fonction d’un contexte et d’un contenu. Et cela, c’est difficile de le transmettre à une machine.

Pour répondre à ce problème, les internautes ont utilisé le deep learning afin de fluidifier la voix. L’on peut supposer que Apple tente de répondre à la théorie de la « vallée dérangeante », théorie selon laquelle plus un robot ressemble à un être humain, plus ses imperfections nous sont perceptibles et non appréciées. Selon cette théorie, les observateurs seraient plus à l’aise face à un robot qui ressemble clairement à un robot, que face à l’imitation physique d’un être humain. Si cette théorie s’applique aussi à la voix, l’on peut supposer qu’à long terme, Apple veut que la voix de Siri soit presque imperceptiblement différenciante de celle de l’être humain.

Siri sur iPhone

Chaque réponse donnée par Siri correspond à des segments de mots et de phrases mis à la suite, et c’est justement cela qui nuit à la fluidité de la machine. C’est là que le deep learning intervient. Pour iOS 11, les ingénieurs ont travaillé avec la voix d’une actrice de doublage afin d’enregistrer 20h de discours (en anglais) et de générer entre 1 à 2 millions de segments audio, qui ont par la suite été utilisés pour entrainer le système. Et effectivement, les résultats d’Apple montrent que la voix de Siri sur iOS 11 est beaucoup moins robotique que sur iOS 9, qui date de 2015. Il est possible d’entendre la différence à la fin du papier d’Apple.

Business Insider explique aussi que l’équipe choisit ses doubleurs en fonction de la personnalité de Siri, et bien qu’il soit difficile de décrire ce personnage, chacun est capable de s’en faire une idée et de lui imaginer un physique. Comme quoi Apple a déjà réussi une partie du job.

Source : The Next Web