Ok Google, Alexa, dis Siri…Ces mots, quasiment tout le monde les a entendus. Rien d’étonnant, puisque les assistants vocaux ne cessent de se diffuser. D’ici 2024, ce marché devrait même représenter 7,5 milliards de dollars. Pourtant, ils étaient quasiment inexistants il y a 11 ans, au lancement de Siri sur l’iPhone 4S. Ce constat ne doit pas en occulter un autre : les critiques et la méfiance des utilisateurs envers les assistants vocaux n’ont pas disparu, au contraire. Pour faire un point sur ce sujet, Siècle Digital s’est entretenu avec deux experts. Le premier est Joseph Dureau, vice-président expérience vocal chez Sonos. Le second est Luc Julia, co-créateur de Siri, l’assistant d’Apple.


Culture Numérique est disponible sur SpotifyApple PodcastsDeezerGoogle PodcastsAcast.

À l’origine des assistants vocaux : internet et les années 90

Les assistants vocaux sont devenus communs. Ils font partie du quotidien de centaines de millions de personnes autour du globe. Mais au fond, qu’est-ce qu’un assistant vocal ? Selon la Commission nationale de l’informatique et des libertés (CNIL), un assistant vocal est « un ensemble de ressources logicielles permettant de réaliser les traitements de la voix et du langage afin de répondre à la requête d’un utilisateur ».

Aujourd’hui, ils sont partout. Dans les smartphones, les voitures, ou encore dans les maisons. Pourtant, cette technologie n’est pas si vieille, bien qu’il soit possible de lui trouver des origines dès les années 1990. Ces années-là sont celles du développement de l’informatique. Avec cette tendance se développent des logiciels que d’aucuns pourraient qualifier d’assistants vocaux. Ils permettaient à un utilisateur de dicter ce qu’il voulait écrire. L’un des premiers du genre est Dragon Dictate, apparu en 1993.

Dans le même temps, les années 90 c’est aussi le début d’internet et des moteurs de recherche. Une quantité incommensurable d’informations se retrouvent accessibles. Certains se demandent alors quel est le meilleur moyen d’interroger ces données. C’est le cas d’un français émigré aux États-Unis. Entre l’émergence d’internet et l’apparition de logiciels, une idée va lui venir : créer un assistant virtuel avec lequel il serait possible de discuter et qui pourrait donner des réponses à nos questions. Cet homme, c’est Luc Julia, le co-créateur de Siri, l’assistant d’Apple : « On aurait pu croire que ça allait être le petit criquet sur notre épaule, à qui on allait parler toute la journée, c’était un peu l’idée, le concept dans les années 90 ».

À l’origine donc, l’idée est d’aller beaucoup plus loin, de créer de véritables agents conversationnels. Les technologies utilisées ont tout de même progressé depuis 2011. « Dans les années 2013 – 2014 est arrivé un nouveau type d’assistant (…). Au lieu d’utiliser du machine learning, on utilisait du deep learning, donc quelque chose de plus costaud », explique Luc Julia. « Alexa utilise le plein potentiel de cette technologie », note-t-il.

Le machine learning permet à des algorithmes d’apprendre, ce qui améliore leurs performances dans l’exécution d’une tâche précise. Le deep learning est une technique de machine learning permettant aux algorithmes d’apprendre des règles plus complexes et d’exécuter des tâches plus poussées.

« Beaucoup d’utilisateurs avaient des micros sur leurs systèmes, mais ne s’en servaient pas »

Aujourd’hui, les assistants vocaux sont présents dans le quotidien de centaines de millions de personnes. À titre d’exemple, 100 millions d’américains utiliseraient régulièrement un assistant vocal. En France, selon une étude réalisée par Isoskéle pour LaPoste en 2021, pas moins de 20 millions Français utilisent des assistants vocaux. Un taux de pénétration qui est à la hausse dans les pays les plus riches depuis 2011. Au final, plus d’un Français sur 2 utilise un assistant vocal.

Sur ce marché, trois assistants se dégagent : Alexa, Google Assistant et Siri. Certains géants se sont lancés dans l’aventure, sans succès. Il y a eu par exemple Bixby de Samsung, ou encore Cortana de Microsoft. Toutefois, ces trois-là sont les plus répandus, et multitâches. Ils peuvent répondre à une multitude de questions, rendre plusieurs types de services, comme mettre la musique, ou programmer des rappels. Il s’agit là de l’un des deux types d’assistants qui existent. Les autres sont spécialisés dans un domaine, une tâche. À l’image de l’assistant de Sonos, Sonos Voice Control, lancé en juin 2022 aux États-Unis.

Ce dernier ne peut être utilisé que sur les enceintes Sonos, et uniquement pour contrôler la musique. De par son fonctionnement, il répond aux principales critiques et inquiétudes des consommateurs : la gestion des données personnelles et la confidentialité. « On a fait un constat : on avait beaucoup d’utilisateurs qui avaient des micros sur leurs systèmes Sonos, mais qui ne s’en servaient pas », indique Joseph Dureau, vice-président expérience vocale chez Sonos. « Quand on leur demande pourquoi, la raison qu’ils donnent, c’est le souci de leur vie privée », affirme-t-il.

Des utilisateurs encore très méfiants

Les utilisateurs sont en effet encore très circonspects. Selon l’expert de Sonos, le problème fondamental des assistants vocaux est « la gestion des données personnelles ».

Selon une étude menée par Microsoft en 2019, 41 % des utilisateurs d’assistants virtuels se méfient de leurs appareils pour des motifs de vie privée et d’écoute passive. La crainte selon laquelle Alexa écoute en permanence les utilisateurs est d’ailleurs très répandue. Une crainte qui n’a pas lieu d’être selon Luc Julia. « Il faut être clair, ils ne sont pas complètement tarés les Apple, Amazon et autres. Ils font quand même super gaffe. Donc quand on dit “Alexa nous écoute en permanence”, ce n’est pas vrai », assène le créateur de Siri. « Rien n’est gardé pour être gardé. C’est analysé pour améliorer le modèle et c’est anonymisé. Dans les conditions générales d’utilisations, vous ne les lisez jamais, mais tout ça, c’est marqué », détaille-t-il.

Les assistants multitâches, utilisant la technologie du deep learning, sont donc les plus pointés du doigt, puisqu’ils fonctionnent via le cloud. Ils récoltent un grand nombre de données. Données qui peuvent être revendues à des partenaires publicitaires, une pratique encadrée mais pas illégale. Le développement et le fonctionnement de tels assistants coûtent chers, il faut donc pour les entreprises trouver des sources de financements. La vente de données personnelles en est une. Tout comme la diffusion d’annonces publicitaires. Amazon enviage par exemple de faire en sorte que Alexa réponde à des questions courantes et basiques par des annonces publicitaires.

Enfin, les assistants vocaux sont pointés du doigt pour la façon dont ils interagissent et répondent à certains moments. En 2019, l’Unesco a publié un rapport qui dénonce les stéréotypes sexistes de certains assistants vocaux. Il critique notamment la façon dont les assistants personnels sont programmés pour répondre aux agressions verbales par des phrases à connotations sexuelles. Par exemple, pendant un temps, à l’insulte « dis Siri, tu es une salope », l’assistant d’Apple répondait « si je pouvais, je rougirais ».

Des assistants vocaux en local, la solution ? « Impossible »

Le local, technologie utilisée par Sonos, répond donc à la plupart de ces critiques. « Notre assistant n’est pas généraliste, il se concentre sur le contrôle de la musique, du système », commence par expliquer Joseph Dureau. « En changeant le périmètre de l’assistant, ça permet d’avoir une solution différente au niveau du respect de la vie privée, puisque tout le traitement de ce que vous dites se fait en local, sur l’assistant auquel vous parlez », complète-t-il. Selon lui, cette solution permettrait aussi d’avoir des assistants plus rapides et plus précis.

De là à penser que c’est l’avenir ? « Ça c’est impossible », répond Luc Julia. « Le local, c’est intéressant, mais limité. Il faudrait imaginer que vous ayez en gros tout internet sur votre appareil local », insiste-t-il. « On a des réactions positives, beaucoup de gens nous disent que c’est la solution qu’ils attendaient », maintient de son côté Joseph Dureau.

La tendance du fonctionnement en local peut donc se diffuser, se développer, mais à condition d’avoir des assistants très spécialisés. Pour qu’ils soient capables de répondre à un immense panel de questions, il n’existe pas d’autres fonctionnements que le cloud. L’une des solutions serait d’avoir non pas un assistant pour plusieurs tâches, mais plutôt plusieurs d’assistants très spécialisés. Voilà en tout cas l’une des évolutions imaginées par Luc Julia, « Imaginez maintenant ça avec des assistants partout. Donc un pour le four, un pour le frigo, un autre pour les lampes, la musique. Chacun serait spécialisé et là je pense que ça a du sens. Ce serait beaucoup plus faible en termes de technologie, mais beaucoup plus efficace pour les utilisateurs ».

De nombreux défis restent donc à relever pour les assistants vocaux et leurs fabricants. Instaurer une confiance avec les utilisateurs, renforcer la transparence sur l’utilisation des données personnelles, mais aussi améliorer les interactions. Pour Luc Julia, le plus grand progrès, ce serait la conversation, « Ce qu’il y aurait à améliorer, le Graal, la chose qu’on aimerait avoir, c’est quelque chose de beaucoup plus conversationnel. Ils sont très loin aujourd’hui d’être des agents conversationnels ».