Quasiment inexistants il y a 11 ans, au lancement de Siri sur l’iPhone 4S, les assistants vocaux sont aujourd’hui présents dans le quotidien de millions de personnes. Il y en a dans les maisons, les smartphones, les voitures, les enceintes. La plupart, à l’image de Google Assistant, sont multitâches. Ils sont capables de répondre à une multitude de questions, sur un très grand nombre de sujets. Un fonctionnement rendu possible grâce notamment au cloud, par lequel transitent les données.

Cette utilisation du cloud suscite beaucoup de défiance de la part des utilisateurs. Des utilisateurs qui craignent une mauvaise utilisation de leurs données, ou encore un manque de confidentialité. Devant ce constat, certaines entreprises innovent et se lancent sur ce marché avec de nouvelles propositions. Sonos, marque spécialisée dans l’audio, a lancé en juin 2022 son propre assistant, baptisé Sonos Voice Control. Un assistant différend des leaders du marché, puisqu’il fonctionne en local, sans cloud donc. De quoi rassurer les utilisateurs ? Est-ce l’avenir des assistants vocaux ? Siècle Digital a posé ces questions à Joseph Dureau, vice-président expérience vocale chez Sonos.

Écouter les autres épisodes de Culture Numérique.

Siècle Digital : Avant que nous commencions à parler de l’assistant vocal de Sonos et des assistants vocaux en général, parlons de Sonos. La plupart des lecteurs vont connaître Sonos. Ce n’est pas n’importe quelle entreprise, c’est un peu un mastodonte dans le milieu de l’audio. Quelle est sa place aujourd’hui sur le marché par rapport à ses concurrents directs ? Est-ce que c’est l’un des leaders du marché actuellement ?

Joseph Dureau : Oui, c’est un leader du marché. C’est identifié comme étant une des marques les plus fortes dans l’audio pour la maison. C’est identifié comme une marque qui innove. C’est une marque qui a été créée il y a 20 ans à Santa Barbara aux États-Unis et qui aujourd’hui a toute une gamme de produits qui permet de mettre du son très facilement partout chez soi. C’est une boîte qui a particulièrement innové dans le domaine du multiroom. C’est la boîte qui a inventé ça d’ailleurs, et qui a des solutions pour toutes les pièces, et notamment de plus en plus de produits autour du Home theater, de l’expérience télé.

SD : Est-ce que la pandémie a été profitable à Sonos, comme ça a pu être le cas pour d’autres marques ? Pendant la pandémie, beaucoup de consommateurs ont acheté plus de produits électroniques et peut-être qu’ils ont acheté justement de quoi équiper leur maison ?

JD : Oui, nous avons vu qu’il y avait un appétit pour ce genre de produit pendant la pandémie puisque les gens étaient chez eux, et ont mis ce temps à profit pour penser à ce qui pourrait rendre leur expérience chez eux meilleure. C’est dur de découpler ce qui est des produits que nous sortons et ce qui découle de la situation. C’est aussi un moment où il y a des produits comme Arc qui sont sortis et qui est notre barre de son haut de gamme. Nous voyons qu’effectivement, il y a eu une résonance très forte, et c’est un produit qui a très bien marché.

SD : Toujours concernant cette période, est-ce qu’elle a entraîné de grands changements de paradigme à Sonos ? Est-ce que vous vous êtes dit : « Il faut investir dans tel secteur, nous ne l’avons pas encore fait ? ». Peut-être que c’est cette période qui vous a réellement décidés à vous lancer dans le monde des assistants vocaux ?

JD : Non, ça a plutôt confirmé la force de la marque, l’importance de la musique chez les gens, et notamment la valeur et le bien-être que ça peut apporter aux gens. Donc c’était vraiment une confirmation. Sur les assistants vocaux en particulier, ce n’est pas un sujet qui est nouveau pour Sonos. La première intégration de Sonos avec un assistant vocal, c’était en 2017 avec Alexa à l’époque, donc ça date déjà de plus de cinq ans. La collaboration avec nous, nous avons rejoint Sonos en 2019 dans le cadre de l’acquisition d’une startup, donc c’était pré-pandémie. Cet effort-là, il pré-date vraiment de la pandémie.

SD : Est-ce que ça a quand même changé quelque chose ? Peut-être que des utilisateurs vous ont dit : « Vous n’avez pas votre assistant vocal ? C’est dommage ». La pandémie n’a rien changé par rapport au développement de l’assistant vocal ?

JD : C’est des efforts de long terme. Ce sont des technologies qui sont complexes et qui demandent des développements longs. La conviction était là, déjà fortement ancrée, qu’il y avait une valeur dans la voix en 2017, quand Sonos s’est lancé là-dedans et il y avait de bonnes raisons de développer notre propre solution vocale. C’était une décision qui a été prise en amont de l’acquisition de notre équipe en 2019.

SD : Justement, en parlant des raisons, pourquoi créer encore un assistant vocal ? Là d’accord, c’est l’assistant vocal de Sonos, made in Sonos, mais il y a quand même plein d’assistants vocaux qui existent déjà. Il y a celui d’Amazon, Alexa. Il y a aussi celui de Google. Il y en a toute une foison maintenant. Pourquoi en créer un nouveau ?

JD : Effectivement, il y a différentes solutions de contrôle vocal. Une des raisons qui a amené Sonos à développer sa propre solution de contrôle vocal, c’était d’une part, le constat que l’utilisation de la voix apportait de la valeur aux utilisateurs. Sur le principe, nous nous sommes dit que ça rend encore plus facile, encore plus direct, l’accès à la musique. Encore plus facile, le contrôle de son système, on n’a même pas besoin de sortir son téléphone. Donc il y a de la valeur là. Il y avait une intuition pour la valeur de la voix. En ayant investi dessus, nous nous sommes rendu compte au travers des chiffres que c’était confirmé.

Un utilisateur, quand il se met à utiliser la voix, il est plus satisfait de son système et il écoute plus de contenus. Ça confirme qu’effectivement cette facilité d’accès se reflète dans les chiffres et dans la satisfaction des utilisateurs. La valeur de la voix, elle, était claire. Mais par contre, nous avons fait un constat qui était très clair aussi : c’est que nous avions beaucoup d’utilisateurs qui avaient des micros sur leur système Sonos et qui ne s’en servaient pas, qui faisaient le choix de ne pas activer un assistant vocal sur leurs enceintes. Et quand nous leur demandions pourquoi, la réponse numéro une, c’est le souci de leur vie privée. Cette réponse-là, elle est uniforme. On pourrait se dire que c’est spécialement un souci d’européen. Mais non, cette réponse, elle est la même, qu’on regarde la France, l’Allemagne, le Japon ou les États-Unis. Dans tous les cas, il y a une fraction importante, et à peu près équivalente, de gens qui refusent d’utiliser la voix pour cette raison-là.

Donc Sonos s’est dit : « les gens aiment la voix, la voix, c’est une solution simple de contrôle de la musique. Mais il y a ce problème de respect de la vie privée ». Donc, nous allons voir si nous ne pouvons pas trouver une solution qui permet de répondre à tous ces paramètres-là. Cette solution-là, c’est celle que nous avons développée.

SD : Qu’est-ce qu’elle a de différent, de nouveau, cette solution ?

JD : Elle est très différente. Une des grandes différences, c’est que ce n’est pas un assistant généraliste. C’est un assistant qui se concentre sur l’expérience Sonos, donc contrôle de votre musique, contrôle de votre système Sonos. En changeant le périmètre de l’assistant, ça permet de changer les paramètres, les contraintes que nous avons à gérer. Ça nous permet d’avoir une solution qui est très différente au niveau du respect de la vie privée, puisque tout le traitement, toute l’interprétation de ce que vous dites, va se faire en local sur l’assistant auquel vous parlez. Donc une proposition de valeur qui est très simple à ce niveau-là. Il n’y a aucune voix, aucune retranscription, rien qui ne quitte votre foyer. Vous pouvez activer Sonos Voice Control, et l’incidence sur vos données personnelles et sur vos vies privées est nulle. C’est la même chose que si vous utilisez votre téléphone.

La différenciation est très claire. Quand nous nous concentrons et que nous faisons les choses de manière simple, ça permet de mettre plus d’attention sur tous les petits détails. Donc se concentrer sur l’expérience musicale, le contrôle de la musique et par ailleurs, un aspect hyper fort : les données personnelles.

SD : Donc, pas de cloud.

JD : Pas de cloud. La musique vient du cloud. Vous voulez jouer les Beatles, il va bien falloir aller demander à votre service de musique, typiquement Apple Music, de les jouer. Mais ce qui quitte votre foyer quand vous utilisez Sonos Voice Control, c’est la même chose que ce qui quitterait votre foyer si vous lanciez les Beatles depuis une application. C’est du texte qui dit : « Beatles » à Apple Music, et eux, ils prennent le relais, ils lancent la musique. Mais l’interprétation, elle se fait chez vous. Il n’y a pas d’audio, pas de voix, pas de retranscription de ce que vous dites, qui quitte votre foyer. La raison principale, et ce qui nous a motivés à faire tous les efforts pour rendre ça possible, c’était le respect des données personnelles, mais ça a plein de valeurs ajoutées.

Le fait de faire le traitement local, ça permet déjà d’avoir des réactions qui sont beaucoup plus rapides puisque dans un certain nombre de cas, il n’y a pas besoin de faire un aller-retour vers le cloud. On veut contrôler le volume, passer à la chanson suivante, stopper la musique. La réactivité va être beaucoup plus forte puisqu’il n’y a pas cet aller-retour vers le cloud. Par ailleurs, ça permet aussi d’augmenter la précision de la solution. Ça peut sembler contrintuitif, puisqu’en local, on a moins de puissance de calcul. Mais le fait d’avoir un moteur de reconnaissance vocale sur chacune des enceintes, ça permet de l’adapter au contexte et notamment de l’adapter au foyer dans lequel elle tourne. Nous allons adapter le vocabulaire du moteur de reconnaissance vocale aux goûts de l’utilisateur. Donc en local, le moteur de reconnaissance vocale va connaître vos playlists, les noms de vos playlists, le nom de vos artistes préférés, quelle que soit la popularité des choses que vous écoutez.

Ça, ça va permettre une robustesse et une précision de la compréhension vocale qui va être plus forte. Et ça, encore une fois, c’est un bienfait qui vient du fait que le traitement soit fait en embarqué, puisque sinon dans le cloud, on en a plus fortement tendance ou envie d’avoir le même modèle qui sert tous les utilisateurs.

SD : Est-ce qu’on peut dire que vos concurrents en termes d’assistant vocal, c’est Google et Amazon ?

JD : Nous ne les voyons pas vraiment comme des concurrents. Nous nous positionnons vraiment comme étant une solution alternative. Nous ne cherchons pas à répondre à toutes les questions. En anglais, on dit : « ask anything ». En français, on pourrait dire : « réponse à tout ». Ce n’est pas ça, notre but. Nous sommes vraiment une interface vocale pour Sonos. Nous ne sommes pas vraiment un assistant vocal. Donc nous sommes vraiment complémentaires. Nous sommes tellement complémentaires que nous offrons un maximum de choix à nos utilisateurs, dont celui d’avoir plusieurs assistants en parallèle. Nous pouvons très facilement avoir par exemple Alexa et Sonos Voice Control qui tournent sur la même enceinte. Dans ce cas-là, on peut utiliser l’un pour contrôler la musique, et l’autre pour demander la météo ou les horaires de train.

SD : Alors ce ne sont pas des concurrents directs, ou du moins, ce n’est pas comme ça que vous les voyez. Mais est-ce qu’on peut dire aussi que Sonos Voice Control est peut-être pionnier dans ce milieu de par la gestion des données ?

JD : Ce qu’on peut dire, c’est que le positionnement sur les données personnelles, il est simple et unique. Le traitement vocal, nous sommes pionniers sur le sujet. Par ailleurs, ce qui est très caractéristique de notre solution, c’est que, d’une part, le traitement, quand vous allez demander quelque chose à votre enceinte, il se fait sur l’enceinte directement. Mais par ailleurs, nous n’allons pas collecter les données des utilisateurs, dans un second temps, pour entraîner nos modèles. Nous n’entrainons pas nos modèles sur les données utilisateurs. C’est une proposition qui est très claire et très simple et qui distingue complètement notre proposition de valeur. Il n’y a pas l’option pour nos utilisateurs de nous donner leurs données. Nous n’en voulons pas, on appelle ça de la Privacy By Design dans le bon jargon législatif européen. Nous n’avons pas besoin des données utilisateurs pour faire notre métier. Ça, effectivement, c’est assez unique.

SD : Est-ce que vous avez déjà des premiers retours des utilisateurs par rapport à cette solution Sonos Voice Control et au fait que les données sont traitées localement ?

JD : Oui, nous avons sorti Sonos Voice Control pour le marché américain le 1ᵉʳ juin, donc ça fait quelques mois. Nous avons des réactions très positives : le fait que ce soit extrêmement simple. Nous avons beaucoup de gens qui nous disent : « ça, c’est la solution que j’attendais. Jusque-là, je n’avais pas forcément confiance. Je n’étais pas suffisamment à l’aise pour activer un assistant vocal chez moi, et je me mets à adopter Sonos Voice Control ». Ça, c’est un retour qualitatif, c’est les gens qui nous disent ça, et ça se confirme par les chiffres. C’était vraiment une ambition que nous avions.

Comme je vous l’ai dit au début, nous voyons beaucoup de gens qui ont des micros chez eux, qui pourraient utiliser la voix sur leur système Sonos, mais qui font le choix de ne pas le faire. Mais notre but avec Sonos Voice Control, c’était d’amener des nouvelles personnes à la voix, notamment ces gens réfractaires qui avaient des réticences à ce niveau-là. Et ça, nous le voyons aujourd’hui dans les utilisateurs Sonos Voice Control. Nous avons 40 % qui sont des gens, donc une fraction importante, qui n’utilisaient pas la voix, qui avaient fait le choix de ne pas utiliser d’autres assistants vocaux.

SD : Oui, 40 % ce n’est pas rien. Petite parenthèse, mais apparemment, la voix de l’assistant Sonos est celle de l’acteur Giancarlo Esposito. Est-ce que c’est vrai ?

JD : C’est vrai, c’est complètement vrai.

SD : Pour ceux, peut-être, qui ne sauraient pas qui est Giancarlo Esposito, c’est l’acteur qui joue notamment Gus Fring dans la série mythique Breaking Bad. Donc, c’est bien sa voix aux États-Unis, et c’est la voix de son doubleur français pour la France ?

JD : En France, nous sortirons d’ici la fin de l’année, donc nous partagerons ce genre de détails quand nous y arriverons. C’est un peu tôt là. Mais oui, nous sommes super contents d’avoir collaboré avec lui. Au-delà du fait qu’il ait participé dans des séries comme Breaking Bad, Better Call Saul, Mandalorian, ou The Boys, c’était surtout le timbre de sa voix qui nous intéressait. C’était une voix qui était vraiment particulière, reconnaissable, chaleureuse. Le timbre de sa voix était vraiment agréable et en plus, c’est un acteur très professionnel, donc ça a été très efficace comme collaboration. L’idée, ça va être d’essayer d’atteindre cette qualité de voix pour toutes les expériences que nous allons développer au fil du temps.

SD : Ça a été compliqué de l’avoir, de réussir à collaborer avec lui ? Apparemment, la collaboration en elle-même s’est bien passée, mais peut-être que de réussir à avoir un tel acteur est compliqué.

JD : Ce qui est dur, c’est de trouver la bonne personne surtout. Le projet était attirant pour lui, donc il y a eu énormément de bonnes volontés. C’est rigolo quand même pour un acteur de faire ce genre de chose, ça change. D’ailleurs ce n’est pas la même chose. Ce qui était intéressant, c’est que c’était un peu le contraire de son métier. Lui, il est habitué à mettre de l’émotion dans chaque phrase et avoir une prosodie très variée, très marquée. Dans ce cas-là, nous lui avons demandé de s’enregistrer avec une voix la plus monotone possible. Parce que derrière, c’est le moteur de synthèse vocale qui va générer la prosodie et les alternances de rythme et d’intensité dans la phrase. C’était un exercice assez sportif pour lui.

Par ailleurs, ce qui était intéressant avec lui, et l’une des raisons qui nous a amenés à travailler avec lui, c’est qu’il parle espagnol. Étant donné la prévalence des termes hispanophones dans la musique qui est écoutée aux États-Unis, c’était important pour nous d’avoir quelqu’un qui ne maltraite pas les noms hispanophones. Il parle espagnol et il avait son professeur d’espagnol à côté quand il s’est enregistré spécifiquement pour ces aspects-là.

SD : Revenons un peu plus à la technique. Est-ce qu’il y a pour vous, un point, un axe, une chose qu’il serait possible d’améliorer sur l’assistant vocal de Sonos ? Il y a forcément des petites améliorations à apporter, non ?

JD : Il y a. Si on pense aux interfaces vocales en général, c’est une technologie qui est assez récente. Ça ne fait que quelques années que nous commençons à avoir des solutions dans nos foyers auxquelles on parle. La reconnaissance vocale, c’est une technologie dont on peut penser qu’elle est vieille, mais pendant très longtemps, on l’utilisait dans un environnement silencieux et on parlait au système très près du micro. On peut faire l’analogie avec des disciplines sportives, ce n’est pas la même discipline. Le problème, il est beaucoup plus compliqué. Aux problèmes fondamentaux d’accent et de vocabulaire qu’on a dans tout problème de reconnaissance vocale, si on ajoute le fait que le locuteur se trouve à plusieurs mètres du micro, potentiellement avec du bruit autour, avec des acoustiques qui sont hyper variées… C’est une difficulté qui est complètement nouvelle, qu’on commence à rencontrer à partir du moment où on s’intéresse aux enceintes intelligentes. Les pionniers, ça a été Alexa sur ce front-là. Ça change complètement le domaine, et la difficulté, elle saute d’un pas.

Vous avez dit au début qu’il y a beaucoup d’assistants vocaux. Des assistants vocaux qui marchent sur des enceintes intelligentes et auxquels on peut parler à distance, il n’y a que les très gros qui font ça. Il n’y a que les plus grosses boîtes de la tech qui répondent à ce problème-là. Donc au global, la technologie est jeune. Oui, il y a beaucoup de biais d’amélioration sur la robustesse, sur la robustesse aux accents puisque tout le monde ne parle pas de la même manière. Donc s’assurer que ça marche bien pour toutes les démographies, tous les accents, pour les gens qui ont des problèmes d’élocution. C’est un champ de recherche très actif et passionnant. Effectivement, nous n’en sommes qu’au début. Donc là, nous sommes très contents d’avoir rattrapé l’état de l’art avec Sonos Voice Control, avec un positionnement sur la vie privée qui est très fort et très clair. Mais après, nous sommes inscrits dans l’état de l’art et dans l’aventure collective de la reconnaissance vocale et nous cherchons et nous améliorons.

SD : Pour parler de l’industrie, peut-être de manière plus large, est-ce qu’il y a un défaut dans ce secteur pour vous actuellement, en prenant en compte tous les assistants vocaux ? Est-ce que c’est justement la gestion des données ?

JD : Un problème fondamental, c’était effectivement, la gestion des données personnelles. Il y a la réalité de la technique et il y a le sentiment de confiance que nous créons chez les utilisateurs. C’est deux choses un peu différentes. Si je m’inscris sur le deuxième, nous savons qu’aujourd’hui, que c’est encore une technologie à laquelle plein de gens sont réticents pour ces raisons-là. Donc c’était important pour nous d’arriver avec un descriptif et une solution de proposition de valeur qui soit aussi simple que possible. Mais il y a énormément de pédagogie, et d’amélioration à faire sur ce front-là, pour que globalement, il y ait une adoption plus massive de la voix.

Nous voyons qu’il y a eu une première phase d’adoption de la voix qui a été poussée par Google et Amazon, en particulier aux États-Unis. Et là, nous osbervons un peu un ralentissement parce qu’il y a le premier groupe de gens, qui sont un peu des early adopters, ou qui sont intéressés par ce type de technologie, qui ont sauté dessus, qui ont fait le choix d’y aller, malgré les questions qui pouvaient se poser, pour des questions de données personnelles. Si nous voulons vraiment atteindre une adoption de masse, je pense qu’il va falloir avancer pour gagner cette confiance globale. C’est pour ça que nous sommes pionniers sur ce front-là et que nous avons investi lourdement là-dessus.

SD : Les États-Unis se distinguent-ils vraiment dans l’utilisation des assistants vocaux, y compris dans celui de Sonos, par rapport à des pays comme la France, ou plus globalement l’Europe de l’Ouest ?

JD : Nous vous dirons quand nous serons en France dans quelques mois, je serai ravi de revenir en parler. Nous savons que oui, ils ont été plus éduqués là-dessus et notamment au travers d’Alexa et Google. Il y a eu énormément… C’est un marché qui est beaucoup plus mature en termes d’adoption des assistants vocaux pour le moment. Mais c’est une question d’offre, surtout ; ça a été beaucoup poussé. Nous, ça nous intéresse, là, pour la première fois, d’avoir une technologie vocale qui est développée en Europe. Donc ce n’est pas forcément un hasard que ce parti-pris, très fort sur les données personnelles, ait été développé initialement par une startup française, et que cette technologie continue à être développée et poussée chez nous. Nous sommes très contents d’avoir trouvé une résonance hyper forte dans un groupe aussi fort que Sonos.

SD : On vous a fait confiance tout de suite ? Il n’y a pas eu de moment où on vous a dit : « Non, ne faites pas ça comme ça », vous avez vraiment eu carte blanche ?

JD : Quand on acquiert une équipe, la détermination est là. À partir du moment où c’est signé, on se lance. L’alignement était assez clair, nous avions des idées très proches de ce qu’un assistant vocal pouvait et devait être. Sonos, c’est une entreprise qui a des principes assez forts sur les données personnelles aussi, sur la liberté de choix pour les utilisateurs. C’était important pour Sonos d’apporter une solution différente de celles qui étaient existantes, et une qui reflète vraiment les valeurs et les principes d’expérience utilisateur de Sonos. C’est le cas pour l’application, aujourd’hui, un utilisateur peut utiliser l’application Sonos ou une autre. L’idée, c’est de proposer une autre vision des choses, et de laisser le choix aux gens. Maintenant, c’est ce que nous faisons aussi sur les interfaces vocales. Nous avons notre vision des choses et nous laissons le choix aux gens d’utiliser celle-là, ou une autre.

SD : Quand est-ce que les utilisateurs français pourront profiter de cet assistant ?

JD : D’ici à la fin de l’année, donc ça arrive très bientôt. Notre équipe travaille d’arrache-pied pour le faire, nous sommes hyper enthousiastes. Pour nous, c’est très important de sortir cet assistant vocal en France. Parce que, comme nous l’avons dit, c’est une technologie qui est naissante, qui va encore faire un long chemin, qui va beaucoup évoluer. Donc pour travailler sur ce sujet-là, c’est très important pour nous de l’utiliser au quotidien dans notre langue naturelle, et voir les gens autour de nous l’utiliser, s’en servir, rater, être mécontent, nous donner des retours, enfin de vivre dans le bain des utilisateurs de cette technologie-là, c’est très important. C’est pour ça que, aussi vite après le marché américain, le marché français va suivre.