De la création de Siri à l’avenir des assistants vocaux, entretien avec Luc Julia

Il y a un peu plus de 10 ans est sorti Siri, l’assistant vocal d’Apple, sur l’iPhone 4S. La marque à la pomme apparaît alors comme un pionnier technologique. En 2011, il n’existe aucun assistant de ce type, ou presque. Siri semble bien être le premier d’un nouveau genre, multitâche, capable de répondre et d’interagir avec l’utilisateur. Depuis, de nombreuses entreprises se sont lancées sur ce juteux marché qui devrait représenter 7,5 milliards de dollars en 2024. Amazon a Alexa, Google a son assistant, Sonos a Sonos Voice Control, même Microsoft s’y est essayé, sans succès, avec Cortana, tout comme Samsung avec Bixby. Malgré cette multiplication du nombre d’assistants vocaux et le fait qu’ils sont aujourd’hui présents dans le quotidien de centaines de millions de personnes, la méfiance et les critiques sont légion.

De nombreux utilisateurs pointent du doigt un manque de confidentialité, la gestion des données personnelles ou encore des interactions parfois hasardeuses. Face à ces constats parfois dépréciatifs, des innovations technologiques existent. Certains experts appellent aussi à démystifier l’utilisation des données récoltées. Pour parler des assistants vocaux, Siècle Digital a rencontré Luc Julia, co-créateur de Siri, l’assistant d’Apple.

Culture Numérique est disponible sur Spotify – Apple Podcasts – Deezer – Google Podcasts – Acast.

Siècle Digital : Vous êtes à l’origine de l’assistant vocal d’Apple, Siri. Maintenant, vous êtes chef scientifique pour le groupe Renault. C’est bien ça ?

Luc Julia : C’est ça, oui.

SD : Je pense que beaucoup de gens vous connaissent, mais j’aimerais qu’on revienne d’abord sur votre parcours. Comment en vient-on, avant tout, à créer un assistant vocal à une époque où ça n’existait quasiment pas ? À quel besoin ça pouvait, pour vous, répondre, de créer un assistant vocal ?

LJ : Il faut remonter loin en arrière. Il faut remonter une trentaine d’années en arrière. C’est le début d’Internet. On est en 1994-1995. De la reconnaissance de la parole, il y en a beaucoup. Plein de gens essaient, il y a des gens qui font ce qu’on appelle la « dictation », donc de la dictée vocale, des choses comme ça, très spécialisées, comme dans le médical. Donc la reconnaissance vocale existe. Ça ne marche pas très bien, mais ça existe. Là arrive Internet et des gens se posent des questions : comment va-t-on faire pour interroger cette base de données qui est énorme ? Quelques années plus tard, en 1998, Google va avoir l’idée de faire une petite barre de texte dans laquelle on va pouvoir interroger cet Internet pour trouver des trucs.

Nous, un peu avant, en 1996-1997, nous nous sommes dit : « ça serait bien de le faire par la voix », de pouvoir avoir les informations qui sont sur cet Internet. Nous ne savions pas exactement ce que c’était. Pouvoir y accéder facilement avec un assistant, donc quelqu’un qui nous aide, à qui nous allons parler pour aller défricher le machin et pour aller trouver ces informations. Nous pourrions demander : « trouve-moi tous les hôtels à San Francisco qui ont une piscine », des choses comme ça. La volonté d’aller vraiment interroger cette base de données d’une manière naturelle. La manière la plus naturelle qui soit pour nous, c’était le langage, c’était la voix.

SD : Comment un Français en vient-il à travailler avec Apple, pour créer Siri, que tout le monde connaît maintenant ?

LJ : Ça, c’est encore une autre histoire. Comme je l’ai dit, 1997-1998, c’est le début de ce qu’on appelait « the assistant » à l’époque. Je travaillais dans la Silicon Valley depuis quelques années déjà. Moi, je suis immigré dans la Silicon Valley depuis 1994 donc ça fait un petit moment. Je travaillais au Stanford Research Institute, l’équivalent du CNRS, mais en Californie. Nous avons créé ce machin-là avec mon ami Adam Cheyer et nous avons attendu. Nous avons attendu longtemps, jusqu’à ce que Steve Jobs découvre ce qui s’appelait déjà Siri, qui était un petit « spin-off » du Stanford Research. Il nous a dit : « les gars, j’achète ! ». C’était en 2010, c’était à peu près 13 ans plus tard. Quand ça s’est passé, nous faisions autre chose à ce moment-là, mais on a un peu tout laissé tomber pour aller effectivement faire grossir notre bébé chez Apple, à la demande de Steve Jobs, et c’est devenu le département Siri, que j’ai dirigé pendant quelque temps. Le temps de le sortir en fait et d’accéder à 300 millions d’utilisateurs en 2011, ce qui n’était, quand même, pas trop mal.

SD : Maintenant, après toutes ces années, quel est votre regard sur votre passage chez Apple ? Ça s’est bien passé, globalement, ou il y a un petit goût amer ?

LJ : Il n’y a pas vraiment de goût amer, dans le sens où c’était une expérience extraordinaire de pouvoir apporter justement ce bébé que nous avions créé des années plus tôt. L’iPhone 4S qui a sorti Siri, était une plateforme quand même extraordinaire, et ceux qui ont suivi aussi également. Donc cette partie-là, c’était absolument magnifique. La partie qui est un peu décevante, c’est que le visionnaire qui nous avait embarqués dans cette galère, en quelque sorte, c’était Steve Jobs. Malheureusement, Steve Jobs est décédé le jour même, presque, de la sortie de Siri. Il n’y avait plus cette vision à l’intérieur, il n’y avait plus cette niaque, on va dire, de vouloir faire de Siri un produit phare de l’iPhone. Lui, il avait vraiment cette vision de… L’iPhone, c’était quand même un micro, globalement, c’était un truc auquel on pouvait parler. Il avait cette vision de ce « device » multimédia dans lequel on pouvait donner le potentiel complet de Siri.

Il disparaît et avec lui disparaît la flamme. Je ne parle pas de Tim Cook en particulier parce que Tim Cook n’avait pas vraiment de vues sur la technologie elle-même. Mais je parle de celui qui est devenu mon patron, Scott Forstall, qui lui n’a rien compris à Siri. Il n’a pas voulu que nous le développions tel que, nous, nous voulions le développer, et avec notre vision du début. Ça s’est mis à ronronner et c’est vrai que quand ça s’est mis à ronronner, nous avons préféré partir.

SD : Maintenant, vous êtes chez Renault. Dernière question sur votre parcours : qu’y faites-vous ? C’est très éloigné des assistants vocaux ?

LJ : Non, ce n’est pas très éloigné, dans le sens où moi, je fais toujours la même chose depuis 30 ans. Je ne sais pas faire autre chose. En gros, ce que je fais, c’est : j’amène de la technologie aux vraies gens, c’est ce qui m’intéresse. Que ce soit des reconnaisseurs de parole, des objets connectés, des objets de tous les jours qu’on va connecter, c’est ça que j’aime faire. Chez Renault, ce n’est pas autre chose que d’aller connecter ces voitures. Nous avons que de plus en plus, les voitures sont connectées. Nous sommes capables de faire des choses avec, parce qu’elles sont connectées à Internet, parce qu’elles sont connectées au GPS, etc. Nous le savons depuis un petit moment. Ces nouvelles voitures qui deviennent de plus en plus compliquées, qui deviennent des objets technologiques de plus en plus avancés, il va falloir un peu d’aide pour les utiliser. C’est le parallèle, encore une fois, avec ce qui s’est passé dans les années 90, avec Internet, qui était un peu compliqué.

Il a fallu amener un peu d’aide. Nous allons essayer de faire pareil à l’intérieur de chez Renault, sachant qu’il y a plein de choses à toucher. Il y a aussi bien les usines avec les robots, qui ont beaucoup de données et qui font beaucoup de choses, et nous pouvons faire encore mieux, avec les données dont nous disposons. C’est de la conception de la voiture, à la fabrication, à la voiture elle-même. Il y a plein de choses à faire chez Renault, parce que c’est un objet technologique avancé.

SD : Finalement, nous restons un peu dans le même domaine. Maintenant, parlons un peu plus des assistants vocaux. Quand vous voyez aujourd’hui tous les assistants qui existent sur le marché, il y en a à foison, outre Siri, qu’est-ce que vous vous dites ? Est-ce que vous vous dites que ce sont de bons produits, des bons services, ou bien vous désespérez des progrès ou du peu de progrès qui a été fait depuis une dizaine d’années ?

LJ : Siri a exactement 10 ans puisque c’était en octobre 2011. En 10 ans, ça a quand même un peu progressé. Siri n’a pas été, justement, celui qui a progressé le plus. Dans les années 2013-2014 est arrivé un nouveau type d’assistant, un nouveau type de technologie qui est en dessous de ces assistants. Au lieu d’utiliser du « machine learning », donc de l’intelligence artificielle un peu classique, on commençait à utiliser du « deep learning », quelque chose d’un peu plus costaud. Siri n’a pas pris ce tournant-là, tandis que c’est juste à ce moment-là qu’est arrivé Alexa, qui a utilisé tout le potentiel de cette technologie, et Google, avec son Google Assistant, a aussi réussi à faire ce virage. Sont arrivés dans les années 2013-2014-2015, ces nouveaux assistants, il y avait aussi Microsoft avec Cortana. Donc il y avait 3 assistants qui se battaient avec Siri un peu derrière.

Depuis, Microsoft a abandonné la course. Ce qui est important, c’est la compréhension, parce que ce n’est pas seulement reconnaître les mots, il faut reconnaître le sens. C’est ça qui est compliqué, c’est ce qu’on appelle le langage naturel. Comprendre le langage naturel, c’est complexe. Grâce à ce deep learning, ces choses qui ont d’immenses bases de données, les gens comme Amazon et Google, qui ont beaucoup de données, font du bon boulot.

Il faut être clair quand même, Apple a un petit peu rattrapé son retard. Je pense qu’ils sont toujours troisièmes en qualité, mais toujours un tout petit peu derrière, Siri est un tout petit peu à la traîne toujours par rapport à Alexa. Dans l’ordre, c’est un peu compliqué parce que ça dépend de la tâche, mais en compréhension pure, je dirais que Google est un peu devant. En pratique, Alexa est un peu devant. Ça dépend comment on utilise ces assistants. Il y en a effectivement pléthore, comme vous disiez, mais les gros dont on parle ici sont quand même ceux qui dominent le marché.

SD : Il y a aussi Samsung avec Bixby.

LJ : Qui est plus ou moins abandonné.

SD : Siri, bon troisième donc. Pure curiosité, est-ce que vous utilisez Siri quotidiennement ?

LJ : Oui, je pense, comme tout le monde, c’est-à-dire que je ne l’utilise pas comme on avait pensé qu’on allait utiliser ces assistants. On aurait pu croire que ça allait être le petit criquet sur notre épaule à qui on allait parler toute la journée et lui demander des trucs toute la journée. C’était un peu le concept dans les années 90, c’était l’idée. Je pense que ce n’est pas comme ça que nous l’utilisons parce que nous nous rendons compte que ça ne marche pas si bien que ça. Soyons tout de même très clairs là-dessus. Tout le monde, je pense, a trouvé un ou deux usages et ils l’utilisent juste pour ces choses-là, qui sont des choses simples, comme « envoie un SMS à maman », « appelle papa », « allume la lumière ». Des choses comme ça, très simples.

Je pense que ce qui est le plus utilisé dans la maison, c’est « mets la musique », globalement, avec Siri. Nous avons trouvé ces usages simples. C’est vrai que je l’utilise pour ça, mais je ne l’utilise pas comme je l’ai pensé qu’on pourrait l’utiliser à longueur de journée. Parce qu’aussi, il faut dire que le matériel sur lequel nous allons parler, sauf les enceintes connectées qui sont globalement autour de nous, sinon même les téléphones, ce n’est pas si pratique que ça, parce qu’il faut quand même l’allumer, appuyer sur un bouton ou quelque chose. Ce n’est pas tout à fait aussi pratique que ce qu’on aurait pu imaginer. Mais c’est vrai que pour un usage dans la voiture par exemple, c’est intéressant de dire juste le mot-clé et puis d’avoir des choses comme potentiellement : « allume les phares », « descends les vitres », etc. Des usages très simples aujourd’hui, parce qu’à la fin, la reconnaissance n’est pas mauvaise, mais la reconnaissance du sens est toujours compliquée aujourd’hui.

SD : Donc, on a encore pas mal de progrès dans ce sens-là à faire. J’aimerais avoir votre avis sur une chose en particulier, qui est un projet d’Amazon. Vous en avez sûrement entendu parler, et on en a parlé sur Siècle Digital dans notre autre podcast Signaux faibles, il n’y a pas longtemps. Amazon envisage d’introduire de la publicité sur Alexa, de faire en sorte que Alexa réponde à des questions basiques et courantes par des annonces publicitaires. Qu’est-ce que vous pensez de ce type d’évolution des assistants vocaux ?

LJ : Pour moi, c’est une aberration, dans le sens où ça va être très compliqué, parce qu’il va falloir matcher le sens, la chose avec ces pubs. Ça va être très compliqué. Aujourd’hui, je ne sais pas si c’est comme ça en France, mais aux États-Unis par exemple, quand j’utilise le Google Assistant sur les Google Nest, j’ai de la pub. C’est du « rolling ». Ce qu’on appelle du « rolling », c’est quelque chose qui est avant. Je demande, par exemple, de mettre la radio, il va me mettre 15 secondes de publicité avant. C’est un peu du classique, plus quelque chose dans le multimédia, à la télé ou à la radio, mais déjà, ça me gêne. Franchement, ça me fatigue parce que je n’ai ce que je veux immédiatement. Quand je veux écouter un truc, c’est parce que j’ai envie de l’écouter tout de suite. Je n’ai pas envie d’écouter 15 secondes de pub. Déjà, c’est un peu perturbant.

Maintenant, avoir quelque chose qui va être un peu ce que fait très bien Google, sur leur page, dans la recherche, ce sont les choses qui arrivent en haut, qui sont censées être pertinentes avec de la recherche. Elles le sont plus ou moins parce que c’est en fait de la pub. Donc ça, ça va être un peu gênant parce que pour avoir cette pertinence, qui va vraiment s’associer, comme je le disais, qui va coller exactement à ce que l’on demande, ça va être compliqué. Quand les gens vont s’apercevoir que c’est quand même que de la pub, je pense que ça va un peu les rebuter.

Mais c’est à l’usage, c’est la façon qu’ils ont trouvé de monétiser le machin, parce que ce n’est pas gratuit de faire tourner un service comme ça. C’est beaucoup de serveurs qui tournent, parce qu’il y a des millions d’Alexa qui sont déployées dans le monde. Des dizaines de millions. Donc il faut de gros serveurs parce qu’il faut comprendre que tous ces flux vocaux partent sur ces serveurs pour être analysés et pour être compris. Il n’y a pas grand-chose qui se fait en local aujourd’hui. Ce n’est pas parce que vous avez acheté l’appareil que vous avez payé le service, donc il faut quand même monétiser tout ça. Je pense que c’est le moyen qu’ils ont trouvé pour monétiser, mais je pense que ce n’est pas un très bon moyen.

SD : Oui, parce que les utilisateurs vont peut-être être un peu réticents. Ça va sûrement nuire à l’expérience utilisateur, en plus de ça.

LJ : Je pense, oui.

SD : Sonos, marque spécialisée dans l’audio, a lancé son assistant vocal en juin cette année, aux États-Unis. Ça arrive bientôt en France. Il y a des fonctionnalités moins élaborées que sur Alexa ou l’assistant de Google, mais ils ont insisté sur la gestion des données personnelles qui, justement, n’envoyaient rien au cloud, qui sont traitées en local. Pour vous, c’est peut-être ça l’avenir des assistants vocaux ? En plus, ça restaure peut-être la confiance avec les utilisateurs ?

LJ : Oui, ça, c’est intéressant. Ils ont racheté cette boîte française qui faisait ces assistants un peu privés, qui permettaient de garder tout en local. Il y a deux ans maintenant, je crois. Effectivement, c’est intéressant. C’est intéressant, mais c’est limité. De toute façon, il va falloir comprendre bientôt, et je pense que les gens s’en aperçoivent justement avec l’utilisation des assistants vocaux aujourd’hui. Nous en parlions tout à l’heure, ils ont des utilisations très ciblées, on se rend compte qu’ils sont spécialisés, ces assistants. Du coup, quand tu vas avoir un assistant Sonos sur un appareil Sonos, qu’il réponde et qu’il soit bon pour régler mon son, pour trouver ma musique, ça a du sens. C’est-à-dire qu’il va être excessivement spécialisé et être capable de comprendre juste le vocabulaire qui va être autour du domaine du son. C’est quelque chose qu’on peut faire en local. Ce qui est compliqué à faire, c’est quand on commence à être multidomaines, comme essaient de l’être Google et Alexa, où on peut répondre à tout et à n’importe quoi comme : « quel est l’âge de la mère de Napoléon quand elle est morte ? »

Ce genre de phrases là, c’est compliqué. Avoir ça, qui va être en local, c’est à peu près impossible, ou il faut avoir une batterie d’ordinateurs qui soient capables d’aller retrouver ce sens. Mais avoir un truc qui va dire : « Trouve-moi une chanson » quelconque dans une base de données, même si ce sont des millions de chansons et qui va me dire « monte le son, descends le son, joue dans la cuisine… », ça, c’est déjà quelque chose qui est dans un domaine beaucoup plus faible, beaucoup plus petit. Quand on va compter le nombre de mots ou le nombre de phrases, on va se retrouver finalement à des centaines, sans compter les spécificités des noms d’artistes et tout ça. Sinon, ce type de commandes, on va se retrouver dans les centaines. Des centaines, c’est quelque chose qui, avec les matériels que nous avons maintenant, en local, sont capables tout à fait de traiter ça tout à fait correctement.

Effectivement, ça restaure la confiance, dans le sens où c’est très privé. C’est-à-dire que je sais que ma voix n’est pas envoyée là-haut et puis potentiellement, je suis reconnu, traqué, etc. Ça reste en local. Ça fait ce que ça a à faire. Maintenant, l’expérience va être un tout petit peu dégradée, dans le sens où on va toujours peut-être espérer pouvoir dire autre chose que ce pour quoi cela a été prévu donc on sera un peu déçu. Encore une fois, pour des utilisations spécifiques et quand on va comprendre quelles sont les limitations, je pense qu’on va être tout à fait OK et tout à fait content avec ces expériences.

SD : À l’avenir, vous pensez qu’on n’arrivera pas à traiter autant en local, que Google ou Alexa ne pourraient pas tout faire en local ? C’est impossible ?

LJ : Non, c’est juste impossible. Il faut imaginer qu’il faudrait que vous ayez en gros – j’exagère un tout petit peu – tout Internet sur votre chose locale.

SD : C’est un peu compliqué en effet.

LJ : Ce n’est pas possible. Ce que, nous, nous avions imaginé comme étant un monoassistant, maintenant vous imaginez ça comme un multiassistant, donc des assistants partout. Un assistant pour le four qui va s’occuper de la cuisson des trucs, un assistant pour le frigo, un assistant pour les lampes, un assistant pour la musique. Quand vous commencez à avoir ça, vous vous adressez à chacun, là, c’est un peu chiant, parce qu’il va falloir aller s’adresser au bon gars au bon moment. Peut-être juste en se tournant vers lui. On voit, maintenant, qu’il y a de plus en plus de choses qui sont dans des bulles sonores. Nous allons pouvoir capturer seulement le moment où l’on parle à un appareil spécifique. Donc quand je parle à mon frigo, même s’il n’est pas loin du four, c’est le frigo qui va comprendre que je lui parle à lui. En s’adressant à ces choses-là, c’est un peu comme si on s’adressait à des domestiques, pour être très clair, auquel on va dire : « toi machin, tu fais ça ». Chacun est spécialisé et je pense que là, ça a du sens et ça devient beaucoup plus faible en termes de technologie, mais beaucoup plus efficace pour les utilisateurs.

SD : On parle beaucoup de la méfiance des utilisateurs par rapport à la confidentialité ou à l’utilisation des données. Est-ce que vous êtes d’accord avec ce constat que la majorité des utilisateurs, ou en tout cas, beaucoup d’utilisateurs, ou de potentiels consommateurs, ont un peu de défiance, sont un peu méfiants par rapport à tout ça et ont peut-être même peur des fois que leurs données soient mal utilisées ?

LJ : Il y a beaucoup de misconception. Il faut être clair. Ils ne sont pas complètement tarés les Apple, les Amazon et autres Microsoft. Ils ne font pas exprès de faire des trucs répréhensibles par la CNIL ou d’autres contre des amendes de quelques millions. Donc, ils font quand même super gaffe et c’est vrai que quand on dit : « Alexa nous écoute en permanence » ou « Siri nous écoute en permanence », ce n’est pas vrai. Il faut quand même être très clair. Ça écoute en permanence pour le mot-clé, mais tout ce qui est dit après le mot-clé, ça part pour être reconnu sur le cloud et après, la chose revient et c’est tout effacé. Pas tout de suite, c’est effacé après quelques heures, mais en gros, il n’y a rien qui est gardé pour être gardé. Il y a eu et il y a toujours aujourd’hui des choses et c’est marqué en tout petit dans ce qu’ils appellent les EULA, les End-user license agreement. Vous ne lisez jamais parce que c’est trop long, mais vous pouvez lire : « si toutefois je n’ai pas bien reconnu ce que tu as dit, je vais garder le morceau de phrase où la confiance que j’ai est faible… C’est-à-dire qu’à moins de 70 % de confiance sur une reconnaissance, je vais garder ce morceau-là pour aller l’analyser et comprendre ce que tu as vraiment dit et ce qui a été reconnu et voir pourquoi la confiance est faible et potentiellement améliorer mes modèles avec ce morceau que je vais rajouter dans mon modèle ». C’est fait comme ça.

C’est anonymisé dans le sens où on ne sait pas et on se fout de savoir, d’ailleurs, qui a dit ça, mais c’est juste pour améliorer le modèle. Maintenant, c’est vrai, et c’est une bonne nouvelle, en France en particulier, nous sommes beaucoup plus méfiants et nous avons raison parce qu’il faut quand même faire attention. Je suis très content que, depuis mai 2018 grâce au RGPD, que les gens se soient rendu compte qu’il y avait potentiellement un problème. La régulation, ici, a amené une sorte d’éducation et les gens se sont dit : « pourquoi il y a une régulation ? », et ils se sont dit : « il y a une régulation parce qu’il y a un potentiel danger ». Ça a permis de réaliser que Facebook se foutait de notre gueule et qu’il était temps d’arrêter de l’utiliser. C’est ce genre de choses là qui est bien dans la régulation, cela permet de comprendre qu’il y a de potentiels problèmes. Cela ne me dérange pas que les gens soient un peu méfiants. Maintenant, il faut quand même être éduqué et ne pas dire n’importe quoi sur ce qui est vraiment fait au niveau de la technologie.

SD : Il faut un peu démystifier tout ça. Je faisais, par exemple, référence au fait qu’il y a des entreprises comme Amazon qui peuvent partager les données collectées à travers les interactions avec Alexa jusqu’à 41 partenaires publicitaires. Manifestement, d’après ce que vous dites, il faut démystifier quand même tout ça. Il n’y a pas des utilisations complètement folles ou illégales qui sont faites ?

LJ : Ce n’est pas illégal.

SD : Il faut bien financer le système, comme vous l’avez dit ?

LJ : Voilà, il faut bien le financer. Ce n’est pas illégal dans le sens où aujourd’hui, dans la EULA, encore, on vous prévient. À partir du moment où on vous prévient, ce n’est pas illégal. Le truc, c’est que vous ne lisez pas la EULA.

SD : Les fameuses conditions générales d’utilisation qui ne sont jamais lues.

LJ : C’est les CGU en français. Ces conditions générales d’utilisation, vous ne les lisez pas, mais c’est marqué dedans. Tout est marqué dedans, c’est pour ça que légalement, ils sont OK. Il y a de nouvelles lois qui arrivent avec l’Europe, avec le DMA et DSA, tous les trucs qui arrivent maintenant, qui vont encore mettre la barre un peu plus haut que ce qu’a fait RGPD. Il faudra qu’ils s’adaptent à ces lois, parce qu’ils ne vont pas pouvoir être toujours dans l’impunité ou dans la limite. Ils sont toujours dans la limite. Encore une fois, il faut bien qu’ils se financent, donc partager avec 41 sources publicitaires ou partenaires, c’est quand même limite parce que ce n’est pas vraiment ce dont j’ai envie, mais, encore une fois, je ne pense pas que ce soit illégal.

SD : Non, ça ne l’est pas, effectivement. J’aimerais aussi vous demander si pour vous, il y a peut-être un défaut à retenir ou peut-être un aspect à vraiment améliorer en premier pour les assistants vocaux en général ? Lequel ce serait ?

LJ : Comme nous le disions tout à l’heure, ce n’est pas très bon aujourd’hui, dans le sens où c’est simple. C’est reconnaître des phrases assez simples, c’est des commandes. C’est encore ce qu’on va appeler du « Command and Control ». J’envoie une commande et je contrôle quelque chose, donc « allume la lumière », « mets la musique », etc. C’est toujours très simple. Ce qu’il y a à améliorer, le Graal, la chose qu’on aimerait avoir, c’est quelque chose qui va être beaucoup plus conversationnel. On parle des agents conversationnels quand on parle de ces assistants vocaux. En fait, ils sont très loin, aujourd’hui, d’être des agents conversationnels. C’est quoi un agent conversationnel ? C’est quelqu’un avec qui on peut avoir une conversation. La conversation, aujourd’hui, reste limitée à quelque chose comme un ou deux tours de ping-pong. Je vais avoir quelque chose comme « allume la lumière » et le truc va peut-être me dire : « quelle lumière ? ». Et moi, je vais lui répondre : « la lumière dans la cuisine », mais c’est à peu près le seul truc de désambiguïsation qu’on arrive à faire aujourd’hui.

On n’est pas encore au machin où je vais pouvoir parler de la pluie et du beau temps, ces agents conversationnels qui vont être utiles, par exemple, pour de patients Alzheimer. On n’en est pas là. On peut s’approcher de quelque chose de beaucoup plus intéressant, ça va être dans des domaines spécifiques. Comme nous le disions tout à l’heure, on ne peut pas être multidomaines. Dans des domaines spécifiques comme la médecine ou d’autres choses, nous allons pouvoir certainement avoir des trucs qui sont plus conversationnels et je crois que c’est vers là qu’il faut aller et qu’il faut encore chercher. C’est vraiment dans la compréhension du langage, la compréhension du contexte. Et puis, faire un peu plus de ping-pong que juste deux ou trois échangent, aujourd’hui.

SD : dernière question, est-ce que vous êtes, au final, optimiste pour l’avenir des assistants vocaux, leur technologie, leur développement ?

LJ : Oui, je suis optimiste, mais je veux que les gens comprennent que ce ne sera pas comme un humain, parce que ces intelligences artificielles, quelles qu’elles soient, sont très loin de nous. Il faut démystifier aussi ces intelligences artificielles, il faut comprendre qu’elles sont complètement cons. Nous sommes beaucoup plus forts et nous ne pouvons pas créer quelque chose à notre image. Nous ne sommes pas Dieu. Une fois que l’on a compris ça, on va pouvoir avoir ces assistants très spécialisés, mais qui vont réaliser des choses, qui vont nous apporter quelque chose au quotidien et qui vont faire en sorte qu’on veuille les utiliser. Je suis excessivement optimiste avec l’idée de ce que nous avons décrit tout à l’heure, d’avoir de multiples assistants un peu partout, qui vont nous aider à faire ces tâches quotidiennes, les faire bien et nous aider à les faire mieux.

Culture Numérique est disponible sur Spotify – Apple Podcasts – Deezer – Google Podcasts – Acast.

De la création de Siri à l’avenir des assistants vocaux, entretien avec Luc Julia

Siècle Digital : Vous êtes à l’origine de l’assistant vocal d’Apple, Siri. Maintenant, vous êtes chef scientifique pour le groupe Renault. C’est bien ça ?

SD : Comment un Français en vient-il à travailler avec Apple, pour créer Siri, que tout le monde connaît maintenant ?

SD : Maintenant, après toutes ces années, quel est votre regard sur votre passage chez Apple ? Ça s’est bien passé, globalement, ou il y a un petit goût amer ?

SD : Maintenant, vous êtes chez Renault. Dernière question sur votre parcours : qu’y faites-vous ? C’est très éloigné des assistants vocaux ?

SD : Il y a aussi Samsung avec Bixby.

SD : Siri, bon troisième donc. Pure curiosité, est-ce que vous utilisez Siri quotidiennement ?

SD : Oui, parce que les utilisateurs vont peut-être être un peu réticents. Ça va sûrement nuire à l’expérience utilisateur, en plus de ça.

SD : À l’avenir, vous pensez qu’on n’arrivera pas à traiter autant en local, que Google ou Alexa ne pourraient pas tout faire en local ? C’est impossible ?

SD : C’est un peu compliqué en effet.

SD : Il faut bien financer le système, comme vous l’avez dit ?

SD : Les fameuses conditions générales d’utilisation qui ne sont jamais lues.

SD : Non, ça ne l’est pas, effectivement. J’aimerais aussi vous demander si pour vous, il y a peut-être un défaut à retenir ou peut-être un aspect à vraiment améliorer en premier pour les assistants vocaux en général ? Lequel ce serait ?

SD : dernière question, est-ce que vous êtes, au final, optimiste pour l’avenir des assistants vocaux, leur technologie, leur développement ?

iOS 18 devrait être tourné vers l’IA générative

Apple va dépenser 1 milliard par an pour rattraper son retard dans l’IA générative

Les assistants vocaux : d’hier à demain

Apple : bientôt la possibilité de définir un service de streaming musical tiers sur Siri

La Commission européenne ouvre une enquête sur la situation monopolistique de Siri, Alexa et Google Assistant

Pour améliorer Siri, Apple rachète une nouvelle startup spécialisée en IA

De la création de Siri à l’avenir des assistants vocaux, entretien avec Luc Julia

Siècle Digital : Vous êtes à l’origine de l’assistant vocal d’Apple, Siri. Maintenant, vous êtes chef scientifique pour le groupe Renault. C’est bien ça ?

SD : Comment un Français en vient-il à travailler avec Apple, pour créer Siri, que tout le monde connaît maintenant ?

SD : Maintenant, après toutes ces années, quel est votre regard sur votre passage chez Apple ? Ça s’est bien passé, globalement, ou il y a un petit goût amer ?

SD : Maintenant, vous êtes chez Renault. Dernière question sur votre parcours : qu’y faites-vous ? C’est très éloigné des assistants vocaux ?

SD : Il y a aussi Samsung avec Bixby.

SD : Siri, bon troisième donc. Pure curiosité, est-ce que vous utilisez Siri quotidiennement ?

SD : Oui, parce que les utilisateurs vont peut-être être un peu réticents. Ça va sûrement nuire à l’expérience utilisateur, en plus de ça.

SD : À l’avenir, vous pensez qu’on n’arrivera pas à traiter autant en local, que Google ou Alexa ne pourraient pas tout faire en local ? C’est impossible ?

SD : C’est un peu compliqué en effet.

SD : Il faut bien financer le système, comme vous l’avez dit ?

SD : Les fameuses conditions générales d’utilisation qui ne sont jamais lues.

SD : Non, ça ne l’est pas, effectivement. J’aimerais aussi vous demander si pour vous, il y a peut-être un défaut à retenir ou peut-être un aspect à vraiment améliorer en premier pour les assistants vocaux en général ? Lequel ce serait ?

SD : dernière question, est-ce que vous êtes, au final, optimiste pour l’avenir des assistants vocaux, leur technologie, leur développement ?

iOS 18 devrait être tourné vers l’IA générative

Apple va dépenser 1 milliard par an pour rattraper son retard dans l’IA générative

Les assistants vocaux : d’hier à demain

Apple : bientôt la possibilité de définir un service de streaming musical tiers sur Siri

La Commission européenne ouvre une enquête sur la situation monopolistique de Siri, Alexa et Google Assistant

Pour améliorer Siri, Apple rachète une nouvelle startup spécialisée en IA

OFFRE EXCEPTIONNELLE