CallBot : Des robots qui répondent au téléphone
L’IA générative a complètement révolutionné la façon dont on peut traiter les demandes de service client.
Thomas Guenoux, de Yelda AI, nous propose de décortiquer sa construction de callbot rendue possible grâce à l’intelligence artificielle générative.
Découvrez comment cette technologie permet de répondre à des milliers d’appels de manière fluide et automatisée, tout en adaptant des réponses en temps réel.

Marc Sanselme 00:00:00 – 00:00:34 : Bonjour et bienvenue sur Data Driven 101, le podcast qui s’intéresse aux applications concrètes et variées de l’intelligence artificielle et de la data. Je suis Marc Saint-Selm, fondateur de Scopeo, une agence d’intelligence artificielle qui accompagne toutes les entreprises à tirer le meilleur de cette technologie. Dans notre podcast Data Driven 101, je reçois chaque semaine des professionnels pour qu’ils nous partagent leurs expériences et leurs visions sans filtre. Aujourd’hui, je reçois Thomas Guenou, CEO de Yelda.ai. Yelda.ai est une startup française qui est une solution SaaS B2B permettant de créer des agents virtuels téléphoniques basés sur l’IA générative. Bonjour Thomas.
Thomas Guenoux 00:00:34 – 00:00:35 : Bonjour.
Marc Sanselme 00:00:35 – 00:00:39 : Alors Thomas, est-ce que tu peux nous expliquer un petit peu plus ce que fait Yelda?
Thomas Guenoux 00:00:39 – 00:00:50 : ? Bien sûr. Alors Yelda déploie des agents virtuels téléphoniques pour des acteurs du privé et du public. Alors en deux mots, c’est quoi un agent virtuel téléphonique?
Marc Sanselme 00:00:50 – 00:00:50 : ?
Thomas Guenoux 00:00:50 – 00:01:14 : C’est quand j’appelle une entreprise ou une mairie ou une organisation publique. Les deux types de clients, j’y reviendrai. Au lieu que ce soit un humain ou un serveur vocal interactif à l’anciel où il faut taper un, deux ou trois, ce genre de choses, on va pouvoir poser des questions, interagir, parler, comme on parle avec son agent virtuel sur son téléphone, sur son enceinte connectée, même maintenant comme on parle avec ChatGPT. On peut le faire au téléphone avec les organisations.
Marc Sanselme 00:01:15 – 00:01:20 : OK. C’était quoi le constat sur le besoin initial ?
Thomas Guenoux 00:01:20 – 00:02:28 : Il faut comprendre qu’il y a un certain nombre d’acteurs qui ne peuvent pas répondre 24-7 ou même ne serait-ce que pendant les heures ouvrées à tout le monde. Là, typiquement, on avait des mairies dans le secteur public, où j’y reviendrai un petit peu parce que c’est quand même un cas d’usage extrêmement intéressant. Dans le secteur public, il y a effectivement des budgets qui sont, à certains égards, plus limités que pour la relation client. La relation usagée est un petit peu différente, mais bon, typiquement… et des acteurs de mairie qui peuvent répondre à 30-40% des appels seulement. C’est notablement faible. Et en fait, ils n’ont pas forcément les budgets, les organisations, les moyens pour déployer des agents humains pour répondre à tous ces appels. Et en fait, ces appels, il faut aussi savoir que, contrairement à ce qu’on pourrait croire, les appels téléphoniques ne sont pas en baisse. Avec même l’explosion du numérique depuis 20 ans, on pourrait se dire que le canal téléphonique devient moins bien. moins consultés, moins utilisés. Et ce n’est pas vrai. En réalité, ce qui s’est passé, c’est notamment post-Covid, les gens se sont moins déplacés et en fait, ils ont reporté des questions qui pouvaient se passer, on va dire, en real life, ils le reportaient en passant des coups de fil. Donc finalement, ça reste un canal tout à fait primordial pour la relation client ou la relation usagée.
Marc Sanselme 00:02:28 – 00:02:31 : Alors comment ça a démarré cette aventure ?
Thomas Guenoux 00:02:31 – 00:03:05 : Alors, pour tout vous dire, je le dis en deux mots, mais effectivement, moi, je suis un entrepreneur qui a déjà créé plusieurs boîtes, notamment avant une boîte qui s’appelle KRDS, qui existe toujours. C’est une agence social media. Donc, nous, en 2005, on a voulu lancer une copie d’un acteur américain qui fonctionnait bien à l’époque. C’était un petit gars qui avait lancé, ça s’appelait Facebook. Et à l’époque, on avait vu ça, on s’est dit, on va le copier pour la France, on l’a fait. Et ça a marché, mais pas autant que prévu. Et à la fin, en 2008, on s’est dit « Facebook arrive, va tout dégommer, on va faire des jeux ou des applications sur Facebook.
Marc Sanselme 00:03:05 – 00:03:05 : ».
Thomas Guenoux 00:03:05 – 00:04:43 : Et on est devenu la première agence social media en Europe. Je vous parle d’un temps, il y a bien longtemps finalement. Il n’y avait même pas d’iPhone, il n’y avait même pas de smartphone à l’époque. Et donc ensuite sont arrivés les smartphones et avec eux finalement en réalité les chatbots, qui sont arrivés assez vite finalement sur le marché. Même si encore une fois ce n’est pas complètement inédit les chatbots, mais en 2012-2013 on a commencé à faire des chatbots. Et en fait, comme tu le sais après, il y a eu des chatbots sur Messenger, Zuckerberg a lancé ça à fond, et ensuite derrière sont venus les agents virtuels type Alexa, Siri, Google Assistant. Ça c’était 2017. À ce moment-là, on s’est dit, il y a une place pour faire du vocal. Le vocal, c’est le futur. Donc, on s’est mis à faire des voicebots, des applications vocales. Et en fait, c’est une application vocale de ce que pouvait être le chatbot, mais c’est quand même bien différent. On y reviendra. Le vocal, c’est quand même, il y a des différences. Et en réalité, ça a très bien fonctionné, tout ce qui était voicebot. Tu te souviens sans doute, tu étais peut-être équipé d’Alexa ou de Google Home à la maison. En fait, il s’est trouvé que tout ça a bien fonctionné, mais ça a finalement resté réduit sur des cas d’usage très précis. Les minuteurs, la musique, et grosso modo. Et donc, on a vraiment fait des très belles choses. On a été les premiers à faire de l’achat 100% vocal avec la Fnac en 2018. On pouvait acheter un bouquin à la voix sur Google Home grâce à la Fnac. Mais ça, ça n’a pas trouvé un public. Et en fait, par contre, en faisant ça, on a découvert qu’en fait, il y avait un cas d’usage business très important qui était la téléphonie. Et en fait, on a appliqué tout ce qu’on avait appris sur le voice bot, l’application vocale, À la téléphonie, c’est ce qu’on appelle des callbots. Aujourd’hui, Yelda est un des leaders français du callbot.
Marc Sanselme 00:04:44 – 00:04:56 : Petite question en passant. Qu’est-ce que vous utilisiez avant les modèles actuels, les whispers et compagnie pour le langage, pour la compréhension de la voix ? Qu’est-ce que vous utilisiez ? Parce que tu nous donnes des dates où tout ça n’existait pas.
Thomas Guenoux 00:04:56 – 00:05:17 : Oui, effectivement, en fait, au tout départ, il faut comprendre que quand on faisait de la voix, notamment sur Google, l’écosystème Google ou l’écosystème Amazon, ils venaient avec leur propre techno. C’est-à-dire qu’aujourd’hui, si tu faisais une sorte d’application vocale sur Google Assistant qui s’appelle Google Action ou un skill Alexa, tu n’avais pas à développer la partie sonore.
Marc Sanselme 00:05:17 – 00:05:17 : D’accord.
Thomas Guenoux 00:05:18 – 00:05:51 : Et donc, tu faisais principalement un chatbot orienté vocal. D’ailleurs, sur Alexa, on n’avait même pas accès à la transcription. On avait vraiment accès qu’à des intentions. Mais évidemment, en parallèle, on travaille nous quand même sur des sujets, notamment pour avoir de la transcription vocale directement si on faisait une application vocale sur un site web. Parce que ce qui se déployait en même temps, c’était des chatbots vocaux. C’est-à-dire que sur les téléphones, si j’allais sur un site web mobile, je pouvais cliquer sur un micro et parler. Et dans ce cas-là, il me fallait une transcription. Mais en fait, déjà à cette époque-là, il existait des systèmes d’API qui permettaient de faire de la transcription.
Marc Sanselme 00:05:52 – 00:05:57 : Alors, revenons à aujourd’hui. Comment est-ce qu’on découpe le problème aujourd’hui de construction d’un callbot ?
Thomas Guenoux 00:05:57 – 00:07:43 : C’est ça. Alors en fait, il faut comprendre que c’est une pipeline d’IA relativement complexe avec beaucoup de briques. Et le savoir-faire qu’on a chez Yelda, c’est notre capacité à mettre tout ça en perspective, à faire marcher toutes ces briques ensemble, y compris avec des… on va dire, des éléments qui peuvent être spécifiques aux clients. Je vais détailler. Mais donc, pour être vraiment très précis, un pipeline d’IA à la voix, c’est d’abord un streaming audio. On travaille avec de l’audio. Ensuite, il y a la transcription. Une fois qu’on a du texte, après, on va traiter le texte avec plein de technos, avec de la NLP, Natural Language Processing, avec de la détection d’intentions ou d’identités, ce qui était la techno reine il y a quelques années. Aujourd’hui, mixée avec, évidemment, de la générative IA et de plusieurs manières. Et une fois qu’on a ça, on va générer une réponse, une réponse qui doit être adaptée, effectivement, à ce que l’utilisateur vient de dire, mais aussi qui doit être adaptée aux API du client. Ce que je veux dire par là, c’est si, par exemple, il a fallu récupérer, par exemple, pour un hôtel, la liste des chambres disponibles, il a fallu la récupérer. Ensuite, on génère une réponse, une réponse écrite. Il faut la vocaliser et la streamer et la faire passer dans le tuyau téléphonique. Et tout ça en une seconde. Donc, autant dire que tout ça en une seconde, en règle générale, ce n’est même pas possible. Il y a trop de choses. Donc, il y a plusieurs façons. Quand je dis une seconde, un humain ne met pas une seconde à répondre. Il va même mettre des fois 200 ou 300 millisecondes quand nous, on interagit comme ça. Mais quand un humain, un vrai humain, doit regarder dans son logiciel, qu’est-ce qu’il te dit ? Il te dit, attendez deux secondes, je regarde et tout. Et en fait, l’interaction peut durer quelques secondes. En fait, nous, c’est ce qu’on fait. Quand on a besoin d’aller chercher des informations, on fait patienter l’utilisateur. Donc, on fait cette grande succession de briques qu’on appelle une pipeline. qui nous permet finalement de générer cette interaction vocale.
Marc Sanselme 00:07:43 – 00:07:49 : D’accord, ok. Vous faites patienter comme un humain fait patienter en disant un instant…
Thomas Guenoux 00:07:49 – 00:08:12 : S’il y a besoin. Il y a des cas où on est capable de répondre en 500 millisecondes et on le fait. Notamment si, par exemple, je vous demande une confirmation et qu’il doit dire oui ou non, je n’ai pas besoin d’un truc très compliqué pour qu’il soit capable de comprendre qu’il a dit oui ou non. Par contre, s’il doit choisir une chambre d’hôtel parmi toutes celles que j’ai présentées où il a une question particulière, il hésite, oui, là, potentiellement, il faut faire des recherches, il faut comprendre. Il y a beaucoup de choses qui peuvent se passer à ce moment-là.
Marc Sanselme 00:08:14 – 00:08:25 : Oui, alors les large language model, ils ont évolué, ils ont été dominés par une poignée d’acteurs. Du coup, j’imagine que vous utilisez les API de ces acteurs pour vos générations ?
Thomas Guenoux 00:08:25 – 00:10:18 : Tout à fait. Alors quand on parle de Generative IA, effectivement, on parle notamment d’OpenAI anthropique pour les acteurs propriétaires qui offrent des API propriétaires. Ou on parle aussi des modèles qu’on peut héberger, type LLAMA ou Mistral, pour ceux qu’on peut utiliser. Et donc, il faut bien comprendre que tout ça, ça évolue tellement vite qu’en fonction des cas d’usage, nous, on utilise vraiment l’un ou l’autre en fonction soit de ce que le client a demandé, soit parce qu’il y a une demande en particulier, il faut être rapide. Donc, par exemple, un GPT-4o mini peut être très efficace et très bien parce qu’il va vite, mais peut-être moins performant qu’un autre. Il y a du Mistral en local qui peut être vraiment très performant, très rapide sur certaines choses. Il y a des cas où on n’a pas besoin forcément d’être rapide, mais d’être bon, d’être précis, dans la reformulation, en faisant du RAG. Donc nous, on n’utilise certainement pas un modèle. Aujourd’hui, je considère que des boîtes comme la nôtre, qui ont avant tout un savoir-faire de tout packager, de tout gérer, doivent permettre de piocher là où il faut en temps réel. Ce qui veut dire qu’aujourd’hui, si un utilisateur, par exemple, doit me donner son code postal, la pipeline est bien différente que s’il doit me poser une question. Parce qu’en fait, évidemment, déjà comprendre des chiffres et play, ce n’est pas pareil. En français ou en anglais, ce n’est pas forcément le même modèle de transcription. Ensuite, le modèle de compréhension aussi derrière peut être différent. Donc en fait, à tout moment, en temps réel, on adapte la pipeline et voire même on en fait plusieurs en parallèle. Ça veut dire qu’effectivement, quand on reçoit un streaming audio, il peut se passer vraiment plusieurs traitements en même temps qui, à la fin, on va comparer et on va challenger pour voir celui qu’on garde et on en entend en temps réel. Et tout ça se fait effectivement en quelques centaines de millisecondes. Et ça, évidemment que nos clients n’ont pas cette connaissance, n’ont même pas vraiment d’intérêt pour ça. Donc, c’est pour ça que nous, on rend tout ça relativement invisible.
Marc Sanselme 00:10:18 – 00:10:46 : Monsieur, je me posais un peu la question parce que justement, on parlait de latence et tu as un peu anticipé là-dessus. C’était vu que vous faites appel à ces API et potentiellement ces acteurs ont des charges qui évoluent au fil de la journée et Parfois, ils mettent moins d’une seconde à répondre. Parfois, ils mettent 10 secondes. Ça dépend des modèles, bien sûr. Comment est-ce que vous gérez cet aléa du temps de réponse des tiers auxquels vous faites confiance pour ces appels ?
Thomas Guenoux 00:10:46 – 00:12:37 : Dès lors qu’on utilise une API tierce, que ce soit les modèles, tu as raison, qui peuvent avoir des variations de réponse assez longues, c’est vrai, mais toutes les API tierces peuvent échouer ou peuvent, à un moment donné, avoir un timeout ou un truc bizarre. même la génération de voix. Dans tous les cas, il faut prévoir des plans B. Soit il y en a un, concrètement, qui va permettre de remplacer. Par exemple, admettons, il y a un LLM qui foire, on peut en avoir un deuxième en parallèle qui prend le relais. On s’est pris peut-être deux secondes dans la vue, mais… on répond. Et puis, il y a des cas où même au bout de X temps, une durée trop longue, on va se dire, là, ça time out. Et là, il faut carrément dire un message d’urgence qui va dire, désolé, il y a eu un petit souci technique, je vous invite à renouveler votre appel. On peut imaginer plein de choses comme ça. Donc, il y a plein de scénarios de dégradation de qualité qui vont dépendre justement de ces performances. Et c’est vrai que la spécificité aussi d’Yelda, c’est qu’on a très vite mis ça en production avec des acteurs vraiment en prod qui, pour certains, gèrent des milliers d’appels par jour. Et donc, on s’est cogné vraiment à ces problèmes de résilience, de performance et de fiabilité. Et donc, on a dû mettre en place ce système que des fois, on appelle aussi des plans de continuité, d’activité en fonction de choses qui se dégradent. Et donc, à chaque niveau de pipeline, s’il y a un échec, il faut pouvoir rebondir. Parce que le pire, et ce qui a pu arriver dans la réalité, ça peut arriver, c’est qu’en fait, tu poses une question et là, blanc. le bot ne répond plus. Donc, je ne dirais pas que c’est jamais arrivé parce qu’on a appris aussi à des moments où effectivement, ça plante. Donc aujourd’hui, il faut absolument qu’il n’y ait pas de blanc. Ça, c’est tout un savoir-faire de faire ça. Donc, typiquement, pour finir là-dessus, si un OpenAI qu’on utilise à un moment donné met trop long, il y en a un qui prend le relais en parallèle et qui va suivre le truc. Et si ça ne marche pas non plus, à un moment donné, ça bifurque sur l’erreur.
Speaker 0 00:12:38 – 00:13:01 : Une des astuces d’OpenAI avec ChatGPT, ça a été le streaming, le fait de commencer à répondre alors que le calcul n’a pas fini de tourner pour générer la réponse entière. Est-ce que dans votre cas où il faut encore le transformer en audio après, est-ce que dans votre cas c’est utilisable le streaming ? Est-ce que vous pouvez commencer à répondre alors que le calcul de la réponse n’est pas encore terminé ?
Speaker 1 00:13:01 – 00:14:19 : Alors ça dépend, je vais être très concret pour les gens un peu techniques qui nous entendent, mais effectivement, soit il y a des systèmes d’API où il n’y a pas de streaming de texte, et donc on doit attendre que l’IA générative ait généré toute la réponse. Et là, à ce moment-là, on envoie le texte à la génération de l’audio, et là par contre, dès que le début du streaming audio commence, on le balance dans la téléphonie, et à ce moment-là, ça commence à streamer. Par contre, c’est vrai qu’on doit attendre que le texte soit généré. Si c’est un texte long, Par définition, on va prendre une seconde ou deux et après, même si le streaming audio commence, ça prend un peu de temps. Sinon, il y a d’autres cas où on peut streamer du texte qui lui-même est connecté direct. On va faire de la génération audio de petits trunks de texte qui vont ensuite… C’est assez technique et des fois, il peut y avoir des petits artefacts audio, ce n’est pas génial. Ça s’optimise, mais c’est quand même ça qui se passe. D’ailleurs, les derniers modèles type QTI, je ne sais pas si tu vois QTI… En fait, ils sont extrêmement rapides, tellement rapides qu’effectivement, on voit bien qu’ils commencent à faire de la génération avant même que toi, tu aies fini limite de parler. En fait, quand tu poses la question, on comprend que ça va tellement vite qu’effectivement, il y a des choses qui commencent très, très vite. Ça, c’est vrai que c’est aussi une solution d’anticiper certaines choses, mais ça reste que ça peut être aussi un peu coûteux. Donc, c’est toujours un arbitrage.
Speaker 0 00:14:19 – 00:14:23 : Ils prétendent que c’est du audio-to-audio Kutai.
Speaker 1 00:14:23 – 00:14:33 : Oui, alors ça, c’est vrai que je crois volontiers qu’il y a cette option-là, qu’effectivement, on ne passe pas par la phase de texte. Mais aujourd’hui, je dirais que pour la production…
Speaker 0 00:14:35 – 00:14:37 : C’est trop expérimental aujourd’hui, c’est de la recherche.
Speaker 1 00:14:38 – 00:15:24 : Pour nous, ça ne fonctionne pas. En vrai, sur Kutai, on voit quand même une transcription, on voit quand même le texte. Il y a quand même un pendant texte de ce qui est dit. mais c’est vrai qu’aujourd’hui dès lors qu’en plus on doit s’interfacer avec des acteurs tiers quand je dis tiers c’est que par exemple là j’ai un cas d’usage extrêmement intéressant où on appelle un fournisseur d’électricité et au moment où je décroche littéralement le moment où le bot décroche Il a reconnu le numéro de téléphone, il s’est connecté à Salesforce, il a récupéré tout le contrat et il répond, il dit bonjour, ça va monsieur ? J’ai vu que vous étiez en impayé, est-ce que vous vous appelez pour payer ? Je caricature, mais c’est ça. Ou alors je vois votre contrat, je vous écoute. Et ça, en fait, pour intégrer ça, cette interface de Salesforce, par exemple, avec les données clients en temps réel, il y a quand même du texte qui se met dans le prompt forcément.
Speaker 0 00:15:25 – 00:15:26 : Oui, bien sûr.
Speaker 1 00:15:26 – 00:16:02 : Aujourd’hui, je ne dirais pas qu’on ne saurait pas le faire un jour du pur audio-to-audio pour être vraiment sur une latence extrêmement faible, parce qu’effectivement, nous, humains, on ne transcrit pas dans notre tête le son qui sort de notre voix. Encore que, des fois, on peut s’imaginer les mots, mais on fait de l’audio-to-audio, là, actuellement. Mais c’est vrai qu’aujourd’hui, moi, je pense qu’en réalité, ma perspective par rapport à ça, c’est que les performances de la transcription et du texte vont de toute façon devenir, à un moment donné, vraiment un no-brainer technique. qui font que ce ne sera pas un problème de passer par du texte. Mais bon, on verra ce que nous donnent ces expérimentations audio, tout audio, mais ça, ce n’est pas encore quelque chose qu’on peut mettre en prod actuellement.
Speaker 0 00:16:03 – 00:16:43 : Comme tu dis, c’est vrai que philosophiquement parlant, dans le fond, il y a un référentiel commun qui est le langage, qu’il soit codé avec du texte ou avec de l’audio. Il faut quand même arriver jusqu’au langage. On ne peut pas s’en passer. Sur l’audio, la spécificité de l’audio, une question que je me posais, c’est quand est-ce qu’on décide d’arrêter d’écouter ? Parce qu’on est sur quelque chose de séquentiel. Tu parles, je parle, tu parles, je parle. Dans la vraie vie, en fait, on a tendance un petit peu à mélanger les deux. On s’écoute un peu. Si tu parles un peu plus fort, je vais peut-être arrêter de parler. Comment est-ce que tu choisis, dans une application de VoiceBot, à quel moment tu arrêtes d’écouter ?
Speaker 1 00:16:43 – 00:19:57 : C’est vraiment une bonne question qui montre que tu connais le sujet. Mais c’est vrai que c’est un sujet central qui n’a pas une réponse définitive. Aujourd’hui, on a décidé, dans la plupart de nos agents virtuels, qu’on n’écoutait pas l’utilisateur lorsque le bot parlait. Donc, comme tu dis, séquentiel, c’est-à-dire qu’effectivement, c’est un jeu de ping-pong. Je parle, tu parles, je parle, tu parles. Mais on ne s’interrompt pas. Alors qu’on pourrait, techniquement, évidemment qu’on entend ce que dit l’utilisateur tout le temps, mais on décide de l’ignorer pendant que le bot lui-même parle. Pourquoi ? Parce qu’en fait, on a constaté des usages particuliers déjà. Les gens ne s’empêchent pas de parler pendant que le bot parle. Et ça ne veut pas dire qu’ils s’adressent au bot. C’est-à-dire qu’ils comprennent que c’est en train de parler. Et là, ils vont dire « Ah bah tiens, il parle à un copain ou à un ami à côté ». Et en fait, nous, si on commence à essayer de comprendre ce qu’il est en train de se dire, il faut essayer de capter qu’il est en train de parler avec quelqu’un d’autre, qu’il n’y ait pas de confusion. Et en fait, c’est un usage qui est moins fait lorsque je suis en train de parler avec un humain. J’ai moins tendance à me permettre de parler avec quelqu’un d’autre ou même de me parler à moi-même. Encore un robot ! je ne vais pas dire ça à un humain. et du coup on s’est rendu compte qu’il y avait vraiment trop de bruit et donc on a décidé de ne pas écouter enfin de ne pas considérer ce qui se disait pendant que le robot parlait. par contre derrière donc ça veut dire qu’on va ouvrir le micro entre guillemets à un moment donné. donc souvent on va l’ouvrir genre quelques secondes avant la fin du streaming parce qu’on sait que la personne va même anticiper des fois. est-ce que vous confirmez que et là la personne elle va dire oui oui tout de suite et elle va pas attendre que le bot ait fini de parler pour dire oui. donc il faut quand même essayer de le capter. ce oui parce que si on le capte pas bah derrière c’est blanc et la personne ne comprend pas. et Et donc, l’autre sujet derrière, c’est l’utilisateur, lui, va se mettre à parler. Et à quel moment je considère qu’il a fini de parler ? Ce qui était aussi un peu ta question. À quel moment on décide qu’un humain a terminé de parler ? Et ça, en fait, il n’y a pas de règle générale. Mais ce qu’on a fait, c’est qu’en fait, le système varie aussi en fonction de ce qui est attendu. C’est-à-dire que si on attend un numéro de téléphone ou un oui, le temps qu’on va considérer qu’il a terminé de parler va être différent que si c’est une question ouverte. Et donc, puisqu’évidemment, si j’utilise des mots, à un moment donné, je peux même hésiter. Oui, je vous appelle parce que… Et là, si je m’interromps tout de suite au moindre silence, ça ne va pas. Donc, il faut être aussi un peu malin. En fait, en fonction de la composition de la phrase, on va décider qu’elle est finie ou non. Ce qui est aussi délicat. Et dernière chose, c’est qu’on va faire varier ça en fonction du public. C’est qu’en fait, potentiellement… Le temps d’attente va être plus long pour des agents virtuels qui sont pour des personnes plus âgées. Ça, on l’a vu. Typiquement, on travaille pour la Caisse nationale d’assurance vieillesse. Pour eux, c’est moins grave d’attendre. Il faut vraiment attendre que la personne retraitée ait fini de parler, quitte à ce qu’il y ait un blanc à la fin, un peu plus long. Mais vu que de toute façon, il ne faut pas que ça aille très vite, ce n’est pas très grave. Donc, on doit aussi s’adapter en fonction du public. Donc tout ça, c’est une espèce de dentelle assez précise, encore une fois, qui n’a pas une seule réponse. Et la clé de tout ce succès, a priori, pour que ça marche, il faut que ça soit adaptatif, dynamique, en fonction de l’état de la conversation. Et donc, en fonction de où on est dans la conversation, il y a tout un tas de paramètres qui changent, y compris les temps de silence qu’on va considérer comme une fin de conversation, une fin de phrase.
Speaker 0 00:19:57 – 00:20:20 : Ok, hyper intéressant. En regardant sur votre site web, je me suis rendu compte qu’il n’y avait pas le… que vous ne mettiez pas en avant, en tout cas, je ne sais pas si vous le proposez, mais le chatbot non-vocaux. Alors que finalement, dans la pipeline, on pourrait enlever la transcription des deux côtés et se dire qu’on a un outil de chatbot écrit. Pourquoi ce choix ?
Speaker 1 00:20:20 – 00:24:27 : Alors, il y a deux éléments, un tech et un business. Alors, il faut d’abord savoir que nous faisons des chatbots, mais on ne le met pas en avant. d’abord pour une raison business. C’est qu’aujourd’hui, clairement, le cas d’usage business de la téléphonie, il est beaucoup plus important, beaucoup plus gros. Le marché adressable est beaucoup plus gros que les chatbots. Un chatbot, c’est important. Il y a un certain nombre de clients qui en ont chez nous, qui vont de pair avec le callbot parce qu’en fait, il y a eu une intelligence artificielle qui a été entraînée, qui a été optimisée. Et elle peut trouver évidemment un moteur commun entre les deux. Par contre, d’une part, je finis sur la partie business, le marché est moins gros, les budgets sont moins gros. Aujourd’hui, un agent humain qui répond au téléphone, ça coûte cher. Les budgets qu’on va mettre sur un callbot vont être plus gros que sur un chatbot. Et c’est plus identifié comme vraiment indispensable. Il y a beaucoup d’organisations qui ne peuvent pas se passer d’un standard téléphonique, d’une réponse téléphonique. Alors que si on leur dit qu’il n’y a pas de live chat sur votre site web et qu’il n’y a pas de chatbot, ils se diront que ce n’est pas si grave que ça de ne pas apporter ce service parce qu’ils ont un support email, un support téléphonique, ça leur va. Aujourd’hui, le chatbot reste considéré malgré tout comme bien souvent, je ne dis pas que c’est une règle générale, mais pour beaucoup d’acteurs, c’est un peu plus optionnel. Alors, à tort à certains égards. Moi, je pense qu’effectivement, les chatbots apportent beaucoup de réponses, beaucoup de solutions à certains cas d’usage. Mais la réalité du business et la réalité de nos clients, avec qui on s’est beaucoup frotté depuis 10 ans sur les chatbots, en fait, ils valorisent moins ça. Ça, c’est le premier point plutôt business. Et sur la partie tech ? Il faut quand même comprendre qu’un callbot, un voicebot, c’est fondamentalement différent d’un chatbot pour plusieurs raisons. La première étant, déjà, on ne peut pas empêcher une personne qui parle de dire n’importe quoi. Ça veut dire quoi ? Ça veut dire que sur un chatbot, si par exemple je demande un oui-non, je peux mettre deux boutons oui-non et fermer le texte. Et là, il va devoir taper oui ou non. Alors qu’à la voix, il peut dire n’importe quoi à n’importe quel moment. Au lieu de dire oui, il peut dire absolument. Il peut dire ça me va bien, c’est cool. Alors, en fait, des fois, comprendre que c’est cool veut dire oui, ce n’est pas toujours évident, en fait. Ça, c’est un point vraiment important. Le micro est ouvert, ils peuvent dire n’importe quoi. Donc, nous, ce qu’on a dû construire, en fait, contrairement aux gens qui ont fait des chatbots, historiquement, ce qui a été aussi un peu notre cas il y a 12 ans, mais en fait, c’était beaucoup lié avec des arbres de conversation un peu figés. Et en fait, ça ne tolérait pas les réponses hors cadre. Or, à la voix, by design, il faut que tu tolères ces réponses hors cadre. Sinon, ton système est vraiment broken. Ça ne va pas. C’est-à-dire qu’effectivement, si tu commences à dire « Quel est votre prénom ? » et là, je dis « Pardon, vous pouvez répéter ? » « Bonjour, pouvez-vous répéter ? » Ça n’a pas de sens. Il faut vraiment qu’on puisse comprendre les intentions à tout moment. Une fois qu’on a dit ça, effectivement, ça veut dire aussi que la partie téléphonique, vocale, elle est fondamentalement différente du chatbot parce que c’est du multi-turn conversation. Je peux changer d’avis à tout moment. Je peux poser des questions qui n’ont rien à voir. Si je suis en train de booker une chambre d’hôtel et que j’ai une question sur la piscine, il faut que ça marche. Et donc ça, nous, on a fait tout un système qui, dès l’essence même de Yelda, dès le départ, a été construit sur ce multi-turn conversation. Et deuxième point très important aussi, c’est que par essence, la conversation téléphonique notamment, est purement audio. Et donc ça veut dire quoi ? C’est qu’à l’audio, il n’y a pas d’image, il n’y a pas de lien, il y a juste de l’audio. Donc on est obligé de décrire les choses, on est obligé d’expliquer les choses et de les présenter autrement qu’en disant « voilà un schéma ». Alors que sur un chatbot, tu mets un schéma, souvent ça règle l’affaire. Ou un lien, cliquez ici pour valider, c’est terminé. Et donc ça c’est un point très important, il n’y a pas d’image. Et dernier point aussi, c’est qu’il y a la voix. Typiquement, je dois pouvoir être mis en relation avec un humain, transfert d’appel tout simplement. Et à l’écrit, il sera différent, parce que potentiellement, il n’y a pas forcément d’humain qui est prêt à prendre au live chat. Et puis, la techno de mise en relation serait différente. Donc, c’est pour ça qu’en fait, autant on peut dire, pour moi, la vision, et je finis là-dessus, qui peut le plus, peut le moins. Si tu sais faire un voice bot, un call bot, ton chat bot va être facile à décliner. Mais l’inverse, ce n’est pas vrai. C’est pour ça que nous, on fait souvent des call bots avec des déclinaisons de chat bots pour les clients qui en ont besoin.
Speaker 0 00:24:28 – 00:24:41 : On a déjà pas mal parlé de technique, mais est-ce que tu peux nous décrire des grands verrous, grands obstacles qui ont été nécessaires de surmonter pour construire ces callbot et comment vous les avez surmontés ?
Speaker 1 00:24:41 – 00:28:11 : Alors, évidemment, aujourd’hui, ce qu’on considère comme l’obstacle historique numéro un de Yelda, ça va être la compréhension du langage naturel. Il faut comprendre que quand on a commencé à faire des agents virtuels, évidemment, il y avait des cas que tu as connus aussi sans doute, où tu dis, en tant que chatbot, tu vas dire « j’ai pas compris, désolé, j’ai pas compris », cette fameuse frustration. Et ça, ça a été longtemps un sujet sur la façon dont on allait entraîner du natural language processing, de la détection d’intention, pour s’assurer qu’il retombe bien sur ses pieds. Et qu’il est moins possible de « je n’ai pas compris ». Et ça, ça a disparu avec la generative IA. Parce qu’aujourd’hui, la generative IA ne va jamais dire « je n’ai pas compris ». Sauf si dans certains cas, tu le « programmes », tu le comptes pour qu’il ne le dise pas. Enfin, il dit ce qu’il n’a pas compris, mais ça n’arrive pas dans les faits. Et donc ça, ça a été vraiment un grand sujet sur la façon de gérer les incompréhensions. Et aujourd’hui, qu’on pourrait traduire sur, finalement, que faire si même dans la data… dans le knowledge base, dans la base de connaissances du bot, il n’y a pas l’information que l’utilisateur demande. La température de la piscine, ça n’existe pas. La température de la piscine de l’hôtel, qu’est-ce que je vais lui dire ? Et encore, ça, c’est un cas simple parce que ce n’est même pas de la donnée vraiment dynamique. Mais si c’est par exemple, je pose une question sur, encore une fois, la chambre d’hôtel et que j’ai envie de savoir pourquoi c’est moins cher à telle date ou telle date, là, il faut faire des appels API, donc c’est plus délicat. Toujours est-il que ce challenge-là de bien répondre, ça reste l’enjeu numéro un des agents virtuels. Mais tu vois, ce qui est un peu étonnant aussi en se confrontant au marché et à nos clients, c’est qu’on se rend compte qu’ils considèrent aujourd’hui que c’est quasiment gagné, ça. et qu’avec l’avènement de ChatGPT, aujourd’hui, on se rend bien compte que les gens ne sont même plus impressionnés par une techno qui est capable de répondre au téléphone comme un humain le ferait. Alors qu’en vrai, c’est quand même dinguissime ce qui se passe. Mais c’est un peu poker face des fois quand tu montres des mots incroyables. Et en fait, ils vont s’arrêter non pas sur la capacité du bot de répondre correctement, Mais des fois, ils vont s’arrêter sur la voix, elle n’est pas assez naturelle. Ou, finalement, est-ce que vous pouvez vous connecter à mon système de téléphonie en faisant ça et ça et ça ? Comme si, effectivement, la capacité de répondre correctement était devenue, dans l’imaginaire commun, quelque chose de réglé, et que maintenant, c’était pas vraiment ça, le problème. Alors qu’en vrai… il faut être quand même clair, moi, dans mon intime conviction, ça reste ça, l’enjeu numéro un, il faut quand même qu’un robot sache apporter la bonne réponse. Si la voix est un peu robotique, pour moi, je trouve que c’est quand même un peu moins grave. Il vaut mieux dire, avec une voix robotique, une réponse parfaite, qu’une voix parfaitement humaine, je suis désolé, je ne sais pas. Et pourtant, aujourd’hui, les clients, je vois bien qu’ils se disent que c’est vraiment important d’avoir une voix humaine, et ça, du coup, on travaille notamment là-dessus. Et ça, ça rejoint aussi, je rebondis sur ta question, en disant, et des obstacles, typiquement, aujourd’hui, des gens, des clients, peuvent vraiment s’attendre à ce qu’on ait une conversation qui ressemble à un humain. Vraiment. Alors qu’il y a quelques années, on était plus OK avec le fait que ça fasse robot. Alors qu’aujourd’hui, de plus en plus, on nous dit, là, j’aimerais bien que ça soit un peu plus chaleureux, un peu plus humain. Et donc, Aujourd’hui, ce qu’on fait, nous, de plus en plus, c’est qu’effectivement, on essaie de générer artificiellement quelque chose qui a l’air naturel. Ce que font d’ailleurs aussi les modèles de transcription, pardon, pas transcription, mais de génération de voix, par exemple, en faisant des petites hésitations, des petites respirations. Je ne sais pas si tu as constaté, des fois, effectivement, tu injectes des respirations artificielles.
Speaker 0 00:28:11 – 00:28:21 : C’est un domaine que je connais moins, mais là-dessus, quels sont les acteurs ? Je connais Eleven Labs qui avait l’air de dominer pas mal le marché il y a quelques temps.
Speaker 1 00:28:21 – 00:28:21 : C’est toujours le cas.
Speaker 0 00:28:21 – 00:28:22 : Oui, c’est toujours le cas.
Speaker 1 00:28:22 – 00:30:02 : En fait, Eleven Labs, c’est vrai que c’est un très bon acteur qui est vraiment concentré sur la génération de voix et ce qui a permis de générer chez eux un certain nombre d’outils, une galaxie d’outils de modulation de voix, de copie de voix et tout. Simplement, Ce qui est imparfait encore avec Eleven Labs, c’est la latence qui, dans certains cas, peut être un peu longue. Et puis, en fait, à certains égards, l’instabilité, elle n’est pas systématique, mais nous, on a pu avoir des cas où la voix se passe bien, notamment sur le français. Et à un moment donné, dans la phrase, ça finit par prendre l’accent américain. Et alors, tu te dis, pourquoi ? La phrase, elle commence bien, et puis à la fin de la génération, ça finit avec un accent américain. On comprend pourquoi il peut y avoir des choses comme ça. Mais en fait, ça reste étonnant. Et on a eu des cas même où la voix, d’un coup, elle faisait… Elle parlait comme ça. Et elle sortait de nulle part, si tu veux. Et du coup, c’est presque rigolo. Mais c’est rigolo tant que ce n’est pas en prod. Mais donc, c’est pour ça qu’en réalité, les acteurs historiques de la génération de voix que peuvent être certains GAFA… ou même des acteurs français comme Voxygen font des choses qui sont très bien. Et aujourd’hui, c’est vrai que typiquement une voix Google, elle peut être très bien, les voix studio sont très bien, les voix historiques sont bien, mais elles sont très stables, elles sont très homogènes. Et c’est ce que les clients trouvent robotique, alors qu’elles ne sont pas robotiques, mais comme il n’y a pas d’hésitation, il n’y a pas d’hétérogénéité dans la voix, elle est stable et stricte. ça ne fait pas humain. Alors que sur Eleven Lab, eux, ce qu’ils arrivent à faire aussi, c’est de générer presque du bruit de l’entropie, ce qui fait que le système a l’impression que la voix va hésiter. Elle va des fois faire des sauts de voix. « Bonjour ! Comment vas-tu
Speaker 0 00:30:02 – 00:30:02 : ? ».
Speaker 1 00:30:02 – 00:30:14 : Et ça, c’est vrai que les acteurs historiques, certains comme Google, ne le font pas. Aujourd’hui, nous, on essaie de mixer ça en fonction de ce que le client nous demande et aussi en fonction de la latence, parce qu’il y a des voix qui ont plus ou moins de latence. Donc, voilà.
Speaker 0 00:30:15 – 00:30:36 : Ok. Alors si on revient sur les actions demandées au téléphone par les clients, enfin les clients du client dans votre cas, est-ce que tu peux nous faire un petit tour d’horizon de ce que l’IA fait bien et ce que l’IA ne fait pas encore bien ? Alors vous, mais vous pouvez même prendre un pas de recul et se dire en généralité, quel est l’état de la technologie ?
Speaker 1 00:30:36 – 00:33:35 : Aujourd’hui, il est évident que toutes les questions qu’on pourrait appeler de niveau 1 ou niveau 0, qui sont les FAQ, c’est réglé. C’est-à-dire que si j’appelle l’hôtel pour dire « Est-ce qu’il y a une piscine dans l’hôtel ? » Pas de sujet. Il sait répondre ça. Et si tu as bien prompté ou tu as bien entraîné aussi avec ton système, toutes les FAQ, on peut les mettre sur « Régler ». Les horaires d’ouverture, là typiquement dans les mairies, qui sont aussi des clients qu’on a beaucoup, on a de plus en plus de mairies, Toutes les questions liées aux procédures, est-ce que je dois venir avec mon fils pour faire mon passeport, tout ça, c’est réglé. Et donc ça, ça se passe bien. Ensuite, l’autre question un peu plus complexe, c’est quand il va y avoir besoin de personnaliser la réponse en fonction du client, en fonction de son compte, en fonction de son historique. Par exemple, je vous appelle parce que je veux savoir où en est ma commande. Là, il faut qu’on reconnaisse l’utilisateur, il faut qu’on se connecte au système pour savoir où en est la commande, etc. Ça, aujourd’hui, on le fait très bien, les bots le font très bien, parce qu’aujourd’hui, la plupart des acteurs ont des API qui permettent d’identifier l’utilisateur et de récupérer les informations. Ça, c’est possible. Je dis la plupart, même en 2024, on peut admettre qu’il y a certaines entreprises qui n’ont pas fini leur transition numérique. Puisque voilà, ça peut arriver qu’il y ait des cas où il n’y a pas le endpoint, l’API qui va bien ou même l’authentification qui permette de le faire correctement. Mais c’est de plus en plus rare et aujourd’hui, les clients avec qui on travaille, ils ont ces API. Donc là, ça marche bien. Donc donner un statut de commande, donner une disponibilité dans un hôtel, ça, c’est réglé également. Pour moi, il n’y a plus besoin d’humain là-dessus. Les humains vont rester à intervenir sur les cas particuliers, notamment dans une mairie, je dois inscrire mon fils à la garderie, mais là c’est urgent, parce que finalement il y a une urgence aujourd’hui, il est 15h, il faut qu’il reste à 16h30, je ne vais pas venir le chercher. Bon ben ça, c’est un process d’humain qui va prévenir des choses et tout, donc ça, voilà, typiquement tu mets en relation. Ou alors des cas vraiment spécifiques d’échecs de process, une commande qui a échoué, un statut qui est inconnu, une erreur dans la base de données. Là, évidemment, c’est là que s’arrête le robot, il passe la main à un humain. Et donc, c’est vraiment, on va dire, aujourd’hui l’état de l’art que je considère, c’est qu’il n’y a aucun client aujourd’hui qui se dit « je vais faire du 100% automatisé ». C’est justement le principe étant qu’en fonction des API, des services qui sont numérisés dans l’entreprise ou l’organisation, je peux permettre au bot de faire des choses, mais en général, ce n’est pas le bot qui est limitant, c’est l’information ou la technologie de l’IT de l’entreprise qui est limitant. Il n’y a pas un agenda partagé, il n’y a pas de visibilité sur le statut d’un passeport ou que sais-je. Toutes ces choses qui font qu’à un moment donné, c’est un humain qui doit lui-même aller demander un service, regarder sur son ordinateur un vieux logiciel qui n’a pas d’API. Ça, c’est encore des choses qui doivent être faites par un humain. Mais aujourd’hui, je considère que la compréhension de la question, la compréhension du système, c’est terminé, on les comprend.
Speaker 0 00:33:37 – 00:33:48 : C’est dans l’implémentation de ce qu’il faut faire derrière. Il y a une longue traîne d’une distribution de cas rares pour lesquels ça reste trop coûteux d’implémenter.
Speaker 1 00:33:48 – 00:34:20 : Et tu vois, quand on a des choses un peu standards, quand tu as un acteur qui utilise du Salesforce avec des systèmes classiques et qui n’est pas trop spécifique, ça marche assez vite et assez bien. C’est vrai, tu peux automatiser, tu peux même reproduire d’une mairie à l’autre des process et ça marche. Mais il y a des cas vraiment où c’est basé sur un logiciel métier, c’est trop spécifique à l’entreprise. Ça, à un moment donné, même des humains qui arrivent dans l’entreprise galèrent. Mais ça va venir au fur et à mesure de la numérisation du service et de l’entreprise.
Speaker 0 00:34:20 – 00:34:22 : C’est quoi les freins à l’adoption de vos services ?
Speaker 1 00:34:22 – 00:37:39 : Je ne vais pas te dire des choses qui vont te surprendre, puisque le point numéro un, ça va être une espèce de réticence face à l’IA qui va être relativement irrationnelle. C’est quoi ? C’est de se dire, je ne comprends pas cette techno, je ne comprends pas comment ça marche, et donc je me dis que je n’y vais pas parce que je ne vois pas comment ça marche. Ce qui est quand même, en soi, d’ailleurs, pas une mauvaise raison de refuser quelque chose qu’on ne comprend pas. Et je le dis ça avec humilité, même moi, je ne comprends pas tout. La réalité, on ne comprend pas tout de ce qui se passe dans l’IA, mais on comprend certaines choses. Aujourd’hui, on peut dire quand même qu’effectivement, le frein qu’il peut y avoir sur l’adoption, c’est de se dire « je ne comprends pas trop comment ça marche et j’ai peur que ça ne marche pas ». L’autre point aussi, c’est évidemment lié à, dans certains cas, plus de la politique, se dire qu’il y a des emplois qui vont disparaître avec l’IA. Ça, on peut admettre que c’est totalement vrai que cette crainte existe et qu’elle est fondée. C’est-à-dire qu’effectivement, il y a des emplois qui vont, à minima, changer, évoluer. Et voire disparaître. C’est un point aussi qu’on pourra détailler à la fin. Bien sûr que nous, les services dans lesquels on met notre agent virtuel, des personnes qui devaient simplement répondre au téléphone, désormais, certaines d’entre elles vont elles-mêmes venir nourrir l’agent virtuel. Donc, leurs métiers vont évoluer. Et on parle même désormais d’agents d’accueil augmentés. qui sont équipés d’IA pour mieux répondre et finalement eux-mêmes entraîner. Il y a des gens de l’accueil dans les mairies, dans les services, qui considèrent l’agent virtuel comme étant leur collègue. Optimus, Eva n’a pas géré ça, je vais m’en occuper, je vais lui apprendre comment le gérer la prochaine fois. Voilà. Donc ça, c’est vraiment un point aussi de crainte que je trouve fondé, mais qu’in fine, je relativise en disant que c’est avant tout une évolution du marché qui va faire que les emplois vont évoluer, en fait. Ils vont évoluer, et c’est-à-dire qu’aujourd’hui, vraiment, je constate que même dans le secteur de la relation client, de la relation usagée, les utilisatrices, enfin pardon, les agents d’accueil, enfin les utilisatrices de nos services, finalement, En fait, elle voit ça quand même d’un bon oeil. Pourquoi ? Parce que l’agent virtuel, par définition, va traiter les cas simples et robotiques qu’elle n’avait pas envie de traiter. Ça ne me dérange pas en tant qu’agent d’accueil de traiter un cas un peu complexe, une personne qui a un souci, que je dois appeler des gens pour les aider. Je suis là pour aider en général, il n’y a pas de problème. Mais si c’est pour me demander les horaires de l’accueil ou savoir si je dois venir avec un enfant pour retirer un passeport, ça fait dix fois que je l’ai dit dans la journée, ça me saoule. Et ça, aujourd’hui, c’est pour ça qu’elles le voient finalement. Ils ne sont pas réticents à ce niveau-là. Mais par contre, il peut y avoir dans le secteur public, et d’ailleurs, il y avait une anecdote là-dessus que je partageais. Effectivement, il s’est trouvé que par hasard, on a eu un appel d’offres sur une mairie il y a trois ans et qu’on a gagné et qui a ouvert beaucoup de champs sur le secteur public. Et on s’est retrouvé une finie dans une commission sénatoriale, positivement, c’était pour leur expliquer l’IA dans le secteur public, qu’est-ce que ça allait faire, et vraiment répondre à des questions là-dessus. Et en fait, on voyait bien que, d’un côté, la France et les politiciens, tout le monde est très intéressé, excité, et d’un autre côté, il y en a certains qui freinent des cas de fer en disant « Attendez, il faut réglementer, il faut gérer », ce qui n’est évidemment pas dénué d’intérêt, bien sûr, mais évidemment, il faut expliquer, nous aussi, comment ça fonctionne.
Speaker 0 00:37:41 – 00:37:53 : Qu’est-ce que vous mettez dans les mains de l’utilisateur ? Parce que c’est vrai que c’est assez impalpable. Un callbot, ça répond sur une ligne téléphonique. J’imagine que l’utilisateur a envie de voir un truc, de voir un logiciel ?
Speaker 1 00:37:53 – 00:40:04 : Tout à fait. Et c’est primordial puisqu’en fait, finalement, Yalda, c’est plusieurs produits, on pourrait dire. Il y a le produit qui est l’agent virtuel en tant que tel, mais on a aussi le produit qui est la console d’administration, le fameux SaaS B2B. C’est-à-dire qu’on met ça entre les mains du client. Il a quoi ? Il a tout un dashboard, un tableau de bord avec tous ses KPIs, le nombre de conversations. Il peut même voir les conversations qui se déroulent en temps réel devant lui. Il voit les nouveaux appels qui rentrent, le bot, comment il répond. Quand ça part à un agent, il le voit en temps réel. Et ensuite, ce qui est aussi super intéressant, c’est que non seulement il peut analyser ce qui se passe, mais il peut aussi corriger l’agent et modifier tous les éléments de base de connaissances, voire de promptes dans le système. Alors évidemment, nous, on fait une couche d’abstraction qui fait que pour lui, ce n’est pas des promptes, c’est des éléments de base de connaissances. parce qu’on ne va pas lui laisser modifier des promptes, alors que c’est très dynamique, ça bouge beaucoup. Mais on met des éléments de base de connaissances, on met des éléments de réponse que lui-même va pouvoir modifier, y compris les messages d’accueil, par exemple, ou les textes des SMS, ou des choses qui sont envoyées. Et ça, c’est important. Notamment, il y a un autre point qui est important qu’on met à la disposition du client, c’est la possibilité d’avoir un autre agent, un agent qui va lui-même analyser les conversations. C’est-à-dire qu’on fait de l’IA générative pendant la conversation, mais aussi après. Tu peux très bien avoir un agent qui va analyser les conversations et qui va dire à qui tu dis… Tu vas noter entre 0 et 5 la qualité de la réponse. Tu vas noter si la personne est susceptible de rappeler ou pas. Est-ce que tu peux catégoriser cette conversation selon l’une des catégories ou créer une nouvelle catégorie ? Et tout ça, grâce à des modèles qui sont aussi différents des autres modèles ou qui sont instanciés de façon différente. Donc là, c’est vraiment aussi un autre usage de la generative IA qui est du coup plus sur l’aspect outillage de notre solution pour le client, mais qui lui permet de mieux piloter, de comprendre ce qui se passe. Parce qu’évidemment, tu as envie des fois d’aller voir les conversations et de regarder une par une, mais tu as avant tout besoin de données macro pour comprendre finalement les leviers business de ça. C’est-à-dire, en gros, combien de pourcents ont été automatisés, combien de personnes vont rappeler, combien de personnes sont satisfaites, tout ça, les KPIs habituels finalement de la relation client, de la relation usagée.
Speaker 0 00:40:04 – 00:40:20 : Oui, faire un retour un peu sur ce qui s’est passé. Est-ce que tu as des erreurs que tu peux nous partager sur le cheminement qui vous a amené jusque là ? Des erreurs passées qui nous permettraient de ne pas faire les mêmes?
Speaker 1 00:40:20 – 00:43:40 : ? Oui. Alors, d’ailleurs, tu dis Data-Driven 101. Évidemment, la donnée, c’est le nerf de la guerre. Et la donnée, pour nous, peut-être quelque chose qu’on n’a pas fait assez tôt, c’était d’avoir des métadonnées sur les conversations, sur justement mesurer ce qui se passe en temps réel, puis aussi après coup. Ce qui permet d’améliorer le système et d’être vraiment clair sur le bénéfice business. Parce qu’à un moment donné, encore une fois, un client est prêt à payer une licence, il est prêt à payer. Donc là, je prends plus ma casquette d’entrepreneur. Mais de se dire qu’effectivement, la valeur apportée, la valeur ajoutée du service, il faut qu’elle soit mesurée, mesurable, et que les données vont driver finalement le fait qu’un client qui a payé un an de licence, à un moment donné, il va regarder à la fin s’il renouvelle. Il faut que ce soit bien mesuré, il faut que ce soit rationnel. Et ça, c’est vrai qu’on le sait, tout le monde le sait, une bonne entreprise, elle est gérée par la donnée qui est mesurée. Mais c’est souvent quand même dans un second temps, et c’est vrai dans l’entreprise, d’abord tu crées ton produit, tu ne mesures pas forcément tout de suite. tout alors que c’est vrai que c’est mieux et moi je trouve que je l’ai fait un peu tard sur un certain nombre de points. bon maintenant il y a un certain nombre de choses qui est fait mais c’est pas fini. il y a encore d’autres choses qu’on doit continuer à mesurer parce que c’est pas facile tous les jours de mesurer mais il faut le faire d’ailleurs soit en demandant à des gens enfin à tes clients soit en essayant de comprendre selon leurs usages. ça c’est vraiment un point que je trouve important dans le parcours entrepreneurial. Et sinon, plus sur, on va dire, le produit en tant que tel, sur l’IA, effectivement, je dirais bien comprendre que les durées de contractualisation peuvent être longues. Les durées d’achat, nous, il peut se passer 12 à 18 mois entre le moment où on voit un prospect et le moment où on signe. Pourquoi ? Parce qu’on va fondamentalement changer des organisations sur quelque chose qui est souvent très stable. Ça fait 5 ou 10 ans que tu as ton SVI, ton serveur vocal interactif, qui tourne. Tu as ton call center qui tourne sur des techniques qui sont relativement anciennes. Et d’ailleurs, c’est des choses que tu n’as pas vraiment envie de changer, de chambouler, parce que des fois, ça ne tient pas à grand-chose. Et là, si tu arrives en disant, je vais tout dégommer, et en fait, aujourd’hui, je me suis vraiment rendu compte qu’effectivement, il faut comprendre qu’est-ce que tu vas chambouler chez ton client, quand c’est le cas, Et en fait, faire une conduite du changement, mais dès le départ, les rassurer là-dessus. Voilà comment ça va se passer. Et ça, c’est vrai que parfois, j’ai aussi sous-estimé ça. Il y a même des cas où le client était convaincu, ça fonctionne, le bot fonctionne parfaitement, mais à la fin, ça n’a pas marché. Non pas parce que le bot ne marchait pas lui, mais parce que le procédure interne dans l’entreprise, dans l’organisation, ils n’étaient pas assez sensibilisés au fait qu’il fallait un agent virtuel. Donc finalement, ça restait un POC, un proof of concept dans un coin, un prototype, qui n’a pas été mis en production parce qu’il n’y avait pas assez d’adoption en interne. Je peux le négliger. aussi, quand on fait vraiment de l’innovation, il faut embarquer des gens avec soi. Même signer le contrat, des fois, ça ne suffit pas. On peut avoir signé. C’était juste un mec de l’innovation qui était super chaud et tout. Mais après, lui-même, il faut lui donner des billes pour qu’en interne, il puisse être en ambassadeur. Et ça, sur ce qu’on fait, nous, on en a besoin.
Speaker 0 00:43:41 – 00:43:45 : On n’a pas parlé de prix. C’est quoi votre business model ? Vous facturez comment ?
Speaker 1 00:43:45 – 00:44:13 : Alors, bien souvent, ça va être à l’appel. C’est-à-dire qu’en fonction du nombre d’appels, typiquement, nous, on va commencer à 10 000 euros par an pour 20 000 appels, donc 50 centimes par appel. Évidemment, ça peut être très dégressif en fonction du nombre de cas, mais c’est typiquement en fonction du nombre d’appels parce qu’effectivement, il y a des choses qui dépendent de la durée d’appel. Mais nous, on va faire des moyennes et on va se dire qu’on ne fait même pas en fonction de la durée d’appel parce qu’on considère que ce n’est pas forcément nécessaire. Donc, c’est en fonction du nombre d’appels.
Speaker 1 00:44:22 – 00:44:59 : Effectivement, sachant qu’un humain… le coût pour un humain c’est plutôt entre 2 et 4 euros. c’est pas du tout pareil d’appeler Free par exemple pour changer ton RIB que pour dire ta Freebox elle marche pas, il y a un problème. et donc l’appel qui gère ce problème là, il va coûter plus cher que simplement changer ton RIB. et nous c’est pareil, en soi Ce ne sont pas du tout les mêmes choses. C’est vrai que typiquement, faire du troubleshooting IT, ce n’est pas forcément toujours faisable de façon aussi poussée qu’un callbot encore, mais ça vient.
Speaker 0 00:45:00 – 00:45:01 : C’était une opinion à nous partager.
Speaker 1 00:45:02 – 00:46:26 : Oui. Du coup, c’est vrai que j’aime bien l’idée de rappeler qu’on surestime souvent les changements à court terme et on sous-estime les changements à long terme. C’était Bill Gates qui disait ça. Et c’est vrai que j’y pense régulièrement parce que je le vois vraiment dans le secteur. Il est évident que d’ici un an ou deux, on pourrait se dire… Le changement qui est généré par l’IA générative et tout ça, ça ne change pas nos vies fondamentalement. Mais en vrai, à 10 ans, je pense que vraiment, il va y avoir un changement fondamental de beaucoup d’industries liées à ça. Il y a tellement d’applications de tout ça, c’est que typiquement, nous, dans mon industrie, les call centers vont vraiment changer. Il y a des pays dans le monde, en Asie du Sud-Est notamment, où il y a des armées de gens qui répondent au téléphone. c’est des gens qui vont devoir changer de façon de travailler, bien sûr. Pas forcément dans un an ou deux, c’est ça. Mais d’ici dix ans, c’est évident. Comme les smartphones, en un an ou deux, ils n’avaient pas tout révolutionné, mais dix ans plus tard, ils avaient vraiment changé tout. Et ça, je me dis vraiment que c’est quelque chose que l’IA va impacter là. Même si en ce moment, on commence à dire, oui, il y a la générative, il y a les trois trucs, on pourrait se dire, ça n’a pas vraiment changé si vite que ça. Mais oui, mais ce n’est pas surprenant. Ça va venir et on va connaître de notre vivant quelque chose de vraiment étonnant que pour la première fois, potentiellement, on va avoir l’impression qu’il y a quelque chose qui va être plus intelligent que nous. Et ça, ça va faire bizarre à l’humain.
Speaker 0 00:46:28 – 00:46:32 : Alors, quel invité est-ce que tu aimerais entendre dans un prochain épisode de Data Driven 1.1 ?
Speaker 1 00:46:32 – 00:47:24 : Alors oui, j’avais pensé, il y a les pointures habituelles de l’IA, pourquoi pas, c’est toujours intéressant, notamment, j’aime bien Luc Julia, c’est toujours intéressant son historique, une des personnes qui a participé notamment à Syrie. Mais je voulais aussi te soumettre, par exemple, peut-être un peu moins technique, mais étant basé à Station F, donc un endroit que j’aime bien, vraiment, et que je trouve que sur le temps long, continue à fonctionner. donc c’est quand même intéressant d’envisager de discuter avec des gens de l’équipe de Station F notamment Roxane Varza la directrice de Station F parce qu’effectivement le modèle a beaucoup changé depuis le début. ils ont itéré pas mal de choses et j’aime bien que le fait que finalement cette start-up de co-working finalement qui est Station F qui est le même héberge des start-up voilà mais évolue itère aussi sur son modèle et je pense que en termes de data-driven company eux ils le sont aussi bien pas mal ils ont un bon IT derrière. donc ça serait intéressant.
Speaker 0 00:47:24 – 00:47:30 : ouais effectivement. merci Thomas je t’en prie Vous venez d’entendre Thomas Guenou, CEO de Yelda AI.