Synthétiser ses réunion grâce à l'IA

Arthur André, Co-fondateur de Praiz est l’invité de l’épisode 29 de Data Driven 101. Il nous parle de l’émergence de solutions comme Whisper pour la transcription et l’analyse conversationnelle, et comment Praiz s’en sert pour enregistrer des appels visio.
Il nous raconte ses péripéties dans le développement d’un produit IA utilisant les dernières technologies de l’état de l’art, avec un objectif : remplacer la prise de note et les follow-up lors de réunions.

Arthur André : synthétiser ses réunions grâce à l'IA

 

– Marc — 00:00 :

 Aujourd’hui, je reçois Arthur André, cofondateur de prise. Arthur est un ancien employé d’ercole où il a rencontré ses cofondateurs. Ensemble, ils ont décidé de lancer prise une start-up qui permet de résumer des meetings vidéo grâce à l’i a c’est une équipe aujourd’hui de 5 personnes. Ils ont levé un précis un peu moins d’un million d’euros l’an dernier. Bonjour Arthur. 

 

– Arthur — 00:18 :

 Bonjour Marc. 

 

– Marc — 00:18 :

 Alors ce que tu peux nous parler un petit peu plus de prise que ce que vous faites et ce que vous voulez faire exactement. 

 

– Arthur — 00:23 :

 Oui, bien sûr. Alors prise, c’est une application vidéo, c’est une plateforme sur laquelle on peut enregistrer ces appels visio, mais également les appels téléphoniques, les retrouver pour les réécouter. Mais le vrai cas d’usage, c’est qu’en permet de les résumer. Donc on va faire le transcript de l’intégralité de l’appel et le résumé pour ne pas avoir besoin de réécouter 1 heure d’appel l’idée, c’est de gagner beaucoup de temps sur la réécoute. 

 

– Marc — 00:45 :

 Comment ça vous est venu? heuuu

 

– Arthur — 00:46 :

 Alors on est 3 anciens de chez école, on s’est rencontré là-bas en 2017 Moi j’ai un profil un petit peu. Hop ce success, j’ai créé l’équipe on boarding chez Recall, donc j’ai on bordé des centaines de clients qu’on a, on a vu pas mal de cas d’usage de téléphonie mais surtout de visio se développer aussi et avec mes 2 associés qui sont l’un très commercial, Vincent et Gabriel. Très data, on a vu l’émergence de solutions comme gong qui permettent de faire de la transcription de l’analyse conversationnelle très poussée. Et on s’est rendu compte qu’il y avait pas vraiment d’alternative disponible en Europe et encore moins en France, et qu’y avait vraiment un gros potentiel de faire gagner de la productivité aux équipes principalement commerciales et support. Et donc c’est pour ça qu’on a, on a décidé de se lancer sur ce segment là. 

 

– Marc — 01:27 :

 Alors dans le domaine de la transcription, il y a open rei qui pour une fois n’est pas coutume, a fait quelque chose de très open avec son modèle whisper qui libre de droit. Pourquoi c’est pas aussi simple que simplement faire passer whisper sur le son c’est quoi les étapes? Je dirais qui constituent votre solution

 

Arthur

 alors du coup c’est pas si simple parce qu’il faut déjà avoir l’enregistrement en tant que tel, c’est pas parce qu’on fait une visio qu’on a la possibilité de thé d’enregistrer. Il y a plusieurs solutions concurrentes sur le marché, y a zoom teams. Mythe, il y en a même des dizaines d’autres qui sont plus confidentielles et les utilisateurs ont pas forcément les moyens d’enregistrer l’appel à leur niveau. Donc nous déjà on essaie de simplifier cette partie là on propose une solution universelle qui va être un meeting assistant en fait. Donc c’est un participant qui va rejoindre la conversation pour l’enregistrer. Ça nous permet de nous assurer qu’on a un enregistrement de qualité. Optimal en termes de voix, parce que ça, c’est un 2ème enjeu, c’est qu’il faut qu’on soit capable d’identifier qui parle quand y a plusieurs interlocuteurs, on n’a pas forcément un fichier audio par participant. Des fois, on a un seul fichier et donc c’est pas forcément évident de d’identifier qui parle à quel moment. Et puis ensuite, une fois qu’on a identifié qui parle, il faut savoir dans quelle langue. C’est pas évident parce que des fois y a des conversations, on va faire un peu de chat au milieu, on va commencer un peu en français par exemple, parce qu’on est que des Français. Et puis l’américain qui arrive, donc on passe en anglais, il faut qu’on soit capable de détecter du coup en temps réel quelle est la langue de l’appel. Et puis ensuite, une fois qu’on a ça fait un gros fichier texte de transcript qui fait potentiellement des centaines de lignes parce qu’elle a un appel d’une heure et là il faut rentrer dans le vif du sujet, le transcrire et en extraire de la data. 

 

– Marc — 02:58 :

 Alors typiquement sur le flux audio, est-ce que vous séparez vous même un flux qui contient toutes les voies ou est-ce que c’est possible de récupérer les voix séparément parce que techniquement elles sont enregistrées séparément les voix? 

 

– Arthur — 03:10 :

 Alors techniquement, elles sont évidemment enregistrées séparément. Malheureusement, les outils, souvent les fusionnent pour des questions de stockage, ça coûte beaucoup moins cher de stocker un seul fichier audio où on merde les pistes. Et donc ça va vraiment dépendre de la solution qu’on utilise. On a des intégrations natives avec certains outils, notamment aircal, qui nous permet de récupérer 2 pistes, mais c’est pas évident donc c’est pour ça aussi qu’on a notre solution d’enregistrement qui est agnostique de la plateforme pour justement nous permettre ensuite d’extraire le maximum. 

 

– Marc — 03:35 :

 Et aujourd’hui là, avec la performance des outils sur étagères pour la transcription par whisper, tout à l’heure, les outils que vous utilisez pour reconnaître les individus qui parlent et cetera. On a pas trop d’erreurs, on a pas trop de confusion. Après pour vous dire faire un résumé. C’est acceptable ce taux d’erreur? 

  

– Arthur — 03:53 :

 Alors la qualité du TRANSCRIPT a énormément évolué grâce à whisper, on avait fait des tests avant sur d’autres API et sur étagère. Par exemple, Google, Amazon, Watson aussi d’IBM Il y avait une bonne qualité, mais y a vraiment une différence entre une qualité bonne exceptionnelle parce que les quelques % de donc c’est le World Error rate qui va être le KPI qui permet d’identifier. Ben Voilà combien de mots sont correctement orthographiés et en fait, si on n’est pas à 95 % Il y a des dispenses qui vont permettre en fait d’enfin qui vont pas permettre justement d’avoir des phrases entières et qui vont pas permettre d’avoir des analyses macro suffisamment bonnes. Donc c’est hyper important d’avoir vraiment la qualité maximum. Ouais. Et avec whisper, on a des résultats vraiment très bons. 

 

– Marc — 04:37 :

 Qu’est-ce que tu dirais dans les différentes tâches d’i a que tu nous as décrites, lesquelles sont les tâches faciles en 2023 et difficile. 

 

– Arthur — 04:46 :

 Encore aujourd’hui, alors enregistrer, c’est relativement facile pour les raisons que j’ai évoquées, on y a accès et après on a la transcription qui est devenu beaucoup plus facile en 2023 grâce à whisper et les autres parce qu’y a d’autres qui arrivent sur le marché. Y a pas qu’Open I donc la transcription pure elle est assez simple. Par contre après on va être sur un niveau de complexité lié à la langue, ça va être aussi lié au token. À la façon dont on utilise les tokens pour transcrire des morceaux de texte parce qu’il y a des limites de volume de données, donc on va être obligé de découper ça en petits morceaux, et donc le cas que je te citais tout à l’heure. Par exemple, quand tu commences dans une langue et tu switch dans une autre, la elle va pas forcément être capable de switcher d’un coup. Le la transcription d’une langue à l’autre. Ouais donc ça c’est un peu compliqué, y a pas mal d’engineering à faire là-dessus pour découper l’appel en plein de petits morceaux et les recombiner pour voilà vraiment avoir le la meilleure transcription possible sur chaque phrase et après t’as des choses encore plus difficiles qui vont être bah ce que je te disais séparer les flux audio. Si tu l’as pas en amont, c’est compliqué de l’identifier en aval parce qu’il faut vraiment que t’aies toute la conversation, il faut que tu creuses dans ce qui a été dit pour ensuite. Bah par exemple au début du col à celui qui dit Bonjour X Bonjour y donc ça va être la base mais 

 

– Marc — 06:29 :

 Et alors parmi les obstacles que vous aviez pas  anticipés, ce que tu peux nous en citer. 

 

– Arthur — 06:35 :

 Il y en a, il y en a plusieurs hein. C’est rarement aussi simple que ce qu’on imagine quand on fait de la de la tech, il y en a un en particulier. C’est vraiment sur la partie résumée. Ouais, donc on a tout ce que j’ai évoqué pour avoir un transcript, mais une fois qu’on l’a, il faut savoir ce qu’on en fait et donc tout le monde a utilisé chat GP aujourd’hui tout le monde a fait un test ou plusieurs ou des dizaines et on se rend compte que parfois quand on souhaite un output très précis, et Ben ça demande beaucoup d’essais pour arriver aux résultats escomptés. Et donc on s’est rendu compte que le prompt Engineering c’est pas du tout un truc à sous-estimer. C’est vraiment quelque chose d’important. Par exemple sur notre modèle de résumé d’appel, on a plusieurs dizaines voire centaines de lignes de promptes sur certaines variantes, parce qu’en fait si on veut quelque chose de très précis, Ben il faut le donner. Beaucoup de contextes, beaucoup d’instructions à chat GT et donc ouais donc y a un vrai, une vraie complexité, une vraie spécialisation sur le compte gaming qui va se développer je pense. Ouais. 

 

– Marc — 07:25 :

 Le prompt, vous le faites varier d’une situation à l’autre, enfin, qui est à l’autre d’un visio. Vous arrivez à intégrer le contexte que vous avez. 

 

– Arthur — 07:33 :

 Alors c’est une très bonne question. Aujourd’hui, on est encore en phase de découverte des vrais cas d’usage, de résumé. On a construit la solution pour le plus grand nombre de d’équipes possibles, parce qu’aujourd’hui tout le monde fait des visio, tout le monde fait des appels, tout le monde a potentiellement envie de pouvoir résumer un meeting un jour. Mais en fait, y a beaucoup de types d’appels différents, c’est pas évident de créer quelque chose de standard aujourd’hui. Notre plus gros enjeu, ça va vraiment être d’identifier quel est le type d’appel, quel est le résumé qui va générer le plus de valeur et qui va être le plus exploitable ensuite par les gens qui vont s’en servir pour justement utiliser le modèle de résumé le plus adapté. Je te donne un exemple très concret, tu vas faire une réunion d’équipe qui va être un update par exemple ou je sais pas 8 10 personnes qui vont à tour de rôle parler faire leur update t’as peut-être envie d’avoir un résumé assez simple qui va être simplement un compte rendu avec voilà. Quelle personne a dit ça telle personne a dit ça, telle personne a dit Ça, t’as pas besoin d’avoir d’analyse plus macro, plus complexe de ce Call. Par contre si t’es sur un appel de type prospection de type Discovery Call pour une équipe commerciale ou de type Call de cadrage de projets par exemple, tu vas avoir beaucoup d’informations de contexte qui vont être échangées et tu vas peut-être avoir envie de creuser certains points très précis. Tu vas peut-être avoir envie d’utiliser une méthodologie de classification du LED par exemple, il y a pas mal de frameworks chez les sales, les medics, les bandes, les choses comme ça qui sont en fait des une liste de questions qui vont être posées systématiquement pendant cet appel et qui vont ensuite être utilisés pour être logés dans le CRM Typiquement pour ces appels là quand on arrive à détecter que c’est un appel de ce type, ce qu’on fait c’est qu’on bah on fait la liste ensuite de toutes les infos attendues par la personne et comme ça elle gagne du temps ensuite sur la partie log dans le CR m d’accord

 

Marc

 alors typiquement sur les cas clients en disant à citer quelques-uns parce que t’as remarqué certains cas d’usage plus ou moins facile et peut être dire le 2ème axe plus ou moins utile. 

 

– Arthur — 09:22 :

 Alors l’utilité? Bah ça dépend vraiment de chacun hein. Certains vont en avoir beaucoup besoin parce qu’ils font beaucoup d’appels par jour et qu’ils ont pas le temps de prendre de notes après l’appel parce qu’ils enchaînent ou parce qu’ils ont pas. Je sais que moi par exemple, j’ai beaucoup de mal à prendre de notes pendant un appel. Ce que je suis très concentré sur ce que je dis et sur le déroulé de mon appel et je vais avoir du mal à prendre des notes en même temps. Éventuellement je prends quelques notes sur le papier, mais c’est tout. Et je vais oublier des choses donc ça va être très utile pour des appels de type one quand tu parles avec une personne et que tu sais de quoi tu échanges mais que t’échanges beaucoup et que tu veux un compte rendu un peu automatique. Mais après y a des cas d’usage beaucoup moins simples. Comme je te disais par exemple, les réunions d’équipe, quel est le type de réunion? Est-ce que c’est une réunion simplement de partage d’informations ou est-ce que c’est une réunion de prise de décision sur un sujet? Est-ce que tu veux identifier par exemple des objections de certaines personnes qui sont pas forcément exprimées? Très clairement? Est-ce que. Autre cas d’usage, on peut-on a aussi pas mal de demandes de clients qui veulent faire de l’analyse de tout ce qui est non verbal. Tout ce qui est difficile à analyser en fait, en live par exemple, bah l’analyse du rythme de parole par exemple sur un appel commercial, quel qu’un qui va parler trop vite ou qui va te faire des réponses très courtes, ça peut être un indicateur qui n’est pas intéressé, mais c’est quelque chose que tu vas pas forcément identifier en live dans ton AP et tu vas peut-être essayer de prospecter encore pendant quelques fois alors que c’est pas la peine. Il t’a envoyé des signes clairs de non intérêt et donc toute cette partie là. Ouais je pense tout ce qui est analyse des émotions, analyse du non-verbal sur le rythme, le ton, la parole. Là, il y a un boulevard de possibilités d’analyse et donc on perçoit cet intérêt de la part de nos prospects et des utilisateurs avec qui on discute. Il y a encore beaucoup à faire je pense, pour leur proposer quelque chose de vraiment utile parce que c’est unique, 

 

– Marc — 10:59 :

 Ouais. Alors pour quelqu’un qui voudrait démarrer un projet d’i a avec des enregistrements comme ça d’appels, qu’est ce que tu pourrais lui dire sur les particularités qu’on s’est donné? 

 

– Arthur — 11:09 :

 C’est vrai que l’audio c’est pas forcément facile à manipuler parce que déjà il y a une question de quelle est la qualité de l’enregistrement si l’enregistrement est pas suffisamment bon, on va avoir du mal à le transcrire tout simplement parce qu’on entend pas suffisamment bien le la voix s’il y a du bruit de fond, des choses comme ça, il y a un premier enjeu là-dessus En général la qualité est relativement bonne mais quand ça va être un appel où il y a un des participants qui est dans un environnement bruyant ou autre, malheureusement on n’a pas trop la main là. Ok on a un prétraitement nous qui nous permet de cloner un petit peu la qualité de l’audio si on détecte qu’il est pas très bon aujourd’hui, y a beaucoup d’algorithmes dispo en open source qui permettent de voilà de réduire du bruit de fond, de supprimer de l’écho, d’améliorer un petit peu ça. Et une fois qu’on a ensuite le fichier Audio, Ben on a le l’enjeu que j’évoquais tout à l’heure, c’est le déjà savoir qui parle à quel moment si on n’a pas plusieurs pistes, il faut pouvoir identifier qui parle quand ça permet aussi du coup d’identifier le voilà. Il y a un problème de qualité, on sait que c’est telle personne, donc paradoxalement ça peut aider d’avoir un fichier inégal en terme de qualité. 

 

– Marc — 12:04 :

 L’audio, tous les traitements dont tu parles avec les Algos comme Whisper c’est utile. Autrement dit whisper n’est pas robuste au bruit, au bruit de fond. Voilà au alors whisper est très bon, très efficace pour détecter même sur un fichier de mauvaise qualité entre guillemets, avec du bruit de fond avec de des bruits parasites. Il va quand même être capable de sortir un transcript de très bonne qualité. Nous, on le fait aussi parce qu’on a un enjeu de replay, donc on a envie que l’utilisateur puisse réécouter son appel dans la meilleure qualité. Donc c’est aussi pour ça qu’on fait un premier traitement. 

 

– Marc — 12:34 :

 D’accord, et ce qu’on peut dire aujourd’hui que si un humain arrive à entendre dans une conversation les technos y arrivent aussi. 

 

– Arthur — 12:46 :

 En fait, whisper est même meilleur que l’oreille humaine. D’accord, on s’est rendu compte qu’il avait une capacité d’entendre certains mots que nous on comprend pas. On a fait le test sur certains appels où on parlait très vite ou alors on cachait un petit peu le son on faisait exprès et il y a des sons. Si tu réécoutes l’enregistrement, toi tu dis je suis pas sûr, j’entends un peu ce son là mais je suis pas sûr que ça soit ce mot là et lui il arrive à le détecter, c’est vraiment bluffant et ce qui est le plus bluffant c’est qu’il le fait en 10 secondes, c’est à dire qu’un appel d’une heure il va être capable de le transcrire en 5 à 10 secondes. 

 

– Marc — 13:13 :

 Sur une grosse machine, j’imagine. 

 

– Arthur — 13:15 :

 Ben en fait on sait pas trop parce que c’est une API donc ils ont j’imagine beaucoup de serveurs derrière qui tournent, ça doit être du serveur less avec de la puissance disponible en instantané mais c’est un des énormes avantages aussi de passer par une API comme ça. C’est que justement on a pas d’infrastructure à gérer là-dessus Honnêtement on avait essayé mais c’est assez compliqué. Surtout qu’il vaut mieux avoir des GPU pour faire tourner ces modèles là et c’est très peu disponible à la demande le GPU oui et puis il faudrait si on n’a pas de volume, il faut l’allumer, l’éteindre à chaque fois, c’est eh bien là, c’est un autre enjeu, il faut un devops ou 2 pour gérer cette infra sur 

 

Marc

côté intégration, tu peux parler un tout petit peu de ça tout à l’heure, mais si on veut rentrer un peu dans le détail, comment on fait pour s’intégrer dans des logiciels d’appel visio? 

 

– Arthur — 13:55 :

 Alors c’est une ouais, c’est effectivement un gros enjeu pour nous. La plupart des outils utilisent enfin proposent des API pour récupérer les enregistrements directement, donc c’est assez simple entre guillemets, même si derrière ça demande quand même un peu de complexité parce qu’il faut construire. Voilà les micro services qui vont aller chercher de la donnée qui vont la récupérer, qui vont la mettre dans un format Stream table pour nous. Enfin après on a des enjeux de frontend aussi. Et puis une partie configuration aussi où on a besoin d’un administrateur qui va donner un accès. À l’outil, parfois, il faut des autorisations internes en IT en fonction de la politique de chaque entreprise. Et puis parfois il faut que l’utilisateur aussi donne l’autorisation, notamment pour notre intégration myth? Mais c’est relativement facile, je veux dire, il y a des briques technos qui sont dispos pour les récupérer. Mais c’est quand même pour ça qu’on a développé aussi notre propre meeting assistant pour justement tous les cas où c’est pas possible. Donc comme je le disais par exemple, si jamais tu les invitais dans un meeting et c’est pas toi le Host, t’as pas forcément l’autorisation d’enregistrer quand c’est teams ou zoom, donc ça permet de le faire quand même pour ces appels là. 

 

– Marc — 14:53 :

 Quels sont les principaux verrous technologiques, obstacles que vous avez devant vous et comment vous les avez résolus pour mettre en place votre solution? 

 

– Arthur — 15:01 :

 Alors on a eu un premier une première limite qui était bah du coup le la non-existence de chat GPT il y a un an et demi quand on a lancé le projet, il y avait d’autres I disponibles et c’était beaucoup moins simple à utiliser, c’était moins bien. Documenter et puis ça marchait moins bien tout simplement, donc ça a été un premier frein qui nous a fait patienter le temps d’avoir accès à GPT 3 et 3 point 5. Ça a vraiment changé notre horizon parce qu’on est sur des coûts beaucoup plus faibles et des qualités bien meilleures et des vitesses de rendu surtout hallucinantes. Aujourd’hui, on est capable de transcrire un appel d’une heure en quelques secondes et ça débloque beaucoup de cas d’usage là où avant on était sur une toute première version. C’était une intégration avec meet donc on attendait 1 heure pour récupérer le recording de Google Meet, puis on mettait plusieurs minutes voire dizaines de minutes à transcrire l’appel parce qu’on le faisait sur des machines pas très puissantes. Et puis on essaie de limiter les coûts, le temps de processing et donc du coup il fallait 2 heures pour résumer un meeting de 5 minutes donc c’était assez compliqué parce qu’après voilà l’utilisateur il aurait voulu avoir le transcript tout de suite à la fin de l’appel, pouvoir regarder rapidement ses notes ce qui s’est dit pour faire son mail de follow up Donc chat GPT nous a vraiment fait gagner du temps. Mais en même temps, ça apporté aussi des challenges parce qu’y a eu la migration de chat GPT 3 4 où en fait y a un bond incroyable de qualité entre les 2 modèles. Mais il y a aussi des gros enjeux de coûts parce que c’est quand même beaucoup plus cher d’être sur GT 4, ça apporte pas mal de flexibilité en termes de développement et de possibilités de gérer des grosses quantités de données. Parce que typiquement, sur GPT 3, on a un enjeu qui est de bah voilà la taille des tokens qu’il faut qu’on découpe en fait l’appel très concrètement, à peu près 4 5 minutes parce que c’est ça la limite, c’est les 4000 quatre-vingt-seize tokens je crois la limite d’accord. Donc ça c’est un vrai enjeu qui et du coup est devenu aussi un enjeu de prompt Engineering parce que derrière il faut optimiser les requêtes API Et puis le prompt pour la partie résumée pour justement prendre en compte le fait que Ben voilà, il y a 5 minutes plus cinq minutes plus cinq minutes d’appel à recombiner. C’est pour ça que voilà le notre compte, il fait une centaine de lignes. 

 

– Marc — 16:53 :

 Et puis le problème s’arrête pas. J’ai pété 3 point 5 parce que le j’ai pété 4 à une peu plus de taille mais j’imagine que vous passez peut-être 5 à 10 minutes ou alors 

 

Arthur

c’est mieux, ça pousse à non plusieurs dizaines de minutes. C’est pas encore parfait, mais c’est surtout que c’est beaucoup plus cher, alors c’est bien parce que ça permet de simplifier le prompt et ça permet de simplifier pas mal d’opérations techniques aussi de notre côté, pour tous les services annexes. Mais ça coûte 4 fois plus cher pour un résultat qui parfois est très similaire. Donc en fait y a un arbitrage à faire aussi en fonction de ce que vous essayez de construire. Est-ce que c’est un simple résumé de données assez simple ou qu’il y a beaucoup de choses à faire et de choses à croiser? Ça dépend aussi du modèle avec lequel tu compares. Si c’est un modèle assez small ça va, si c’est un modèle plus gros, y a un arbitrage à faire entre ouais. 

 

– Marc — 17:38 :

 Alors comment on résout ce problème qui se rencontre tout le temps quand on utilise GPT sur voilà des grands documents, ce qui est le principal intérêt hein normalement de pouvoir lire très rapidement quelque chose, comment on s’y prend quand on est obligé de découper en sous document pour Ben du question sur Bing en général hein vous dans votre cas c’est du résumé, mais je pense qu’on pourrait généraliser. 

 

– Arthur — 18:02 :

 Et Ben on on trouve des petits et des petites solutions pour justement voilà, passer outre ces limites. Concrètement, on va découper les tâches en fait en plusieurs morceaux parce qu’y a pas trop de solutions malheureusement hein. Quand t’atteins la limite de temps de données à professer, tu peux pas réduire la taille de ta donnée en entrée, donc tu peux simplement recombiner les différents ajouts à la sortie. C’est vraiment hyper intéressant en point de vue. Prompt Engineering la réflexion que ça nous a donné parce qu’on a commencé, on a fait 2 3 modèles simples, on s’est dit que ça va être super simple et puis en fait non ça. Donc on a repassé pas mal, on a passé plusieurs semaines à tester différentes choses et après c’est compliqué de donner plus de détails parce que c’est assez spécifique et ça dépend aussi de la output que vous cherchez à atteindre. C’est vraiment ça qui est important. En fait, je pense que le principal conseil que je donnerais, c’est d’essayer de se poser la question. Ce que je souhaite en sortie très concrètement, mais c’est à dire combien de boules de point je veux? Quelle longueur de phrases Je veux, est-ce que je veux un résumé de type très succinct ou très détaillé? Nous par exemple on a un résumé en à 2 étages, c’est-à-dire qu’on résume la liste des sujets qui ont été abordés. On l’appel plus ensuite, on résume chacun de ces sujets dans un paragraphe de plusieurs phrases pour donner plus de contexte et donc du coup, ça demande de bien donner des instructions claires à GPT pour lui dire Je veux telle chose, puis telle chose, et je veux tel critère, tel critère, c’est le critère et c’est pour ça qu’il faut pas hésiter à rajouter de longues lignes. 

 

– Marc — 19:24 :

 D’instruction et pour la fusion, typiquement, j’imagine que vous utilisez aussi chat GPT pour ensuite fusionner les différents bouts d’ouais, 

 

– Arthur — 19:34 :

 On utilise GP aussi pour la simple et bonne raison que plus tu lui donnes des tasks à faire les unes après les autres et plus tu lui donnes de contexte, plus il comprend aussi ce que t’as envie de faire. Donc c’est plus simple de faire un prompt comme ça à étage, entre guillemets. D’abord, tu me résumes ça, puis tu me résumes ça, puis tu le recompiles de telle façon et c’est plus simple pour lui de suivre cette logique que si jamais tu lui donnes une tâche avec de la data un peu trop brute et sors moi ça c’est ça un petit peu contre intuitif en fait, c’est qu’ouais chat RGPD c’est vraiment un modèle où il faut pas hésiter à poser enfin à découper le prompt en plein de sous tâches et de sous actions parce que c’est là qu’il est le plus fort. 

 

– Marc — 20:05 :

 Ouais et alors la jonction entre chaque zone découpée est ce que c’est vraiment, ça s’arrête à telle seconde et ça reprend au même endroit. Ou que vous faites un petit overlap pour qu’il y ait un peu de contexte en amont, comment vous avez choisi de construire ça. 

 

– Arthur — 20:19 :

 Nous, on a de la chance, c’est qu’on est sur de la donnée qui est temporellement liée, elle s’arrête pas, c’est que c’est un appel qui s’enchaîne donc en fait à partir du moment où il a terminé une phrase, bah il passe à l’autre donc il y a pas d overlap, y a pas besoin de gérer ce souci là. Après voilà, c’est parce qu’on lui demande de faire un résumé un peu global de tout ce qui s’est dit, donc lui. Il arrive à le faire tout seul, je pense tout simplement, mais vous? 

 

– Marc — 20:39 :

 Découpez au bon endroit pour qu’y ait pas. 

 

– Arthur — 20:41 :

 Besoin de faire ça quoi il arrive à le recombiner de façon assez naturelle. 

 

– Marc — 20:46 :

 Est-ce qu’on pourrait généraliser ça à d’autres, à d’autres cas d’usage, vous aurez peut-être réfléchi à ce qu’on pourrait utiliser votre techno et puis la sortir en dehors de la visio par exemple. Pour ce podcast qu’on pourrait résumer avec votre outil. 

 

– Arthur — 21:00 :

 Tout est possible, hein, c’est ça la beauté de l’i a et des outils aujourd’hui là on peut tout faire. Ça dépend vraiment du cas d’usage final. En fait c’est qu’y a un vrai besoin de résumé. Quel est ce besoin de résumé? Quel est le la output que tu souhaites avoir? On a fait des tests sur d’autres données, c’est intéressant que tu poses la question comme ça on a essayé par exemple de résumer des mails et de faire du croisement entre des mails et des appels. Dans le cas de prospection, c’est intéressant parce que c’est la même interaction que t’as avec la même personne, mais sur 2 formats différents et ça fonctionne très bien, ça fonctionne très bien, on a essayé de résumer des vidéos autres, on s’est entraîné beaucoup sur des vidéos existantes notamment. On a pris des débats présidentiels parce que c’est hyper intéressant en termes de richesse, de contenu et de sujets abordés. Un débat présidentiel de l’entre-deux-tours, c’est 02h30 3 heures de débat et il y a des dizaines de thèmes qui sont abordés. Et puis avec des positions évidemment, où chaque candidat essaie de se différencier. Donc il y a des points de différence. Et on l’a challengé un petit peu là-dessus pour essayer de résumer ce qui s’est dit et donc on peut imaginer ou des cas d’usage pour par exemple, on a eu des demandes pour des conférences ou des événements publics comme ça où ça peut faire ça. C’est compliqué de résumer des choses en public qui sont pas forcément enregistrables parce que typiquement tu peux pas enregistrer ce que tu dis à la télé ou si t’es dans un dans une conférence tu peux pas forcément enregistrer. Ouais, faire un résumé, par exemple d’une conférence qui était sur Youtube, ça peut un cas d’usage intéressant. Ouais. 

 

– Marc — 22:19 :

 Quels sont les obstacles non techniques, cette fois-ci à l’utilisation de votre travail? 

 

– Arthur — 22:24 :

 Alors c’est intéressant parce que évidemment le la technologie ça demande aussi que l’humain accepte de s’en servir et donc il y a pas mal de points. On a le côté éthique qui ressort souvent, notamment sur le côté consentement d’enregistrement, donc c’est un problème qui existe déjà avec le téléphone et la visio hein. C’est simplement ce que j’accepte d’être enregistré quand je suis dans une conversation avec un prospect commercial ou quand vous appelez un service client. On vous demande, acceptez-vous d’être enregistré, sinon tapez un pour ne pas l’être. Donc ça c’est un vrai blocage. Parce que si on n’a pas d’enregistrement, on peut rien en faire évidemment et on a pas mal d’industries sur lesquelles il va y avoir des impossibilités éthiques et réglementaires d’enregistrer. Typiquement, je pense aux fin tech ou aux industries juridiques. On est sur de la donnée très sensible, donc ça c’est un vrai blocage et c’est dommage parce que des fois ça peut être des appels ou des contextes où il y a beaucoup de contenus intéressants qui pourraient être utiles ensuite. Typiquement voilà, je prends un exemple, vous faites un Call avec votre avocat ou votre comptable sur des choses très techniques, très concrètes. C’est dans ce genre d’appel où t’as envie de pouvoir retrouver les notes et faites un petit peu subtil, mais tu peux pas forcément à cause de ces contraintes. On va aussi avoir évidemment la contrainte de RGPD C’est un sujet qui revient très souvent avec où sont stockés les données. Donc nous on stocke tout en France. Malheureusement voilà, quand on utilise whisper et chat GTA une partie des données qui transitent aux US donc y a certains clients pour lesquels c’est pas acceptable d’avoir les données qui seulement transitent en dehors de l’Europe même si elles sont pas stockées et qu’elles restent pas. Et donc du coup on a cet enjeu là mais c’est pas forcément une mauvaise chose parce que du coup ça force les acteurs à se réinventer et il y a pas mal de nouveaux acteurs. Français européen qui se lancent, je pense notamment à Mistral et qui a été lancé la semaine dernière. Là qui a annoncé une levée de fonds de plus de 100000000 d’euros. Et d’ailleurs on est en discussion avec eux, on est en train de regarder ce qu’on pourrait faire avec eux, ce qu’à terme on aurait pas intérêt à créer un modèle souverain parce que ça permet de construire des solutions vraiment 100 % RGPDF compliant. 

 

– Marc — 24:08 :

 Ce que tu dois dire aujourd’hui à chaque nouveau client, à chaque interlocuteur qui pour toi sera une évidence pour tout le monde, dans 10 ans ou dans 20 ans. 

 

– Arthur — 24:18 :

 En fait, je pense qu’il faut-il faut essayer de prendre un peu de recul sur la technologie et l’usage qu’on en fait. Aujourd’hui, l’IA en fait, elle est déjà présente dans nos vies sans qu’on s’en rende compte qu’on trouve une recherche Google. C’est bourré de d’intelligence artificielle mais c’est pas affiché, c’est pas, c’est pas quelque chose qu’on dont on a forcément conscience mais c’est pas grave parce qu’en fait la technologie elle doit être quand même au service de nos vies, de notre façon de travailler, de ça doit juste être là pour nous faire gagner du temps. Il faut pas qu’on le pense comme une techno qu’on utilise juste pour la techno. C’est ce qui compte vraiment le cas d’usage final et donc aujourd’hui on a pas mal de gens qui se posent des questions pour dire est-ce que c’est pas dangereux l’intelligence artificielle? Évidemment, comme toute technologie, il y a des risques, mais c’est pas forcément plus dangereux que d’autres choses qu’on fait aujourd’hui. On confie nos vies à des géants, du numérique, à Google, à Facebook, à Amazon. Ils ont accès à des données. Déjà, c’est pas forcément négatif. Ce qui compte, c’est ce qu’on en fait derrière ce que ça nous fait gagner du temps. Est-ce que ça nous permet de justement de nous libérer de la technologie? Donc c’est vraiment quelque chose que je pense est une réflexion à avoir au niveau de la société hein, c’est il faut simplement prendre conscience que la technologie nous entoure. Mais elle est pas forcément dangereuse si on sait comment on l’utilise quoi. 

 

– Marc — 25:28 :

 Alors il y a des erreurs que vous avez faites pendant votre développement, que tu peux nous partager pour nous faire gagner du temps sur les projets similaires. 

 

– Arthur — 25:35 :

 Alors oui, bon, on fait toujours des petites erreurs, c’est normal quand on développe des projets ambitieux avec des choses nouvelles. On a fait beaucoup d’essais avec GPT on a comparé GP 3, enfin 3 point 5 et 4 et une des erreurs qu’on a fait qu’on s’est pas rendu compte à quel point j’ai t 4 était beaucoup plus cher et donc en fait on s’en est rendu compte quand on a pété la limite le premier jour. Alors ils sont malins chez open ils sont sympas, ils ont mis une limite à 100€ d’usage. Parce qu’ils savent que c’est un usage qui est énorme et donc du coup y a déjà une hard limite comme ça pour pas dépasser et en fait on s’était trompé, on avait, on avait fait des requêtes beaucoup trop compliquées, on avait mis des mauvais paramètres, on avait, on avait testé sur le modèle le plus large sur enfin la qualité maximum et donc du coup bah on a dépensé un petit peu au départ mais. C’est pas si grave parce que ça nous a permis aussi de comprendre quel était le niveau de qualité d’output de l’API qui en fait exceptionnel même sur les options les plus simples, les moins chères sur les petits modèles. Et donc ça aurait été une erreur de pas tester et de pas faire des erreurs. Je pense qu’il faut tester, il faut, c’est super simple aujourd’hui d’utiliser ces API là donc il faut y aller quoi. 

 

– Marc — 26:39 :

 Le RGPD aujourd’hui, pour vous, c’est un problème? 

 

– Arthur — 26:41 :

 Alors le RGPD ça fait peur? Dès qu’on en parle mais je vois pas ça comme un problème. Au contraire, je vois plutôt ça comme une opportunité. Dans le sens où ça nous oblige à nous poser des questions sur Ben quelles sont les données qu’on collecte et qu’on traite pour nos clients? Ça nous force à être plus rigoureux et plus transparent aussi dans la façon dont on gère ces données qui sont sensibles. Nous, ça nous a permis de justement de rationaliser les données qu’on collectait. On s’est rendu compte qu’on avait certains outils en double ou en triple pour les mêmes données, donc ça nous a permis de supprimer certains registres de traitement. C’est aussi l’occasion de côté client de poser des questions sur comment il gère lui aussi sa propre donnée vis-à-vis de ses employés et vis-à-vis de ses prospects, ses clients. Donc je pense que. En soit, c’est une bonne chose et c’est pas si compliqué que ça d’être RGPDF compliant, c’est vraiment plus une philosophie. Ce qui est important c’est que c’est pas une certification, c’est pas quelque chose de bloquant, c’est plus une sorte de bonne volonté de gérer les données de façon responsable et donc c’est plus une feuille de route qu’une contrainte. 

 

– Marc — 27:36 :

 Ce que t’as une anecdote à partager? 

 

– Arthur — 27:38 :

 J’ai une anecdote sur whisper justement, ceux d’entre vous qui l’ont testé l’ont peut-être rencontré aussi. Whisper est tellement puissant, c’est à dire qu’il est capable d’entendre des sons que l’oreille humaine n’est pas capable d’entendre. Il arrive à détecter des sons dans le silence et donc on a un truc assez drôle, c’est que donc nous le cas d’usage principal, c’est des gens qui font des vidéos, des sales, qui ont un rendez-vous avec le prospect et en général ils arrivent une minute ou 2 avant le prospect, ils attendent, ils se passent rien pendant 2 minutes et donc pendant ces 2 minutes de silence et parfois il arrive à détecter des sons alors qu’il y a rien qui est dit et du coup il va nous mettre le transcript dans des langues étrangères. D’accord donc je sais pas, des fois on a du TRANSCRIPT en japonais, en chinois, en même dans des langues qu’on connaît pas parce qu’ils détectent des micros sons, ils les interprètent et comme ils se gèrent, 50 langues différentes, bah on a, on a certains appels qui sont dans des langues un petit peu exotiques. 

 

– Marc — 28:27 :

 Quelle opinion tu pourrais partager avec nous aujourd’hui? 

 

– Arthur — 28:30 :

 Je vais peut-être me répéter un petit peu, mais c’est ce que je disais un peu avant sur l’i a je pense qu’il faut pas avoir peur de l’i a en tant que tel. C’est encore très nouveau. Il y a beaucoup de choses qui vont évoluer, qui vont s’améliorer, qui ça va devenir de plus en plus accessible et facile à utiliser. Aujourd’hui tout le monde peut se prendre un compte chat GPT faire des requêtes, lui soumettre de la donnée pour faire des résumés de données complexes pour croiser des sources de données différentes et c’est très bien que ça soit accessible au plus grand nombre et au contraire je pense qu’il faut pas en avoir peur. Il faut l’essayer, il faut se rendre compte des limites aussi de cette techno, parce qu’en fait. Comme je le disais tout à l’heure, notre compte, il fait plusieurs centaines de lignes là où on pensait qu’en fait il suffisait de dire chat p résume moi ce Call. Ben non, ça marche pas. Et donc en fait le plus important c’est d’apprendre à comprendre l’intelligence artificielle, à la maîtriser, à essayer et la vraie compétence qui va être utile dans le futur, c’est ça, c’est maîtriser l’intelligence artificielle pour s’en servir de façon concrète. Mais je pense pas qu’il faille avoir peur de se faire remplacer par chat PT le futur, les chantiers data chez vous, c’est quoi. 

 

– Arthur — 29:32 :

 Nous, notre gros enjeu, ça va être de d’essayer de pas avoir de dépendance à chat GPT ou à whisper parce qu’aujourd’hui on utilise ces API là elles sont très puissantes, elles répondent à nos besoins et c’est et c’est super. Mais on la technologie va évoluer, va y avoir des possibilités de d’inclure plus de puissance, encore plus de rapidité. Mais il faut accepter de passer au cran au-dessus et de ne pas utiliser une API sur étagère uniquement. Mais construire son propre modèle adapté à ses propres besoins. Donc ça va être un enjeu de financier je pense principalement parce que ça demande beaucoup de temps de R et D. Il faut une équipe data entière, il faut des techs qui bossent là-dessus pour construire le modèle, l’alimenter en données et ça prend du temps aussi. Ça demande de collecter de la donnée, soit auprès de nos clients s’ils sont d’accord, soit auprès d’échantillons. Donc ça c’est un vrai enjeu. Mais le futur s’annonce extrêmement intéressant avec Bah Mistral, EA et puis toutes les autres solutions qui vont pas tarder à sortir. Je pense qu’on a pas encore tout vu. 

 

– Marc — 30:26 :

 Et il y a des chances, 

 

– Arthur — 30:27 :

 Merci Arthur, merci Marc. 

 

– Arthur — 30:30 :

 Vous venez d’entendre Arthur André, cofondateur de prise sur data driven one merci d’avoir écouté si vous avez aimé et que vous voulez nous soutenir, n’hésitez pas à vous abonner, à liker et à partager à très vite.