Comment La Centrale transforme la data en moteur de croissance ?

 Thomas Berger, CTO de La Centrale est l’invité de l’épisode 84 du podcast Data Driven 101. 

La Centrale est la marketplace leader de l’auto d’occasion en France 🇫🇷.

🔥 Au programme :

L’histoire de La Centrale, d’un journal papier à une plateforme digitale à 35M de visites/mois 📈

La transformation tech et data d’une entreprise de 50 ans 🚀

L’importance du matching produit et de l’enrichissement des données 🔍

Le rôle clé du Machine Learning et de la GenAI pour la recherche, la tarification et la lutte contre la fraude 🤖

Le développement de l’Assistant IA qui aide les acheteurs à trouver la voiture idéale en langage naturel 🏎️

Comment La Centrale transforme la data en moteur de croissance ?

Marc Sanselme00:00:00 – 00:00:10 : Alors aujourd’hui, je reçois Thomas Berger, CTO de La Centrale depuis trois ans. La Centrale est une marketplace leader d’achats-ventes auto en France. Bonjour Thomas. 

Thomas Berger 00:00:10 – 00:00:12 : Bonjour. 

Marc Sanselme00:00:12 – 00:00:19 : Alors, est-ce que tu peux nous parler un petit peu plus de La Centrale, nous décrire un peu qu’est-ce que vous faites? et puis ton rôle précisément ? 

Thomas Berger 00:00:19 – 00:00:37 : La Centrale, ce n’est pas une startup early stage. On a maintenant plus de 50 ans. Oui. On est bien installé. On est leader sur le marché de l’auto d’occasion en France. On a à peu près 35 millions de visites par mois. 

Marc Sanselme00:00:37 – 00:00:39 : Vous étiez un journal papier ? 

Thomas Berger 00:00:39 – 00:01:30 : Exactement. On a démarré, on était un journal papier. On faisait plein de choses. On faisait aussi du matrimonial à une époque. On a fait plein de choses. On a pas mal… On a pas mal switché dans l’histoire. On s’est focalisé depuis quand même un grand nombre d’années maintenant sur la partie auto, véhicules. Et on a fait le virage du web au début des années 2000, comme beaucoup de marques à l’époque. Et on a arrêté complètement le journal il y a plus de 15 ans maintenant, en 2008. Il y en a encore qui croient qu’on est en journal, mais ça fait très longtemps qu’on ne l’est plus. Et la grosse majorité de notre stock, c’est du stock qui vient venir de… C’est du B2C, en fait. C’est du stock de professionnels qui va être vendu à des particuliers. On développe aussi et on augmente aussi le volume de C2C, donc de ventes entre particuliers. Et c’est aussi un de nos objectifs cette année, de revenir un peu plus sur ce marché. 

 

Marc Sanselme00:01:31 – 00:01:33 : Ok, et alors quel est ton rôle en tant que CTO? 

 

Thomas Berger 00:01:33 – 00:02:24 : ? Alors mon rôle en tant que CTO, je m’occupe de toutes les équipes techniques, c’est assez simple. C’est simple à dire, plus chronophage à faire. Donc voilà, je vais m’occuper de toutes les équipes techniques qui vont être tant des développeurs, on va avoir beaucoup de développeurs full stack, on va avoir des data engineers, on va avoir des QA, on va avoir des architectes, tout ce qui fait une équipe technique importante. efficace. On est à peu près 80 dans les équipes techniques. Pourquoi ? Parce que la centrale, finalement, c’est une boîte tech et data. Et ça, c’est un point important. Des fois, j’aime dire qu’on ne vend pas vraiment de voitures. On n’a pas vraiment, nous, en propre, de voitures à vendre. On met en relation un acheteur et un vendeur. C’est ça notre mission. La mission, c’est comment trouver le beau véhicule. On a un stock de plus de 300 000 véhicules sur la plateforme. Quand je suis un acheteur, comment je trouve le beau véhicule sur la plateforme ? 

 

Marc Sanselme00:02:24 – 00:02:49 : Ok, c’est intéressant parce qu’effectivement CTO c’est un rôle qui parle de lui-même et en même temps le business est ancien, date du papier, donc vous avez dû switcher un peu d’une dynamique où vous étiez une fonction support presque et de devenir vraiment le cœur du réacteur. 80 personnes techniques, combien dans l’entreprise ? 

 

Thomas Berger 00:02:49 – 00:03:36 : Sur 250 personnes, d’accord. En gros, on va avoir deux grandes directions dans l’entreprise. On va avoir une direction technique, couplée à une direction produit, qui n’est pas directement sous moi, qui va représenter à peu près une centaine de personnes au total. Donc là, on va avoir des data analysts, on va avoir des product owners dans ces directions, et des data scientists. On va avoir aussi une grosse force terrain, des commerciaux qui vont aller voir nos clients, pour les accompagner, pour… pour vraiment les aider à gérer leur stock et comment mieux utiliser la plateforme pour leur activité, qui est eux la vente de véhicules, vraiment indirecte. Et après, on va avoir des fonctions de support, RH, finances, etc. En gros, au moins la moitié de l’entreprise sont des équipes qui travaillent sur les parties digitales. 

 

Marc Sanselme00:03:36 – 00:03:45 : Ok, et pour avoir une idée à peu près de combien d’annonces il y a en moyenne, combien de visites ? 

 

Thomas Berger 00:03:45 – 00:04:21 : Donc sur les annonces on a à peu près entre 300 et 350 000, je crois qu’il y en a eu 33 000 exactement, on en reçoit à peu près 600 000 par mois, voilà donc on a… un turnover sur les annonces, puisqu’il y en a qui vendent et il y en a qui reviennent sur la plateforme. On a à peu près 35 millions de visites, donc c’est couplé sur deux marques. On a la marque La Centrale qui est vraiment dédiée sur la marketplace. On a une marque éditoriale aussi qui s’appelle Caradisiac, qui est spécialisée dans les informations autour du monde automobile et qui est une grosse plateforme pour les gens qui sont intéressés dans le domaine. 

 

Marc Sanselme00:04:22 – 00:04:38 : Ok, ok. Et alors, la data, pour commencer dans ce sujet-là, quel est le type de données, la variété de données avec lesquelles vous êtes amené à travailler, et qu’est-ce que vous en faites ? 

 

Thomas Berger 00:04:38 – 00:05:57 : D’accord. La première donnée, déjà, c’est les annonces. On va essayer de récupérer des annonces. Ce qu’il faut savoir, c’est que la majorité de nos annonces, elles ne sont pas déposées manuellement comme le fera un particulier. On travaille avec des professionnels qui peuvent avoir des tailles assez importantes, qui ont des stocks qui peuvent aller jusqu’à plusieurs milliers de voitures. Ils ne vont pas s’amuser tous les jours à les poser à la main. Pour ce faire, on va se brancher sur leur système. On va se brancher sur plein de systèmes métiers, ça s’appelle des DMS, sur lesquels on va collecter de la donnée. Le problème, c’est qu’on va se projeter sur plein de systèmes. On a à peu près 8000 clients professionnels. on va avoir une variété de données et une hétérogénéité de la donnée qui est forte. Donc la première chose, quand on va recevoir des annonces, c’est ce qu’on appelle faire du matching. C’est déjà être capable de détecter le véhicule, de le normaliser pour pouvoir les comparer, puisque tout le monde n’écrit pas de la même façon. Et un véhicule, c’est plus que juste une marque et un modèle. Il y a des options, il y a des finitions, des versions, des types de moteurs, etc. Pour bien vendre et pour bien montrer aux clients comment choisir son véhicule, il faut avoir cette exhaustivité. On va récupérer ces modèles, on va les enrichir via des sources de données internes et des sources de données externes, et qui va nous permettre d’avoir les annonces les plus enrichies possibles. Ça, c’est une de nos premières sources de données. C’est vraiment la donnée brute sur laquelle on va travailler. 

 

Marc Sanselme00:05:59 – 00:06:06 : Est-ce qu’on peut faire une petite parenthèse sur cet enrichissement ? En quoi ça consiste d’enrichir les données d’une annonce ? 

 

Thomas Berger 00:06:06 – 00:06:49 : Tout simplement, le cas le plus extrême pour un véhicule, on ne peut recevoir qu’une immatriculation et des photos. À partir de ça, on va devoir construire une annonce qui va permettre à l’acheteur de comprendre toutes les subtilités de son véhicule. Comment on va faire ça ? À partir de l’immatriculation, on va essayer de récupérer quelle est la marque et le modèle. Pour savoir si c’est une Peugeot ou une Renault, c’est déjà assez intéressant. On va essayer de récupérer la couleur, on va récupérer toutes les options qu’il y a pu avoir. On va essayer de récupérer tout l’histoire du véhicule. Est-ce qu’il a déjà été accidenté ? Est-ce que c’est un véhicule qui vient d’auto-école ? On va essayer de complètement enrichir les données. On a beaucoup de process et sur toutes nos annonces, quotidiennement, on va aller chercher. 

 

Marc Sanselme00:06:50 – 00:07:01 : Donc ce genre de choses, ce genre de l’histoire du véhicule et compagnie, c’est des choses qu’on peut aller chercher quelque part sur Internet ? Comment est-ce qu’on accède à cette information ? 

 

Thomas Berger 00:07:01 – 00:07:11 : L’accès après est disponible sur notre site directement. Donc via la fiche du véhicule, on peut avoir toutes les informations concernant le véhicule, que ce soit ses options ou son histoire. 

 

Marc Sanselme00:07:11 – 00:07:14 : Oui, mais vous, comment vous l’avez obtenue, cette information ? 

 

Thomas Berger 00:07:14 – 00:07:55 : Alors, on a beaucoup de sources de données. Déjà, on a une première source interne. Comme je disais, ça fait 50 ans qu’on existe, donc on n’a pas commencé à faire des bases de données il y a 50 ans, mais ça fait quand même très longtemps qu’on collecte de la donnée. Via notre position sur le marché, on voit passer énormément de véhicules du marché. Finalement, les véhicules, on commence à les connaître. Et même, on peut les revoir plusieurs fois. Un cycle de cinq ans, on va revoir une fois, deux fois, trois fois un véhicule qui va être acheté, revendu, acheté, revendu. On va aussi être capable de suivre ça. On va créer des bases en interne et on va compléter par des bases existantes du marché qu’on va combiner. On peut avoir jusqu’à des dizaines de sources différentes qui nous permettent de cibler au mieux le véhicule. 

 

Marc Sanselme00:07:56 – 00:08:02 : Ok, donc la première donnée c’est les annonces et on peut enrichir, indexer, etc. 

 

Thomas Berger 00:08:02 – 00:09:20 : Et ça, ça va nous permettre de créer toute une galaxie de services autour de ça. Pourquoi ? Première chose, comme je disais, on voit beaucoup passer les annonces sur le marché. Donc finalement, on a une vue du marché. Donc on va être capable aussi de développer, et c’est ce qu’on a développé l’année dernière par exemple, des outils de pricing. C’est-à-dire comment, en tant que vendeur, comment je dois positionner le prix de mon véhicule sur le marché ? Et ça, c’est lié à deux choses. C’est notre capacité à cibler le véhicule. Un véhicule avec un moteur différent, il n’aura pas le même prix que celui qui a un moteur diesel ou électrique. Ça peut avoir des modes aussi. Ça peut être lié aux zones à faible émission, etc. Il y a plein de choses qui vont entrer en compte. Et comme nous, on voit passer beaucoup de véhicules, on est capable de voir ces tendances du marché. On est capable aussi de fournir en sortie des baromètres. On va fournir aussi à la presse. pour expliquer comment évolue le marché de l’occasion, est-ce qu’il est en train de monter, de descendre, le volume de vente, etc. Un des deuxièmes axes de la donnée, c’est des données de sortie. C’est notre capacité à collecter de la donnée pour en faire un des produits, des outils de pricing, mais on va aussi faire des trends qu’on va sortir ce mois-ci. Quels sont les véhicules qui se vendent bien en ce moment ? Et on va faire tout ce qui va être des analytics et des mesures. 

 

Marc Sanselme00:09:21 – 00:09:41 : Comment on valorise toutes ces infos que vous avez sur le marché ? Évidemment, elles vous servent à vous, comme tu disais, vous pouvez faire de l’aide au pricing, vous pouvez enrichir votre produit, le rendre plus attractif pour les clients. Qu’est-ce qu’on peut en faire d’autre de ces trends ? Est-ce que ça se vend ? 

 

Thomas Berger 00:09:41 – 00:10:02 : Alors, ça se vend, mais finalement, nous, comment on va voir la donnée ? On va le voir sur trois axes, en fait. Les données qu’on collecte, ça va être les annonces, mais ça peut être aussi… J’ai parlé des annonces, mais on a pas mal d’autres sources de données. La première, déjà, c’est comprendre notre business. Est-ce que la centrale marche ? Comment elle évolue ? Donc, c’est un peu la biaille, finalement. 

 

Marc Sanselme00:10:02 – 00:10:02 : Oui. 

 

Thomas Berger 00:10:02 – 00:10:44 : Donc ça, on va commencer à collecter et être capable d’analyser pour se dire comment marche notre business. Le deuxième, ça va être plutôt de dire les innovations qu’on va faire, est-ce qu’elles fonctionnent? ? Donc là, on va être plutôt dans le monde du produit, on va être plutôt dans le monde de l’analytics, le monde de l’AB test, par exemple. On va faire un AB test, qu’est-ce qui marche le mieux pour nos clients, que ce soit les particuliers ou les professionnels. Et le troisième axe, c’est les data products. Finalement, c’est créer des produits basés sur la data. J’ai parlé de la cote, j’ai parlé de trends, du pricing. Cette année, on a créé plus de 30 produits basés sur la data. Ok. 

 

Marc Sanselme00:10:45 – 00:10:55 : Ok. Ces trends, c’est un produit packagé. sous quelle forme ? 

 

Thomas Berger 00:10:55 – 00:12:11 : Pour les clients centrales, je vais parler des clients professionnels, ceux qui vont publier sur la plateforme. Ils vont avoir accès via leur back-office à, déjà, comment se comporte leur stock, comment ils sont positionnés par rapport à leurs concurrents. Est-ce que leurs prix sont bien alignés avec le marché ? Est-ce qu’ils sont au-dessus ? Est-ce qu’ils sont en dessous ? Pour optimiser leurs marges. Et comment avoir leur stock ? Donc Trends, ça permet ça. Parce que finalement, le métier d’un vendeur de voitures, c’est d’acheter des voitures et de les revendre. C’est ça son métier. Donc comment aussi, lui, il doit faire son stock pour être le plus efficace dans son métier ? Et donc via le back-office, nous, on va lui fournir les outils pour comprendre le marché et être capable aussi de lui aligner son stock à ce qui marche. Est-ce que je dois acheter du diesel en ce moment ? Est-ce que je dois acheter de l’électrique ? Est-ce que l’essence, l’hybride ? Est-ce que tel modèle, je pense que l’exemple de la Fiat Multipla, elle ne fait pas fureur, la Fiat Multipla. Mais après, des Clio, est-ce que mes concurrents, ils ont déjà beaucoup de Clio ? Peut-être qu’il faut que je positionne autrement, parce qu’il y a une demande sur peut-être les 208 ? sur ma zone de chalandise. C’est ça qu’on va essayer de lui donner. Il y a ce type d’outil. On va créer, à partir des données qu’on a collectées, qu’on a analysées, des outils qui permettent d’améliorer la performance de nos clients. 

 

Marc Sanselme00:12:12 – 00:12:20 : Le concessionnaire va prendre des décisions d’achat de stock en fonction de ces analytics. 

 

Thomas Berger 00:12:21 – 00:12:34 : De ce qu’on peut lui fournir comme informations sur le marché. Après, la décision reste de son côté. Nous, on va lui fournir à partir des données qu’on a collectées, qu’on a analysées, ce qu’on pense qui est intéressant à faire. 

 

Marc Sanselme00:12:36 – 00:13:04 : Ok, super. Alors pour rentrer un peu dans des sujets machine learning, generative AI, peut-être on peut commencer par le plus évident sans doute dans la mesure où vous êtes une plateforme d’annonce, c’est celui de l’indexation à la recherche. Comment est-ce que vous gérez aujourd’hui la recherche ? Quels mécanismes sont mis en œuvre quand je fais une recherche d’une voiture sur lacentrale.fr ? 

 

Thomas Berger 00:13:04 – 00:14:54 : Alors, on a beaucoup évolué l’année dernière, mais par le début, on vient du monde du classified. On était un journal papier, comme on le disait tout à l’heure. Comment ça se passait dans le journal papier à l’époque ? Plus tu payais cher, plus tu étais gros. Donc on avait un petit peu répliqué ce modèle historiquement sur le web. Dans un modèle de ranking, une search page, plus tu payais cher, plus tu étais en haut. Ce modèle est assez limité, donc là on a commencé à rentrer des nouveaux critères en se disant est-ce que le véhicule est attractif ? La grande question c’est qu’est-ce qui définit un véhicule attractif ? Et c’est là où on va commencer à faire de la data science, on va se baser sur beaucoup de paramètres, le prix est un paramètre. Pour un acheteur, la distance avec le véhicule est un paramètre aussi ? Un véhicule qui est à moins de 50 km va être plus attractif que celui qui est à 900 km. Chercher une voiture à 900 km, c’est un peu plus compliqué. Et on va rentrer tous ces critères pour essayer de faire une page, une search ranking page, qui soit la plus adaptée en fonction du stock qu’on a à proposer. On va aussi commencer à mettre de la personnalisation. Comment en fonction de mes recherches précédentes, je commence à comprendre l’intérêt du visiteur, celui qui est en train de chercher sa voiture, pour pouvoir lui proposer les véhicules qui l’intéressent. Que ce soit au niveau prix, au niveau marque, au niveau modèle, au niveau couleur. Quelqu’un qui aime les voitures rouges, il va forcément être intéressé beaucoup plus par les voitures rouges, et il va beaucoup moins être sur les voitures blanches ou grises. Quelqu’un qui aime les voitures blanches, grises, noires, il n’achètera jamais une voiture rouge. Donc c’est ça aussi qu’on va essayer de… 

 

Marc Sanselme00:14:54 – 00:15:01 : Ok, vous essayez d’apprendre à connaître l’utilisateur qui cherche. Et alors comment est-ce qu’on apprend de l’utilisateur ? 

 

Thomas Berger 00:15:01 – 00:16:22 : Eh bien, tout démarre par la collecte de données. Et c’est là où on peut descendre un peu plus sur la partie technique. C’est que finalement, comme je disais au début, la centrale, c’est une entreprise Tech & Data. Donc, notre premier flux, c’est de collecter la donnée. Donc, on va collecter la donnée. J’ai parlé des annonces, mais on va collecter aussi la donnée de navigation. On va collecter aussi tout ce qui se passe au niveau des pros. Et après, on va l’analyser. Et donc, on commence à collecter beaucoup, beaucoup de données. Donc, historiquement, on était parti sur toutes les notions de Data Warehouse, de Data Lake. De plus en plus, finalement, on développe l’idée de data mesh. Pourquoi l’idée de data mesh ? Parce que finalement, ce que j’expliquais, on a nos équipes, nos feature teams, elles vont développer des produits liés à la donnée. Et donc, toutes les équipes sont autant producteurs que consommateurs de données. l’équipe qui va s’occuper de la search. Elle va récupérer, elle va collecter et elle va pouvoir construire un data product sur les habitudes de search des utilisateurs puisque c’est ce qu’elle va collecter via ses applicatifs. Et ça, ça va être très utilisé, comme je disais tout à l’heure, pour les back-office, pour l’équipe qui va faire des back-office pour les pros. pour voir les trends. Donc, toute la mise en place d’un data mesh, c’est ça. C’est de dire comment je démocratise la donnée, comment chaque équipe devient owner de sa donnée et comment chaque équipe devient et consommateur d’une partie des données des autres équipes et producteur de données pour les autres. Ça, c’est facile à dire. 

 

Marc Sanselme00:16:22 – 00:16:40 : Juste pour rappeler, Data Lake, c’est quand on centralise toute la donnée mais qu’on ne la structure pas. On la laisse brute. Chacun se sert. Data Warehouse, on va la structurer. C’est la même chose, mais on structure. Et alors, data mesh, du coup, on ne centralise pas, mais on donne accès à tout le monde quelque part. 

 

Thomas Berger 00:16:40 – 00:19:05 : Exactement. Alors, pour moi, ce n’est pas contradictoire. On va très souvent retrouver un data lake au niveau du… Nous, comment on l’a implémenté. Pourquoi ? Parce qu’on a quand même besoin de stocker la donnée, de la donner. pas forcément normalisée, puisque toute l’idée, c’est que maintenant, ça ne coûte plus très cher de stocker de la donnée. Donc, on va essayer quand même de la stocker, pas que celle qu’on a besoin, mais celle qu’on peut avoir besoin aussi. Oui. On est quand même à un côté où on ne va pas tout garder non plus. Après, on a des régulations, etc. Mais tout ce qu’on peut garder et qu’on pense avoir de la valeur, on va le conserver. Pas forcément normaliser, mais on va le conserver. Ce qui nous permet de construire les produits par-dessus. L’idée du data mesh, il est plus organisationnel. Il y a un vrai enjeu déjà de travailler sur la qualité de la donnée, de l’ownership de la donnée. Comment chacun se dit « ce n’est pas une équipe data qui va s’occuper de ça ». Ça fait partie de mon quotidien de dire, quand je construis une feature, quelles données je vais pouvoir collecter pour être réexploité plus tard. C’est déjà un mindset. C’est déjà que chaque équipe ait cette vision. Et après, c’est construire les outils pour que finalement, toutes les personnes qui ont besoin d’accéder à la donnée puissent y accéder avec un niveau de confiance fort, parce que si mauvaise donnée, mauvaise décision. Oumbo fait produit. C’est ça l’important. Comment mettre en place une gouvernance et les outils qui permettent de s’assurer que la donnée qui est proposée, que ce soit aux équipes, que ce soit aux analystes, que ce soit au business, elle soit de qualité, vérifiée, et qu’on puisse l’utiliser de façon efficace. Donc ça, comment ça se construit ? On va partir d’un data lake, on va créer aussi… une gouvernance, donc on va utiliser par exemple un data catalogue pour cataloguer toutes nos données. Quel est le sens de la donnée ? C’est normaliser que chacun utilise le même mot, tout simplement, pour la même chose. Ça c’est la première chose. On le voit beaucoup en entreprise, trois mots différents pour la même chose. Et donc qu’est-ce qu’on va vouloir suivre ? Donc le data catalogue. On va avoir aussi tous les outils qui permettent à des gens moins ou non techniques d’accéder à la donnée, donc on va avoir des outils DataVis type Tableau, par exemple, des outils BI. On va avoir du DBT, qui permet justement à des gens un peu moins techniques de construire des datasources basées sur les différentes sources hétérogènes qui peuvent être sur le Data Lake. 

 

Marc Sanselme00:19:05 – 00:19:07 : Sur DBT, tu dis des gens un peu moins techniques ? 

 

Thomas Berger 00:19:07 – 00:19:17 : Je parle plutôt des data analysts, par exemple. Des gens qui ne sont pas forcément data engineers, qui ne sont pas capables de travailler sur des gros volumes de données at scale, etc. 

 

Marc Sanselme00:19:17 – 00:19:17 : Il faut quand même coder pour… 

 

Thomas Berger 00:19:18 – 00:19:22 : Il faut savoir faire du SQL. Est-ce que c’est codé ? 

 

Marc Sanselme00:19:22 – 00:19:28 : Après, on peut rentrer. On peut l’utiliser simplement, on peut faire des transformations. 

 

Thomas Berger 00:19:28 – 00:20:26 : C’est ça, toute l’idée, c’est pas de remplacer le travail de création de data source. C’est plutôt de simplifier pour des data sources simples, pour des analyses ad hoc, pour des petits produits. De simplifier et de pas toujours être obligé de passer par la machinerie lourde d’un process complet de de passer par un data engineer, par une équipe qui va construire un produit scalable. C’est un des outils. Après, on va avoir du glue, on est beaucoup chez AWS, donc on utilise beaucoup les suites AWS Du glou, du athéna, voilà, qui vont nous permettre de construire. Toute l’idée, c’est d’essayer de rapprocher au maximum la donnée du business, c’est ça. Et d’éviter une chaîne trop longue de délivreries où on doit passer par cinq couches, cinq strates, pour pouvoir avoir une unité de la donnée qu’on veut exploiter. 

 

Marc Sanselme00:20:26 – 00:20:47 : Ouais, ok. Ok, super clair. Alors du coup, côté machine learning, peut-être commençons par le plus old school, avant les LLM et compagnie. Qu’est-ce que vous avez comme application ? Est-ce que tu peux nous parler un peu de ce que vous avez mis en place pour machine learning ? 

 

Thomas Berger 00:20:47 – 00:23:39 : Alors déjà, je vais te reprendre parce que pour moi, le machine learning, ce n’est pas du tout old school. Et le LLM ne remplace pas du tout d’ailleurs notre façon de faire du machine learning. Pour moi, c’est tout à fait complémentaire. On va aller chercher des choses très, très différentes. Et on en fait depuis de nombreuses années du machine learning. On fait de la GNI depuis un an et demi. Mais finalement, il n’y a pas une idée de remplacement entre les deux. Le machine learning, il est très bon pour de la prédiction. Quand je te parlais tout à l’heure du ranking, le machine learning est super efficace. Et on va continuer dans cette voie-là. On n’est pas en train de tout transformer. Donc, ce qu’on fait en machine learning, on va faire déjà ce qu’on appelle la cote. notre capacité à définir le prix d’un véhicule. Comment on fait ? On reçoit les annonces, dans les annonces il y a un prix, on est capable de les matcher, de bien comprendre tous les critères du véhicule et de comprendre le prix qui est associé à ce véhicule. Et finalement, vu le volume de données qu’on reçoit, on est capable de comprendre le marché et de donner le prix du marché d’un véhicule. Et comme c’est du machine learning, on fait de la prédiction aussi. C’est-à-dire qu’on est capable aussi de comprendre comment le prix va évoluer dans le futur. 3, 4, 5 ans. C’est une information intéressante. Quand on achète un véhicule, tous les véhicules n’ont pas la même courbe de décroissance sur leur prix. C’est intéressant. Quand j’achète un véhicule à 20, 30, 40 000 euros… de savoir si dans trois ans, il vaudra 10 000 ou 20 000. Je n’aurai pas le même investissement. Ça, c’est des choses qu’on est capable de faire via des algos de machine learning. Pour ça, on va beaucoup utiliser SageMaker. On va utiliser toutes les suites qui sont déployées et on va créer nos propres algorithmes. On en a plusieurs. Je ne rentrerai pas forcément dans les détails, mais qu’on fait évoluer et qu’on va tester de façon prédictible. Voilà, on a… L’avantage, on a un set de données, on sait les annonces qu’on reçoit, on les fait passer dans l’algorithme et puis on regarde ce que ça donne. Oui. Après, dans les autres use cases qu’on peut avoir, on a l’anti-fraude, qui est historique chez nous, sur lequel on travaille depuis plusieurs années. L’achat d’un véhicule, c’est un moment dans la vie du consommateur qui est important. C’est souvent le deuxième plus gros achat après l’immobilier. Et qui dit gros somme en jeu, dit fraude qui marche, les fraudes qui marchent sont efficaces. Et donc, nous, on a cette responsabilité en tant que plateforme de protéger aussi nos acheteurs envers les gens qui vont essayer de faire de l’extorsion. Donc là, pareil, on a des sets d’entraînement. Depuis des années, on en a vu passer des tentatives de fraude. On est capable d’avoir des algorithmes sur lesquels ils vont apprendre les modes opératoires des fraudeurs et qu’ils vont être capables de les détecter très en amont et de les bloquer et de protéger nos utilisateurs. 

 

Marc Sanselme00:23:39 – 00:23:42 : Vous collectez le paiement ? Est-ce que vous collectez le paiement? 

 

Thomas Berger 00:23:42 – 00:23:47 : ? On ne collecte pas de paiement. On a un tout petit peu de paiement pour des options particulières, mais c’est vraiment à la marge. 

 

Marc Sanselme00:23:47 – 00:23:53 : Donc du coup, votre modèle d’affaires, on n’en a pas du tout parlé, mais c’est quoi ? C’est un prix à l’annonce ? 

 

Thomas Berger 00:23:53 – 00:24:08 : C’est un prix à l’annonce. C’est un prix à l’annonce au dépôt pour les professionnels et c’est gratuit pour les particuliers. C’est important de le rappeler parce qu’on ne l’était pas il y a pendant très longtemps. Et beaucoup de gens croient encore qu’on est payant. Non, on est complètement gratuit pour les particuliers. 

 

Marc Sanselme00:24:08 – 00:24:09 : D’accord, ok. 

 

Thomas Berger 00:24:11 – 00:24:28 : Donc ça, ça va être les différents uses. Qu’est-ce qu’on va avoir autour du machine learning ? Et on va continuer à en développer, que ce soit autour du classement des annonces, tout ce qui va être autour de la prédiction et de l’analyse de données. Ça va être là où on va faire beaucoup de machine learning. 

 

Marc Sanselme00:24:30 – 00:24:48 : Du coup, côté IA Générative, est-ce que vous avez pris la vague et vous avez fait des développements de ce type-là ? Est-ce qu’on peut parler un peu des éventuels projets ? 

 

Thomas Berger 00:24:48 – 00:27:24 : Oui, bien sûr. Je ne sais pas s’il y a beaucoup de gens qui n’ont pas pris la vague. On l’a aussi pris. On l’a pris avec un axe peut-être un petit peu différent, surtout l’année dernière, où on a décidé de lancer quelque chose qui était directement accessible pour nos utilisateurs. On n’est pas lancé sur des projets internes, on est vraiment lancé sur quelque chose qui devait être disponible pour monsieur tout le monde. Donc tu peux aller sur le site et tu verras. On a lancé notre premier outil qui est ce qu’on appelle l’assistant AI. On ne lui a pas donné de prénom, mais entre nous on l’appelle Didier. Ok. Et l’idée de l’assistant, c’est que, comme je disais tout à l’heure, on a plus de 300 000 annonces sur le site. Et finalement, tout le monde n’est pas expert pour choisir un véhicule. Nous, on a l’expertise. Et donc, comment partager cette expertise ? Tout l’assistant, on l’a pensé comme ça. On l’a pensé de dire… plutôt que d’arriver sur le site et de mettre des filtres, ce qu’on fait depuis 25 ans maintenant qu’on a lancé notre site web, de dire « je veux une Renault Clio, tel modèle, tel prix, etc. », c’est plutôt d’avoir un assistant auquel tu vas lui expliquer ce que tu veux. Tu vas lui dire, je voudrais une voiture pour rouler 400 km par semaine, je pars de temps en temps au week-end, je voudrais qu’elle coûte peut-être moins que ça, j’aime bien qu’elle soit rouge, j’aime bien les marques allemandes, etc. Et qui va, via les interactions, te permettre de trouver le bon véhicule. Parce qu’en fait, on a fait une étude l’année dernière, 60% des Français ont du mal à choisir un véhicule. Il y a une variété et une complexité du marché qui fait que c’est assez compliqué de choisir le beau véhicule. Et comme on disait, c’est un gros achat. Donc, on essaye de prendre le bon. Donc, on a développé cet outil. Comment on l’a fait ? En fait, on est parti sur des LLM existants. On a changé 5-6 fois de modèle, déjà, depuis qu’on l’a sorti, depuis juin. On change très régulièrement de modèle, on teste les nouveaux, et on lui a appris nos API. En fait, on lui a appris nos API de recherche. On lui a dit, voilà nos API de recherche, voilà comment tu peux rechercher. On lui a appris aussi des données qu’on avait sur notre expertise. qui lui permettent en fait, à partir de sa compréhension de la demande, d’aller chercher dans notre stock, qu’est-ce qui correspond à ce que l’utilisateur en face est en train de demander. Donc ça, ça a été un de nos premiers use cases, et on est très fiers, puisqu’il marche très bien, et il a un très beau taux de conversion, puisque c’est ça le… 

 

Marc Sanselme00:27:25 – 00:27:27 : Ça prend la forme d’un chatbot ? 

 

Thomas Berger 00:27:27 – 00:27:59 : Ça prend la forme d’un chatbot, voilà. Ça prend la forme d’un chatbot qui est accessible sur le site et qui va fournir des annonces en fonction des demandes et qui va poser des questions. C’est vraiment un chatbot conversationnel, c’est-à-dire qu’on va lui poser des questions, il va dire, tiens, il va faire des propositions. Il va dire, est-ce que tu peux me donner plus de détails ? Peut-être tu devrais regarder ça, etc. C’est aussi l’idée… C’est un peu de répliquer le tonton qui s’y connaît. Quand je vais acheter une voiture, je vais voir mon tonton qui connaît un peu les voitures et je vais lui demander ça. C’est un peu l’idée de notre assistant. 

 

Marc Sanselme00:28:00 – 00:28:15 : Et comment vous gérez le risque d’hallucination ? de Gen AI, c’est les large language models qui disent des choses qu’ils n’ont pas lues quelque part, qu’ils inventent. Comment est-ce qu’on fait un produit malgré ce risque ? 

 

Thomas Berger 00:28:15 – 00:33:06 : Alors, le risque, il existe et il faut l’accepter. Déjà, je pense que de tous les projets de Gen AI, il faut accepter ce niveau de risque. Le risque d’illustration zéro n’existe pas. Mais comme dans la cybersécurité, on va retrouver sur les mêmes paradigmes, le 100% n’existant pas, Comment je fais pour mitiger le risque et comment je vais travailler autour de ça ? C’est ça l’enjeu. Déjà, la première chose, c’est que les larges LLM font beaucoup de choses qui ne nous intéressent pas. Déjà, comment les limiter et les focaliser sur ce que nous, on va vouloir avoir comme réponse ? Je ne veux pas qu’ils codent en Python. Je veux qu’il parle de véhicules. Déjà, on va le limiter. Pour ça, on va avoir plusieurs modes. Déjà, on démarre par du prompt engineering, faire des bons prompts pour lui expliquer ce qu’il peut faire et ce qu’il ne peut pas faire. Mettre des guardrails aussi, c’est-à-dire de regarder les tokens d’entrée et les tokens de sortie et s’assurer que ça reste à la limite dans le domaine sémantique. Et après, informez les utilisateurs que ça hallucine ! C’est tout simplement. Je pense qu’il y a aussi cette responsabilité d’expliquer. Mais comme une recherche sur Google, on peut tomber sur des fake news. En fait, un LLM n’est pas infaillible. Donc aussi, avoir ce niveau d’information, le limiter au maximum, mais garder ce côté justement de risque. Et comment s’assurer ? Parce que la vraie question derrière, c’est que tous les LLM font des hallucinations, mais… Comment savoir lequel est le meilleur ? C’est ça la vraie question, en fait. Que ce soit sur les annonciations ou sur les réponses, d’ailleurs. Parce que valider un modèle, c’est pas très simple. Moi, ça fait plus de 20 ans maintenant que je travaille sur des systèmes déterministes. C’était assez facile. Les systèmes déterministes, en tech, on savait ce que ça devait faire. Tant que ça le faisait pas, on disait que ça marchait pas. Et LM, c’est pas déterministe. Et surtout, si on commence à jouer avec la température, ça devient de moins en moins déterministe. Donc comment on va faire ça ? Nous, on a beaucoup travaillé justement et finalement, tous nos projets GenAI cette année, ça a été vraiment de prendre en main cette partie-là. De dire comment j’arrive à valider les modèles, comment je peux dire qu’un modèle est meilleur que l’autre. On va le faire sur deux axes. Le premier axe, c’est qu’il faut définir les KPIs. Qu’est-ce que je suis en train d’essayer d’attendre comme objectif ? Le premier, ça va être des KPIs un peu plus bas niveau, ça va être des temps de réponse. S’il met 30 minutes à répondre, c’est inutilisable pour un chatbot comme ça. Pour d’autres use cases, c’est très bien. En fonction du use case, je ne vais pas du tout avoir le même KPI. Je vais avoir aussi des KPIs de coût. Les LEM, ça coûte cher. Ça peut coûter très cher, les derniers modèles. Quand on les ouvre comme nouveau public, le volume de tokens, ça peut monter très vite. Donc, quel ROI je vais chercher et quel niveau d’investissement je peux mettre et quel modèle je vais choisir en fonction de ça ? Ce ne sera pas forcément le meilleur modèle. Ce ne sera sûrement pas le dernier modèle qui vient de sortir la semaine dernière avec un coût au token très élevé. Ce sera plutôt un plus petit. Et puis le plus petit, il est plus facile aussi à bloquer sur des choses qu’on ne veut pas qu’il fasse. Donc ça, ça va être plutôt bénévole. Après, on va regarder aussi la véracité des réponses. Est-ce que ce qui répond est bon ? Alors, comment nous, on a travaillé dessus ? On a fait un prompt catalogue. On a créé un prompt catalogue. Alors, pour le monde du véhicule, c’était assez simple. Qu’est-ce qu’on a fait ? On a été chercher dans les requêtes Google. Quelles étaient les demandes des utilisateurs à Google sur le monde du véhicule ? On a pris les 500 000 premières. On a dit, ok, ça, ça nous fait déjà une bonne base. Notre bot, il doit être capable de répondre à ça. Puisque c’est ça ce qu’on va lui demander. Donc on va faire un prompt catalogue et après on automatise ça avec du prompt fou. Et on essaye de vérifier que ça reste cohérent avec ce qu’on lui a demandé. Donc ça c’est les premiers. Et finalement il ne faut pas oublier que nous en entreprise privée on a un but business. Donc c’est quoi notre KPI business derrière ? Qu’est-ce qu’on attend de ce nouvel applicatif ? Nous ça va être un taux de conversion. C’est-à-dire un visiteur qui vient et à la fin il prend contact avec un professionnel pour acheter le véhicule. et donc c’est ça qu’on va mesurer. donc on va finalement faire comme n’importe laquelle de nos innovations. en fait on va le prendre comme un applicatif de dire il a un objectif business est-ce qu’il le remplit oui ou non et après comment aussi les objectifs secondaires qui permettent de l’atteindre sont atteints. parce que si je suis capable de faire beaucoup de prises de contact mais que chaque prise de contact me coûte 100 dollars parce qu’il y a beaucoup de requêtes qui partent beaucoup de tokens j’ai aucun ROI derrière Ok. 

 

Marc Sanselme00:33:06 – 00:33:20 : Ordre de grandeur, ça coûte combien en usage de l’IA? une interaction complète en moyenne de quelqu’un qui interroge le chatbot jusqu’à avoir sa réponse ? 

 

Thomas Berger 00:33:20 – 00:34:49 : Alors c’est très intéressant, je ne regarde pas vraiment la moyenne parce que c’est très très variable, c’est très très distribué et finalement ça change assez régulièrement. Ce qu’on va chercher plutôt nous c’est aller chercher un modèle qui va avoir un coût au token qui est le plus bas possible. Et donc, c’est plutôt là-dessus qu’on va se focaliser. Pourquoi ? Parce qu’en fait, avec notre taux de conversion plus le coût au token, on arrive à avoir ce calcul de REI qui est plutôt une distribution qu’une moyenne. Et donc, quand on a lancé le projet, on a démarré avec JPT 3.5, parce que c’était ce qui était disponible, qui marchait pas mal. on a été à deux doigts de le lancer avec le GPT-3-5 et 4 est sorti. on a commencé à tester le 4 qui était beaucoup mieux sur tous nos critères et qui était trop cher. donc on est reparti sur le GPT-3-5 et juste une semaine avant qu’on lance 4 roues et midi est sorti qui était moins cher plus cher que 3-5 mais moins cher que 4 qu’on a lancé sur ça. Et après voilà, donc on a Catro Mini qui est sorti, on a testé Riku qui marche très bien aussi, on est en train de tester Nova là, les modèles Amazon qui ont été annoncés au re-invent le mois dernier. Donc finalement, et c’est là où il y a un point important que je voulais souligner sur les projets de Gen AI, c’est que ça va très vite. Ça va même encore plus vite que moi ce que j’ai connu en technologie depuis les 20 dernières années. 

 

Marc Sanselme00:34:49 – 00:34:50 : Oui, ça va très vite. 

 

Thomas Berger 00:34:50 – 00:37:28 : Donc il faut être prêt. Il faut être prêt tant au niveau technologique de stack, être capable de changer de modèle très rapidement, donc avoir automatisé ces tests dont je parlais tout à l’heure, être capable de tester des modèles. Finalement, quand on est en train de tester Nova, Haïku, 4Row Mini, qu’est-ce qu’on fait ? le juge de paix, à la fin, c’est l’utilisateur. On va AB tester, comme on a toujours fait, finalement. On va tester, on va dire, OK, voilà mes KPIs, voilà les trois modèles, je mets 30%, 30%, 30%, et je regarde à la fin celui qui a le mieux performé sur les KPIs que j’ai définis. Donc finalement, On remet en place ce qu’on a toujours fait. On a beau être dans le monde du LLM et de la GNI, et pour discuter avec certains pairs, des fois on oublie ça, de se dire en fait que ça marche. On est toujours en train de créer de la valeur pour notre entreprise, on n’est pas en train de faire autre chose. Et on peut utiliser les mêmes mécanismes, alors on le fait un peu différemment. Et donc nous on a pensé, on a toute une stack technologique qui nous permet de router vers différents modèles, de les AB tester, etc. Et c’est ça qu’on a construit sur la fin 2024, parce qu’on va scaler en 2025. Maintenant qu’on commence à maîtriser, l’idée c’est de regarder dans tous nos flows, dans toutes nos fonctionnalités, est-ce que ça peut être enrichi via de la GNI ? Donc ça, c’est toutes les parties visibles. On a aussi des parties internes. On a développé notre propre petit chat pour les employés. Pour une raison simple, c’est qu’il commençait à se passer ce qui se passe dans pas mal d’entreprises, c’est qu’il y avait des données confidentielles qui commençaient à partir vers ChatGPT, vers Gemini. Ça m’a gêné un petit peu de voir partir des données business, parce que Mais parce qu’il y a un besoin derrière. Donc, plutôt que de bloquer, la stratégie, c’était de dire, OK, j’ai compris le besoin, on va répondre à ce besoin. Et donc, on avait la plateforme utilisée pour les publics. En fait, on a utilisé la même, on a branché des modèles et on a créé un chat interne en quelques semaines. Même pas, d’ailleurs, en quelques jours. et qui a permis de donner accès à un outil de GNI qu’on contrôle sur notre plateforme, avec nos données qui restent juste dans notre compte AWS, qui ne sortent pas, qui ne sont pas partagées à un modèle tierce, qui fait je ne sais pas quoi avec. Pour dire, si une RH, par exemple, a besoin de faire des analyses sur les salaires de tous les employés, elle n’a pas l’outil, elle a envoyé notre GPT. Elle a son outil pour le faire. 

 

Marc Sanselme00:37:28 – 00:37:37 : Ok, un chat GPT interne qui a été cloisonné sur un serveur. 

 

Thomas Berger 00:37:38 – 00:37:56 : Ça, ça n’a rien à expliquer. Je pense que maintenant, tout le monde a développé ça. L’important, c’est de se dire, quand on développe une stack qui permet de gérer plein de modèles, finalement, recréer ce type d’outil, c’est lors de quelques jours. C’est vraiment, ça se compte en jours, la capacité. Oui. 

 

Marc Sanselme00:37:57 – 00:38:02 : Alors, quelles erreurs tu peux nous partager pour nous faire gagner du temps à venir ? 

 

Thomas Berger 00:38:02 – 00:39:15 : La première erreur, c’est qu’on n’avait pas pensé à ça au début. Finalement, la vitesse d’évolution des modèles, on ne l’avait pas anticipée vraiment tout au début. Et donc, on a commencé à monter sur un modèle et puis on était assez contents. Et puis on a dit « Ah, c’est un nouveau modèle qui sort. Ah oui, mais il faut refaire plein de choses quand un nouveau modèle sort. ». Et ceux qui ont déjà travaillé, typiquement les modèles anthropiques, Les promptes, on ne fait pas la même chose que les modèles GPT. Donc, il faut retransformer les promptes, retester, etc. Donc, c’est des phases qui sont assez longues. Et finalement, à peine on a démarré d’adapter, il y a encore un nouveau modèle qui est sorti, etc. Donc, l’erreur que je n’aurais peut-être pas commise, c’est de me dire dès le début, avant de… pas du tout couplé les innovations à un modèle donné. C’est-à-dire, en fait, les modèles, ils vont continuer à évoluer. Que ce soit au niveau prix ou au niveau performance. C’est les deux. Et je discutais avec quelqu’un d’entropique, il n’y a pas très longtemps, il me disait, de toute façon, tous les ans, on va faire x2 en performance et diviser par deux en coût. Et je pense qu’il était même encore pessimiste. Ça sera x10, à mon avis. Ouais. 

 

Marc Sanselme00:39:18 – 00:39:21 : Qu’on a combien de temps ? Il faudra bien que ça sature un moment. 

 

Thomas Berger 00:39:21 – 00:39:35 : Mais là, je pense qu’on a encore un an ou deux. On voit qu’Amazon revient dans la course. Moi, j’y croyais. Je pensais qu’ils avaient abandonné la course. En grande pompe, c’est tout leur modèle, encore moins cher que les autres, encore plus performant. 

 

Marc Sanselme00:39:35 – 00:39:40 : Qu’est-ce que tu en penses de Nova, puisque tu dis que vous testez un peu en ce moment ? 

 

Thomas Berger 00:39:40 – 00:41:59 : Alors, Nova, il a de très très bonnes performances sur nos use cases, et à des coûts qui sont encore moins chers. Je dirais, soit Nova ou autre, pour nous, on a des use cases assez simples. Je pense que, je ne suis pas sûr que, et d’ailleurs dans ce que j’ai mesuré, le changement de modèle… il a assez peu d’effets. C’est toujours le dernier modèle, il est toujours moins cher, plus puissant. C’est ça, en fait, le vrai truc. Nova, c’est le dernier, c’est pour ça qu’il est moins cher et plus puissant. Mais jusqu’au prochain Lama, ou jusqu’au prochain Mistral, etc. Et c’est pour ça que l’idée d’aller vite, c’est qu’en fait, il y a quand même une grosse accélération. Il y a un moment, je pense que ça va quand même se stabiliser, mais pas cette année. En tout cas, pour moi, je ne le vois pas en 2025. La course, elle est Elle est toujours là, elle est à relancer et ils sont tous dessus. Donc on va continuer à avoir tous les mois des nouveaux modèles plus performants et moins chers. Est-ce que tu as une anecdote à nous partager ? Et finalement, ça a commencé à pas mal marcher. C’est là où j’ai dit, tiens, on va le mettre en prod. J’ai créé une équipe pour dire, maintenant, on va transformer un truc qui a un pot, on va le mettre en prod. Toutes les difficultés de sécurité, etc. Et puis, j’ai commencé à le faire tester aussi à des gens qui étaient un peu moins techniques. J’ai été voir une responsable marketing et je lui ai dit, est-ce que tu veux bien tester et faire quelques requêtes pour me dire ce que tu en penses ? Et une demi-heure après, il va me voir et il fait, il est un peu idiot, tout bote. Je dis, ah bon, pourquoi ? Il me dit, je lui ai demandé une voiture pour mettre trois sièges bébés et il m’a proposé un utilitaire. Et j’ai regardé, j’ai fait, effectivement, j’ai fait, mais en fait, oui, j’ai compris pourquoi. Parce qu’il n’avait pas compris que des sièges bébés, il y avait un bébé dedans. Donc lui, il a vu trois sièges bébés, c’est trois objets encombrants, trois objets encombrants, le mieux pour transporter quand tu as des objets encombrants à te ramaler, un utilitaire, c’est parfait. Donc ça, c’est une petite anecdote. Et donc, comment on a commencé à apprendre autour de ça ? 

 

Marc Sanselme00:41:59 – 00:42:04 : Oui, on n’a pas fini d’apprendre à interagir avec les IA. 

 

Thomas Berger 00:42:04 – 00:42:04 : Exactement. 

 

Marc Sanselme00:42:06 – 00:42:13 : Ok, est-ce qu’il y a des projets en cours dont tu voudrais nous parler ? Qu’est-ce que c’est le futur de la centrale ? 

 

Thomas Berger 00:42:13 – 00:44:48 : Le futur de la centrale, du coup, comme je t’expliquais, la fin de l’année 2024, c’était vraiment construire cette plateforme GNI qui va pouvoir être utilisée finalement par toutes les feature teams. Je parlais du data mesh tout à. l’heure, on est un peu sur le même concept finalement. C’est donner la capacité à n’importe quelle équipe produit d’utiliser l’IA, la Gen AI, dans ses fonctionnalités. Donc là, on est en train de développer, par exemple, créer des descriptions d’annonces en langage naturel. On va faire une liste de spécifications d’un véhicule. Quand on n’est pas spécialiste, c’est un peu rébarbatif. Qu’est-ce qui est important ? Quels sont les points importants ? via la plateforme, en quelques semaines, ils vont réussir à se brancher dessus. Pas forcément avoir une connaissance très approfondie de comment marcher un LLM, de quel LLM, de b-tester différents modèles et de dire « ok, c’est ça qui marche le mieux pour mon use case ». La recherche, on va aller aussi un peu plus loin dans la recherche, donc on a fait un assistant pour la recherche, mais notre recherche classique, elle est toujours par filtre. Et finalement, en fait, les filtres, c’est quand même pas très interactif, donc on peut tout à fait, on n’a jamais eu sur la centrale une free search, une search comme on peut avoir sur Google, où je tape ce que je veux, qui est avec des élastiques derrière, etc. On n’est jamais passé dessus. Là, ça va nous permettre d’y aller assez facilement parce qu’en fait, on va faire des recherches par facettes et on va faire créer les facettes par des gènes AI. Donc ça, ça va être les innovations. Pour nos professionnels aussi, j’expliquais à un moment tout à l’heure, on crée beaucoup de back-office, on partage beaucoup la donnée avec nos pros, mais les vendeurs de voitures, ce n’est pas des data analysts. Quand ils se retrouvent devant, on commence à leur mettre de plus en plus de bords, de plus en plus de tableaux, etc. Au bout d’un moment, ils sont un peu perdus. Là, on va aussi les aider, la DNAI va les aider. C’est qu’est-ce que je dois voir, quelle est l’information importante que j’ai dans toutes ces données que vous me partagez. Ça, ça va sortir dans très peu de temps. On a développé toute une partie qui va transformer en langage naturel. Qu’est-ce qui est important dans la donnée qu’on est en train de te présenter ? Plutôt que de mettre en rouge, de dire textuellement, tiens, cette voiture-là, elle est mal positionnée, il faudra peut-être que tu baisses le prix de X. Ce véhicule-là, il n’est pas assez cher. Peut-être que tu peux monter un peu, tu augmenteras ta marge. Il faudrait que tu achètes ce type de véhicule parce qu’il y a une grosse demande dans ta zone et il n’y en a pas assez, typiquement. C’est un exemple un peu fake, mais qui représenterait ce que ça va faire. 

 

Marc Sanselme00:44:50 – 00:44:59 : Super. Merci beaucoup. Est-ce qu’il y a un invité auquel tu penses que tu aimerais entendre au micro de Data Driven 101 dans un prochain épisode ? 

 

Thomas Berger 00:44:59 – 00:45:14 : Alors j’aimerais bien Violette Chaumier, je ne sais pas si tu la connais, avec qui j’ai travaillé au Parisien Les Echos il y a quelques années, et qui a vraiment monté toute la plateforme data à l’époque, et je pense qu’elle a beaucoup de choses intéressantes à raconter. 

 

Marc Sanselme00:45:14 – 00:45:17 : Ok, et bien merci pour la recommandation. Merci Thomas. 

 

Thomas Berger 00:45:17 – 00:45:18 : Merci à toi.