AirBnB & electra, stations de recharge électrique
Laetitia Jumel, Data Scientist pour AirBnb et maintenant Head of Data chez Electra, une société spécialisée dans les bornes de recharge rapide pour véhicules électriques, est l’invitée de l’épisode 45 de Data Driven 101.
Elle revient sur la méthode statistique du contrôle synthétique permettant d’anticiper des comportements utilisateurs et son utilisation chez AirBnb
Elle nous explique en quoi la valorisation des données est cruciale pour les décisions business chez Electra
Elle nous parle de l’utilisation des données pour améliorer l’expérience utilisateur, de l’importance de la qualité des données, et les défis auxquelles fait face Electra notamment en matière de prédiction de la performance des stations de recharge et de politique de prix.
Marc: Aujourd’hui, je reçois Laetitia Jumel, Head of Data chez Electra. Après cinq ans chez Airbnb en tant que Data Scientist, elle a rejoint Electra il y a deux ans en tant que Head of Data. Electra est une société fondée en deux mille vingt et un, qui a levé cent soixante millions d’euros et recruté cent soixante personnes pour faire des bornes de rechargement rapide. Bonjour Laetitia. Bonjour Marc. Alors Laetitia, est-ce que tu peux peut-être dans un premier temps nous parler de ton rôle chez Airbnb, puis de ton rôle chez Electra ?
Laetitia: Oui, merci de me recevoir. tout d’abord. Chez Airbnb Electra, mon rôle était assez similaire, dans le sens où la mission principale que j’ai, c’est de valoriser les données de l’entreprise. Les données sont autour de nous, en dehors de nos travails, et bien avant le numérique. Le recensement, la météo, c’est énormément de données. On s’en sert pour améliorer nos vies. Et donc, je fais pareil pour Airbnb et je fais pareil pour Electra.
Marc: Ok. Et Electra, peut-être que tu peux nous dire un peu plus. Je pense que les gens connaissent un peu moins Electra qu’Airbnb. Est-ce que tu peux nous parler un peu de l’entreprise ?
Laetitia: Oui, c’est un spécialiste de la recharge rapide pour les véhicules électriques. On est un groupe européen qui a grandi très vite sur les deux dernières années. On est une équipe qui déploie et exploite les stations sur un modèle de partenariat avec des partenaires fonciers qui ont des parkings, par exemple des restaurants ou des hôtels, sur lesquels on s’implante et on installe des stations de recharge.
Marc: Ok. Alors, la data chez Airbnb, d’abord, à quoi ça sert ? Quels sont les usages principaux ? Et comment c’est géré en termes d’équipe, d’organisation ?
Laetitia: La donnée à Airbnb sert à tout le monde et à tout. C’est un business qui est tellement disparate. On est dans le monde entier. Les hébergements sur Airbnb sont de l’appartement new-yorkais au bungalow sur une plage dans les Caraïbes. Donc, avoir une intuition générale sur les comportements, sur les utilisateurs… C’est quasi impossible si on ne se sert pas des données pour faire des moyennes et répondre à toutes les questions. Donc, les données sont vraiment l’essence de l’information Airbnb. Ça sert donc à tout le monde. Et en termes d’organisation, on est, je dis on, mais c’était, nous étions, une assez centralisée. Donc, il y avait d’abord une équipe d’adapte plateforme qui était vraiment responsable de l’infrastructure et des métriques un peu communes à toutes les équipes. Et dans chaque équipe produit, il y avait des data scientists un peu embédides, mais qui avaient quand même des managers spécifiques pour la data.
Marc: D’accord, donc plutôt des data scientists répartis dans les différentes fonctions ?
Laetitia: Oui, c’est ce que j’étais.
Marc: Et chez Electra, du coup, comment vous êtes organisée d’un côté, et puis quel genre de data vous manipulez, à quoi elle sert ?
Laetitia: Chez Lectra, on a des données principalement d’utilisateurs, mais on utilise aussi et beaucoup plus qu’à Airbnb des données externes, vu qu’on a moins de données internes. Et on est une équipe de trois personnes organisées de façon centrale, donc tous les trois ensemble dans l’équipe du CTO.
Marc: Ok. Alors peut-être pour rentrer un peu plus dans le détail, parlons peut-être du Airbnb d’abord. Est-ce qu’on peut rentrer dans le détail du type de données que vous êtes amené à traiter ? Déjà peut-être la décrire un peu plus d’un premier temps.
Laetitia: La donnée principale, c’était la donnée des utilisateurs. Airbnb, les deux mondes, c’est le monde des voyageurs, le monde des hébergeurs. Côté voyageurs, c’est un peu plus facile à comprendre. C’est vraiment les réservations, les recherches qu’ils font d’appartements, les dates qu’ils entrent, les locations pour lesquelles ils souhaitent trouver un appartement. Et côté hébergeur, c’est vraiment toutes les caractéristiques des listings, donc les photos, le nombre de chambres, le prix. Et par ailleurs, il y a énormément de données aussi de règles, donc les calendriers, quels jours est-ce que c’est disponible, est-ce qu’on peut réserver que du samedi au samedi. Tout ça, c’est un ensemble de données qui nous permettent, nous, de comprendre derrière les dynamiques de la place de marché.
Marc: Ok. Alors ces données exploitées pour faire des analyses statistiques ou du machine learning, est-ce que tu peux nous donner des exemples d’applications de machine learning ?
Laetitia: Oui. Moi, j’ai fait très peu de machine learning à Airbnb, mais les gros exemples, donc vraiment des grosses équipes de machine learning, c’est principalement tout ce qui est relatif à la meilleure compréhension des hébergements. Donc par exemple, de pouvoir lire les photos pour dire s’il y a… Une machine à café, des choses d’information qui ne sont pas forcément structurées par les hôtes. Et tout ça, toute cette compréhension des appartements nous permet de pricer, de faire des recommandations, d’évaluer la qualité des hébergements. Et après, côté un peu plus classique, on a énormément d’algorithmes de fraude, des algorithmes de recherche aussi pour ranker les listings correctement quand quelqu’un fait une cherche.
Marc: Ok, alors peut-être si on rentre un petit peu dans le détail de ce que tu as cité, par exemple pour ce qui est du pricing, les algorithmes qui viennent prédire le prix, est-ce qu’on peut nous parler un peu de comment ça s’intègre dans l’outil lui-même, l’interface utilisateur, l’expérience utilisateur, quels sont les enjeux quand on est Data Scientist finalement pour que son travail soit utilisé à la fin et ne soit pas simplement un modèle sophistiqué qui reste dans
Laetitia: son coin ? Côté pricing, c’est un peu étrange parce que nous, on va faire des suggestions déjà et les hôtes ne sont pas obligés de les accepter. Donc, c’est vraiment juste une recommandation de prix. Et par ailleurs, on a un fonctionnement tripartite, donc il faut que les voyageurs soient contents du prix, il faut que les hôtes soient contents du prix, il faut que Airbnb aussi retrouve… et retrouve une marge. Donc ça, c’est un peu les axes d’optimisation qui doivent un peu mettre tout le monde d’accord. Et puis, sur ta question plus spécifique de la mise à disposition, je pense qu’en pricing, on n’a pas trop de problèmes de real-time, parce que je crois que c’est fait à l’avance. Mais pour le ranking, par exemple, ça, c’est un gros problème. Donc, un algorithme qui fonctionne en local, mais qui ne fonctionne pas en production, ça ne fonctionne pas.
Marc: Ouais, et alors, toi, tu étais dans la partie inférence causale, c’est ça ? Oui, c’est ça. Peut-être que tu peux nous présenter ce que ça veut dire et en quoi consistaient, du coup, tes travaux ?
Laetitia: Oui, du coup, j’ai travaillé beaucoup plus de mon côté sur des statistiques qui résonnaient pas mal avec mes études d’économie, en fait. Donc, c’est vraiment dans la suite de l’économétrie. Et tout ce champ de la data consiste à mesurer l’impact de quelque chose. Donc, ça peut être un nouveau produit, ça peut être un nouvel outil, ça peut être juste la place de marché. Comment est-ce qu’elle est équilibrée ? Quelles sont les dynamiques de marché ? Toutes ces questions-là, en général, sont prises par les data scientists qui font de l’inférence causale pour essayer de trouver un équilibre qui fonctionne pour tout le monde. Des exemples de ce que j’ai fait, notamment pour être un peu plus concrète, sur la partie expérimentation et A-B test, j’ai pas mal travaillé sur comment est-ce qu’on pouvait réduire le temps d’expérimentation, ce qui est un vrai problème pour beaucoup de boîtes. Il y a des méthodes évidemment pour essayer de réduire ce temps et une des méthodes assez connues en ce moment, ça consiste à réduire la variance en utilisant des données du passé.
Marc: Donc à B-Test, on met deux versions du site web en parallèle, une qui est exposée à certains utilisateurs, l’autre aux autres utilisateurs. Et donc pour être certain que l’un est meilleur que l’autre, on a… un certain temps à attendre pour s’assurer qu’il y a un nombre d’utilisateurs significatifs pour prendre une décision. Et donc, ce que tu proposais, c’était une optimisation pour réduire ce temps.
Laetitia: C’est ça. Pour donner un exemple vraiment très simple, par exemple, si je te donne une pièce et que je te demande si elle est biaisée, Si tu fais une fois et que tu as pile, tu ne vas pas savoir si elle est biaisée. Si tu fais deux fois et que tu as pile et pile, tu vas te dire « Ah, mais peut-être que c’est de la chance ». Mais peut-être qu’au bout de mille fois, tu as eu quatre-vingt pour cent de pile et vingt pour cent de face. Là, tu vas te dire « Non, mais c’est sûr que cette pièce est biaisée ». Et c’est un peu pareil dans les tests AB. Plus on a de volume, plus on a d’utilisateurs et plus on est certain que la différence observée est bien due à ce qu’on essaie de chercher. Donc, par exemple, si c’est deux différentes versions du site, on sait que la différence, ce n’est pas du hasard, c’est bien dû à notre nouveau site.
Marc: D’accord. Et l’enjeu de réduire ce temps, c’est de pouvoir faire plus de tests, de pouvoir exposer plus vite la bonne version à tout le monde ?
Laetitia: Ouais, il y a donc réduire le temps. Quand je dis réduire le temps, c’est un peu un raccourci pour réduire le volume. Parce qu’en fait, si on prend les recherches typiquement de côté voyageurs, c’est facile. Plus on attend, plus on a de voyageurs qui viennent. Mais côté hôtes et côté listing, c’est pas aussi facile parce qu’en fait, les hôtes, finalement, ils viennent quasi tous. Disons qu’on a un nombre maximum d’hôtes. Au bout d’un certain temps, ils sont tous venus se connecter et il n’y aura pas de nouveaux. Donc même si on attendait l’infini… On ne va pas forcément augmenter le volume. Il y a une sorte de cap. Donc, oui, réduire la variance, ça nous permet d’avoir des résultats significatifs, soit plutôt dans un contexte où le volume augmente linéairement, par exemple, soit d’en avoir alors qu’on n’en aurait pas eu si on n’arrive pas à augmenter le volume.
Marc: OK. Et alors, l’autre sujet auquel tu t’étais beaucoup, ça concerne les longs séjours.
Laetitia: Oui.
Marc: Est-ce que tu peux nous en parler un peu ?
Laetitia: Oui. J’étais à la fin d’Airbnb dans l’équipe Long Term Stays. C’est les séjours de trente jours et plus. Et pour ces séjours-là, on réduit la commission demandée aux voyageurs, donc la fee. Et donc forcément, il y a un trade-off, c’est-à-dire qu’on prend moins d’argent, mais en même temps, on a plus de nuit. Donc les voyageurs réservent un mois, deux mois, trois mois d’un coup. Donc ça nous augmente pas mal le volume. C’est pour ça qu’on est prêt à faire ce trade-off. Et c’est pareil pour les hôtes, c’est-à-dire qu’eux aussi, ils proposent souvent des réductions pour les longs séjours parce qu’ils arrivent à remplir toute leur nuit sans avoir de trou dans leur calendrier par rapport au court séjour. Donc ça, c’est un peu l’intuition, mais on avait envie de quantifier tout ça, ce qui est évidemment très compliqué parce qu’on ne peut pas… juste interdire les long-term stays pour la moitié des hôtes, déjà parce qu’il y aurait de la cannibalisation, c’est-à-dire que les long-term stays seraient juste reportés sur d’autres appartements, donc l’effet qu’on observerait serait un effet créé par le design de l’expérimentation, et par ailleurs parce que ce serait pas accepté par les hôtes. Et donc du coup on a essayé de mettre en place des manières de comprendre à la fois l’élasticité au prix, pour les long-term stays, et à la fois, quelle était la commission idéale à mettre en place, notamment, par exemple, en baissant un peu notre commission pour comprendre comment est-ce que le marché réagissait, ou en l’augmentant au
Marc: contraire. Ok. Ça, c’est quand même intéressant, parce que c’est quand même souvent qu’on est dans une situation où on ne peut pas vraiment expérimenter sous une forme AB test, comme ça. Alors, est-ce que… Tu pourrais rentrer un peu dans le détail des techniques mises en œuvre pour évaluer cette élasticité ?
Laetitia: Ouais. Il y a une technique assez reine en ce moment dans la tech à San Francisco et je pense un peu partout ailleurs. C’était… Enfin, à l’époque où j’étais arrivée à Airbnb, c’était un peu nouveau. C’était la méthode de synthetic control. Je ne sais pas comment on dit en français. Contrôle synthétique qui consistait à faire des… En fait, ça a été surtout utilisé pour les politiques publiques où on comparait, je crois que la première étude là-dessus, des rechercheurs qui ont… proposait ça, c’était sur des lois sur le tabagisme ou sur les taxes du tabac. et donc c’était dans un état aux Etats-Unis et il comparait cet état-là avec les autres états. et en fait tous les états sont différents. donc c’est pas un test pertinent. si on voulait juste comparer la Californie avec le Nebraska, ça n’a pas de sens. mais ce qu’on peut faire c’est essayer de trouver un jeu de contrôle synthétique qui est fait de certains pourcentages des autres états. Donc par exemple on pourrait dire que la Californie c’est trente pour cent de New York, c’est dix pour cent de l’Alaska, quelque chose comme ça. Et on se sert des données, des time series avant le changement pour essayer de créer ce jeu de contrôle synthétique. En utilisant des algorithmes en général, on utilise des régressions linéaires du type Ridge. Et une fois qu’on a créé ce jeu de contrôle synthétique avant l’expériment, donc avant le début de la mise en place de la politique, on peut regarder ce qu’il se passe après sur notre jeu de contrôle synthétique et sur notre état test pour voir si les tendances divergent. Et donc dans le cadre des états aux Etats-Unis, ça marche très bien. Donc on voit vraiment une divergence et on peut évaluer l’impact de cette politique publique sur la consommation par exemple de cigarettes. Et donc, on peut faire pareil à Airbnb. Nous, on l’a fait beaucoup dans le cadre des politiques publiques aussi sur les appartements. Je ne sais plus quels États avaient mis en place des règles plus strictes parce qu’ils voulaient contrôler la prolifération des appartements sur Airbnb. pour faire face à la crise des logements. Et donc, si je me souviens bien, on utilisait ça dans ce contexte-là. Et moi, je l’avais aussi réutilisé dans le contexte des long-term stays pour essayer d’évaluer l’impact de certaines politiques sur, justement, l’équilibre de marché par rapport à ce petit segment qui était les long-term stays.
Marc: J’essaie de voir où sont les hypothèses fortes qui sont faites dans cette approche. Je vais voir si j’ai bien compris déjà. On veut appliquer une politique, on veut savoir si une politique publique aurait un tel ou tel effet sur, par exemple, la Californie. Et on se dit que la Californie, finalement, est composée de populations qui sont semblables dans leur comportement à d’autres États. Et donc, La façon dont on va déterminer qu’on estime que l’effort NIF c’est trente pour cent du Negraska plus trente pour cent de New York, etc. Ces chiffres de trente pour cent, ces coefficients, on les calcule par, comme tu disais, Ridge Regression.
Laetitia: Ouais, sur des données de Time Series avant l’expériment. Donc ce qui est intéressant, c’est qu’on ne va pas choisir quelle métrique mettre dans le groupe des features pour matcher. Donc, on ne va pas se dire, ah, je pense que ce qui est intéressant, c’est la taille de la population, c’est le revenu, etc. On va plutôt se demander, nous, la métrique qu’on essaie de calculer, disons que c’est les ventes de cigarettes. Je ne sais plus si c’est ça dans l’exemple, mais admettons. Et donc, on va prendre les ventes de cigarettes avant, juste cette métrique-là, et on va les prendre par semaine ou par mois ou par année, et essayer de matcher les deux time series entre elles. Donc celle du gros jeu de contrôle synthétique et celle de la Californie. Et donc quand les ventes augmentent en Californie, il y a probablement d’autres états dans lesquels ça augmente, par exemple celles qui ont les mêmes saisonnalités parce que les vacances de Californie sont alignées avec les vacances de New York ou les températures de la Californie sont en fait proches des températures d’Oregon et que les gens fument plus quand ils sont dehors, quelque chose comme ça. Mais on ne va pas nous-mêmes formaliser cet effet, on va juste regarder les tendances et voir que quand la Californie monte, on va trouver des états qui montent aussi. Quand la Californie descend, on va trouver des états qui descendent aussi dans cette métrique-là. Et à la fin, on aura une évolution sur plusieurs années avec un jeu de contrôle synthétique qui avait la même évolution. Et ce jeu de contrôle synthétique, en fait, c’était des pourcentages d’autres états.
Marc: D’accord, oui. En fait, on ne s’intéresse pas du tout à la population, à la météo, à ce genre de choses. On s’affranchit complètement de ces contraintes en disant, on va laisser les données parler et nous dire comment est-ce qu’on peut reproduire la time série de l’État sur lequel on veut faire cette politique publique. D’accord, ok. Écoute, c’est très intéressant. Est-ce que dans ton séjour à Airbnb et sur ses différents travaux, Tu peux nous parler des principaux verrous, obstacles que tu avais dû surmonter d’un point de vue technique ou humain ?
Laetitia: Je pense qu’à Airbnb, il y avait beaucoup de données et ça rendait les enquêtes difficiles en termes de data, dans le sens où chaque grosse requête SQL pouvait prendre dix heures si on voulait beaucoup d’historique derrière. Donc, il fallait toujours optimiser ce qu’on demandait, sauf si c’était des questions sans historique, si c’était juste un instant T pour savoir combien d’instincts on avait, ça, on pouvait le faire tout de suite. Mais dès qu’on voulait repasser dans le temps et regarder sur l’année passée ou les deux années passées, Là, il fallait vraiment organiser son travail pour lancer les requêtes et avoir les résultats le lendemain, par exemple. Un autre problème qui était assez important quand j’étais là, c’était l’uniformisation des tables, ou plutôt le fait d’avoir vraiment une single source of truth pour la même information, pour la même donnée, pour les mêmes métriques. Et c’est quelque chose sur lequel on a beaucoup travaillé, notamment au moment de l’IPO, qui était à la fin, je pense, un ou deux ans avant que je parte. Et là, il y a eu un gros travail de vraiment redéfinir nos métriques clés. Ce qui était assez intéressant parce qu’on parlait, par exemple, les active listings, donc les nombres d’hébergements actifs sur Airbnb. C’était vraiment la métrique phare. On en parlait tout le temps, tout le temps, tout le temps. Et on a décidé de la redéfinir. Donc, on a pris une définition qui était évidemment très, très proche de l’ancienne mais il a quand même fallu s’aligner sur les choix qui avaient été faits. en fait on avait oublié plein de choix qui avaient été faits sur. il faut au moins qu’il y ait peut-être un jour de calendrier ouvert dans le futur pour dire qu’il est actif ce genre de règles. en fait personne ne savait vraiment ce qu’elles étaient. donc il a fallu qu’on se les redonne pour recréer la métrique. et donc ça je pense que c’était la force vraiment de l’équipe centrale un peu de Data Platform qui nous a vraiment aidé à aligner toutes les métriques pour qu’on reparte sur des bonnes bases dans ce contexte là
Marc: Oui, que chacun ait bien les mêmes définitions et ne pas comparer des
Laetitia: choses différentes. C’est ça. Quand on est deux ans stationniste, en fait, à la fin, chacun a créé ses tables, chaque équipe a ses tables, et elles n’ont pas forcément tout aligné.
Marc: Pour toi, où est-ce qu’il y avait le plus de valeur chez Airbnb ?
Laetitia: C’est dur de trouver un endroit spécifique, je pense, qu’il y avait de la valeur partout, dans le sens où, en fait, on ne pouvait pas avoir de réponse sans data. Aucune équipe pouvait avancer sans data. Ce n’était pas une question, est-ce qu’on devrait regarder les données ? C’était forcément, on va le faire parce qu’on n’a pas d’intuition. Comme je disais au début, on ne peut pas avoir d’intuition sur quelque chose qui est aussi diverse que les appartements d’Airbnb. J’ai beaucoup travaillé côté haute, c’est pour ça que je parle toujours des hébergements. Mais oui, il n’y a pas d’intuition derrière cela. Et donc, finalement, la valeur, elle était partout. C’était notre base de réflexion pour beaucoup de choses, pour tout.
Marc: Ok, alors si on parle un petit peu d’Electra maintenant, est-ce que tu peux à nouveau nous parler des datas que vous manipulez chez Electra ? Quelle est leur nature ?
Laetitia: Donc chez Electra, comme chez Airbnb, on a des données des utilisateurs. Je vais peut-être être un peu plus précise parce que c’est moins intuitif, mais on a beaucoup de données des chargeurs. Toutes les bornes qu’on a sont connectées à Internet et envoient des messages régulièrement. On a aussi des données qui viennent à travers les applications mobiles. Et quelque chose que je ne faisais pas trop. à Airbnb, à Electra, on a aussi beaucoup de données externes. Notamment parce que quand je suis arrivée à Electra, on n’avait pas une seule station. Donc on n’avait aucune donnée d’utilisation ni d’utilisateur. Et donc notre façon de réfléchir et d’approcher le problème, ça a été vraiment de regarder les données de recensement, de démographie, de trafic en France pour comprendre quels étaient les axes les plus fréquentés et pour s’implanter de façon logique par rapport à ça.
Marc: Et alors, depuis deux ans, est-ce qu’il y a une décision business, une ou plusieurs, qui te vient, qui a été prise grâce à la data, que tu peux nous montrer pour illustrer ça ?
Laetitia: Pour revenir sur ces données de trafic, ce n’est pas une seule décision, mais c’est à chaque décision d’investissement, on regarde le trafic. Donc en fait, on regarde des données sur lesquelles on a beaucoup travaillé. Donc de TMGA, c’est le trafic moyen journalier annuel, mais pas que. Et avec toutes ces données… géospatiale sur un endroit, on essaye de se faire une idée de si l’investissement en vaut la peine ou pas. Et donc au début, c’était vraiment une sorte de régression linéaire avec des règles qu’on avait construites nous-mêmes. Mais maintenant, on s’amuse de plus en plus à regarder la performance de nos stations déjà ouvertes, les comparer aux données géospatiales qu’on a et essayer de trouver quelle est la meilleure façon de prédire la performance d’une station qui n’a pas encore été ouverte. avant de prendre toutes les décisions d’investissement. Un autre exemple peut-être, c’est notre politique de pricing. Donc pareil, ce n’est pas une seule décision business, mais on essaye d’utiliser les données pour pouvoir proposer des prix qui soient à la fois justes pour nos utilisateurs et à la fois où nous, on se retrouve derrière par rapport à nos coûts de l’électricité notamment.
Marc: Est-ce que vous faites du machine learning chez Electra du coup ?
Laetitia: Et si oui, est-ce que tu peux nous en parler un peu ? On en fait très très peu. Je vais quand même me permettre de donner des exemples, mais les régressions sont du machine learning, donc ça rentre dans cette catégorie. Donc on a cette prédiction de la performance sur des données géospatiales pour les décisions d’investir dans un endroit ou pas. Une autre partie des modèles qu’on fait, c’est sur les prédictions d’énergie. on doit forcément acheter notre énergie. C’est un des coûts principaux que l’on doit gérer. Et donc, pour acheter cette énergie, on essaye de savoir à l’avance, le plus précisément possible, combien est-ce qu’on va consommer le mois prochain, par exemple.
Marc: D’accord. Donc, forecast sur votre propre consommation.
Laetitia: C’est un peu le B à bas, on va dire. Donc, c’est évidemment la première chose par laquelle on a commencé. Ça reste assez basique, mais c’est primordial pour nous.
Marc: Est-ce qu’il y a des choses en commun, on va dire, avec Airbnb sur la manipulation des données géographiques, des données géospatiales ? Est-ce que tu retrouves des choses, des pratiques, des techniques ?
Laetitia: Pas tant que ça. En fait, Airbnb, on avait des données géospatiales de ce que j’ai fait, évidemment, qui étaient très macro. C’est-à-dire qu’on essayait de comprendre les villes dans lesquelles les hébergements étaient. C’est des données publiques au niveau de la ville, au niveau des pays aussi, pour comprendre les législations, par exemple. Je n’ai pas trop utilisé de données très micro dans le cadre d’Airbnb. Parce qu’en fait, il y avait tellement d’appartements qu’on ne regardait jamais un appartement tout seul dans son unité pour comprendre quels étaient les mouvements, le business autour de ce listing. À Electra, chaque station est vraiment prise en compte une par une. Et pour chaque station, il va y avoir des discussions. Chaque station est vraiment un gros investissement. On n’a que ou on a déjà… On a aujourd’hui sur deux ans, cent trente-sept stations. C’est gérable dans le sens où on peut considérer chaque station l’une après l’autre. Il passait plusieurs jours pour comprendre si on a envie d’investir. C’est à peu près cinq cents millions l’investissement dans une station en moyenne. C’est très différent de Airbnb où un appartement tout seul est beaucoup moins représentatif du reste. Ce ne sont pas les mêmes données finalement.
Marc: Vous êtes beaucoup plus sur des données locales. Alors du coup, les données externes qui sont utiles pour ce genre de problème, c’est quoi par exemple ?
Laetitia: Nous, aujourd’hui, la métrique reine, c’est le TMGA, donc c’est le trafic moyen journalier annuel. Et évidemment, il y a plusieurs façons de le voir. Donc, il y a la densité de trafic sur toutes les routes autour d’une certaine station. Pour Paris, par exemple, il y a plein de routes. Donc, on pourrait, par exemple, considérer un cercle autour de la station d’un certain rayon et de compter le nombre de voitures qui rentrent dans ce cercle ou qui sortent. qui devrait être pareil. On peut aussi considérer les axes principaux seulement, donc le maximum, TMGA maximum autour d’une station. Pour une station de bord d’autoroute où il n’y a que l’autoroute, la densité, la somme de trafic qui rentre, c’est exactement la même chose que le max. Pour Paris, c’est très, très différent. Donc, il y a plusieurs variations de cette donnée de trafic. Il faut toujours de la même idée, c’est vraiment comprendre les voitures qu’il y a autour, comprendre le nombre de gens qui viennent organiquement sur le parking et comparer ça aux gens qui ne passent pas loin et qui seraient prêts à faire un détour. Ce n’est pas pareil. On essaie de prendre toutes ces nuances pour mieux comprendre si une station va bien fonctionner ou pas.
Marc: Et qui fournit ces données ?
Laetitia: Nous, on les achète auprès d’un revendeur de données TomTom.
Marc: D’accord, ok. Et après, j’imagine, l’autre type de données qui va vous intéresser, c’est les données sur la concurrence qui existent déjà, ce qui est déjà en place ?
Laetitia: Oui, les données de la concurrence qu’on récupère assez simplement à travers des applications où on peut voir les stations, applications que tous les électromobilistes connaissent, comme ChargeMap. Donc, on regarde simplement et on voit quelle station fonctionne ou pas. On a aussi les données de pricing sur ChargeMap, je pense. Je ne sais plus d’où elles viennent. Et on utilise aussi pas mal de données démographiques, notamment d’appartements. Par exemple, à Paris, où il y a beaucoup d’immeubles, les gens ne peuvent pas se charger chez eux. Et c’est là qu’Electra intervient davantage. Alors que dans des endroits plus résidentiels, où tout le monde est dans une maison particulière, c’est hautement probable qu’ils se rechargent chez eux plutôt, sachant que c’est beaucoup moins cher.
Marc: — Ouais. Donc là, on va peut-être aller du côté de l’INSEE, sur la population, sur le nombre de foyers qui ont des voitures, ce genre de choses.
Laetitia: — Exactement. Mais c’est marrant parce que c’est un peu à double tranchant, vu qu’on regarde… Les recensements, c’est toujours qu’une image du passé. Et les voitures électriques, ça change hyper vite. On a seulement de voiture électrique en France, mais on a… On a évidemment des intuitions qui sont que les régions les plus riches passent à l’électrique en premier. Mais ça, on n’est pas non plus certain de cet effet-là. Donc, on essaye de se baser sur des données passées et sur des données avec des voitures thermiques pour prévoir ce que le monde va faire pendant les quinze prochaines années.
Marc: Alors quels sont chez Electra les principaux verrous et obstacles que tu as dû surmonter depuis deux ans ?
Laetitia: C’est marrant parce qu’en comparaison avec Airbnb, c’est vraiment l’inverse. En fait, à Airbnb, il y avait trop de données. C’était dur d’y avoir accès. À Electra, il a fallu commencer depuis le début et du coup, aller chercher les données. Donc, c’était vraiment de la collecte de données, l’achat, comme je disais, intégrer des sources de données publiques et après se connecter aux données du back-end pour avoir les données d’utilisateurs. Donc, on a dû vraiment multiplier les sources de données parce que c’était éparpillé partout. À Airbnb, je suis arrivée, c’était… déjà fait, déjà prêt, et c’était présent en quantité. Un second exemple, c’est aussi convaincre de l’importance des datas dans la boîte. C’est forcément quand on a une station, deux stations, dix stations, il y a une intuition qui se crée derrière, et on n’a pas besoin des datas pour déjà savoir combien de stations on a, et par ailleurs avoir une idée des tendances, sachant qu’au début on avait une dizaine de charges par semaine, puis une centaine. Ce n’était pas quelque chose qui nécessitait un savoir-faire spécifique pour déjà y avoir accès, et d’autre part, y trouver du sens. Et donc, il a fallu être présent et disponible et assez pédagogique pour pouvoir expliquer à quoi la data servait, quelle était la valeur ajoutée, et du coup, convaincre vraiment Electra qu’ils avaient quelque chose à y gagner, de ne pas seulement écouter leur intuition, mais aussi parfois confirmer avec
Marc: des données. Les équipes avec qui tu as le plus à faire en tant que Head of Data aujourd’hui, les fonctions chez Electra avec lesquelles tu traites le plus, c’est lesquelles ?
Laetitia: C’est en premier les équipes qui ont un besoin de reporting presque légal, donc la finance, pour pouvoir compter le revenu. Et surtout que la finance se situe assez loin de notre back-end, donc ils ont besoin d’un intermédiaire pour faire sens des données que la base de données va renvoyer. Et après, de l’autre côté du spectre, c’est l’équipe produit. Déjà, c’est eux qui émettent les données. Donc, si les schémas, on ne les comprend pas, s’ils n’enregistrent pas les bonnes informations, on va travailler avec eux pour pouvoir avoir des informations qui nous permettent derrière d’utiliser les données facilement. Et vraiment, les développeurs, pour s’intégrer, c’est eux qui possèdent toute l’infrastructure et on travaille avec eux sur la même infrastructure partagée pour s’intégrer avec eux.
Marc: Ok. Qu’est-ce que tu préfères dans ce métier ?
Laetitia: Quand j’étais petite, je voulais être détective privée. Et j’aime bien le travail d’enquête. J’aime bien qu’on me pose une question. Et ce que je préfère par-dessus tout, c’est évidemment avoir une réponse qui n’est pas celle à laquelle on s’attendait. Ça, ce n’est pas moi qui choisis. C’est plutôt les données. Mais oui, j’aime bien déjà trouver la réponse. Ce n’est pas toujours le cas d’ailleurs. Mais quand on trouve quelque chose d’intéressant, c’est vraiment agréable.
Marc: Et à contrario, qu’est-ce qui est le plus douloureux dans ce métier ?
Laetitia: c’est la qualité des données. Plutôt de faire en sorte d’avoir des données de qualité. C’est un peu notre base de travail. On a besoin de données de qualité pour faire des analyses derrière de qualité. Et c’est assez dur, en fait, d’avoir des données qui sont cohérentes tout le temps. Par exemple, des exemples, c’est qu’on utilise des données qui viennent de nos propres systèmes en interne pour… suivent l’avancement des travaux. C’est un logiciel que les project managers vont updater pour mettre à jour la date d’ouverture, l’intervention d’Enedis, l’intervention de l’entreprise qui va faire la peinture sur les places. Toutes ces choses-là, on s’en sert derrière pour faire des prévisions de stock, par exemple. Si le project manager oublie de mettre à jour que Enedis au téléphone les ont eus pour changer la date, par exemple, les données sont fausses. S’il oublie tout court de mettre à jour la date d’ouverture, on oublie qu’une station va ouvrir. Et donc ça, c’est des données vraiment gérées par l’humain. Et on ne va pas mettre des règles, évidemment, sinon il ne pourrait pas avancer dans tous les logiciels qu’il utilise. Donc ce n’est pas forcément des données qui sont faciles à traiter. Il y a beaucoup de post-traitement derrière.
Marc: Est-ce que tu as une anecdote à nous partager ?
Laetitia: Oui, je déteste la voiture. J’ai peur en voiture et je ne pense pas que la voiture soit un bon futur pour Paris notamment, mais peut-être la France. Après, je crois beaucoup aux voitures autonomes et partagées. Donc finalement, moins de voitures. Si on en avait une pour dix, ce serait parfait. Donc voilà, c’est le futur que je souhaite pour les Parisiens. Et évidemment, des voitures électriques qui se chargeraient chez Electra.
Marc: Et est-ce que tu as une opinion à nous partager ?
Laetitia: Je pense qu’en tant que Data Scientist, on me propose beaucoup de conseils, par exemple de freelance, etc. Et il y a un gros focus sur le machine learning en ce moment. Et donc, on me propose des freelances en machine learning beaucoup plus souvent, je trouve, que ce dont… J’aurais peut-être besoin, en l’occurrence je n’ai pas besoin de freelance, mais si j’avais besoin de main d’oeuvre, ce ne serait pas du tout du machine learning moi aujourd’hui. Et je trouve qu’on oublie un peu cette partie-là, c’est qu’il faut d’abord travailler sur ces fondations, sur de l’infrastructure qui soit solide, des données qui soient de qualité, fiables et disponibles tout le temps, avant de se lancer dans des modèles d’intelligence artificielle trop vite.
Marc: Si c’était à refaire, tu changerais quoi ?
Laetitia: Je pense que je commencerai l’éducation data d’Electra bien plus tôt. Là, je me suis beaucoup concentrée sur la construction de notre infrastructure et de la mise en place de notre data warehouse. Et là, on a commencé à éduquer, à partager davantage notre travail et à vraiment prendre contact avec les équipes pour pouvoir les accompagner sur leurs différents projets. Et je pense que… En fait, je vois à quel point elles sont demandeuses de ça. Et je pense qu’on aurait pu commencer plus tôt.
Marc: Ok. Alors, c’est quoi les prochaines étapes pour vous ?
Laetitia: Excellente question. Après avoir dit qu’il ne fallait pas faire de machine learning, peut-être que c’est le machine learning. Mais non, mais même avant le machine learning, je pense que c’est davantage d’autonomie encore. Donc, c’est assez relié à ce que je disais juste avant sur l’éducation des équipes. C’est qu’on aimerait rendre les équipes encore plus autonomes. Ça passe par deux choses, vraiment l’éducation. Donc, c’est que les autres sachent utiliser Metabase, qui est l’outil de business intelligence qu’on utilise. Mais ça passe aussi par une base de données qui soit claire, organisée et facile d’accès. Ça, c’est vraiment sur nous que la charge repose. C’est comme une bibliothèque. Si les livres ne sont pas ordonnés selon un schéma connu, c’est vraiment impossible de trouver un livre. Et donc là, c’est pareil. Il faut avoir des clés de lecture pour pouvoir utiliser notre Data Warehouse qui soit facile d’accès.
Marc: OK. Alors, dans un prochain épisode de Data Driven One-on-One, qu’est-ce que tu aimerais entendre ?
Laetitia: J’aimerais bien entendre parler Léa Kahn, qui a cofondé Kiosk, qui est une entreprise qui aide les entreprises avec leur reporting ESG. Je pense qu’il y a plein de données des entreprises que nous, en tant que data, même, on n’a pas accès. Par exemple, sur… les responsabilités sociales, le lien d’index de parité. Et ce serait super intéressant de mieux comprendre ça. Et du coup, Léa a travaillé avec Electra pour nous aider sur ça. Et donc, je pense que ce serait un super point d’entrée pour un autre champ des données encore.
Marc: Génial. Super. Merci, Laetitia.
Laetitia: Merci, Marc.
Marc: Vous venez d’entendre Laetitia Jumel, Head of Data chez Electra sur Data Driven One One.
Marc: Aujourd’hui, je reçois Laetitia Jumel, Head of Data chez Electra. Après cinq ans chez Airbnb en tant que Data Scientist, elle a rejoint Electra il y a deux ans en tant que Head of Data. Electra est une société fondée en deux mille vingt et un, qui a levé cent soixante millions d’euros et recruté cent soixante personnes pour faire des bornes de rechargement rapide. Bonjour Laetitia. Bonjour Marc. Alors Laetitia, est-ce que tu peux peut-être dans un premier temps nous parler de ton rôle chez Airbnb, puis de ton rôle chez Electra ?
Laetitia: Oui, merci de me recevoir. tout d’abord. Chez Airbnb Electra, mon rôle était assez similaire, dans le sens où la mission principale que j’ai, c’est de valoriser les données de l’entreprise. Les données sont autour de nous, en dehors de nos travails, et bien avant le numérique. Le recensement, la météo, c’est énormément de données. On s’en sert pour améliorer nos vies. Et donc, je fais pareil pour Airbnb et je fais pareil pour Electra.
Marc: Ok. Et Electra, peut-être que tu peux nous dire un peu plus. Je pense que les gens connaissent un peu moins Electra qu’Airbnb. Est-ce que tu peux nous parler un peu de l’entreprise ?
Laetitia: Oui, c’est un spécialiste de la recharge rapide pour les véhicules électriques. On est un groupe européen qui a grandi très vite sur les deux dernières années. On est une équipe qui déploie et exploite les stations sur un modèle de partenariat avec des partenaires fonciers qui ont des parkings, par exemple des restaurants ou des hôtels, sur lesquels on s’implante et on installe des stations de recharge.
Marc: Ok. Alors, la data chez Airbnb, d’abord, à quoi ça sert ? Quels sont les usages principaux ? Et comment c’est géré en termes d’équipe, d’organisation ?
Laetitia: La donnée à Airbnb sert à tout le monde et à tout. C’est un business qui est tellement disparate. On est dans le monde entier. Les hébergements sur Airbnb sont de l’appartement new-yorkais au bungalow sur une plage dans les Caraïbes. Donc, avoir une intuition générale sur les comportements, sur les utilisateurs… C’est quasi impossible si on ne se sert pas des données pour faire des moyennes et répondre à toutes les questions. Donc, les données sont vraiment l’essence de l’information Airbnb. Ça sert donc à tout le monde. Et en termes d’organisation, on est, je dis on, mais c’était, nous étions, une assez centralisée. Donc, il y avait d’abord une équipe d’adapte plateforme qui était vraiment responsable de l’infrastructure et des métriques un peu communes à toutes les équipes. Et dans chaque équipe produit, il y avait des data scientists un peu embédides, mais qui avaient quand même des managers spécifiques pour la data.
Marc: D’accord, donc plutôt des data scientists répartis dans les différentes fonctions ?
Laetitia: Oui, c’est ce que j’étais.
Marc: Et chez Electra, du coup, comment vous êtes organisée d’un côté, et puis quel genre de data vous manipulez, à quoi elle sert ?
Laetitia: Chez Lectra, on a des données principalement d’utilisateurs, mais on utilise aussi et beaucoup plus qu’à Airbnb des données externes, vu qu’on a moins de données internes. Et on est une équipe de trois personnes organisées de façon centrale, donc tous les trois ensemble dans l’équipe du CTO.
Marc: Ok. Alors peut-être pour rentrer un peu plus dans le détail, parlons peut-être du Airbnb d’abord. Est-ce qu’on peut rentrer dans le détail du type de données que vous êtes amené à traiter ? Déjà peut-être la décrire un peu plus d’un premier temps.
Laetitia: La donnée principale, c’était la donnée des utilisateurs. Airbnb, les deux mondes, c’est le monde des voyageurs, le monde des hébergeurs. Côté voyageurs, c’est un peu plus facile à comprendre. C’est vraiment les réservations, les recherches qu’ils font d’appartements, les dates qu’ils entrent, les locations pour lesquelles ils souhaitent trouver un appartement. Et côté hébergeur, c’est vraiment toutes les caractéristiques des listings, donc les photos, le nombre de chambres, le prix. Et par ailleurs, il y a énormément de données aussi de règles, donc les calendriers, quels jours est-ce que c’est disponible, est-ce qu’on peut réserver que du samedi au samedi. Tout ça, c’est un ensemble de données qui nous permettent, nous, de comprendre derrière les dynamiques de la place de marché.
Marc: Ok. Alors ces données exploitées pour faire des analyses statistiques ou du machine learning, est-ce que tu peux nous donner des exemples d’applications de machine learning ?
Laetitia: Oui. Moi, j’ai fait très peu de machine learning à Airbnb, mais les gros exemples, donc vraiment des grosses équipes de machine learning, c’est principalement tout ce qui est relatif à la meilleure compréhension des hébergements. Donc par exemple, de pouvoir lire les photos pour dire s’il y a… Une machine à café, des choses d’information qui ne sont pas forcément structurées par les hôtes. Et tout ça, toute cette compréhension des appartements nous permet de pricer, de faire des recommandations, d’évaluer la qualité des hébergements. Et après, côté un peu plus classique, on a énormément d’algorithmes de fraude, des algorithmes de recherche aussi pour ranker les listings correctement quand quelqu’un fait une cherche.
Marc: Ok, alors peut-être si on rentre un petit peu dans le détail de ce que tu as cité, par exemple pour ce qui est du pricing, les algorithmes qui viennent prédire le prix, est-ce qu’on peut nous parler un peu de comment ça s’intègre dans l’outil lui-même, l’interface utilisateur, l’expérience utilisateur, quels sont les enjeux quand on est Data Scientist finalement pour que son travail soit utilisé à la fin et ne soit pas simplement un modèle sophistiqué qui reste dans
Laetitia: son coin ? Côté pricing, c’est un peu étrange parce que nous, on va faire des suggestions déjà et les hôtes ne sont pas obligés de les accepter. Donc, c’est vraiment juste une recommandation de prix. Et par ailleurs, on a un fonctionnement tripartite, donc il faut que les voyageurs soient contents du prix, il faut que les hôtes soient contents du prix, il faut que Airbnb aussi retrouve… et retrouve une marge. Donc ça, c’est un peu les axes d’optimisation qui doivent un peu mettre tout le monde d’accord. Et puis, sur ta question plus spécifique de la mise à disposition, je pense qu’en pricing, on n’a pas trop de problèmes de real-time, parce que je crois que c’est fait à l’avance. Mais pour le ranking, par exemple, ça, c’est un gros problème. Donc, un algorithme qui fonctionne en local, mais qui ne fonctionne pas en production, ça ne fonctionne pas.
Marc: Ouais, et alors, toi, tu étais dans la partie inférence causale, c’est ça ? Oui, c’est ça. Peut-être que tu peux nous présenter ce que ça veut dire et en quoi consistaient, du coup, tes travaux ?
Laetitia: Oui, du coup, j’ai travaillé beaucoup plus de mon côté sur des statistiques qui résonnaient pas mal avec mes études d’économie, en fait. Donc, c’est vraiment dans la suite de l’économétrie. Et tout ce champ de la data consiste à mesurer l’impact de quelque chose. Donc, ça peut être un nouveau produit, ça peut être un nouvel outil, ça peut être juste la place de marché. Comment est-ce qu’elle est équilibrée ? Quelles sont les dynamiques de marché ? Toutes ces questions-là, en général, sont prises par les data scientists qui font de l’inférence causale pour essayer de trouver un équilibre qui fonctionne pour tout le monde. Des exemples de ce que j’ai fait, notamment pour être un peu plus concrète, sur la partie expérimentation et A-B test, j’ai pas mal travaillé sur comment est-ce qu’on pouvait réduire le temps d’expérimentation, ce qui est un vrai problème pour beaucoup de boîtes. Il y a des méthodes évidemment pour essayer de réduire ce temps et une des méthodes assez connues en ce moment, ça consiste à réduire la variance en utilisant des données du passé.
Marc: Donc à B-Test, on met deux versions du site web en parallèle, une qui est exposée à certains utilisateurs, l’autre aux autres utilisateurs. Et donc pour être certain que l’un est meilleur que l’autre, on a… un certain temps à attendre pour s’assurer qu’il y a un nombre d’utilisateurs significatifs pour prendre une décision. Et donc, ce que tu proposais, c’était une optimisation pour réduire ce temps.
Laetitia: C’est ça. Pour donner un exemple vraiment très simple, par exemple, si je te donne une pièce et que je te demande si elle est biaisée, Si tu fais une fois et que tu as pile, tu ne vas pas savoir si elle est biaisée. Si tu fais deux fois et que tu as pile et pile, tu vas te dire « Ah, mais peut-être que c’est de la chance ». Mais peut-être qu’au bout de mille fois, tu as eu quatre-vingt pour cent de pile et vingt pour cent de face. Là, tu vas te dire « Non, mais c’est sûr que cette pièce est biaisée ». Et c’est un peu pareil dans les tests AB. Plus on a de volume, plus on a d’utilisateurs et plus on est certain que la différence observée est bien due à ce qu’on essaie de chercher. Donc, par exemple, si c’est deux différentes versions du site, on sait que la différence, ce n’est pas du hasard, c’est bien dû à notre nouveau site.
Marc: D’accord. Et l’enjeu de réduire ce temps, c’est de pouvoir faire plus de tests, de pouvoir exposer plus vite la bonne version à tout le monde ?
Laetitia: Ouais, il y a donc réduire le temps. Quand je dis réduire le temps, c’est un peu un raccourci pour réduire le volume. Parce qu’en fait, si on prend les recherches typiquement de côté voyageurs, c’est facile. Plus on attend, plus on a de voyageurs qui viennent. Mais côté hôtes et côté listing, c’est pas aussi facile parce qu’en fait, les hôtes, finalement, ils viennent quasi tous. Disons qu’on a un nombre maximum d’hôtes. Au bout d’un certain temps, ils sont tous venus se connecter et il n’y aura pas de nouveaux. Donc même si on attendait l’infini… On ne va pas forcément augmenter le volume. Il y a une sorte de cap. Donc, oui, réduire la variance, ça nous permet d’avoir des résultats significatifs, soit plutôt dans un contexte où le volume augmente linéairement, par exemple, soit d’en avoir alors qu’on n’en aurait pas eu si on n’arrive pas à augmenter le volume.
Marc: OK. Et alors, l’autre sujet auquel tu t’étais beaucoup, ça concerne les longs séjours.
Laetitia: Oui.
Marc: Est-ce que tu peux nous en parler un peu ?
Laetitia: Oui. J’étais à la fin d’Airbnb dans l’équipe Long Term Stays. C’est les séjours de trente jours et plus. Et pour ces séjours-là, on réduit la commission demandée aux voyageurs, donc la fee. Et donc forcément, il y a un trade-off, c’est-à-dire qu’on prend moins d’argent, mais en même temps, on a plus de nuit. Donc les voyageurs réservent un mois, deux mois, trois mois d’un coup. Donc ça nous augmente pas mal le volume. C’est pour ça qu’on est prêt à faire ce trade-off. Et c’est pareil pour les hôtes, c’est-à-dire qu’eux aussi, ils proposent souvent des réductions pour les longs séjours parce qu’ils arrivent à remplir toute leur nuit sans avoir de trou dans leur calendrier par rapport au court séjour. Donc ça, c’est un peu l’intuition, mais on avait envie de quantifier tout ça, ce qui est évidemment très compliqué parce qu’on ne peut pas… juste interdire les long-term stays pour la moitié des hôtes, déjà parce qu’il y aurait de la cannibalisation, c’est-à-dire que les long-term stays seraient juste reportés sur d’autres appartements, donc l’effet qu’on observerait serait un effet créé par le design de l’expérimentation, et par ailleurs parce que ce serait pas accepté par les hôtes. Et donc du coup on a essayé de mettre en place des manières de comprendre à la fois l’élasticité au prix, pour les long-term stays, et à la fois, quelle était la commission idéale à mettre en place, notamment, par exemple, en baissant un peu notre commission pour comprendre comment est-ce que le marché réagissait, ou en l’augmentant au
Marc: contraire. Ok. Ça, c’est quand même intéressant, parce que c’est quand même souvent qu’on est dans une situation où on ne peut pas vraiment expérimenter sous une forme AB test, comme ça. Alors, est-ce que… Tu pourrais rentrer un peu dans le détail des techniques mises en œuvre pour évaluer cette élasticité ?
Laetitia: Ouais. Il y a une technique assez reine en ce moment dans la tech à San Francisco et je pense un peu partout ailleurs. C’était… Enfin, à l’époque où j’étais arrivée à Airbnb, c’était un peu nouveau. C’était la méthode de synthetic control. Je ne sais pas comment on dit en français. Contrôle synthétique qui consistait à faire des… En fait, ça a été surtout utilisé pour les politiques publiques où on comparait, je crois que la première étude là-dessus, des rechercheurs qui ont… proposait ça, c’était sur des lois sur le tabagisme ou sur les taxes du tabac. et donc c’était dans un état aux Etats-Unis et il comparait cet état-là avec les autres états. et en fait tous les états sont différents. donc c’est pas un test pertinent. si on voulait juste comparer la Californie avec le Nebraska, ça n’a pas de sens. mais ce qu’on peut faire c’est essayer de trouver un jeu de contrôle synthétique qui est fait de certains pourcentages des autres états. Donc par exemple on pourrait dire que la Californie c’est trente pour cent de New York, c’est dix pour cent de l’Alaska, quelque chose comme ça. Et on se sert des données, des time series avant le changement pour essayer de créer ce jeu de contrôle synthétique. En utilisant des algorithmes en général, on utilise des régressions linéaires du type Ridge. Et une fois qu’on a créé ce jeu de contrôle synthétique avant l’expériment, donc avant le début de la mise en place de la politique, on peut regarder ce qu’il se passe après sur notre jeu de contrôle synthétique et sur notre état test pour voir si les tendances divergent. Et donc dans le cadre des états aux Etats-Unis, ça marche très bien. Donc on voit vraiment une divergence et on peut évaluer l’impact de cette politique publique sur la consommation par exemple de cigarettes. Et donc, on peut faire pareil à Airbnb. Nous, on l’a fait beaucoup dans le cadre des politiques publiques aussi sur les appartements. Je ne sais plus quels États avaient mis en place des règles plus strictes parce qu’ils voulaient contrôler la prolifération des appartements sur Airbnb. pour faire face à la crise des logements. Et donc, si je me souviens bien, on utilisait ça dans ce contexte-là. Et moi, je l’avais aussi réutilisé dans le contexte des long-term stays pour essayer d’évaluer l’impact de certaines politiques sur, justement, l’équilibre de marché par rapport à ce petit segment qui était les long-term stays.
Marc: J’essaie de voir où sont les hypothèses fortes qui sont faites dans cette approche. Je vais voir si j’ai bien compris déjà. On veut appliquer une politique, on veut savoir si une politique publique aurait un tel ou tel effet sur, par exemple, la Californie. Et on se dit que la Californie, finalement, est composée de populations qui sont semblables dans leur comportement à d’autres États. Et donc, La façon dont on va déterminer qu’on estime que l’effort NIF c’est trente pour cent du Negraska plus trente pour cent de New York, etc. Ces chiffres de trente pour cent, ces coefficients, on les calcule par, comme tu disais, Ridge Regression.
Laetitia: Ouais, sur des données de Time Series avant l’expériment. Donc ce qui est intéressant, c’est qu’on ne va pas choisir quelle métrique mettre dans le groupe des features pour matcher. Donc, on ne va pas se dire, ah, je pense que ce qui est intéressant, c’est la taille de la population, c’est le revenu, etc. On va plutôt se demander, nous, la métrique qu’on essaie de calculer, disons que c’est les ventes de cigarettes. Je ne sais plus si c’est ça dans l’exemple, mais admettons. Et donc, on va prendre les ventes de cigarettes avant, juste cette métrique-là, et on va les prendre par semaine ou par mois ou par année, et essayer de matcher les deux time series entre elles. Donc celle du gros jeu de contrôle synthétique et celle de la Californie. Et donc quand les ventes augmentent en Californie, il y a probablement d’autres états dans lesquels ça augmente, par exemple celles qui ont les mêmes saisonnalités parce que les vacances de Californie sont alignées avec les vacances de New York ou les températures de la Californie sont en fait proches des températures d’Oregon et que les gens fument plus quand ils sont dehors, quelque chose comme ça. Mais on ne va pas nous-mêmes formaliser cet effet, on va juste regarder les tendances et voir que quand la Californie monte, on va trouver des états qui montent aussi. Quand la Californie descend, on va trouver des états qui descendent aussi dans cette métrique-là. Et à la fin, on aura une évolution sur plusieurs années avec un jeu de contrôle synthétique qui avait la même évolution. Et ce jeu de contrôle synthétique, en fait, c’était des pourcentages d’autres états.
Marc: D’accord, oui. En fait, on ne s’intéresse pas du tout à la population, à la météo, à ce genre de choses. On s’affranchit complètement de ces contraintes en disant, on va laisser les données parler et nous dire comment est-ce qu’on peut reproduire la time série de l’État sur lequel on veut faire cette politique publique. D’accord, ok. Écoute, c’est très intéressant. Est-ce que dans ton séjour à Airbnb et sur ses différents travaux, Tu peux nous parler des principaux verrous, obstacles que tu avais dû surmonter d’un point de vue technique ou humain ?
Laetitia: Je pense qu’à Airbnb, il y avait beaucoup de données et ça rendait les enquêtes difficiles en termes de data, dans le sens où chaque grosse requête SQL pouvait prendre dix heures si on voulait beaucoup d’historique derrière. Donc, il fallait toujours optimiser ce qu’on demandait, sauf si c’était des questions sans historique, si c’était juste un instant T pour savoir combien d’instincts on avait, ça, on pouvait le faire tout de suite. Mais dès qu’on voulait repasser dans le temps et regarder sur l’année passée ou les deux années passées, Là, il fallait vraiment organiser son travail pour lancer les requêtes et avoir les résultats le lendemain, par exemple. Un autre problème qui était assez important quand j’étais là, c’était l’uniformisation des tables, ou plutôt le fait d’avoir vraiment une single source of truth pour la même information, pour la même donnée, pour les mêmes métriques. Et c’est quelque chose sur lequel on a beaucoup travaillé, notamment au moment de l’IPO, qui était à la fin, je pense, un ou deux ans avant que je parte. Et là, il y a eu un gros travail de vraiment redéfinir nos métriques clés. Ce qui était assez intéressant parce qu’on parlait, par exemple, les active listings, donc les nombres d’hébergements actifs sur Airbnb. C’était vraiment la métrique phare. On en parlait tout le temps, tout le temps, tout le temps. Et on a décidé de la redéfinir. Donc, on a pris une définition qui était évidemment très, très proche de l’ancienne mais il a quand même fallu s’aligner sur les choix qui avaient été faits. en fait on avait oublié plein de choix qui avaient été faits sur. il faut au moins qu’il y ait peut-être un jour de calendrier ouvert dans le futur pour dire qu’il est actif ce genre de règles. en fait personne ne savait vraiment ce qu’elles étaient. donc il a fallu qu’on se les redonne pour recréer la métrique. et donc ça je pense que c’était la force vraiment de l’équipe centrale un peu de Data Platform qui nous a vraiment aidé à aligner toutes les métriques pour qu’on reparte sur des bonnes bases dans ce contexte là
Marc: Oui, que chacun ait bien les mêmes définitions et ne pas comparer des
Laetitia: choses différentes. C’est ça. Quand on est deux ans stationniste, en fait, à la fin, chacun a créé ses tables, chaque équipe a ses tables, et elles n’ont pas forcément tout aligné.
Marc: Pour toi, où est-ce qu’il y avait le plus de valeur chez Airbnb ?
Laetitia: C’est dur de trouver un endroit spécifique, je pense, qu’il y avait de la valeur partout, dans le sens où, en fait, on ne pouvait pas avoir de réponse sans data. Aucune équipe pouvait avancer sans data. Ce n’était pas une question, est-ce qu’on devrait regarder les données ? C’était forcément, on va le faire parce qu’on n’a pas d’intuition. Comme je disais au début, on ne peut pas avoir d’intuition sur quelque chose qui est aussi diverse que les appartements d’Airbnb. J’ai beaucoup travaillé côté haute, c’est pour ça que je parle toujours des hébergements. Mais oui, il n’y a pas d’intuition derrière cela. Et donc, finalement, la valeur, elle était partout. C’était notre base de réflexion pour beaucoup de choses, pour tout.
Marc: Ok, alors si on parle un petit peu d’Electra maintenant, est-ce que tu peux à nouveau nous parler des datas que vous manipulez chez Electra ? Quelle est leur nature ?
Laetitia: Donc chez Electra, comme chez Airbnb, on a des données des utilisateurs. Je vais peut-être être un peu plus précise parce que c’est moins intuitif, mais on a beaucoup de données des chargeurs. Toutes les bornes qu’on a sont connectées à Internet et envoient des messages régulièrement. On a aussi des données qui viennent à travers les applications mobiles. Et quelque chose que je ne faisais pas trop. à Airbnb, à Electra, on a aussi beaucoup de données externes. Notamment parce que quand je suis arrivée à Electra, on n’avait pas une seule station. Donc on n’avait aucune donnée d’utilisation ni d’utilisateur. Et donc notre façon de réfléchir et d’approcher le problème, ça a été vraiment de regarder les données de recensement, de démographie, de trafic en France pour comprendre quels étaient les axes les plus fréquentés et pour s’implanter de façon logique par rapport à ça.
Marc: Et alors, depuis deux ans, est-ce qu’il y a une décision business, une ou plusieurs, qui te vient, qui a été prise grâce à la data, que tu peux nous montrer pour illustrer ça ?
Laetitia: Pour revenir sur ces données de trafic, ce n’est pas une seule décision, mais c’est à chaque décision d’investissement, on regarde le trafic. Donc en fait, on regarde des données sur lesquelles on a beaucoup travaillé. Donc de TMGA, c’est le trafic moyen journalier annuel, mais pas que. Et avec toutes ces données… géospatiale sur un endroit, on essaye de se faire une idée de si l’investissement en vaut la peine ou pas. Et donc au début, c’était vraiment une sorte de régression linéaire avec des règles qu’on avait construites nous-mêmes. Mais maintenant, on s’amuse de plus en plus à regarder la performance de nos stations déjà ouvertes, les comparer aux données géospatiales qu’on a et essayer de trouver quelle est la meilleure façon de prédire la performance d’une station qui n’a pas encore été ouverte. avant de prendre toutes les décisions d’investissement. Un autre exemple peut-être, c’est notre politique de pricing. Donc pareil, ce n’est pas une seule décision business, mais on essaye d’utiliser les données pour pouvoir proposer des prix qui soient à la fois justes pour nos utilisateurs et à la fois où nous, on se retrouve derrière par rapport à nos coûts de l’électricité notamment.
Marc: Est-ce que vous faites du machine learning chez Electra du coup ?
Laetitia: Et si oui, est-ce que tu peux nous en parler un peu ? On en fait très très peu. Je vais quand même me permettre de donner des exemples, mais les régressions sont du machine learning, donc ça rentre dans cette catégorie. Donc on a cette prédiction de la performance sur des données géospatiales pour les décisions d’investir dans un endroit ou pas. Une autre partie des modèles qu’on fait, c’est sur les prédictions d’énergie. on doit forcément acheter notre énergie. C’est un des coûts principaux que l’on doit gérer. Et donc, pour acheter cette énergie, on essaye de savoir à l’avance, le plus précisément possible, combien est-ce qu’on va consommer le mois prochain, par exemple.
Marc: D’accord. Donc, forecast sur votre propre consommation.
Laetitia: C’est un peu le B à bas, on va dire. Donc, c’est évidemment la première chose par laquelle on a commencé. Ça reste assez basique, mais c’est primordial pour nous.
Marc: Est-ce qu’il y a des choses en commun, on va dire, avec Airbnb sur la manipulation des données géographiques, des données géospatiales ? Est-ce que tu retrouves des choses, des pratiques, des techniques ?
Laetitia: Pas tant que ça. En fait, Airbnb, on avait des données géospatiales de ce que j’ai fait, évidemment, qui étaient très macro. C’est-à-dire qu’on essayait de comprendre les villes dans lesquelles les hébergements étaient. C’est des données publiques au niveau de la ville, au niveau des pays aussi, pour comprendre les législations, par exemple. Je n’ai pas trop utilisé de données très micro dans le cadre d’Airbnb. Parce qu’en fait, il y avait tellement d’appartements qu’on ne regardait jamais un appartement tout seul dans son unité pour comprendre quels étaient les mouvements, le business autour de ce listing. À Electra, chaque station est vraiment prise en compte une par une. Et pour chaque station, il va y avoir des discussions. Chaque station est vraiment un gros investissement. On n’a que ou on a déjà… On a aujourd’hui sur deux ans, cent trente-sept stations. C’est gérable dans le sens où on peut considérer chaque station l’une après l’autre. Il passait plusieurs jours pour comprendre si on a envie d’investir. C’est à peu près cinq cents millions l’investissement dans une station en moyenne. C’est très différent de Airbnb où un appartement tout seul est beaucoup moins représentatif du reste. Ce ne sont pas les mêmes données finalement.
Marc: Vous êtes beaucoup plus sur des données locales. Alors du coup, les données externes qui sont utiles pour ce genre de problème, c’est quoi par exemple ?
Laetitia: Nous, aujourd’hui, la métrique reine, c’est le TMGA, donc c’est le trafic moyen journalier annuel. Et évidemment, il y a plusieurs façons de le voir. Donc, il y a la densité de trafic sur toutes les routes autour d’une certaine station. Pour Paris, par exemple, il y a plein de routes. Donc, on pourrait, par exemple, considérer un cercle autour de la station d’un certain rayon et de compter le nombre de voitures qui rentrent dans ce cercle ou qui sortent. qui devrait être pareil. On peut aussi considérer les axes principaux seulement, donc le maximum, TMGA maximum autour d’une station. Pour une station de bord d’autoroute où il n’y a que l’autoroute, la densité, la somme de trafic qui rentre, c’est exactement la même chose que le max. Pour Paris, c’est très, très différent. Donc, il y a plusieurs variations de cette donnée de trafic. Il faut toujours de la même idée, c’est vraiment comprendre les voitures qu’il y a autour, comprendre le nombre de gens qui viennent organiquement sur le parking et comparer ça aux gens qui ne passent pas loin et qui seraient prêts à faire un détour. Ce n’est pas pareil. On essaie de prendre toutes ces nuances pour mieux comprendre si une station va bien fonctionner ou pas.
Marc: Et qui fournit ces données ?
Laetitia: Nous, on les achète auprès d’un revendeur de données TomTom.
Marc: D’accord, ok. Et après, j’imagine, l’autre type de données qui va vous intéresser, c’est les données sur la concurrence qui existent déjà, ce qui est déjà en place ?
Laetitia: Oui, les données de la concurrence qu’on récupère assez simplement à travers des applications où on peut voir les stations, applications que tous les électromobilistes connaissent, comme ChargeMap. Donc, on regarde simplement et on voit quelle station fonctionne ou pas. On a aussi les données de pricing sur ChargeMap, je pense. Je ne sais plus d’où elles viennent. Et on utilise aussi pas mal de données démographiques, notamment d’appartements. Par exemple, à Paris, où il y a beaucoup d’immeubles, les gens ne peuvent pas se charger chez eux. Et c’est là qu’Electra intervient davantage. Alors que dans des endroits plus résidentiels, où tout le monde est dans une maison particulière, c’est hautement probable qu’ils se rechargent chez eux plutôt, sachant que c’est beaucoup moins cher.
Marc: — Ouais. Donc là, on va peut-être aller du côté de l’INSEE, sur la population, sur le nombre de foyers qui ont des voitures, ce genre de choses.
Laetitia: — Exactement. Mais c’est marrant parce que c’est un peu à double tranchant, vu qu’on regarde… Les recensements, c’est toujours qu’une image du passé. Et les voitures électriques, ça change hyper vite. On a seulement de voiture électrique en France, mais on a… On a évidemment des intuitions qui sont que les régions les plus riches passent à l’électrique en premier. Mais ça, on n’est pas non plus certain de cet effet-là. Donc, on essaye de se baser sur des données passées et sur des données avec des voitures thermiques pour prévoir ce que le monde va faire pendant les quinze prochaines années.
Marc: Alors quels sont chez Electra les principaux verrous et obstacles que tu as dû surmonter depuis deux ans ?
Laetitia: C’est marrant parce qu’en comparaison avec Airbnb, c’est vraiment l’inverse. En fait, à Airbnb, il y avait trop de données. C’était dur d’y avoir accès. À Electra, il a fallu commencer depuis le début et du coup, aller chercher les données. Donc, c’était vraiment de la collecte de données, l’achat, comme je disais, intégrer des sources de données publiques et après se connecter aux données du back-end pour avoir les données d’utilisateurs. Donc, on a dû vraiment multiplier les sources de données parce que c’était éparpillé partout. À Airbnb, je suis arrivée, c’était… déjà fait, déjà prêt, et c’était présent en quantité. Un second exemple, c’est aussi convaincre de l’importance des datas dans la boîte. C’est forcément quand on a une station, deux stations, dix stations, il y a une intuition qui se crée derrière, et on n’a pas besoin des datas pour déjà savoir combien de stations on a, et par ailleurs avoir une idée des tendances, sachant qu’au début on avait une dizaine de charges par semaine, puis une centaine. Ce n’était pas quelque chose qui nécessitait un savoir-faire spécifique pour déjà y avoir accès, et d’autre part, y trouver du sens. Et donc, il a fallu être présent et disponible et assez pédagogique pour pouvoir expliquer à quoi la data servait, quelle était la valeur ajoutée, et du coup, convaincre vraiment Electra qu’ils avaient quelque chose à y gagner, de ne pas seulement écouter leur intuition, mais aussi parfois confirmer avec
Marc: des données. Les équipes avec qui tu as le plus à faire en tant que Head of Data aujourd’hui, les fonctions chez Electra avec lesquelles tu traites le plus, c’est lesquelles ?
Laetitia: C’est en premier les équipes qui ont un besoin de reporting presque légal, donc la finance, pour pouvoir compter le revenu. Et surtout que la finance se situe assez loin de notre back-end, donc ils ont besoin d’un intermédiaire pour faire sens des données que la base de données va renvoyer. Et après, de l’autre côté du spectre, c’est l’équipe produit. Déjà, c’est eux qui émettent les données. Donc, si les schémas, on ne les comprend pas, s’ils n’enregistrent pas les bonnes informations, on va travailler avec eux pour pouvoir avoir des informations qui nous permettent derrière d’utiliser les données facilement. Et vraiment, les développeurs, pour s’intégrer, c’est eux qui possèdent toute l’infrastructure et on travaille avec eux sur la même infrastructure partagée pour s’intégrer avec eux.
Marc: Ok. Qu’est-ce que tu préfères dans ce métier ?
Laetitia: Quand j’étais petite, je voulais être détective privée. Et j’aime bien le travail d’enquête. J’aime bien qu’on me pose une question. Et ce que je préfère par-dessus tout, c’est évidemment avoir une réponse qui n’est pas celle à laquelle on s’attendait. Ça, ce n’est pas moi qui choisis. C’est plutôt les données. Mais oui, j’aime bien déjà trouver la réponse. Ce n’est pas toujours le cas d’ailleurs. Mais quand on trouve quelque chose d’intéressant, c’est vraiment agréable.
Marc: Et à contrario, qu’est-ce qui est le plus douloureux dans ce métier ?
Laetitia: c’est la qualité des données. Plutôt de faire en sorte d’avoir des données de qualité. C’est un peu notre base de travail. On a besoin de données de qualité pour faire des analyses derrière de qualité. Et c’est assez dur, en fait, d’avoir des données qui sont cohérentes tout le temps. Par exemple, des exemples, c’est qu’on utilise des données qui viennent de nos propres systèmes en interne pour… suivent l’avancement des travaux. C’est un logiciel que les project managers vont updater pour mettre à jour la date d’ouverture, l’intervention d’Enedis, l’intervention de l’entreprise qui va faire la peinture sur les places. Toutes ces choses-là, on s’en sert derrière pour faire des prévisions de stock, par exemple. Si le project manager oublie de mettre à jour que Enedis au téléphone les ont eus pour changer la date, par exemple, les données sont fausses. S’il oublie tout court de mettre à jour la date d’ouverture, on oublie qu’une station va ouvrir. Et donc ça, c’est des données vraiment gérées par l’humain. Et on ne va pas mettre des règles, évidemment, sinon il ne pourrait pas avancer dans tous les logiciels qu’il utilise. Donc ce n’est pas forcément des données qui sont faciles à traiter. Il y a beaucoup de post-traitement derrière.
Marc: Est-ce que tu as une anecdote à nous partager ?
Laetitia: Oui, je déteste la voiture. J’ai peur en voiture et je ne pense pas que la voiture soit un bon futur pour Paris notamment, mais peut-être la France. Après, je crois beaucoup aux voitures autonomes et partagées. Donc finalement, moins de voitures. Si on en avait une pour dix, ce serait parfait. Donc voilà, c’est le futur que je souhaite pour les Parisiens. Et évidemment, des voitures électriques qui se chargeraient chez Electra.
Marc: Et est-ce que tu as une opinion à nous partager ?
Laetitia: Je pense qu’en tant que Data Scientist, on me propose beaucoup de conseils, par exemple de freelance, etc. Et il y a un gros focus sur le machine learning en ce moment. Et donc, on me propose des freelances en machine learning beaucoup plus souvent, je trouve, que ce dont… J’aurais peut-être besoin, en l’occurrence je n’ai pas besoin de freelance, mais si j’avais besoin de main d’oeuvre, ce ne serait pas du tout du machine learning moi aujourd’hui. Et je trouve qu’on oublie un peu cette partie-là, c’est qu’il faut d’abord travailler sur ces fondations, sur de l’infrastructure qui soit solide, des données qui soient de qualité, fiables et disponibles tout le temps, avant de se lancer dans des modèles d’intelligence artificielle trop vite.
Marc: Si c’était à refaire, tu changerais quoi ?
Laetitia: Je pense que je commencerai l’éducation data d’Electra bien plus tôt. Là, je me suis beaucoup concentrée sur la construction de notre infrastructure et de la mise en place de notre data warehouse. Et là, on a commencé à éduquer, à partager davantage notre travail et à vraiment prendre contact avec les équipes pour pouvoir les accompagner sur leurs différents projets. Et je pense que… En fait, je vois à quel point elles sont demandeuses de ça. Et je pense qu’on aurait pu commencer plus tôt.
Marc: Ok. Alors, c’est quoi les prochaines étapes pour vous ?
Laetitia: Excellente question. Après avoir dit qu’il ne fallait pas faire de machine learning, peut-être que c’est le machine learning. Mais non, mais même avant le machine learning, je pense que c’est davantage d’autonomie encore. Donc, c’est assez relié à ce que je disais juste avant sur l’éducation des équipes. C’est qu’on aimerait rendre les équipes encore plus autonomes. Ça passe par deux choses, vraiment l’éducation. Donc, c’est que les autres sachent utiliser Metabase, qui est l’outil de business intelligence qu’on utilise. Mais ça passe aussi par une base de données qui soit claire, organisée et facile d’accès. Ça, c’est vraiment sur nous que la charge repose. C’est comme une bibliothèque. Si les livres ne sont pas ordonnés selon un schéma connu, c’est vraiment impossible de trouver un livre. Et donc là, c’est pareil. Il faut avoir des clés de lecture pour pouvoir utiliser notre Data Warehouse qui soit facile d’accès.
Marc: OK. Alors, dans un prochain épisode de Data Driven One-on-One, qu’est-ce que tu aimerais entendre ?
Laetitia: J’aimerais bien entendre parler Léa Kahn, qui a cofondé Kiosk, qui est une entreprise qui aide les entreprises avec leur reporting ESG. Je pense qu’il y a plein de données des entreprises que nous, en tant que data, même, on n’a pas accès. Par exemple, sur… les responsabilités sociales, le lien d’index de parité. Et ce serait super intéressant de mieux comprendre ça. Et du coup, Léa a travaillé avec Electra pour nous aider sur ça. Et donc, je pense que ce serait un super point d’entrée pour un autre champ des données encore.
Marc: Génial. Super. Merci, Laetitia.
Laetitia: Merci, Marc.
Marc: Vous venez d’entendre Laetitia Jumel, Head of Data chez Electra sur Data Driven One One.