DATA et syndic de copropriété

Hugo Lime, Head of Data chez Matera nous parle de data et syndic de copropriété : comment ils utilisent la data pour accompagner les propriétaires dans la gestion de copropriété, de leurs investissements locatifs grâce à des outils automatisés mais également en leur donnant des conseils sur les économies à faire ou encore sur la renégociation de contrats.

Data et Syndic de copropriété avec Hugo Lime de chez Matera

– Marc — 00:00 :

 Aujourd’hui, je reçois Hugo Lime, Head of Data chez Matera. Ingénieur de l’école polytechnique, il commence chez theodo avec du développement web, mobile, Data Engineering et Data Science. Il rejoint ensuite Matera en janvier 2021 pour monter l’équipe data. Ma terrasse est une start-up créée en 2017 qui accompagne les propriétaires à gérer leur copropriété, leurs investissements locatifs. Ils sont 250 salariés en France et en Allemagne et viennent de boucler une dernière levée de 9000000 d’euros. Bonjour Hugo. 

– Hugo — 00:26 :

 Bonjour Marc. 

– Marc — 00:27 :

 Alors Hugo, est-ce que tu peux nous parler un petit peu plus de Matera? Qu’est-ce que vous faites en détail? 

– Hugo — 00:32 :

 Alors Matera, on a 2 produits qui sont à destination des propriétaires. Donc le premier qui est notre produit historique, c’est un logiciel qui va permettre au propriétaire de gérer eux-mêmes leur immeuble en t’organisant, en syndic coopératif et donc leur permettre d’automatiser toutes les tâches courantes de la gestion de la copropriété. Donc les appels de fonds, Assemblée générale, la comptabilité, les travaux, donc toutes ces tâches sont automatisées et le nouveau produit là qu’on a depuis cette année aussi à destination des donc des propriétaires, c’est un outil de gestion locative, donc ça nous permet bah d’automatiser toute la paperasse, la déclaration fiscale, d’avoir un compte dédié pour réceptionner les loyers, communiquer avec sont locataires et en plus de ces outils, on a un accompagnement d’experts donc pour toutes les tâches les plus complexes, gestion des travaux, toutes les questions légales qui peuvent avoir pour les aider sur ces sujets. 

– Marc — 01:19 :

 D’accord alors dans une entreprise comme ça, la data, à quoi ça sert? 

– Hugo — 01:23 :

 Alors la data, ça sert à beaucoup de choses. La première, c’est de comprendre ce qui se passe dans la boîte et de pouvoir prendre les bonnes décisions quand on est une start-up, on a besoin en permanence de faire des choix. Et la data, elle nous aide beaucoup là-dessus. Donc par exemple, pour investir dans les bons canaux d’acquisition, comment avoir des nouveaux prospects de la manière la plus efficace possible? Donc la data nous est de beaucoup là-dessus aussi pour organiser les équipes du support client en fonction de la charge de travail. Maintenant, on a organisé des équipes, des sous équipes en fonction, par exemple des tailles de copropriété, donc il faut réussir à avoir les bonnes tailles d’équipe et aussi. Voir dans le futur comment elles vont évoluer, donc toutes ces décisions là elles sont, elles sont prises avec de la data. Après on a des utilisations qui plus on va dire opérationnelles pour aider vraiment les personnes dans leur quotidien. Donc un exemple c’est pour les équipes justement de support client, détecter pro activement les clients qui sont des traits donc on voit des clients qui commencent à avoir du retard sur leur comptabilité, sur l’organisation des assemblées générales et Ben on va pouvoir les afficher et les informer. Du coup les responsables pour qu’ils puissent prendre contact avec ces gens-là, savoir ce qui se passe, les aider s’ils ont des questions. Donc là on est vraiment dans leur quotidien, ça nous permet aussi d’améliorer le produit, donc on a des beaucoup de data qui autour donc d’utilisation du produit donc on traite les actions qui sont faites par les utilisateurs. Donc là récemment on travaille beaucoup sur notre annuaire fournisseur donc l’annuaire fournisseur c’est un endroit où les du coup pour les copropriétaires vont pouvoir chercher des prestataires. Par exemple un plombier pour venir faire des réparations et donc les copropriétés peuvent aussi noter et donner leur avis sur des recommander des fournisseurs à d’autres copropriétés et on a envie de faire en sorte que cet annuaire soit plus utilisé donc avec la data ça nous permet de voir aujourd’hui. Bah déjà ce qu’il est déjà bien utilisé et comment on fait pour augmenter le nombre de fournisseurs renseignés aujourd’hui c’est aux personnes donc de renseigner quand elles ont un prestataire qui veulent partager et on voit qu’elles sont souvent bloquées et on regarde où à quel moment elles sont bloquées. Est-ce que c’est au moment par exemple de rentrer le nom de la personne, de mettre une note ce qui les bloque? Voilà devant cette dotation, donc ça nous aide. Par exemple sur ces annuaires fournisseurs. Est-ce que l’annuaire aussi est assez complet? Ce qu’on a tous les métiers représentés, plombier, électricien, toutes les régions, 

– Marc — 03:27 :

 Oui, vous Regardez dans sur votre parcours client, sur votre site, à quel moment il quitte la page? Quoi exactement, 

– Hugo — 03:32 :

 Et ça, c’est vraiment indispensable pour la sortie de toutes les fonctionnalités qu’on peut avoir. Ça me sert aussi à communiquer, à former nos clients. On fait beaucoup d’articles, de blogs, d’articles de presse par exemple. On a un article sur quel est le prix moyen d’un syndic de copropriété? Quels sont dans les sujets un peu brûlants, le montant des dépenses énergétiques moyennes, donc le chauffage au gaz ou les prix se sont envolés. On permet aux gens de se comparer, d’avoir plus d’informations là-dessus. Récemment de la sortie un comparateur de charges même, donc on rend des caractéristiques de sa copropriété et nous? Grâce à la da Con a, on va pouvoir faire une estimation de combien de personnes d’essentiel à peu près payées de charges à l’année dans sa copropriété? Et on a les choses aussi un peu moins drôles. On a des obligations près de nos partenaires, donc on a des KPI financiers qu’on doit envoyer régulièrement à nos investisseurs. On a des partenaires aussi bancaires et assurances et là on a des obligations en fait contractuelles où légales. Bah de fournir de la data régulièrement sur tout ce qui se passe dans la boîte. 

– Marc — 04:27 :

 Ok Ben très clair. Et alors du coup pour gérer donc toute cette data, comment vous organisez au niveau de l’équipe à qui revient ses responsabilités? Quels outils vous utilisez? 

– Hugo — 04:36 :

 Alors nous, on a une équipe, en fait, l’équipe d’attaque est assez petite, donc là en comme tu dis en entreprise de 250 personnes, l’équipe data c’est seulement 4 personnes, donc nous on est vraiment en charge de tout ce qui est l’infrastructure, tous les outils qui servent à utiliser la data, l’extraction de la data, donc préparer la donnée, la récupérer, la mettre à disposition et on est aussi garant de la qualité qu’il peut y avoir sur cette donnée. En plus de ça, on fait quelques analyses qui sont les plus difficiles ou les plus critiques, mais en fait on essaie de maximiser enfin le l’autonomie des personnes donc on fait beaucoup de formation, on a formé aujourd’hui. Plus de 70 personnes à exploiter la donnée chez Matera, on a des différents niveaux de formation avec des étapes, des petits tests à atteindre pour que les personnes soient autonomes et qu’elles puissent faire leurs propres analyses, qu’on soit débordé par notre équipe et en fait aujourd’hui plus des 3/4 Voilà des dashboard qui sont faits sur nos outils de reporting de BI c’est fait par des personnes qui sont pas dans l’équipe data, donc c’est fait par des opérationnels, souvent par dans son appelle les Ops qui sont dans les équipes 16 ou customer care par des managers ou par des products manager

– Marc — 05:41 :

 Comment tu gères l’abondance des dashboard qui peut y avoir? Est-ce que c’est quelque chose qui te gêne? Est-ce que vous essayez de faire en sorte de réduire le nombre de dashboard ou au contraire plutôt une politique d’on laisse vivre comme sa vie et les gens utilisent à la fin un certain nombre de dashboard, et tant pis pour les autres comment? 

– Hugo — 06:00 :

 Ouais, alors on a nous, on est un peu responsable quand même de l’organisation globale et dashboard pour qu au moins ça soit organisé par équipe par exemple, et qu’il y a en du minimum de droits d’accès. Après on reste très ouvert ça. Aujourd’hui on a beaucoup dashboard, on a plusieurs milliers dashboard. Mais ça nous pose pas vraiment problème parce qu’on a des dashboard en fait qui sont un peu labellisés data et du coup on sait que c’est ceux-là les plus importants et les gens savent que c’est ceux-là les plus importants. On fait un peu de nettoyage quand même régulièrement en regardant les débats qui ont pas été vus depuis 6 mois et ceux-là on se dit qu’il faut les supprimer mais on a quand même en effet l’un problème je pense. C’est si courant d’avoir des personnes qui vont calculer plusieurs fois par exemple la même chose dans les dashboard différents et à un moment ils ont pas exactement les mêmes chiffres. Il faut savoir réconcilier. Souvent, on finit par en supprimer un quand c’est le cas. 

– Marc — 06:48 :

 Comment tu décrirais votre niveau de maturité data? 

– Hugo — 06:51 :

 Pour l’instant, aujourd’hui, la data, elle est vraiment utilisée partout dans la boîte, donc je pense que là-dessus on est plutôt assez mature. On a passé la première année avec un data engineer à monter. Bah toute la stack donc pour s’assurer que tout soit en place et qu’on puisse faire toutes les analyses dont on a besoin pour un bon bout de temps. Donc les 4 personnes qu’on a dans l’équipe en plus de moi il y a 3 data analystes donc on a 2 data analystes qui sont à destination des équipes produits donc on a 5 squats produits donc une squat c’est un groupe d’un product Manager, Product designer, une équipe technique et donc qui va travailler sur des fonctionnalités. Donc on en a 5, soit comme ça qui travaillent donc à la fois sur le produit de gestion locative et aussi de syndicaux propriétés et donc on a 2 data analysts qui servent ces squads là et qui permettent d’analyser les fonctionnalités qui sortent et une autre analyse qui est donc là plus pour aider toutes les équipes plus business commerciales, support clients, finance, finance, marketing. Et donc avec ça on arrive à répondre aujourd’hui à toutes les demandes. Donc je pense qu’on a, on a une taille d’équipe, voilà qui est satisfaisante pour notre taille de boîte. 

– Marc — 07:48 :

 Et utilisé, on a mis en place la Stack data, en quoi ça consiste? Monter en fait la data Engineering d’une start-up comme ça, à quoi ressemble le travail que t’as fait depuis 2001 Ouais, 

– Hugo — 07:59 :

 Depuis le 2021 alors en fait, quand on veut mettre monter une stack data, ce qu’on veut c’est réussir à avoir de la donnée qui est à disposition de tout le monde, qui puisse être utilisé et donc ça demande de mettre en place plein de petits blocs qui sont des cercles pour réussir à avoir cette donnée. Donc le minimum. Bah c’est d’avoir une partie qui va extraire les données de tous les outils qu’on peut utiliser. Il faut ensuite avoir un bloc qui va servir. 

– Marc — 08:21 :

 Par exemple, c’est quoi les sources de données? Donc vous allez extraire? 

– Hugo — 08:24 :

 Justement, alors nous, on a vraiment pas mal de sources différentes parce qu’on utilise beaucoup d’outils en ligne, d’outils SAS par exemple. Notre CRM c’est une source de données. On a plein d’outils pour gérer des campagnes marketing qu’on total. On a je crois, une cinquantaine de sources de données. Donc en plus de ces outils là après on a notre propre application qui génère de la donnée. Donc notre back end aussi le Tracking qu’on a sur l’utilisateur. On a aussi de la donnée publique qu’on récupère. Par exemple, il y a le registre national des Copropriétés donc ce qui nous permet de d’avoir une vision un peu de l’ensemble du marché donc pas mal de données différentes. Et donc il faut réussir à extraire toutes ces données là. Donc là ça demande d’avoir des bah les outils adéquats pour toutes ces données là c’est le premier bloc je dirais de d’une stack data. Ensuite il faut un espace de stockage stocker cette donnée là réussir à la transformer. Donc pour les outils de transformation, de nettoyage de la donnée pour vraiment la modéliser et faire en sorte qu’elle soit accessible et utilisable dans d’autres outils, il faut un outil de dataviz, un outil BI Aujourd’hui nous c’est looker, mais y en a un existe d’autres et souvent il faut au minimum un outil d’orchestration qui va permettre de déclencher toutes ces tâches et de faire en sorte qu’elle se passe dans le bon. Donc voilà c’est. Ça, c’est un peu le minimum. Bon, t’es une saga gérée. 

– Marc — 09:32 :

 D’accord, c’est quoi les enjeux principaux quand on met en place tout ça

Hugo

 alors l’enjeu principal, déjà, c’est de réussir à répondre aux besoins, donc se dire qu’on va pouvoir analyser toutes les données, est-ce qu’on a besoin de temps réel? Est ce qu’on a une données une fois par jour? Donc la fréquence de données, le volume de données peut être les droits d’accès, les questions RGPD qu’il peut y avoir. Donc ça c’est le premier enjeu. Ensuite ce que je trouve difficile, c’est de faire en sorte que cette stack elle va continuer à fonctionner dans le futur donc surtout pour des petites entreprises comme nous ou ça. Startup où ça évolue rapidement, faut réussir vraiment à se projeter et ce qu’on va avoir besoin, à quelle échéance? D’un gros volume de données ou de temps réel par exemple aussi visu. Élisée et prévoir le coût que ça peut engendrer et des outils qui semblent vraiment très bien sur le papier et en fait, dès que la boîte va faire fois cinq, fois dix bah en fait les coûts vont être insupportables pour l’équipe et donc faudra changer. Donc je trouve ça assez stressant aussi parce qu’en fait un mauvais choix, ça peut vite être très coûteux, surtout en temps pour migrer. Par exemple. Nous on a un exemple quand je suis arrivé, il y avait déjà quelques bribes de stack data qui étaient en place et en fait toutes les données étaient stockées aux US parce que c’était la configuration qui avait été faite. Par défaut et donc nous, ça nous convenait pas pour des questions RGPD donc il a fallu migrer toutes ces données qui étaient aux États-Unis, les ramener en Europe et ça a demandé en fait un travail faramineux de déplacement de données. Tous les outils étaient enregistrés comme étant États-Unis et en fait ce genre de petit ça c’est encore. C’est un petit choix mais qui a coûté énormément de temps et donc je pense que ça c’est assez stressant de prendre un qu’on peut prendre un mauvais outil et dans un an il faudra complètement changer et ça va nous prendre 6 mois. 

– Marc — 11:09 :

 À quoi ressemblent tes journées maintenant que tout est en place entre guillemets? C’est quoi le la journée d’un data engineer, Head of Data? 

– Hugo — 11:16 :

 Alors comme tu dis, on a plus de data Engineer donc c’est moi qui m’occupe de cette partie là pour la maintenance et les nouvelles, les petites nouvelles fonctionnalités qu’on peut avoir à rajouter des nouvelles sources de données et donc la première chose que je fais dans ma journée c’est de faire des vérifications que tout fonctionne bien parce qu’on a beaucoup de tâches qui tournent la nuit, donc de d’extraction de données et malheureusement ça arrive parfois qu’elle fonctionne pas donc le matin c’est la première chose que je fais. Regardez, toutes les tâches ont bien fonctionné et communiquer dessus si c’est pas le cas parce que je sais que 1 heure après une demi-heure après on va me contacter pour me dire que les données sont pas à jour. Y a des gens qui vont détecter des erreurs donc c’est Une des choses principales, on a aussi une autre système de vérification, on a tous une batterie de tests qu’on fait tourner tous les jours pour vérifier la qualité de données et donc là c’est important de passer dessus aussi tous les jours pour vérifier qu’on n’a pas les tests très importants qui ont pu casser. Par exemple, je sais pas, une métrique de notre revenu qui a été divisée par 10 par exemple, et donc c’est la première chose que l’on vérifie le matin pour s’assurer que les données sont correctes ensuite dans la journée, j’ai souvent à répondre à des questions des personnes qui veulent lancer des nouveaux projets, des types de des analyses qui leur semblent pertinentes. Donc là c’est Bon à savoir ce que c’est possible, est-ce que c’est vraiment? Ça va être utile de faire ce genre d’analyse et à quelle échéance on peut le faire prioriser si on se dit que c’est pertinent et on a aussi beaucoup de questions sur looker. Comme je dis, on m’a fait des formations pour que les gens soient autonomes et puissent faire leurs analyses eux-mêmes, mais ils ont toujours. Ils ont plein de questions et donc régulièrement dans la journée. On est là pour les aider, pas que moi hein bien sûr hein, c’est comme à toute l’équipe pour répondre à aux questions, comment je vais faire? Je peux faire ça à quelle table je peux utiliser et on les aide, on les a beaucoup là-dessus et après moi je travaille beaucoup sur des projets d’y a en ce moment pour réussir à améliorer l’efficacité de certaines équipes et donc c’est ça Grosse partie de mon temps. 

– Marc — 12:54 :

 Ouais alors en parlant d’il y a machine learning, qu’est-ce que vous avez comme projet ou comme outil en production aujourd’hui? 

– Hugo — 13:02 :

 Alors on a 2 projets, on a un premier qui est de calculer en fait la probabilité qu’on a de signer un prospect, donc nous on a un cycle de vente qui est assez long entre le moment où une personne va nous contacter et le moment où elle peut devenir cliente parce qu’on est dans le milieu du syndic de gestion de copropriété. En fait on est de plein d’obligations légales, obligé de passer par une assemblée générale et donc on a un de nos projets, c’est d’analyser pour un prospect qui est dans notre cycle de vente en fonction de bah déjà de ses caractéristiques, un peu de quelle région il se situe, quelle est la taille de la copropriété? Quel est le son canal d’acquisition où on a pu le récupérer et du temps qui peut avoir entre certaines étapes et de savoir en fait quelle est la probabilité de le signer et ça aide les commerciaux à me relancer certaines personnes et pas d’autres chaque jour pour prioriser dans leur dans leur tâche. Donc ça c’est un c’est un premier projet et là on en a un 2ème qui est la de catégoriser automatiquement les demandes clients, donc en les clients nous contacte c’est par mail, ils ont des questions qui peuvent être en lien soit par exemple avec la comptabilité, soit avec l’utilisation du produit avec l’organisation d’une assemblée générale. Et donc là on a un modèle de machine learning qui va catégoriser automatiquement ces mails en fonction du type de contenu, et ça nous sert ensuite à l’assigner à une personne qui est amusant à même de répondre à ce genre de problématique. Voilà 2 projets de machine en ligne qu’on a aujourd’hui. 

– Marc — 14:19 :

 Alors, est-ce que tu peux nous expliquer un peu comment tu t’y prends pour réaliser ces projets? 

– Hugo — 14:24 :

 Alors pour ces projets de machine learning, en fait, comme je disais, on a une équipe qui est assez petite, on a pas de data engineer, pas de Data Scientist donc on essaie d’être le plus pragmatique possible et ce qu’on a fait c’est d’utiliser des outils d’auto l donc de Google donc c’est des modèles de machine learning dans lesquels on donne la donnée d’entrée. On explique ce qu’on veut réussir à prédire à ce que c’est la classification, et cetera, et c’est lui qui va ensuite entraîner le modèle, trouver le bon type de modèle qui est utile, faire. L’optimisation des hyper paramètres, lancer les entraînements, s’arrêter automatiquement aussi quand il pense qu’il a atteint un plateau et qu’il a une qualité qui a été suffisante comme ça qu’on utilise aujourd’hui. On utilise aussi un petit peu chat GPT maintenant et donc voilà, c’est aussi autonome. Il nous permet vraiment d’aller très vite. Je pense que c’est pas on atteint pas les précisions qu’on pourrait avoir si on avait des personnes dédiées sur ces projets là et ça demande aussi quand même de d’avoir quelques compétences de data science parce que les résultats d’auto L bah ça va être des matrices de confusion, des mesures de précision et de radical, donc tout des termes. Qu’il faut quand même connaître pour savoir juste si on pense que le modèle est bon ou pas et donc c’est ça qu’on utilise pour nos 2 projets de machine learning. 

– Marc — 15:35 :

 Ok et aujourd’hui ces outils sont satisfaisants pour identifier aussi les axes d’amélioration que j’imagine si c’est déjà sur Google pour mettre en production par la suite. 

– Hugo — 15:46 :

 Alors pour mettre en production et c’est vraiment très pratique parce qu’ensuite ils ont la possibilité en un clic bah de déployer ça sous forme d’a PI ou d’avoir une tâche récurrente qui va permettre du coup de reclassifier de faire tourner le modèle sur des nouvelles données. Par contre, pour identifier des axes d’amélioration du modèle, non ça fonctionne pas très bien, c’est pas très pratique pour ça. C’est à nous d’essayer de dire Bah je vais essayer de rajouter des nouvelles features, essayer de changer des paramètres mais je pense que si on voulait vraiment améliorer la précision de manière très importante et on serait un peu bloqué par l’utilisation de ces modèles si on continue là-dessus. 

– Marc — 16:21 :

 D’accord. Pour arriver à faire ce que vous faites, quels ont été les principaux obstacles sur la route? Les principaux verrous technologiques éventuellement, comment vous les avez surmontés? 

– Hugo — 16:31 :

 En fait. Le principal verrou, il est pas technologique, nous ce qu’on veut, c’est réussir à ce que toutes les personnes de la boîte puissent utiliser la donnée pour prendre leur décision et le plus difficile, c’est qu’elles aient confiance dans la donnée qui est affichée sur les graphes. Et ça c’est vraiment difficile pourquoi? Parce que dès qu’il va y avoir un l’ombre d’un doute, un tout petit doute, bah les personnes vont plus avoir confiance, elles vont télécharger les données sous format CV les mettre dans Excel et faire leurs analyses de leur côté. Et là c’est la catastrophe parce que du coup plus rien n’est partagé, on n’est plus du tout sûr de la qualité. Donc ça qui est très difficile, alors comment nous, on l’a attaqué ce problème là, c’est vraiment en se focalisant sur la qualité de données. Donc on a écrit énormément de tests, on a à peu près 600 tables aujourd’hui de données et là-dessus on a une batterie de tests d’on a plus de 11000 tests. 

– Marc — 17:19 :

 Qui tournent avec des BT Ouais, exactement. Notre outil de transformation qui permet d’écrire des tests de manière très rapide avec du des annotations en ensemble. 

– Marc — 17:28 :

 C’est des exemples de tests qui viennent en tête par exemple, 

– Hugo — 17:30 :

 Les, c’est plus classique, c’est vérifié okay, telle colonne et non nulle, donc ça par exemple c’est très pratique. Faut dire si on a un client, donc on a une information, un deal dans notre dans notre CRM qui est client. On veut par exemple que son adresse elle soit non nulle. On veut savoir exactement ce qu’il est ou plus important on veut savoir le montant du deal qui est nul parce que si on a un client mais qu’on sait pas combien on le facture, ça va être vraiment problématique. Donc on a les tests de non nuls, des tests qui vérifient des relations aussi entre différentes tables. 

– Marc — 18:01 :

 La date de paiement doit être oui après la date de signature. 

– Hugo — 18:06 :

 Quelque chose exactement. Alors le classique qu’on a aujourd’hui, c’est la date de chien. Donc pour qui partent de Matera, ça arrive. Malheureusement, on découvre parfois des dates qui sont antérieures à la date de signature du contrat. Donc bah ça c’est pas possible. 

– Marc — 18:20 :

 Ça fait remonter les bugs et après vous pouvez et la source exactement, et donc ça prend beaucoup de temps quand même de traiter ces tests là parce que ça commence on je pense. J’ai mesuré que à peu près 20 % du temps de l’équipe data parce qu’il faut voilà identifier. Ensuite il faut remonter toute la chaîne pour savoir ce que c’est un problème finalement. Bah déjà c’est un problème du test ce qu’on a mis un test mais qui n’a pas vraiment de sens. Il faut supprimer, est-ce que c’est nous qui avons fait des erreurs dans la transformation, la récupération de données ou ce qui arrive souvent, c’est la donnée à ma c’est données peut être manuelles et qu’elle a été remplie sur un des outils ou un bug qui a eu lieu dans un process, dans un workflow ou dans l’application, dans l’application des et ça nous permet vraiment d’être très confiant sur la qualité donnée parce qu’on sait aujourd’hui qu’on a 11000 tests qui tournent et qui passent et on vérifie ça tous les jours et bien sûr en fait la difficulté c’est de pas passer. Trop de temps et de pas tout corriger soi-même. Donc pour ça on a créé des dashboard data Quality pour certaines équipes qui regardent eux tous les jours sur leurs données dont ils sont responsables et qui doivent corriger. Donc on leur affiche leurs erreurs pour qu’ils puissent les gérer. Ça c’est pour les erreurs récurrentes qui arrivent régulièrement, mais aussi des nouvelles erreurs qui arrivent chaque semaine et donc là on est obligé de passer un peu de temps. 

– Marc — 19:33 :

 J’imagine que ça s’arrête pas aux erreurs. Il peut être aussi les détections de tendances de les drifts, changements soudains de certaines données. 

– Hugo — 19:41 :

 Non ouais, je pense que ça, c’est notre prochaine étape en termes de data quality. On le fait pas, mais il y a beaucoup d’outils qui se développent là-dessus et qui vont vérifier que certaines métriques, en effet, ne varient pas trop, mais ça on le fait pas, on le fait pas encore. Donc ça permet déjà d’être très confiant sur la qualité donnée, en sorte que les gens aient confiance dans la data, mais ensuite ça suffit pas. Je pense que c’est important aussi de communiquer sur les problèmes quand on a la donnée qui est par exemple pas à jour le matin d’avoir des canaux de communication pour informer tout le monde. Bah que la donnée de cet outil là n’est pas à jour, qu’on est dessus et qu’elle sera corrigée d’ici 2 heures peut-être et recommuniquer dessus quand c’est corrigé et ensuite tout le travail qu’on a fait pour rendre les personnes autonomes sur l’utilisation de la donnée. Je pense que ça permet aux personnes d’avoir plus confiance parce que quand c’est eux qui font. Leur propre dashboard, qui ont choisi les filtres qui voulaient mettre dedans, et ils ont plus confiance dans la donnée qui va être affichée. 

– Marc — 20:33 :

 Ce que tu préfères dans ce métier? 

– Hugo — 20:36 :

 Alors moi, ce que je trouve très satisfaisant, c’est quand je me déplace dans l’Open Space et que je vois des personnes qui sont en train de discuter autour d’un dashboard looker. Maintenant en plus avec les doubles écran, on voit très régulièrement. Bah des personnes qui ont un écran qui est entièrement con sacré à notre à notre dashboard Bing. Donc là c’est je trouve ça très satisfaisant parce qu’on et on se dit qu’ils utilisent vraiment et que ça leur sert à quelque chose. Et du coup ça les aide pour leur métier quoi. 

– Marc — 21:00 :

 Vous avez pas mis de dashboard sur un une sur un écran de télé dans tout l’Open Space? 

– Hugo — 21:05 :

 Je crois que ça avait été fait à un moment pour motiver les équipes commerciales, mais ça a été abandonné. 

– Marc — 21:12 :

 C’est quoi les les? Au contraire, les points de douleur, les frictions de ce métier. 

– Hugo — 21:17 :

 Alors moi, quelque chose que je trouve vraiment difficile. Il, c’est de passer beaucoup de temps pour faire un dashboard et ensuite me rendre compte qu’il est pas du tout utilisé. En fait c’est difficile d’en fait de challenger les demandes qu’on a donc par exemple récemment on m’a demandé de connaître l’évolution des dépenses marketing et sales par rapport la quantité de clients qu’on signe. Et ça moi par mois. Et donc quand on dit ça, bah je trouve que ça fait du sens. C’est une maîtrise qu’on a envie de calculer même si ça peut être peut être difficile. On a envie de passer du temps là-dessus, ça semble légitime à première vue. Et on a beaucoup de cas comme ça où on ça nous paraît tout à fait légitime. On fait les dashboard et après on se rend compte qu’ils servent pas parce que c’est bien d’avoir des métriques, mais on n’a plein qui ne servent pas à prendre des décisions par la suite. Donc là c’est vraiment, on travaille beaucoup là-dessus dans l’équipe, c’est réussir à mieux challenger les demandes qui sont faites pour dire Bah tu me demandes telle analyse, mais quelle décision tu vas pouvoir prendre dessus si je te dis que c’est 5, est ce que ça change par rapport à 2? Est-ce que tu vas vraiment pouvoir en faire quelque chose ou est-ce que c’est juste pour le plaisir d’avoir cette maîtrise là? Et souvent ce qu’on voit, c’est que c’est des métriques sont trop trop haut niveau et pas assez dans le détail et que donc obligé d’être plus précis pour que ça serve vraiment à quelque chose quoi. 

– Marc — 22:35 :

 Ouais, donc la personne qui l’a demandé l’utilise pas à la fin et est-ce que ça a posé la question un peu les des raisons pour lesquelles c’est pas utilisé ce que parce que c’est quelque chose sur lequel on peut-on peut confronter la personne qui l’a demandé avec son nom. 

– Hugo — 22:49 :

 Utilisation, ouais c’est on essaie de faire en effet à posteriori comprendre. Bah qu’est-ce qui n’a pas marché parfois, c’est aussi un manque de précision, on sort une métrique, on est d’accord, on pourra pas la sortir exactement de cette manière-là on va devoir faire des approximations et la personne dit qu’elle est d’accord. Et une fois qu’on a le Dash, il y a non mais en fait c’est comme c’est pas exactement la méthode de calcul ou les données que je voulais. Bah ça m’est pas utile donc c’est très qu’on doit faire. 

– Marc — 23:16 :

 Alors si on rentre dans le détail des décisions business, est-ce que tu peux nous donner des exemples? Voilà des décisions business prises par la data chez Matera. 

– Hugo — 23:24 :

 Alors, la data, ça nous a beaucoup aidé pour savoir quelle est la meilleure méthode pour avoir des nouveaux prospects et donc des nouveaux clients derrière. Donc par exemple, ce qu’on a réussi à découvrir, c’est que ça fonctionnait très bien de contacter des anciens prospects, des personnes avec qui on était en contact il y a un ou 2 ans et qui finalement n’avait décidé de pas utiliser Matera comme solution pour gérer leurs copropriété. Et on s’est rendu compte que si on recontactait ces personnes quelques années après, on avait des taux de conversion qui étaient très bons. D’ailleurs c’est pas que les taux de conversion qu’on regarde, c’est pour ça que la data est vraiment importante. C’est on va regarder aussi. Bah le coût d’acquisition de ces prospects, le taux de conversion évidemment, mais après aussi est ce que la personne va rester longtemps chez Matera, qu’elle va partir au bout d’un an? Donc ça nous a permis de dire OK ça fonctionne très bien de recontacter ces personnes là et on va on va investir du temps et pour les recontacter et à l’inverse on s’est rendu compte que les publicités qu’on faisait en ligne. Qu’on appelle le display, ça marchait pas très bien, c’était pas rentable parce que si on regardait le coût d’acquisition de ces prospects là avec les taux de conversion qu’on a derrière et cetera, c’était pas un bon investissement. Donc ça nous a permis, voilà de changer le temps qu’on passe et l’argent qu’on a pour acquérir ces nouveaux clients, ça a très bien fonctionné, mais en fait toutes les décisions aujourd’hui, elles sont masquées par la data dans l’entreprise. Quand on lance un projet opérationnel, un nouveau produit, c’est toujours backé par la data et quand quelqu’un finalement propose une nouvelle idée et qu’il a pas de métrique pour supporter ça et il est il va toujours être challengé, on va lui demander, est-ce que t’as pas quand même de la data pour prouver ça parfois c’est pas possible hein et c’est tout à fait OK mais en tout cas ça choque de pas avoir de data pour prendre des décisions. 

– Marc — 25:04 :

 Ok alors ce que t’as une opinion à nous partager aujourd’hui? 

– Hugo — 25:08 :

 Alors j’ai une opinion sur DBT c’est un outil donc qui connaissent pas hein, qui permet de transformer la donnée dans des data warehouse, donc on écrit des requêtes SQL et ça crée des tables de données et c’est avec ça qu’on construit qu’on modélise toute la donnée. Là c’est un outil qui est super, qui est utilisé par tout le monde. Mais je pense que c’est un outil qui sera remplacé dans les 5 prochaines années. pourquoi? Parce qu’il a permis de lancer vraiment un nouveau paradigme ou en fait tout ton écrit dans toutes les mobilisations et SQL et c’est fait par des personnes dont c’est le métier et qui sont pas forcément des data ingénieurs de base. Mais je pense qu’on dit vraiment qu’au début de ce qu’on peut faire en termes de qualité, d’outils pour faire ces transformations de données, c’est un outil qui est quand même très verbeux. Donc on a besoin d’écrire beaucoup d’en plus de leur Q, on devait écrire un fichier yaml qui décrit tout ce qu’on fait. Et il y a pas, il comprend pas forcément lui-même tout seul ce qui va se passer dans une requête actuelle, c’est vraiment à nous de lui décrire et je pense qu’on peut faire beaucoup mieux. Il y a des outils qui se lancent sur le marché. Il YASQL mesh par exemple et plusieurs outils qui permettent de faciliter la vie du Analytics ingénieur donc la personne qui modélise les données et donc je pense qu’on va avoir des outils bien mieux dans les 5 prochaines années, peut-être que ce sera des B qui aura changé complètement de version et ça a rien à voir mais je pense que aura mieux. 

– Marc — 26:23 :

 Ok intéressant. Si c’était à refaire, tu referais quoi différemment? Quels conseils tu peux donner à ceux qui voudraient monter le la data en une boîte? 

– Hugo — 26:33 :

 Alors l’erreur qu’une erreur que j’ai faite au début, c’est que j’ai pas passé assez de temps pour avoir un dictionnaire de définition des données, donc on peut l’appeler Data Dictionary, Data, Catalogue et beaucoup procrastiné là-dessus. Mais je pense que c’est quelque chose qui est vraiment important. Donc pourquoi? Parce que pendant toute la première année et les questions qui revenaient régulièrement, par exemple sur la quantité d’a R donc nous numérique principale, c’est la R, donc c’est le revenu récurrent qu’on a annuel, donc ça paraît très simple. La formule hein, c’est le nombre de clients et le montant qui paye. Sauf que quand on rentre dans les détails de calcul, on a toujours des petites questions d’est-ce qu’il faut prendre par exemple les personnes qui ont signé un contrat? Mais en fait qui seront clientes que dans un mois par exemple donc qui sont un peu entre 2 ou celles qui ont dit qu’elles voulaient partir du Matera, mais qui en fait sont aujourd’hui cliente et en ça semble pas un très important ces petits détails de calcul mais c’est des questions que j’ai eues. Presque toutes les semaines pendant la première année et en fait, ça créait du doute. Après sur les métriques qu’on affichait parce que les personnes ne savaient pas parce que ça prenait en compte ce type de client. Parce qu’est-ce que ça prenait pas en compte? Et le fait quand on a vraiment, c’est vraiment décidé à écrire les définitions de nos métriques principales, ce que ça prenait donner des noms aussi à ces métriques là et à ces concepts. Ça nous a beaucoup aidés pour diffuser la culture, la culture data. Donc je pense que c’est quelque chose qu’il faut faire quasiment dès le début. 

– Marc — 27:56 :

 C’est quoi le futur de la data chez O? 

– Hugo — 27:57 :

 Alors les projets principaux, le premier, c’est l’i. A donc quelque chose sur lequel on travaille aujourd’hui, donc c’est utiliser l’i a pour automatiser au maximum de tâches qu’on a on en interne par exemple. Donc pour répondre plus rapidement aux questions de que les clients nous posent, on a aussi on passe beaucoup de temps par exemple à relire toutes les convocations d’assemblée générale qui génèrent sur notre outil et ça on a envie de l’automatiser au maximum pour le faire le mieux et plus vite. Et les autres projets c’est d’utiliser la data. Pour apporter des informations aux clients. Pour l’instant, la data c’est surtout utilisé en interne pour nous en tant qu employé pour prendre des décisions et savoir comment développer nos produits et nos process. Mais maintenant avec notre base de clients qui commence à être assez conséquente hein, on a quasiment 8008 1000 clients, on commence à avoir de la beaucoup de données sur par exemple les charges qui sont payées par les copropriétaires donc est-ce que les répartitions entre les différents postes de charges, et cetera. Donc ce qu’on a envie de faire c’est de donc on a déjà un outil de comparateur de charges, donc vraiment utiliser la donnée pour faire des conseils personnalisés au copropriétaire copropriété, même pour leur dire Bah dans ton cas par rapport à ta situation on remarque que dans les copropriétés similaires elle paye moins d’énergie donc peut être que ça c’est le coup de refaire et les économies à faire. D’ailleurs c’est souvent ça hein le principal de choses sur les copropriétés c’est de faire des économies donc renégocier des contrats, trouver des prestataires qui sont plus performants et moins coûteux. C’est un des axes de la partie data, c’est de faire ces conseils personnalisés. 

– Marc — 29:26 :

 Ok, super et Ben merci beaucoup Hugo. 

– Hugo — 29:28 :

 Merci Marc. 

– Hugo — 29:29 :

 Vous venez d’entendre Hugo Lim, Hell of Data chez Matera sur Data driven One One. Merci d’avoir écouté. Si vous avez aimé et que vous voulez nous soutenir, n’hésitez pas à vous abonner, à liker et à partager à très vite.