Comment s'offrir une modern data stack ?

Ismael Goulani, CTO de Modeo, est l’invité de l’épisode 44 de Data Driven 101.

Il nous explique les récentes évolutions de paradigme dans le domaine du Data Engineering et nous partage ses choix techniques, ses bonnes pratiques et ses trucs et astuces pour faire fonctionner la fonction Data d’une entreprise.

Transcript de l'épisode

Marc — 00:00 :

Aujourd’hui je reçois Ismael Goulani, cofondateur et CTO de Modeo est une start-up d’une vingtaine de salariés spécialisée dans la mise en place de plateformes de données pour ses clients depuis maintenant 4 ans et demi. Bonjour Ismaël.

– Ismael — 00:12 :

Bonjour Marc.

– Marc — 00:13 :

Alors Ismaël est ce que tu peux nous préciser un peu plus? Qu’est ce que fait modeo?

– Ismael — 00:17 :

Alors oui, modeo c’est une entreprise, donc startup qui existe depuis 4 ans et demi et on est spécialisé dans la mise en place de ce qu’on appelle des plateformes data. Donc ça part vraiment de la collecte au stockage dans notre dans une plateforme pour ensuite rester la donnée. Pour de la BI ou de la data science par exemple.

– Marc — 00:35 :

Alors ce que tu appelles une plateforme data, est ce que ce qu’on peut essayer de bien définir du coup de ces termes, est ce que c’est une base de données? Est ce que c’est un ensemble de bases de données? Comment est ce qu’on définit une plateforme data?

– Ismael — 00:46 :

Alors une data plateforme, c’est un ensemble d’outils qui permettent de récupérer des données de diverses sources, les stocker donc avec une base de données, les traiter avec des outils de transformation de la donnée et ensuite de les restituer pour de l’analyse BI Donc ça peut être pour des équipes métiers. C’est peut-être aussi pour faire des modèles de machine learning par exemple, donc à destination aussi des data scientists.

– Marc — 01:08 :

D’accord, alors tu peux citer des exemples de marques de data plateformes?

– Ismael — 01:13 :

Oui bien sûr. Bah je veux-je vais peut-être essayer de faire un peu tout le cycle. Un peu de transformation de la donnée, c’est qu’au début, on se connaît qu’à une à une source, ça peut être une API ça peut être une base de données donc y a des outils qu’on appelle des outils d’ingestion de la donnée comme Air Byte Street par exemple. Ensuite, on a des plateformes de stockage, donc des bases de données, par exemple SNOWFLAKE du B Query. Ou du Red Shift sur AWS Par exemple, ensuite, une fois que le stockage a été effectué, on va chercher à transformer la donnée et pour cela, on a plusieurs approches. Souvent on va passer par des outils comme DBT qui est la transformation au sein du data Warehouse, ou sinon on peut utiliser des outils comme pour faire du Custom comme du Python par exemple et en toute bout de chaîne on a la partie restitution donc c’est comment est ce qu’on va permettre à la donner d’être activée soit via des outils de visualisation, soit par des modèles de machine learning au-dessus de tout ça.

– Marc — 02:07 :

Alors à quoi sert la data du coup? Dans vos usages que la toute cette attaque, vous collectez que vous organisez sur des data plateformes, généralement à quoi elle vous sert et à qui elle sert alors la.

– Ismael — 02:20 :

Majorité de nos clients. Enfin, je pense que ça fait peur du fait de faire la data dans pas mal de boîtes et ce qu’on sert beaucoup, c’est que la plupart des clients ont des besoins qui sont assez simples. Si comment automatiser mes tâches qui sont répétitives, comment présenter mes résultats business devant un comité par exemple? Donc c’est beaucoup d’automatisation de tâches et beaucoup de bi et pour certains clients qui sont. Assez mature, on va proposer des pas d’usage de machine learning, et cetera, mais le gros du boulot, c’est vraiment de la, de l’automatisation des tâches et de d’analytics poussé et à qui.

– Marc — 02:55 :

Est ce que ça va servir?

– Ismael — 02:57 :

Généralement en fonction des cas d’usage, donc je prends par exemple pour tout ce qui est Analytics aujourd’hui on voit que dans toutes les boîtes, la plupart des décisions, beaucoup de décisions vont se faire via la data donc via le natix. Donc on a besoin des KPI c’est KPI peut driver des besoins qui sont en marketing dans le finance ou même dans la recherche par exemple. Donc c’est assez vrai comme cas d’usage.

– Marc — 03:17 :

À quoi ressemble votre client type le client?

– Ismael — 03:20 :

Type en mode haut, c’est vraiment la boîte, la start-up ou la PME hein? Bien sûr, qui a accumulé beaucoup de données et qui a vraiment envie d’aller hyper vite pour avoir des KPI pour encore plus data driven, on peut avoir plus d’impact et aussi pour faire des modèles potentiellement faire de l’i a faire pas mal d’États d’usage et généralement ces genres de boîtes elles vont vraiment utiliser de la donnée pour dans la plupart de leur métier. Donc que ce département marketing département finance, même département RH des fois.

– Marc — 03:44 :

Et quelles sont les missions les plus fréquentes?

– Ismael — 03:46 :

Les missions les plus fréquentes alors comme je disais tout à l’heure, c’est beaucoup d’analytiques, donc généralement le client il vient me voir, il a un besoin, soit il a, il a une équipe qui est déjà en place, il a envie de d’accélérer donc il fait appel à nous donc on va rejoindre son équipe. Et essayer de d’accélérer son développement. Après tu as d’autres types de clients qui eux n’ont pas forcément d’expertise data sur place. Donc nous on va intervenir en tant que vraiment architectes donc on va définir les outils, l’architecture et aussi tout toutes les transformations pour créer des KPI puis enfin faire des dashboards vont être effectués donc c’est en toute la chaîne de la data right. Après on a un 3ème type de client qui a pour finalité de faire du machine learning donc typiquement c’est comment est ce que nous on est capable de la permettre de pouvoir accumuler beaucoup de données? Et de façon scalable. Mettre des modèles autour de ça pour faire de la prédiction, par exemple sur la similarité d’images, la détection par exemple.

– Marc — 04:40 :

D’accord, il y a des gens qui vont structurer leurs données, on va dire ce qui va de rigueur, la mise en place de toute une chaîne de data Engineering, c’est des usagés machine learning in fine.

– Ismael — 04:50 :

Ouais, ça peut être du machine learning, mais beaucoup plus quand même de bi que de machine learning. Mais généralement il y a quand même pas mal d’use case aussi de machine learning en bout de chaîne. Ouais.

– Marc — 04:59 :

Et alors qu’est ce qui produit selon toi le plus de valeur chez vos clients après votre passage?

– Ismael — 05:05 :

Plus de valeur, c’est le fait d’avoir des KPI qui parlent à tout le monde, donc avoir. En à peine un mois, on est capable de voir qu’on est parti d’une donnée brute pour avoir des KPI qui parlent aux métiers qui parlent aussi haut de la boîte par exemple, et aussi un autre point qui parle beaucoup, c’est le fait de pouvoir réduire drastiquement le temps passé sur des tâches, des tâches. Par exemple, on a, on a eu un cas comme ça, on avait un client dans le secteur des BTC d’enfiler une flotte de véhicules et il passait tous les mois une semaine à faire du reporting kilométrique et donc il est venu nous voir et nous on a mis en place une plateforme. Qui lui permet bah sans rien faire, il a juste appuyé un bouton et il y en a peut être 1 heure il a tout son reporting kilométrique qui est fait automatiquement donc ça change beaucoup de choses.

– Marc — 05:47 :

Ouais donc automatisation, gain de productivité, et cetera. Et puis le fait de voir les premiers KPI la Business Intelligence de l’autre.

– Ismael — 05:55 :

Quoi, c’est ça.

– Marc — 05:56 :

En terme d’évangélisation, qu’est ce qu’il y a besoin de dire à chaque client ou à presque chaque nouveau client et qui pourrait devenir un peu plus une évidence pour tout le monde dans quelques décennies selon toi?

– Ismael — 06:07 :

Je pense que c’est vrai qu’il y a beaucoup d’aujourd’hui autour de l’i a, du génie, et cetera. Je pense qu’il ce qui serait bien, c’est de pas trop se précipiter, de s’assurer qu’on a bien en place les bases, donc une bonne plateforme data, une bonne culture aussi data donc au sein des équipes, c’est vraiment de diffuser autour de l’entreprise la culture de la culture data pour ensuite une fois près ne pas être surpris par les nouveaux modèles qui sortent donc tout de suite capable de pouvoir faire du VII pouvoir faire de l’analytics pousse et cetera.

– Marc — 06:34 :

Ouais, chaque chose en son temps, c’est ça. Alors est ce que vous modeo personnellement? Vous faites du machine learning, quelles seraient vos use case? Si oui, on va faire du machine.

– Ismael — 06:42 :

Learning mais on va pas être suivre la partie recherche, on va pas être là en train d’entraîner des modèles. Par contre on va être sur toute la chaîne. La pipeline qui va permettre de pouvoir apporter du coup la donnée de façon scalable au modèle dans toute la chaîne, donc s’il y a des milliers d’images, faut qu’on soit capable de mettre en place une archi qui permet de traiter des milliers d’images et faut qu’aussi on soit capable de gérer tout ce qui est cycle de vie du modèle. Donc on est un modèle qui tourne, c’est en production au bout de X mois, est ce qu’on est capable d’assurer que le modèle il est toujours valide? Donc c’est est ce qu’on est capable de détecter que le modèle il a il a fait tient besoin d’être ré entraîné par exemple mais on va pas, enfin on va pas être le data Scientist qui va fan tuner. Le modèle pour avoir des pourcentages, donc.

– Marc — 07:21 :

On va dire toute la partie ML Ops c’est des choses que vous gérez.

– Ismael — 07:24 :

C’est ça, on a quelques use case comme ça qui apporte beaucoup de valeurs et qui sont assez challengeant parce que c’est des grosses volumétries et justement tout le rôle du data ingénieur slash ML ingénieur ML Ops c’est être capable de pouvoir apporter une solution et kiskale donc bien se poser sur les choix d’architecture, les outils. Ouais, pour derrière maximiliser la valeur en sortie des chaînes.

– Marc — 07:44 :

Ouais, sur les choix d’architecture, sur les choix d’outils justement, est ce que personnellement tu aurais des conseils sur une architecte ML Ops pour quelqu’un qui démarre on va dire plusieurs stades de maturité au stade pok, stade produit et puis au stade ça commence à sérieusement intéresser du monde et.

– Ismael — 08:04 :

Alors je pense que faut commencer toujours simple donc si y a vraiment est ce que déjà on a des données qui sont disponibles quelque part en open data ou des données internes une fois qu’on les A? Je pense qu’aujourd’hui y a eu une QS qui est hyper bien donc y a pas mal de modèles qui sont déjà pré-Entraînés donc l’idée c’est vraiment d’aller chercher ces modèles là et de chercher à faire une archi qui est simple, pas forcément d’aller dans des stacks comme du Kubernetes. Enfin des trucs trop fancy. Ouais c’est vraiment à l’issue du basique donc une petite API qui va juste servir avec je sais pas servir. Quelques centaines de milliers de lignes, enfin de pointe données pas directement partir sur une grosse archie dans le but de pouvoir servir tout le monde, donc c’est vraiment de partir. Simple recherche la donnée là où elle se trouve, soit en interne, soit via des plateformes d’Open data. Partir aussi simple pour le modèle, donc aller chercher chez des modèles qui sont déjà pré-entraînés et tout de suite commencer à créer de la valeur donc c’est connecter ces modèles-là à nos données pour faire de l’inférence une fois qu’on a suffisamment de retour par rapport à aux performances du modèle. On va commencer à se poser des questions d’outils plus complexes pour.

– Marc — 09:12 :

Voir ce qu’il est tu parles d’open data, est ce que tu peux nous citer des exemples de sources sur lesquelles il faut aller creuser un peu quand on a un use case et qui nous manque une donnée pour répondre à un à une question?

– Ismael — 09:22 :

Alors il y a beaucoup de sources de données potentielles. Bah en France, je sais qu’il y a data gouv qui est pas mal.

– Marc — 09:29 :

Données gouvernementales.

– Ismael — 09:30 :

C’est ça data gouv, tu as pas mal aussi de données météorologiques, tu as des données sur des plateformes américaines aussi, tu en as pas mal donc franchement je pense qu’en fonction pour beaucoup de cas d’usage, il y a quand même pas mal de données qui sont disponibles, que ce soit pour la compléter. Vision pour du Natural Language processing. Quitter, donc je pense qu’une recherche Google te permet de d’avoir une grosse liste ou un chat GPT hein. Une grossiste de son potentiel ou des use case oui.

– Marc — 09:52 :

Est ce que l’i a générative change quelque chose pour vous selon toi?

– Ismael — 09:59 :

Alors oui. Dans plusieurs aspects, c’est que même pour nous, en tant que data ingénieur, si ça nous aide beaucoup notre productivité, parce que nous, notre but c’est de concevoir des plateformes qui vont durer dans le temps. C’est pas comme quand tu fais du machine learning, tu il y a quand même pas mal d’incertitude, c’est pas forcément si ton modèle il va être bon dans 2 mois alors que la data Engineering c’est, on conçoit des systèmes qui sont assez fermés dans le but c’est de gérer 5, 10, 20 ans et pour ça on a besoin d’avoir du code qui soit bien fait, donc du code de qualité et généralement qui dit code de qualité dit test aussi de qualité. Voilà qu’on sait que les tests, ça prend beaucoup de temps et c’est pas forcément là où on a envie de mettre le gros de notre effort sud aussi. On est aussi, on a envie d’aller vite. Donc javippetti aujourd’hui, il est capable de te sortir des tests unitaires qui sont très propres et qui sont quasiment prêts à être réduits dans le cadre. Quoi ouais.

– Marc — 10:47 :

Github, copilot.

– Ismael — 10:49 :

C’est ça, et donc ça c’est pour la partie productivité et autre chose aussi, c’est qu’aujourd’hui nous on je pense qu’on commence à être mature en fait en tout ce qui est data Platform en termes de base de données, et cetera, et beaucoup de plus en plus de boîtes aussi commencent à se rendre compte que la data c’est pas que les data c’est pas que l’i t c’est aussi les métiers. Dans la boîte, donc finance marketing. Aider un peu partout et donc on a besoin soit de faire des formations, donc apprendre tout le monde à faire du SQL soit avoir un outil comme chat GPT qui sera potentiellement capable de permettre à tout le monde de poser ses questions en langage naturel et d’interagir avec notre data warehouse, donc data Wars, c’est notre base de données qui va stocker les données de la boîte par exemple. Sauf qu’avec ce problème là enfin, il y a quand même un frein à ça. Parce qu’en recrutant directement notre data warehouse, notre base de données avec du CH GPT on peut avoir ce qu’on appelle l’hallucination, c’est sortir des réponses qui sont peut être inexactes.

– Marc — 11:43 :

Inventées, ouais.

– Ismael — 11:43 :

C’est ça et ce qu’on pourrait faire pour pallier à ça, c’est racheter une couche au-dessus du data warehouse qui s’appelle la couche sémantique sémantique. C’est vraiment. Tu sais précisément quelques API l’élève va aller recruter donc t’es sur le type de KPI qui va te retourner donc tu contrôles plus en fait la réponse de ton ll même par exemple. Donc potentiellement ça pourrait beaucoup servir je pense dans le futur pour vraiment donner encore plus de pouvoir aux personnes dans les boîtes.

– Marc — 12:09 :

L’use, case qui consiste à transformer des requêtes en langage naturel en requête SQL et particulièrement impressionnant avec les LLM Aujourd’hui, ça devient extrêmement fiable, donc finalement, si on doit repasser par cette étape intermédiaire de requête SQL ça change pas grand chose, c’est pas beaucoup plus de travail. Et peut-être que ça évite de passer par les hallucinations.

– Ismael — 12:31 :

Quoi, c’est ça, c’est ça et à un moment, enfin essayer d’aller sur un cas qu’on maîtrise mieux que directement les taper dans data Wars parce qu’on sait pas trop à quoi s’attendre par rapport à ça.

– Marc — 12:42 :

Alors, est-ce qu’y a des erreurs classiques que tu peux nous partager pour nous faire gagner du temps en data engineering?

– Ismael — 12:48 :

Je pense que passer trop rapidement sur la partie design d’architecture, ça peut nous créer des problèmes plus tard, donc ça nous est déjà arrivé. On se dit que c’est un use case classique. Donc on pense directement à notre stack collecte. Non tu vis ça au calme, tu vis ça et cetera, mais on oublie que c’est peut-être le les mêmes types de techno potentiellement, mais c’est pas forcément la même volumétrie. Il y a des paramètres qui sont inhérents à l’entreprise, donc elle peut-être que cette stack est fonctionnelle sur une entreprise qui a une volumétrie qui est faible. Par contre dès qu’on parle de terabyte de données ou de gigabytes même, on voit que le la stack qu’on a choisi n’est pas forcément la bonne, surtout quand on vignering. Il y a pas mal de problématiques notamment. Tout ce qui est de scaling, notamment. Tout ce qui est problématique d’enfin de calcul distribué, comment est ce qu’on est capable de pouvoir paralléliser sur beaucoup de données de calcul pour arriver très rapidement à des coupes pas trop élevés, à des réponses de notre système par exemple? Donc ça c’est des questions qu’il faut se poser dès le départ, donc en prendre le temps, passer beaucoup de temps sur le design, donc se poser la bonne question en terme de volumétrie en termes de vélocité, en terme aussi de cas d’usage derrière. Est ce qu’on veut faire du dashboarding classique? Est ce qu’on veut faire de l’embarquer c’est à dire est ce qu’on veut construire une autre? Plateforme faut qu’il soit utilisé par des clients finaux qui sont vraiment des clients comme tu peux avoir sur une application web par exemple ou une application mobile, est ce que c’est du temps réel? Et cetera. Donc il y a quand même pas mal de questions à se poser avant et je pense que ça mérite quand même de passer beaucoup de temps pour ensuite commencer les phases de développement. Généralement les phases de développement ça peut aller assez vite quand même.

– Marc — 14:26 :

Savoir perdre du temps pour en gagner quoi.

– Ismael — 14:28 :

C’est ça.

– Marc — 14:29 :

Alors qu’est ce que tu préfères dans ce métier?

– Ismael — 14:31 :

Alors ce que je préfère moi, c’est qu’en étant ingénieur, on est capable de travailler dans tous les secteurs, quasiment tous. Donc, on apprend aussi d’autres métiers, on peut apprendre des chercheurs, on peut apprendre des gens qui sont experts dans leur métier, en finance, en marketing. En pharmacie, enfin sûrement très enrichissant et moi j’aime beaucoup ça autre chose. Autre chose aussi qui est hyper intéressant, c’est que c’est un métier qui évolue très vite. Chaque année, il y a des nouvelles technologies donc ça crée aussi un challenge, c’est d’arriver à soutenir au courant mais on doit pas stagner dans notre métier. On va toujours apprendre de nouvelles choses et un dernier peut être un dernier point, est ce que GM c’est très concret quoi. La data Engineering c’est très concret et surtout ça pose les bases pour des cas d’usage qui sont encore plus sexy notamment avec l’i. A par exemple.

– Marc — 15:19 :

Et en termes de recrutement, quand tu cherches un data ingénieur, quand tu recrutes, qu’est ce que tu regardes? Qu’est ce qui est important?

– Ismael — 15:27 :

Alors généralement moi je mets quand même beaucoup d’importance à la, à la personnalité, l’envie d’apprendre beaucoup. La capacité aussi à être très bon pour faire des recherches Google ou chat GPT maintenant et aussi beaucoup de sens critique d’autocritique aussi est ce que tu es capable de d’autocritique, de ton travail? Est ce que tu es capable de te dire OK j’ai fait ça mais potentiellement on pourrait élaborer parce qu’il y a ça qui manque par exemple.

– Marc — 15:54 :

Et alors, comment tu le testes? Typiquement je t’entends dire être très bon à faire des recherches Google. C’est sûr que dans la pratique c’est à ça qu’on est exposé très vite hein. Se débrouiller. C’est ça qu’on le teste en entretien. Comment le test?

– Ismael — 16:06 :

Généralement tu nous on procéder recrutement c’est qu’on généralement on premier entretien c’est à l’oral. Après tu as un test technique, généralement un test technique on va pas forcément te challenger. Enfin on va pas. Par contre te challenger sur ton résultat mais sur comment est ce que tu as fait pour aboutir à ton résultat? Et pour cela on doit vraiment voir à quel point tu es curieux vu qu’enfin t’as vraiment tu as 2 jours pour le faire c’est est ce que tu es allé plus loin que ce que beaucoup de gens auraient fait? Donc je fais beaucoup de recherches Google tu fais des t’es curious montre en fait ta curiosité. À quel point? Et aussi des différents des différents cas que tu aurais pu identifier, que même nous on n’a même pas mangé dans le test par exemple. Donc c’est. En tout cas, c’est beaucoup d’humeur, non c’est beaucoup bon d’humeur. Ouais.

– Marc — 16:49 :

Quels sont les plus grands, les plus grandes peines, les plus grands points de douleur de ce métier?

– Ismael — 16:54 :

Je pense que, en tant que date ingénieur ou data scientiste, enfin personne travaillant dans la data ça peut être des fois très compliqué de justifier son travail, son ROI aussi. Je trouve, si on a des cycles de développement qui sont très longs, donc c’est être capable de d’expliquer au métier que le dashboard il aura pas dans 2 semaines mais dans 3 mois. Parce qu’on n’a pas reçu des bonnes données, on n’a pas forcément la bande passante, et cetera. Surtout que les équipe data sont généralement très chargés, donc ça c’est un pain, point être capable de trouver le bon dialogue avec les équipes business l’autre. L’autre Paint aussi, c’est que c’est un domaine qui évolue très vite. Comme je disais tout à l’heure. Donc c’est pas parce que ça évolue très vite que tu vas forcément étudier toute la nouvelle technologie qui sort donc avoir quand même ce recul là de se dire bon c’est pas parce qu’y a cette nouvelle technologie. Que je vais changer ma plateforme encore, donc c’est dire qu’aussi que basé vraiment ces critères de choix sur le la finalité, sur le problème qu’on souhaite résoudre et toujours revenir aux principes fondamentaux. De l’État Engineering, je pense que quelque soit l’outil, ça a pas forcément changé. Y aura des paradigmes, mais généralement y a beaucoup d’outils mais beaucoup d’outils font quand même la même chose donc c’est pouvoir choisir.

– Marc — 18:14 :

Tu nous as parlé de l’importance de la qualité des données, qu’est ce qu’on peut faire pour garantir la qualité des données? Qu’est ce qu’on va dire? Est ce que tu as des astuces, des bonnes pratiques à nous partager à ce niveau là?

– Ismael — 18:27 :

Oui, alors en termes de qualité, tout va dépendre de la source. Aussi si la source elle est externe, on a moins de contrôle sur la qualité donc ça veut dire qu’il faudrait qu’on on arrive à concevoir un système dans lequel on est capable de d’attester la qualité à tout bout de la chaîne. Donc à la réception. Et aussi en amont de la conception des KPI pour les tableaux de bord. Donc pour cela il faut on peut utiliser pas mal d’outils. De Data Quality on a Monte Carlo par exemple, qui est un outil de data quality. On a sifflé aussi qui est français? Ouais, on a pas mal d’outils qui existent. On a aussi des outils open source. Il y a notamment une nouvelle approche qui s’appelle le data contract. C’est vraiment essayer d’établir un contrat entre le créateur de données, donc la source et celui qui la consomme. Une fois que le contrat il est figé, on sait à quoi s’attendre et comme ça on maîtrise vraiment de bout en bout la qualité de la planète par exemple. Donc le but à la fin c’est d’arriver. À des données qui soient de qualité pour pas que des dashboards en production, ils cassent par exemple. Et le cas où on a la donnée qui est produite chez nous, donc on a plus de maîtrise comme on a plus de maîtrise parce qu’on sera peut être un peu laxiste dans le sens où on va pas forcément tester la donnée sur toute la chaîne. Par contre en bout de chaîne juste avant les avant la production des KPI on va peut être faire des tests sur par exemple la volumétrie qu’on aurait dû recevoir ce jour-là par rapport à ce qu’on a reçu des tests sur les variations d’ordre de grandeur par exemple dans nos KPI Des tests qui sont assez basiques, qui n’existent pas forcément. D’avoir des outils très chers pour tester nos données, ouais.

– Marc — 20:03 :

Des tests qui tournent régulièrement pour c’est ça les nouvelles données qui sont.

– Ismael — 20:06 :

Rentrées, c’est ça et.

– Marc — 20:08 :

Conforme à ce qu’on.

– Ismael — 20:08 :

Fasse et surtout j’ai un truc que j’oubliais, vu qu’on maîtrise la donnée donc on connaît plus ou moins les personnes qui sont responsables de la produire et donc c’est beaucoup d’humains aussi quand même la qualité ça passe beaucoup par l’humain et pour ça je pense que c’est vraiment un mindset aussi à avoir dans l’entreprise, c’est être capable d’enfin faut que tout le monde en fait s’approprie la qualité. Je dirais même que c’est 70 % d’humains.

– Marc — 20:28 :

Ouais, comment est ce qu’on se tient à la page sur les nouveaux outils dans un monde qui évolue aussi vite que le data Engineering?

– Ismael — 20:35 :

Alors moi, personnellement, je l’utilise beaucoup LinkedIn. Et LinkedIn y a beaucoup, y a maintenant des influenceurs LinkedIn. Je pense à un Paul marquant par exemple de nickel qui fait beaucoup de posts subicory. Enfin data Engineering t’as des t’as pas mal de D influenceurs aussi américains si y a tes data Guy t’as zac Wilson aussi qui est un data ingénieur d’Airbnb donc je pense que suivre pas mal d’influenceurs. Enfin de data ingénieur sur LinkedIn ça permet d’être au courant de beaucoup de choses et on peut aussi suivre des boîtes qui ont qui donnent des produits notamment. Ensuite si tu veux être au fait des nouvelles activités. Sur la data Quality, tu peux suivre des pages comme sifflets. Comme astronomeur si tu veux apprendre un peu plus sur tout ce qui est orchestration ou tu peux sur modier aussi si tu veux avoir aussi toutes les News dans à peu près tous les secteurs. Ouais.

– Marc — 21:28 :

Ok et alors quelles sont les évolutions actuelles des métiers, data scientists et de Data Engineering?

– Ismael — 21:33 :

Alors évolution à la base, j’étais, j’étais, j’étais un peu un très grand fan de data science. Enfin, j’étais data science, c’était ce que je voulais faire tout le temps. Je voulais faire que ça avant et je pense qu’aujourd’hui ça devient de plus en plus simple, potentiellement pour faire de la data science. Comment on l’on le faisait, il y a en 2019 par exemple. Et je pense que le métier de data Scientist en l’occurrence, avec tout ce qui est LLM tout ce qui est les IPI qui sont mis à disposition par des OPEN AYA pas de Gein face. Je pense que le data scientiste, il pourra potentiellement évoluer vers des métiers plus PM mais PM enfin PM slash Software mais AI plutôt il va vraiment participer à la conception de produits d’i.. A donc ça va être vraiment la chaîne de valeur, la vraie valeur de l’i.. A ça va être est ce qu’on est capable de la mettre dans la main de tout le monde et donc le data scientiste, son rôle ça va être dans le monde d’être capable de pouvoir venir choisir son modèle, le L et DM open source ou APIOPI privé de pouvoir aussi bien choisir les sources. Enfin vraiment essayer de faire tenir un peu le modèle mais pas forcément. Aller trop loin sur la partie recherche comme avant ou trainer. On avait besoin de compétences qui sont hyper complexes donc c’est vraiment il sera beaucoup plus proche du métier aussi je pense vu que c’est quand même des cas concrets et donc je pense que le data scientifique va être quand même plus proche du métier, moins de la recherche en tout cas data scientist qu’on est aujourd’hui et data ingénieur. Alors je pense qu’avec l’événement de ce qu’on appelle la boite des netastes, on part de d’un paradigme qui était de l’e TL extraction torsemasse un peu chargement donc ça nécessitait beaucoup de compétences techniques aujourd’hui avec les monnaies d’État stack, on arrive à un paradigme qui s’appelle l’E LT extraction, chargement et transformation. Ça veut dire que toute la donnée sera traitée dans le data Warehouse et pour observer notre besoin de beaucoup de compétences en SQL Donc ça veut dire qu’on a beaucoup plus de personnes qui pourront potentiellement faire des transformations de données qui sont avancées et ça fait que le métier d’État ingénieur se il a déjà commencé à se subdiviser, donc on a des Analytics ingénieurs qui sont vraiment des personnes qui vont faire beaucoup d’s QL avec du DBT faire des KPI et cetera, des transformations et le data Engineer. Aujourd’hui, enfin demain, en tout cas, pour moi, ça va être la personne qui va être garant de l’architecture de l’infrastructure et derrière de tout ce qui est monitoring, tout ce qui est productivité de son équipe, de l’équipe data par exemple.

– Marc — 23:56 :

D’accord, alors est ce que tu peux nous en parler un peu plus de cette migration e? T l e l t quel intérêt de d’inverser les l’ordre de dire au lieu de charger de faire les transformations une fois pour toutes et de charger? Pourquoi est ce qu’on chargerait pour ensuite faire les transformations? Par la suite, à chaque fois qu’on aura besoin.

– Ismael — 24:17 :

Oui, bien sûr. Alors c’est un fait qui est hyper marquant parce qu’avant avec le TL je pense que les boîtes qui faisaient de la data elles étaient pas data. En tout cas aussi avancées elles étaient pas forcément nombreuses parce que c’était très coûteux. Parce que faut faire des dashboards même fallait être capable de savoir en amont quelle transformation il faut faire. Donc j’ai ma source, faudrait que je sois capable de définir donc un gros cahier des charges pour savoir en amont quel kpi dont j’ai besoin. Enfin vraiment y a quand même un gros travail à faire et en plus la plupart des transformations qu’il fallait faire c’était les transformations qui nécessitaient des compétences qui sont pas forcément du SQL Parce que c’est hors du data Warehouse, donc hors dans d’une data base d’une base de données. Donc il fallait passer par du Python, par du Peace Pack, pas du Adobe fin, ça devait vraiment hyper complexe. on est arrivé à des bases de données, donc des data Wars qui sont très scalables, je pense à Snowflake a bitury par exemple, Eh bien celle-là on est capable aujourd’hui de traiter de grosses volumétries avec un langage que tout le monde connaît, qui a toujours existé, qui est le SQL Donc ça fait que la vélocité dans la boîte, elle a augmenté drastiquement. On est capable de très vite apporter de la valeur très vite démontrer qu’en intégrant 2 3 sources, on est capable d’avoir des KPI on est capable d’intégrer un petit modèle, LLM Enfin, c’est le champ des possibilités, ici est décuplé. Juste parce qu’on a changé de paradigme et on nos capacités de calcul ont hyper augmenté avec les modèles data d’astack.

– Marc — 25:41 :

Alors Modern data, on va y revenir. Est ce qu’avant ça tu peux nous parler peut être du sujet du RGPD Est ce que dans ton métier ça a un impact? Est ce qu’il faut à quoi il faut faire attention à la suite du règlement donc général sur la protection des données?

– Ismael — 25:56 :

Alors le RGPD effectivement, ça a un impact pour nous mais c’est pas un frein, c’est un impact dans le sens où on fait maintenant plus attention à en fonction du cas d’usage du client. On fait attention à notre choix de provider. Est ce qu’on va sur WS on va sur VH ou Google par exemple, on fait attention au consentement du client. Et même les le consentement du client du client. Donc il y a ça à prendre en compte, est ce qu’on va mettre une des durées de rétention sur les données qu’on récupère? Ça peut être 2 semaines, un mois, et cetera en fonction du contrat que le les 2. Les 2 parties ont donc en fait en fait attention à ça et généralement nous c’est ces consignes là nous sont laissées par nos clients, donc on applique ça et non c’est principalement ça, c’est vraiment la gestion de la donnée dans notre plateforme.

– Marc — 26:40 :

Et est ce que tu as une opinion à nous donner à nous partager?

– Ismael — 26:45 :

Oui, je j’ai une opinion. Effectivement, c’est que. Moi je pense que justement le fait d’avoir des stars qui sont enfin des fois très rapidement intégrés les données et faire de la récidivision. Ça fait que je pense que demain dans l’entreprise il y aura pas que les datas ingénieurs ou les data analyst qui vont faire de la data. Et je pense surtout que la plupart des boîtes vont faire des formations, vont former leurs équipes qui sont pas forcément des analyses donc ça peut être des financiers un peu tout le monde, un peu à la manipulation de leurs données donc c’est être capable soi-même de pouvoir trouver des réponses à ces questions, ce qui va faire que l’usage global de la donnée dans toutes les entreprises va augmenter et ça va faire aussi que les coûts vont augmenter aussi. Donc faudrait être capable de pouvoir avoir une bonne politique de finops maîtrise des coûts. Il va aussi falloir installer des outils qui permettent de dans traquer l’usage, un peu comme avec l’Électricidiaire tu crées de l’usage pour mesurer ce que tu consommes. Alors si.

– Marc — 27:46 :

On revient à la Modern data Stack dont tu nous parlais tout à l’heure, est ce que tu peux nous parler un peu? De quelle est cette stack d’outils très demandés en ce moment? Quelle est ta composition? On va dire de l’équipe moderne data stack.

– Ismael — 28:02 :

Alors Modern data Stack, c’est vraiment plusieurs niveaux de transformation donc partie collection collecte ou gestion? Donc on va utiliser d’outils comme du Herbite, du Stitch ou même faire des connecteurs custom. Après on a la 2ème couche qui est la couche de stockage donc c’est vraiment choisir la bonne, le bon datavase, la bonne base de données qui va permettre d’aboter nos données et pour ça on a des outils comme snowflake qui est voilà en thème du X c’est vraiment top, c’est hyper, c’est scalable, c’est très intuitif, on a sur GCP et du B Quury, on a du réchift aujourd’hui gratuite avec rachift serve s par exemple. En termes d’outils de transformation, on ADBT qui est un peu l’outil incontournable aujourd’hui qui permet de faire des transformations, de racheter des tests et qui permet aussi d’apporter de la rigueur qu’on a dans le soft Engineering à la data, au data analyste. Et en fait, on a la partie exposition, donc c’est vraiment la couche qui va permettre aux outils BI de pouvoir se connecter, donc c’est le choix des outils BI ça peut être metabase par exemple, c’est un outil qui est beaucoup utilisé en start-up On est de type classique comme probable tableau, et cetera, et enfin on a une dernière couche qui est assez nouvelle, qui s’appelle la sémantique layer. La couche sémantique, c’est la couche qui va permettre d’apporter un peu plus de gouvernance dans la gestion de la donnée. Ça va par exemple permettre de pouvoir gérer de façon centrale les KPI Ça va permettre par exemple de pouvoir créer ce qu’on appelle des datas apps. Si comment est ce qu’on on est capable de communiquer avec notre data warrers depuis une application web par exemple? Donc c’est vraiment des caisses de qui sont vraiment concrets.

– Marc — 29:38 :

Comment tu définirais la data gouvernance?

– Ismael — 29:40 :

La data gouvernance, pour moi, c’est l’ensemble des pratiques et des outils qui vont permettre d’assurer une bonne qualité de la donnée qu’on consomme, d’assurer que la donnée qu’on collecte et elle est collectée de façon sécurisée dans les règles et de s’assurer que l’entreprise, elle, respecte tous les standards des normes ISO RGPD dans la pote.

– Marc — 30:06 :

Si tu devais donner un conseil à quelqu’un qui monte une équipe data ou qui monte une boite? Tu dirais quoi.

– Ismael — 30:12 :

Acier à quelqu’un qui monte une équipe data. Alors je dirais, faut toujours commencer simple. Justement, le fait d’avoir des outils, beaucoup d’outils aujourd’hui open source avec les modèles data stack par exemple, ça va nous permettre de très rapidement arriver à une stack qui permet d’avoir le minimum qui est vraiment la vieille des KPI Une fois c’est établi, c’est commencé pour potentiellement à recruter des Analytics ingénieurs donc ça peut être un 2 mais des gens qui sont très proches du métier et potentiellement s’entourer d’une boite externe potentiellement. Qui est vraiment experte pour la mise en place de l’architecture? Parce qu’une fois que l’architecture elle est là pour rester dans produire longtemps. Et je pense que liquidata peut d’abord commencer par ceux qui sont proches du métier dans canal type, ingénieur data analyse et cetera, pour ensuite petit à petit créer une équipe socle qui va être en charge de l’infra, du Devops, et cetera. Et pour une personne qui m’ont offert une entreprise, moi je pense enfin en tout cas d’expérience, une entreprise, ça prend du temps et c’est pas parce que ça prend du temps qu’on doit forcément se dire que c’est pas pour moi. Faut arrêter. Donc pour moi c’est normal que ça prenne du temps et donc c’est vraiment d’être de persévérer ça. De savourer aussi des victoires. Et pas forcément tout de suite sombrer la moindre moindre échec quoi.

– Marc — 31:41 :

Alors, c’est quoi le futur? La tâche et modeo?

– Ismael — 31:45 :

Alors le futur, c’est la data chez Modeo en tout cas, jusqu’ici on là, on a vu beaucoup de nos chez modeo, on a mis en place beaucoup de types de plateformes pour du streaming, pour du Batch. Enfin pour voilà qui sont basés sur la Modern data Stack et nous demain là on là on veut vraiment aller, c’est tout ce qu’on appelle les datas apps. C’est vraiment des applications concrètes, c’est mettre permettre aux applications aux équipes de pouvoir vraiment interagir directement avec les data Warehouse. Donc c’est embarquer nos KPI dans des applications. Concrètes donc y a ça et modeo aussi. On développe notre produit donc on a un produit qu’on développe qui s’appelle le stash, qui justement va être utile lorsque les usages enfin en tout cas c’est déjà utile je pense. Lorsque des usages dans les boîtes vont augmenter donc on aura beaucoup plus de plus en plus de consommateurs de la donnée, on aura besoin de mesurer l’usage, de mesurer les coûts et même mesurer aussi l’empreinte carbone. Et pour ça donc nous c’est vraiment une problématique sur laquelle on travaille beaucoup en ce moment. Et bah d’ailleurs notre produit. Il est en train d’être développé, là, il la place du Beta test, se lance dans quelques semaines là.

– Marc — 32:53 :

Génial et Ben on voudra des nouvelles. Alors quel invité est ce que tu voudrais entendre dans un prochain épisode de data driven one?

– Ismael — 33:02 :

Owen alors moi je pense que Paul Markomb, qui est le Head of data de nickel. Il donne beaucoup d’insight, notamment sur GCP beakuri optimisation à la fois des coûts, tout ce qui est création des plateformes cervelès. Il a même mis en place pas mal de packages open source qui sont hyper intéressants que nous on utilise ces jeux modios et je pense que franchement si l’avoir en interview ça pourrait apporter pas mal. D’info aux e. U t r.

– Marc — 33:28 :

Ouais OK Ben merci Ismaël.

– Ismael — 33:29 :

Merci Marc vous.

– Marc — 33:31 :

Venez d’entendre Ismaël Ghulani, CTO est cofondateur de Modeo sur Data driven One on One. Dans le prochain épisode, je recevrai Laetitia Jumel, Head of Data chez Elektra, pour nous parler de data appliquée aux bornes de rechargement rapide.

Comment s'offrir une modern data stack ?

Suivez-nous

En savoir plus

Comment s'offrir une modern data stack ?

Vous devriez également aimer

Messagerie, Chiffrement et Flux de données chez Whatsapp

Alexandre Haag : La voiture autonome

Victor Cluzel : La Data à la cour des comptes

Suivez-nous

En savoir plus