DATA , TRANSPORT & LOGISTIQUE

Antoine Sauvage , CTO de Ovrsea , est le premier invité de Data Driven 101. Il réponds aux questions suivantes:

Comment une bonne structuration data permet-elle de prioriser les problèmes à résoudre ?
Comment le Machine Learning « tactique » peut-il débrider la création de valeur ?
Comment choisit-on les Data Scientists dans une startup tech au parcours aussi fulgurant ?

– Antoine — 00:02 :
Moi, j’ai une théorie qui est que les meilleurs data scientists ont en fait eu une double casquette assez rare, c’est qu’ils sont à la fois d’excellence, Software, Engineers et en même temps, ils ont un excellent sens business pour justement échapper à l’écueil de ne s’intéresser qu’à l’engineering.

– Marc — 00:22 :
Bonjour et bienvenue sur data driven One One, le podcast qui s’intéresse aux applications concrètes de la data dans toute leur diversité. Je suis Marc Sanselme, fondateur de scoopeo, Agence de recherche et développement en data Science. Je reçois des professionnels d’horizons variés pour nous parler de leurs aventures, leurs succès, leurs échecs, leurs espoirs, leurs techniques, leurs astuces, leurs histoires et leurs convictions. Cette semaine, je reçois Antoine sauvage, ingénieur de l’école polytechnique. Il est City ou d’Ursy. Depuis sa Sortie d’école en 2017 En 2020 overlay accueille une participation majoritaire du groupe Bolloré. Aujourd’hui, ils sont 150 personnes dans 5 pays différents. Bonjour Antoine.

– Antoine — 01:04 :
Bonjour Marc, merci pour l’invitation.

– Marc — 01:06 :
Avec plaisir. Alors Antoine, avant de parler de data, est-ce que tu peux nous parler un peu d’adversité? Qu’est ce que vous faites exactement?

– Antoine — 01:14 :
Alors oversea opère un métier assez méconnu, mais qui représente près de 95 % du du commerce mondial, qui s’appelle Commissionnaire de transport, Commissionnaire de transport. Il faut vraiment le voir comme un agent de voyage pour marchandise par exemple. Vous êtes une marque de cosmétique et vous voulez expédier des marchandises de votre usine à Orléans vers votre centre de distribution à Singapour? Vous avez besoin de quelqu’un qui vous organise le camion pour aller jusqu’au port vous réserve un emplacement sur le bateau. Et de la même manière, vous fasse passer les douanes et réserve un camion à l’arrivée. Donc ça, c’est le métier du commissaire de transport qui existe depuis qu’il y a du commerce international. Oversea est lancé avec une approche légèrement différente, une approche digitale, donc ça veut dire qu’en plus de ce service qu’on fournit à nos clients, on additionne une plateforme qui permet au client de mieux suivre ses envois, d’avoir du reporting et de bénéficier globalement de toutes les innovations digitales des 20 dernières années que nos concurrents un peu plus traditionnels ont pas encore réussi à à transposer dans leur dans leur proposition de valeur.

– Marc — 02:14 :
D’accord oui donc digitalisation by design depuis le début, vous devez avoir énormément de données. Est-ce que tu peux nous parler un peu de Ben chez vous? Commencez organisé la la la donnée à à quoi ça sert et à qui alors,

– Antoine — 02:28 :
La donnée, elle est vraiment partout dans notre métier, c’est le métier de Commissionnaire est un métier de données, c’est un métier où on échange de l’information entre différents acteurs de la supply chain, donc c’est vraiment notre notre ADN je dirais la la donnée pour rentrer dans des choses un peu plus tangibles. Nous, on a une équipe data, on va dire corps assez restreinte qui est en charge de la qualité de la donnée. Mais qui est finalement agnostique vis-à-vis de notre métier auquel on a ajouté des équipes qu’on va appeler analytiques mais qui sont en fait des vraies équipes data, aussi déportées, spécialisées dans les métiers, en particulier du côté opération, mais aussi sales ou produit. Donc il y a vraiment 1-1-1 groupe data at the service qui est en charge de l’excellence data chez Oversea et en Suisse. Des équipes qui elles sont vraiment en charge de de de l’excellence business grâce à la data.

– Marc — 03:17 :
Ok, et l’équipe data, juste pour avoir une idée de la de l’ordre de grandeur, c’est composé de combien de data Analyst Scientist tout ça de l’équipe data, elle est réduite à sa plus simple expression. Il y a un data Scientist, un data analyst et data Engineer.

– Marc — 03:32 :
Ok, et son rôle dans la structure, c’est de d’exécuter ce que ce que le besoin business va pondre. Ou est ce qu’il y a un rôle plus fort, plus proactif, de de cette équipe?

– Antoine — 03:43 :
Elle est vraiment là pour c’est 1-1-1 hébergeur en quelque sorte, donc c’est pas quelque chose qui est à disposition, c’est pas self-service. Consultation de l’équipe data pour obtenir une analyse, c’est réellement, elle doit vraiment mettre en place des des produits, on peut-on peut dire ça comme comme metabase de manière à ce que les autres équipes soient soient indépendantes, soit et les moyens en travaillant finalement un petit peu d’accéder à des données de qualité et de produire des analyses pertinentes.

– Marc — 04:12 :
Ok et metabase, outils de de Business Intelligence on va dire quel genre de métier l’utilise metabase chez vous, quels sont les lisons? Le nom des postes, des gens qui utilisent metabase?

– Antoine — 04:20 :
Je dirais qu’il y a il y a 2 types de postes, il y a les gens qui vont être dans ce qu’on va appeler le build. Donc ça va être des gens qui vont avoir des nouvelles idées, vouloir pousser des des nouveaux projets et déjà confronter leurs hypothèses à à la réalité dès le début, donc ça peut être par exemple des gens de l’équipe produit ou des gens de l’équipe qu’on appelle ob excellence chez nous, qui doivent améliorer les process en interne. C’est une équipe product interne en quelque sorte et eux peuvent déjà être confrontés leurs leurs idées préconçues de de ce qu’ils pensent sur le sur le, sur le business et aller voir dans metabase créer une analyse adoc pour avoir une réponse en quelques minutes ou une ou 2 heures. Après y a un 2ème type d’usage, qui sont les équipes prennent qui elles suivent, leur KYA énormément de KPI chez Oversea qui sont qui sont disponibles y en a quelques-uns qui sont corps et d’autres sont moins importants et les équipes prennent les les les managers des équipes prennent en particulier, les TEAM leads peuvent se baser sur la data pour suivre la performance de leurs équipes et détecter des des problèmes très en avance par rapport à ce qu’ils pourraient ressentir sinon.

– Marc — 05:22 :
D’accord aujourd’hui, si tu dois retenir une décision business que vous avez pris grâce à la data qui nous dirait quoi alors,

– Antoine — 05:30 :
Il y a 2 exemples principaux qui me viennent, qui me viennent en tête. Premièrement, le le choix de nos prestataires. Par exemple, on a un prestataire qui nous fournit une solution de Tracking qui nous aide à trouver les les bateaux dans l’eau et ce prestataire il a une certaine qualité de service, il y en a, il y en a plein qui proposent ces services et ils ont des qualités de service vraiment différentes et la data nous permet juste basiquement de trancher entre. Les différents prestataires et choisir avec lequel on veut travailler pour donner la qualité, la qualité de donner la meilleure à nos clients. En fait tout simplement. Donc ça c’est un, c’est des data driven design gens, vraiment? At Core. La 2ème, CE serait peut-être l’automatisation. Nous, on est à un métier où, quand vous êtes sur un transport, il y a peut être 2 heures de travail deux heures de travail humain avec tout un tas de tâches différentes, plus ou moins compliquées, plus ou moins administratives de la recopie appelée un fournisseur. Envoyer un document au client et tout ça en fait, on l’a mappé grâce à la donnée. On sait exactement ce qui prend une minute, 5 minutes 4 minutes 12 minutes 22 minutes sur un transport et aujourd’hui ce qu’on essaie de faire, c’est d’automatiser les tâches les plus chronophages en les prenant dans l’ordre, et ça nous donne un avantage compétitif. Énormes parce que plutôt que d’avoir un espèce de ressenti sur oui, si on automatisait ça, ce serait peut être bien et peut-être que ça crée de la valeur. Nous, on a une espèce de roadmap ultra clair en disant non en un, il faut automatiser l’email qu’on envoie aux fournisseur en 2, le booking en 3, le le l upload de documents pour nos clients et ça nous donne ouais c’est une roadmap ultra claire d’automatisation.

– Marc — 07:04 :
Oui, vous avez des usagers différents qui vont tous penser que leur problème est le plus important et finalement la data, ça vous donne un ordre de priorité réel en entre.

– Antoine — 07:13 :
Les problèmes, complètement, ça permet vraiment de trancher et d’arbitrer.

– Marc — 07:15 :
Ce que vous faites du machine learning chez oversea.

– Antoine — 07:18 :
Ah oui, on fait du machine learning, alors on a une approche qu’on pourrait appeler pragmatique. J’aime bien parler moi de machine learning tactique, c’est à dire qu’on va sélectionner des petits problèmes. On n’a pas la la, la prétention de de régler un une business line entière grâce à grâce au machine learning. En fait, on va spotter les petits problèmes de nos métiers qu’on va résoudre grâce à des petits algorithmes qui sont simples à mettre en production, qu’on réussit à monitorer, à suivre, et cetera pour donner des exemples. Les 2 problèmes qu’on résout en ce moment grâce au machine learning, il y a une notion de prédiction de prix, nous construire un prix, c’est compliqué, il faut appeler 5-6-7 personnes pour faire une proposition à notre client. Il reprend la métaphore de l’agence de voyage, quand vous voulez construire un voyage pour votre client, il faut que vous appeliez la compagnie aérienne que vous appeliez l’hôtel, que vous appeliez le taxi, et cetera. Ensuite, vous partagez ça et ça vous fait un voyage. Pour les marchandises, c’est exactement pareil. Le truc c’est que peut-être que vous avez envie de donner un prix à votre client sans attendre la réponse du taxi. Parce qu’en fait le taxi, que ce soit 10, 15, 20 ou 30€ ça change pas grand chose. Bah nous pour ces prix-là on utilise un algorithme de machine learning qui va nous prédire un prix qu’on estime être correct et qui nous permet de répondre au client rapidement, un prix on va dire du package. Sans avoir à attendre toutes les petites lignes et là le le le le, l’algorithme est vraiment très très pertinent.

– Marc — 08:32 :
Donc vous prenez le risque de suivre le prix annoncé par le machine learning. Vous assumez la différence si finalement le prix qui vous revient n’est pas le même, mais ça vous permet d’aller beaucoup plus vite et de proposer un un produit de de meilleure qualité entre guillemets.

– Antoine — 08:47 :
Tout à fait. Le client a sa réponse en 02h00 contre environ 48 heures sur le sur le reste du marché, ce qui est beaucoup plus intéressant pour lui quoi. Je voulais aussi parler d’un d’un 2ème cas d’usage qui est la lecture automatique de factures commerciales, donc là on est dans la data qui permet des innovations donc la facture commerciale c’est quoi c’est un document qui est bloqué par le client sur notre plateforme et qui contient les informations de ce qu’il y a dans un transport, un transport, c’est un conteneur et dedans des produits en général. Le client ne sait pas exactement quels produits sont dans le conteneur ou plus exactement il le sait, mais c’est sur un document PDF obscur, parfois même un scan envoyé par son fournisseur et du coup ça peut être très painful pour lui de savoir où sont les produits aujourd’hui grâce au machine learning, on prend cette image, on prend ce PDF On le lit automatiquement, on extrait les SKU les les, donc les les références de chaque produit qui sont dans le conteneur on l’upload sur notre plateforme et le client y a accès grâce à un moteur de recherche et à tout moment, il peut savoir ma Converse bleu en taille 42 Elle est dans ce conteneur là qui va arriver le 15 novembre au Havre. Et du coup je pourrais le vendre à partir du 25 novembre sur mon site d’e-commerce. Donc là c’est vraiment un nouveau use case qu’on débloque mais à nouveau c’est du machine learning tactique, c’est vraiment un pain, point précis qu’on va résoudre grâce au machine learning et et sur lequel on on on va itérer ensuite.

– Marc — 10:02 :
Oui, alors, pour bien décomposer ici le, vous avez des factures et vous utilisez le machine learning et la Computer Vision pour extraire, pour construire en fait un un outil d’extraction du contenu et ensuite ce que vous vous utilisez, c’est les données et vous les consommez de façon assez limpide. Vous les affichez aux aux clients sur votre interface.

– Antoine — 10:22 :
Utilisateur tout à fait, elles sont recherchables et cetera. En fait, on on prend une information qui est cachée dans un document qui est traditionnel dans notre secteur, mais absolument pas digitalisé. Et grâce au machine learning, on s’épargne l’étape de devoir tout. Ressaisir ce qui serait en fait même pas économiquement viable de juste ressaisir parce que, enfin, un conteneur, ça peut être des centaines de références et il y a des centaines de milliers de conteneurs qui sont expédiés chaque jour, donc ce serait complètement enviable. Grâce au machine learning, on débloque de la visibilité, on débloque un nouveau use case et on rend ces données accessibles aux clients et puis à l’utilisateur final finalement aussi.

– Marc — 10:58 :
C’est quoi la plus grande déconvenue?

– Antoine — 11:01 :
Que t’as eu avec?

– Marc — 11:03 :
La data?

– Antoine — 11:04 :
De pas en faire assez. Paradoxalement, je, c’est plutôt des coûts d’opportunité. Je pense que la data par moment AA des angles morts. Je parle par exemple nous nos sales price, les transports et ils le font avec leur expérience, mais ça reste quand même 1-1-1 marché qui bouge énormément. On l’a vu là, les les les prix des transports étaient divisés par 2 en en 3 mois. C’est quelque chose qui compliquait pour l’humain, à à vraiment intégrer et à réussir, à à intégrer correctement dans dans son pricing et en fait on a très tardivement utilisé la data pour aider les sales à price. On l’a fait dans les dans les derniers mois et en fait on s’aperçoit que c’est, c’est beaucoup mieux, c’est beaucoup mieux égards. Petit un, on vend mieux, les clients sont plutôt plus satisfaits de nos prix parce qu’en fait, ils correspondent beaucoup plus au au marché à ce qu’ils attendent. Et petit 2, les sales sont plus satisfaits puisque finalement ça les décharge d’une d’une charge mentale qui était juste fatigante et et pas du tout créatrice de valeur, en particulier sur les clients qui sont nos clients récurrents ou la relation est déjà bien établie.

– Marc — 12:05 :
D’accord par rapport à au fait que vous utilisez du machine learning pour pour pricer et que les prix évoluent. Comment est-ce que vous gérez cette? Bah on va dire ce data Drift hein pour utiliser un un mot technique, le fait que que la variable a à prédire évolue, ça distribution évolue. Comment est-ce que vous, vous gérez ce ces choses là?

– Antoine — 12:25 :
Donc déjà il y a un contrôle à posteriori. Nous on suit en permanence le l’écart entre ce qui est proposé et ce qui est facturé à la fin. C’est quelque chose qu’on suit comme le lait sur le feu, hein. Toutes les semaines, on regarde quatre-vingt-dix-huit quatre-vingt-seize, 99 % Enfin, c’est des choses qu’on qu’on suit ensuite en fait, alors pour rentrer un peu dans le détail, l’algo, il est-il est-il a 2 types de prédictions, il a la prédiction du prix et la prédiction d’est-ce qu’il doit envoyer le prix? Donc c’est un algo à 2 étages. Où en fait, on a? On a certes y a le prix mais ensuite il faut savoir est-ce que ce prix on veut l’envoyer au client ou pas en fonction d’un certain nombre de critères, donc à nouveau, on peut entraîner un algo pour savoir est-ce qu’on peut envoyer le prix? Ça dépend évidemment d’a pris lui même que c’est un prix élevé ou pas élevé, un prix à 20€ Oui, vous pouvez l’envoyer un prix à 20000€ Non vous demandez quand même vérification humaine, mais il y a aussi beaucoup d’autres choses. Par exemple le pays de destination. Il y a des pays sur lesquels l’algo sera beaucoup plus précis que d’autres, le mode de transport peut être même le la compagnie, la compagnie qu’on qu’on souhaite utiliser. Tous ces critères en fait permettent d’entraîner un 2ème algo dont la hot put, c’est l’indice de confiance dans le dans le prix et ensuite la décision d’envoyer ou non ce prix quoi.

– Marc — 13:41 :
D’accord, donc vous évaluez un peu le niveau de risque qui va avec le prix, le prix rendu?

– Antoine — 13:46 :
Tout à fait.

– Marc — 13:47 :
Alors, est-ce que tu as une opinion à nous partager sur la data?

– Antoine — 13:50 :
Moi, j’ai une une théorie qui est que les les meilleurs data scientists ont en fait une une double casquette assez rare, c’est qu’ils sont à la fois d’excellent Software engineer avec ce que ça implique en termes de compréhension de des systèmes modernes, de steering en particulier tout ce qui est contenu, son intégration continue, delivery et en même temps ils ont un excellent sens business pour justement échapper à l’écueil de ne s’intéresser qu’à l’engineering. C’est intéressant parce que sur le marché, il y a beaucoup de data scientists qui sont soit l’un soit l’autre. Sans vouloir tomber dans une dichotomie absurde. École d’ingénieur, école de commerce, il y a quand même un peu de ça avec des gens d’école de commerce qui vont avoir un excellent sens business mais qui, sur la partie Engineering, ça les intéressera beaucoup moins. Et inversement, des ingénieurs qui vont être très intéressés par la partie pipeline, mais qui en revanche en général ont un sens business assez moyen et donc en fait, il y a un sweet spot entre les 2, avec des profils qui sont presque une épiphanie et qui en fait maîtrisent les 2 aspects et qui sont vraiment des des pépites en entreprise et qui permettent vraiment de créer de la valeur pour pour tout, pour toutes les équipes quoi.

– Marc — 14:52 :
Un bon data scientist c’est un data Scientist qui a à la fois le business et les qualités de Software engineer.

– Antoine — 14:58 :
Tout à fait vraiment des vraies qualités de Software engineer au sens de du développement du développement informatique lourd quoi.

– Marc — 15:05 :
Pas juste pratique.

– Antoine — 15:07 :
Les bonnes pratiques on parle pas juste de savoir mettre 1-1-1 script Python sur un sur 1EC 2 pour pour faire tourner un un, scroller un clé la nuit. On parle vraiment de de best practice de domaine driven design, de Kraft, de choses comme ça quoi. Et ça c’est des profils qui sont extrêmement rares et qui je pense sont l’avenir des des fonctions data des entreprises.

– Marc — 15:31 :
C’était un conseil à donner à quelqu’un qui monte, une boîte comme oversea et 2-0 qu’est-ce que tu lui conseilles comme stack technique comme mise en place au début, sur quoi il faut se précipiter, sur quoi il faut attendre?

– Antoine — 15:44 :
Alors si on parle d’outils en eux-mêmes en ce moment, des BTA vraiment la côte? Dbt permet de faire vraiment énormément de choses. À titre d’exemple, nous, dans des BT on a mis tout en place, tout un système en place qui nous permet de faire des ce qu’on appelle des business. Check un business check c’est quoi c’est vous avez des des règles dans votre base de données des règles métiers dans votre base de données par exemple. Normalement une date d’arrivée c’est après une date de départ et c’est quelque chose que vous voulez avoir dans vos données parce que ça donne de la qualité et ensuite les les analyses sont beaucoup plus pertinentes. Et en fait, grâce à des BT par exemple, on a mis en place un un check, donc on a encodé cette règle. On a dit globalement les dates d’arrivée doivent être après les dates de départ et début tournent de manière régulière. Et si jamais il y a une incohérence qui est détectée, on a un système de notification qui se met en place de manière automatique et les personnes qui sont en charge de ces données sont prévues sur slack directement et doivent aller corriger, comprendre et cetera. Donc en fait on a pas d’intégrité by design en quelque sorte, on a juste une intégrité, une consistance à la fin, eventual consistency de nos données. À l’échelle de la semaine quoi d’accord,

– Marc — 16:53 :
Donc, c’est des tests qui ont été écrits par des humains. Le ces, ces choses là c’est pas c’est pas le les algorithmes qui sortent des anomalies tout seuls.

– Antoine — 17:01 :
Malheureusement pas encore. On aimerait évidemment, mais là on parle vraiment de de d’implicite métier qui est caché dans la structure de base de données qui est cachée au cours du process de développement et au dont on aimerait vérifier le le la, la cohérence à la fin.

– Marc — 17:16 :
D’accord et donc ça, vous avez des tests automatiques qui vous permettent de pas persévérer trop longtemps dans l’erreur? En cas d’anomalie en cas d’ouais.

– Antoine — 17:24 :
Tout à fait, y a rien de plus désagréable pour un data scientist que de prendre un dataset qui a qui a 2 ans et de s’apercevoir que à l’année précédente en fait il y avait une erreur dans les données et il y a tout un tas de données qui sont perdues ou manquantes ou bruitées parce que personne n’a juste pensé à regarder cette base de données à ce moment-là. Et le Bug aurait pu être détecté facilement. Quoi d’accord,

– Marc — 17:42 :
Donc même des données qui vous servent pas immédiatement, vous avez des tests pour vérifier que par la suite si on a besoin de ces données là? Elles sont intègres.

– Antoine — 17:51 :
Tout à fait pour reprendre la la la date d’arrivée qui est posée à la date de départ, c’est un exemple réel. Au fond, c’est pas très important. Si y a un peu de bruit dans les dans les données, le client va peut-être s’en apercevoir ou non que dans son reporting. Il y a eu une petite erreur, c’est des choses qui arrivent. Ça représente peut-être 01020 5 % des données, mais en fait, si vous êtes l’analyste qui reprend ces données dans un an, Ben en fait vous allez passer du temps à sur un problème qui devrait même pas exister et ça permet aussi en général de corriger des bugs cette fois-ci Software. Puisqu’en fait, quand vous avez une incohérence dans les données, c’est un bug Software qui est qui est sous-jacent et plutôt vous corriger le bug. Mieux c’est quoi d’accord ouais, des choses aussi simples que la date de départ antérieure à la date d’arrivée des tests. Comme ça, ça peut ça peut sauver un dataset utile dans 2 ans.

– Antoine — 18:38 :
Ouais, on on a, on a changé d’heure la semaine dernière. Quand vous êtes dev, c’est facile de faire plus un au lieu de moins un ces choses qui arrivent qui arrivent tous les jours et ça arrive même aux meilleur dev chez Averty donc c’est quand même très utile d’avoir ce genre de test à posteriori.

– Marc — 18:53 :
Ouais, vous êtes exposé à beaucoup de de Ben, on va dire de drift. Soit de ce genre là, mais ça peut être du des drift hardware, des changements de matériel, des changements de fournisseurs, des des choses qui font que d’un coup on a un comportement complètement différent dans les données du jour au lendemain.

– Antoine — 19:09 :
Ouais alors, pour reprendre à nouveau la métaphore des heures, les heures, c’est vraiment un vrai problème dans le dans le transport international. Quand vous êtes développeur parce que vous savez jamais à quelle heure vous êtes, enfin, quand un transport par de Shanghai arrive à Paris, que la donnée elle est hébergée sur un serveur à Londres et que la personne qui s’en occupe en Allemagne, c’est un cauchemar absolu de savoir quelle heure vous devez stocker, quelle heure vous devez afficher et comment vous devez calculer, par exemple, votre quelque chose d’aussi bête que le la durée du temps de transport. Et ça, c’est c’est un c’est un vrai, une vraie difficulté et du coup, effectivement, si vous changez de serveur, que vous passez de la de la zone à WS en Irlande, à la zone à W de Francfort et Ben Ouais y a des choses qui changent de date parce qu’avant c’était le 23 janvier à minuit. Et puis du coup vous affichez 23 janvier et puis après c’est le 22 janvier à 23h00 et puis là bah vous affichez 22 janvier et le la personne qui doit se pointer à Shanghai pour récupérer le conteneur. Eh Ben y a pas la bonne journée quoi.

– Marc — 20:10 :
Aujourd’hui, quand tu recrutes les gens dans ton équipe data, tu cherches quoi alors ça dépend un peu de de, du niveau, de maturité. Je pense que les, les premières personnes il y a un vrai objectif de légitimation de la data dans dans l’entreprise, en particulier s’il y a pas de fonder qui s’en occupe, qui s’occupe de la data?

– Marc — 20:29 :
Ce qui est votre cas?

– Antoine — 20:30 :
Ce qui est notre cas. Moi, j’ai très peu de temps pour m’occuper de la donnée et donc je dirais que les les tous premiers data scientists qu’on a recrutés c’est des gens qui doivent être inspirants, qui doivent comprendre vraiment la valeur business de la data, pouvoir évangéliser les gens. Il y a vraiment un travail d’évangélisation. Pour les premiers employés et donc, ils doivent être capables d’être vraiment transverses, d’aller voir toutes les équipes, comprendre leurs besoins, leur proposer des solutions et les convaincre d’utiliser la data au quotidien. Ça, c’est vraiment les tous premiers employés d’une équipe data. Ensuite, il faut aller chercher des spécialistes quand on a des problèmes de de pipeline. Et Ben oui, il faut aller chercher des gens qui sont des excellents data engineer et qui vont pouvoir résoudre ce problème. Seul bémol, je pense quand même qu’il faut toujours garder en tête l’aspect business, on fait de la data pour le business, il faut pas résoudre des problèmes pour résoudre des problèmes et ça je pense que c’est important de le tester en entretien en permanence et d’avoir des dentistes qui comprennent, qui vont travailler dans le secteur du transport international de marchandises qui en ont envie, que ça passionne pas forcément, mais en tout cas qui ont une appétence pour ce secteur et qui vont réussir du coup à à être motivés au quotidien et à comprendre pourquoi on fait tout ça, pourquoi on fait aussi certains compromis par moment, ça c’est très important. Ouais.

– Marc — 21:38 :
Tu parles d’évangélisation, c’est quoi les grandes idées reçues à casser ou les grands messages à faire passer au à au reste de l’équipe pour toi?

– Antoine — 21:47 :
C’est, c’est un je dirais que c’est un problème qui est plus vaste que celui de l’entreprise. On le voit aujourd’hui avec des des sujets tels que tels que le réchauffement climatique ou en fait on a une forme de scepticisme vis-à-vis de la donnée, en particulier quand la donnée contredit notre expérience quotidienne. Quand il fait froid, les gens ne croient plus au réchauffement climatique. C’est quand même, c’est que c’est, c’est très bizarre, mais c’est comme ça quoi, c’est un peu pareil en entreprise. Les gens, ils sont dans leur quotidien, ils ont des intuitions, ils connaissent leur métier, ils ont des angles morts, mais ils s’en aperçoivent pas. Et donc finalement, le rôle de la data, c’est avec tact et pédagogie de les amener vers une meilleure compréhension de leur métier et de les de leur apporter des outils pour justement éclairer ces angles morts. Avec une lampe torche un peu nouvelle, je vous rassure, nous on a pas de de, de climato-sceptique ou de data sceptique chez Oversea donc c’est la mission est beaucoup plus facile, mais c’est un peu les les mêmes, les mêmes ressorts que doit mobiliser les le premier Data Scientist.

– Marc — 22:47 :
Comment vous mesurez la réussite ou la performance de vos projets data ou de vos algos de machine learning?

– Antoine — 22:54 :
Alors on essaie de le faire de la manière la plus data possible, donc pour parler de pour parler par exemple, de du du pressing automatique. Nous, on a 1KPI qu’on suit qui est le le temps de réponse au client, combien de temps on met pour envoyer une proposition au client après qui nous en a fait la, la demande et donc tout simplement on se donne des objectifs? Je pense qu’avant, le projet était autour de 03h30 de médiane. Le but c’était de tomber à 02h00 Quels étaient les moyens pour pour tomber à 02h00 Quels quels sont l’enfin pour rentrer un peu dans le détail quand on répond plus vite, on s’aperçoit qu’on on améliore, qui s’appelle notre Win ratio. Donc, notre taux de conversion sur la proposition donc là après bah c’est c’est du produit en croix hein? On améliore le taux de conversion de X % en améliorant de X minutes le temps médian et du coup on peut calculer un roi et on peut regarder si on met des investissements en face, est ce qu’on peut faire un projet de 2 semaines, 3 mois, 6 mois? Et on on avance comme ça ouais. D’accord après, en toute transparence, il y a quand même des projets où qui sont un peu des Paris, qui, qui représentent un peu une une, une intuition pour parler du du projet facture commerciale donc celui où on lit les documents automatiquement pour le restituer à nos clients. On a pas de chiffres exacts sur combien de clients vont utiliser oversea en plus si jamais cette feature existe? On a une espèce de vision pour le marché qui est les gens veulent de la visibilité au niveau du SKU mais on aurait du mal à le quantifier si tu me demandais un chiffre, je serais très embêté quoi.

– Marc — 24:27 :
Donc si je résume un peu votre usage data, on va avoir? Le plus haut niveau, c’est le ML tactique, ce que t’as appelé l tactique. J’aime beaucoup l’expression, je pense que je vais te la voler. Vous vous adressez à des petits problèmes qui sont. Bien qualifié pour le machine learning, vous avez validé où invalidé des intuitions, même prioriser les usages en en général. Et puis vous avez un champ on va dire monitoring, détection de problèmes, détection d’anomalie et vous assurez d’enfin de la de la conformité pour trouver les problèmes avant qu’avant qu’ils soient coûteux quoi.

– Antoine — 25:02 :
Tout à fait. Il y a un dernier, un dernier point peut être je je voulais aussi éventuellement évoquer la ce qu’on pourrait appeler la la data gestionnaire. Nous on utilise aussi donc je parlais du fait qu’on Mappy notre transport extrêmement finement. On sait exactement ce qui se passe. Sur chaque transport, le temps que ça va prendre, mais en fait, on sait aussi dans le futur, c’est à dire que, en fonction des transports qui sont dans le dans le pipeline, on sait quel va être la charge de travail dans une semaine, 2 semaines, 3 semaines. Et ça, ça nous permet vraiment de piloter le le le le les équipes parce qu’en fait bon les équipes elles sont pas extensibles mais en revanche il y a des gens qui ont des projets plus ou moins B, plus ou moins run. Quand vous travaillez au pricing chez Over Sea, vous allez aussi par exemple travailler sur la création d’un réseau de fournisseurs en Italie qu’on est en train d’ouvrir. Il se trouve que si jamais. Il y a une semaine de rush que l’algorithme prédit qu’il y aura une semaine de rush dans une semaine, dans 2 semaines, vous pouvez mettre en stand-by ce projet et aller aider les collègues qui sont en première ligne sur le sur le, sur la gestion des transports. Quoi donc c’est vraiment un outil qui permet de d’aider les gens à prédire la charge de travail et finalement à lisser et à rendre le travail plus agréable pour tout le monde quoi.

– Marc — 26:10 :
Oui, il y a de l’exploration aussi guidée par la curiosité, entre guillemets, grâce à des outils comme metabase et et leur facilité d’utilisation. Le fait que votre stack technique est bien construit. Clair, ça vous permet un peu de Ben de suivre votre intuition de de visualiser des choses et et peut être prendre des décisions à la volée par rapport à ce que vous avez vu.

– Antoine — 26:31 :
Quoi ouais tout à fait. C’est le but en tout cas et…

– Marc — 26:35 :
On a bien compris que donc la data vous avez énormément aidé à apprendre plein plein de décisions. Est ce que à un moment donné vous vous êtes dit ça c’était un peu gadget ce truc là, cette visualisation là, on en a pas besoin.

– Antoine — 26:50 :
C’est le le combat des data scientists et de Metabase Metabase c’est super parce que tout le monde peut créer ces questions, faire ces analyses le pendant de ça, c’est que c’est un bazar sans nom et qu’il faut une rigueur et une une force d’une force. Frère pour pour que ce ce système tienne et y a, je pense, des centaines de dashboard sur Metabase qui ont été utilisés une fois deux fois trois fois et en fait, on s’est aperçu que ça fonctionnait pas et ce que je dirais que c’est une erreur, non je pense pas. Je pense que c’est le signe que les gens utilisent la data veulent s’en servir mais un peu à la manière de de l’Agile en Software. Bien malin serait celui qui arriverait à prédire ce qui sera vraiment utile au client au jour 0.

– Marc — 27:37 :
Quoi c’est une façon d’explorer et de s’approprier.

– Antoine — 27:39 :
L’outil exactement. Et donc moi je suis plutôt optimiste. Et finalement, je trouve que c’est plutôt le le symbole d’une réussite qu’y ait autant de de déchets. Évidemment, je préférerais que mes abeilles soient très bien rangées, que chacun ait son dashboard et avec toutes les informations utiles pour lui. Mais c’est un monde qui qui n’existe pas de la même manière qu’on peut pas créer un Software qui répond à à toutes les demandes de de nos clients en en commençant le premier jour.

– Marc — 28:03 :
D’accord, donc metabase cet outil de de Business Intelligence y a trop de dashboard dessus. Qui c’est qui les fait? Ces dashboard, c’est les data scientists ou c’est vraiment tous les usagers de metabase, c’est-à-dire des gens qui sont pas data?

– Antoine — 28:17 :
Alors tout le monde peut le tout le monde peut le peut en faire. Voilà effectivement donc je parlais au début de de l’équipe data qui mettait à disposition metabase d’équipes plus analytique. On va dire que le le gros des dashboard est produit par ces équipes analytiques, donc ces équipes de support en sales en opération en produit, qui vont-elles réellement produire des dashboard DS et faire appel à l’équipe d’attaque? Ça dépasse leurs compétences quand c’est un peu compliqué quand il y a des requêtes SQL à écrire qui sont trop complexes, mais en général c’est plutôt ces équipes qui sont les, les créatrices des et des dashboard qui les maintiennent et qui les consultent.

– Marc — 28:49 :
Le choix de metabase il s’est fait par rapport à quoi alors le choix pour être tout à fait transparent, donc à notre époque, c’était metabase ou looker? Je connais un peu moins bien les les outils aujourd’hui, mais enfin c’était les les 2 grands concurrents de l’époque metab était gratuit, looker coûtait environ 20000€ par an. Quand vous êtes une start-up, c’est le choix. Le choix vite fait. Néanmoins, on est vraiment très satisfait metabase moi c’est un outil que je recommande chaudement, je trouve que c’est enfin, c’est vraiment ils font vraiment du super boulot et c’est très facile à prendre en main et c’est un outil de self I qui est très performant et qui est largement suffisant pour une entreprise de 150 personnes et je pense, le sera encore pour une entreprise de 300 à 500 On verra après ce qu’on fait, mais pour le moment ça nous suffit largement.

– Marc — 29:35 :
Si tu devais donner un conseil à un data Scientist qui sort d’école, tu dirais quoi.

– Antoine — 29:41 :
Je pense qu’il faut se se détacher de de ce qu’on a vu à l’école en data science. J’ai, j’ai moi-même suivi une formation data avec des Mata APP de l’informatique et et et la vérité c’est quand même que la data en entreprise ne ressemble pas du tout à la data. En école, on fait, on fait pas de cas gueule en entreprise, les données sont horribles, il faut aller demander à quelqu’un dans une autre équipe qui est en vacances pendant 3 semaines, de récupérer tel champ pour reconstruire telle chose, il faut aller acheter un bout de données à droite. La partie, on va dire réellement data du métier Data Scientist en entreprise, elle est extrêmement faible ou en tout cas selon moi, pour les data scientists qui veulent vraiment apporter de la valeur à l’entreprise, je pense y a quelques entreprises en France qui font vraiment du machine learning, de la data, des entreprises qui font 500000 personnes alors y a les très gros évidemment les Facebook, Google et cetera. Je pense aussi qu’il y a des gros, des Thales, des Vinci dis des gens comme ça qui ont des équipes d’attaque qui font de la data toute la journée. En revanche, les gens qui font de la data dans des entreprises de 50 personnes, c’est avant tout des couteaux. C’est des gens qui vont vraiment vouloir résoudre le problème et à un moment donné, ils auront sur leur étagère de solutions l’algorithme qu’ils auront qu’ils auront appris en cours, mais ça représente 5 10 15 % de leur temps maximum et ça, il faut vraiment le comprendre. Sinon c’est la déception assurée quoi.

– Marc — 31:05 :
D’accord, donc l’utilité dans la Scientist pour toi elle existe que si il a un champ de compétences variées quoi. Il couteau-Suisse comme tu dis et il peut-il peut s’adapter à des problèmes très différents.

– Antoine — 31:18 :
Tout à fait, c’est vraiment pour moi les les, les meilleurs, les meilleurs data scientists, c’est, c’est vraiment ceux qui sortent de leur de leur notebook et vont confronter leurs idées au monde réel dans l’entreprise. Et ça, ça prend du temps. C’est désagréable. Enfin c’est c’est, c’est sortir de sa zone de confort, hein, ni plus ni moins, mais c’est c’est c’est c’est Game changer pour les entreprises, et si, enfin ceux qui arrivent à faire ça. C’est c’est ça devient des des des stars du du, des équipes quoi.

– Marc — 31:46 :
Vous avez changé de main, entre guillemets, le le groupe Bolloré a pris une participation, donc en 2020 de ma participation majoritaire, est-ce que ça fait peur d’un point de vue data, l’intégration dans un groupe comme Bolloré?

– Antoine — 31:58 :
Nous le, l’on parle de de de participation majoritaire. Le le terme exact serait vraiment investissement. Le groupe Bolloré a compris dès le début de nos discussions qu’y aurait pas d’intégration, que c’était pas le but, eux croient en nos visions de marché. Eux-mêmes sont commissionnés transport, c’est un, c’est le leader français de la commission de transport, et donc eux croient en notre position de marché. Eux comprennent que la digitalisation arrive à grand pas et que nous, on est en train de réussir. Ce pari, eux ont des problématiques différentes. C’est un groupe gigantesque, avec des problématiques de volume, des problématiques de de change, management, et cetera. Ils savent qu’on peut pas leur apporter le changement chez eux, ils sont 20000 on est 150 on peut pas, on peut pas faire bouger un tel mastodonte. Donc finalement, comme il y a pas d’intégration au niveau donné, c’est assez léger. Il y a quand même des choses qui se passent, par exemple, on on échange des informations de prix sur des routes, sur des routes par exemple, un Shanghai Le Havre, on sait combien vous l’aurez payent, ils savent combien on paye. On essaie de s’entraider, mais c’est assez léger, donc finalement c’est c’est assez, c’est assez facile.

– Marc — 33:00 :
Pour conclure le le futur d’oversea et de la data chez Oversea, qu’est-ce que c’est toujours prendre des des décisions data-driven, continuer cette cette évangélisation, continuer ce ce cette kpi, isolation de de de nos métiers pour pas prendre des décisions qui soient trop basées sur l’intuition, il faut de l’intuition dans votre métier hein, je dis pas, je dis pas le contraire, mais il faut quand même à un moment donné se baser sur des chiffres, en particulier lorsqu’on est beaucoup quand on était 5. Finalement, on arrive à se mettre d’accord. Et à partir sur sur une solution. Aujourd’hui, vous êtes 50, vous êtes obligé de convaincre les gens plutôt que de les persuader et d’avoir des éléments tangibles, chiffrés pour montrer dans la direction dans laquelle vous voulez aller quoi. Merci Antoine, merci beaucoup Marc.

– Antoine — 33:43 :
Merci d’avoir écouté data-driven One One si vous avez aimé, n’hésitez pas à vous abonner à la chaîne, à likez et à partager. La semaine prochaine, je recevrai Victor billet de vimeur Product manager chez L’Oréal pour nous parler de son expérience avec la data à très vite.

DATA , TRANSPORT & LOGISTIQUE

Antoine Sauvage , CTO de Ovrsea , est le premier invité de Data Driven 101. Il réponds aux questions suivantes:

Comment une bonne structuration data permet-elle de prioriser les problèmes à résoudre ?

Comment le Machine Learning « tactique » peut-il débrider la création de valeur ?

Comment choisit-on les Data Scientists dans une startup tech au parcours aussi fulgurant ?

Suivez-nous

En savoir plus

DATA , TRANSPORT & LOGISTIQUE

Antoine Sauvage , CTO de Ovrsea , est le premier invité de Data Driven 101. Il réponds aux questions suivantes:

Comment une bonne structuration data permet-elle de prioriser les problèmes à résoudre ?

Comment le Machine Learning « tactique » peut-il débrider la création de valeur ?

Comment choisit-on les Data Scientists dans une startup tech au parcours aussi fulgurant ?

Vous devriez également aimer

David El-Kaïm : Web scraping

Maxence Ernoult : S’inspirer du vivant

Hamza Tajmouati : L’IA générative pour créer des médicaments

Suivez-nous

En savoir plus