IA & Évaluation du risque : Financement des PME

Dany Srage, Data Scientist chez DeFacto est l’invité de l’épisode 69 du podcast Data Driven 101. 

Comment DeFacto utilise l’IA et l’Open Banking pour révolutionner le financement des PME ?

Il nous dévoile les coulisses de leur algorithme de credit scoring et les défis de la data science appliquée au prêt. Un épisode riche en enseignements pour comprendre les enjeux de la data dans le secteur financier.

IA & Évaluation du risque : Financement des PME - Dany Srage (Data Scientist @DeFacto) #69

 

Marc Sanselme 00:00:00 – 00:00:14 : Aujourd’hui, je reçois Dany Sraj, Data Scientist. Après Blablacar et Amazon, il a rejoint DeFacto pour lancer l’équipe Data Science il y a deux ans et demi. DeFacto est une startup française qui permet un financement rapide et flexible pour les PME. Bonjour Dany. 

 

Danny Srage 00:00:14 – 00:00:15 : Bonjour Marc. 

 

Marc Sanselme 00:00:15 – 00:00:20 : Alors Dany, je te rends la parole sur DeFacto. Qu’est-ce que tu peux nous dire de cette entreprise ? 

 

Danny Srage 00:00:20 – 00:01:45 : Merci, effectivement, on fait des prêts au PME principalement pour résoudre un gros problème qu’il y a, c’est le BFR. Donc globalement, qu’est-ce que ça veut dire ? C’est que quand il y a une entreprise qui va produire quelque chose pour un client, en général, elle va se faire payer dans trois mois par son client, mais elle, elle doit payer ses fournisseurs dans deux mois. Donc il y a un petit décalage de un mois, donc c’est ça qu’on essaye vraiment de financer. On le fait à la fois en direct, donc il y a des PME qui vont venir, qui vont dire, écoutez, moi j’ai besoin de financer mon stock, et aussi en indirect, c’est-à-dire qu’on est vraiment un produit qui est API first, donc il y a des partenaires comme par exemple Penny Lane ou Conto qui vont intégrer nos API et elles vont avoir du coup notre infrastructure de crédit pour pouvoir effectuer ces prêts sur la plateforme. Donc on est vraiment ce modèle innovateur. à la fois indirecte et directe. Et ce qui est vraiment fou, et c’est un peu ça que j’ai aimé quand on m’a présenté les de facto, c’était qu’on a vraiment la pipeline end-to-end, c’est-à-dire que c’est à la fois nous qui gérons l’argent qu’on emprunte pour après redistribuer, le credit scoring, dont on parlera tout à l’heure pour savoir si l’entreprise est solvable ou non, Et après, récupérer les prêts. Et quand on ne les récupère pas, vraiment gérer toute cette partie de récollection. Donc, on fait vraiment tout et on a une identité assez forte de rester petit. Donc, pour l’instant, entre 20 et 25 personnes. Et quand on veut rester petit et qu’on fait toute cette pipeline, c’est assez intéressant parce que ça nous force à vraiment automatiser la plupart des flux et vraiment toujours être créatif sur cette tâche qui peut être répétitive et pour laquelle j’aurais besoin de quelques personnes. Comment est-ce que je peux la faire ? en restant petit. On a vraiment joué sur cette digitalisation pour faire des prêts. Aujourd’hui, on peut faire des prêts en 30 secondes, par exemple, en ayant toute la pipeline qui tourne. 

 

Marc Sanselme 00:01:45 – 00:02:00 : C’est plutôt cool. Pour bien comprendre, imaginons que je sois un client de DeFacto, je suis chez Penny Lane et chez Conto. Qu’est-ce qui se passe ? Je fais un devis sur Penny Lane. Au moment où il a accepté, automatiquement, ça fait une demande de prêts sur DeFacto. Quel est le mécanisme de connexion ? 

 

Danny Srage 00:02:00 – 00:02:23 : Ça va dépendre du partenaire en fonction de comment il va intégrer nos API, parce qu’avec nos API, les partenaires font ce qu’ils veulent. Donc bien souvent, sur l’outil, on verra notre facture et on pourra avoir un bouton qui dira « financer cette facture ». Et donc là, après, c’est notre système qui rentre en jeu. Et ça, c’est bien caché. On va dire aux yeux des entreprises, ils ne savent pas nécessairement, en tout cas sur l’X, qu’il y a nous qui sommes derrière. 

 

Marc Sanselme 00:02:24 – 00:02:40 : D’accord, vous êtes un marque blanche derrière et directement sur une facture. Donc plutôt, pas au moment du devis, mais au moment de la facture fournisseur. On dit, cette facture-là, j’aimerais la faire financer. Il y a un prêt du même montant, une demande de prêt du même montant qui peut se faire en un clic, si je comprends bien. 

 

Danny Srage 00:02:40 – 00:02:49 : C’est ça, oui. Donc du coup, nous, on ne finance pas des devis, on finance vraiment des factures parce qu’elles correspondent à ce besoin en question. Et après, c’est le montant de la facture. bien souvent, effectivement. 

 

Marc Sanselme 00:02:49 – 00:02:54 : Ok, super. C’est quoi les sujets, du coup, data et IA chez vous ? 

 

Danny Srage 00:02:54 – 00:03:32 : Il y a un gros sujet. data, ça va être le credit scoring. C’est-à-dire, quand une entreprise va venir chez nous, on va lui dire, vous, vous avez le droit à 20 000 euros, par exemple, que vous pouvez emprunter en une ou plusieurs fois. Donc ça, c’est vraiment le gros sujet qu’on appelle le credit risk. Après, il y a d’autres sujets, donc la fraude, et après, d’autres sujets un peu plus classiques aux boîtes, c’est-à-dire comment est-ce qu’on peut améliorer le côté opérationnel avec l’AI. Mais le gros focus aujourd’hui, c’est quand une entreprise vient, lui proposer un montant qui paraît pertinent, pour qu’une fois qu’on lui a dit 20 000 euros, elle peut l’utiliser soit en une fois et elle tire ses 20 000 euros avec une facture, soit peut-être qu’elle a 10 factures différentes de 2 000 euros et donc dans ce cas-là, tout dépile. 

 

Marc Sanselme 00:03:32 – 00:03:43 : Alors peut-être qu’on peut rentrer dans le détail de ces trois cas d’usage. Credit scoring, peut-être déjà pour commencer, on parle de quoi ? On parle de prédiction, de risque de défaut ? 

 

Danny Srage 00:03:43 – 00:04:38 : C’est ça. oui, alors là où il y a une vraie complexité c’est que bien souvent quand on va par exemple sur un site internet acheter cet objet et le financer, ce qui se passe globalement c’est qu’il y a déjà un montant qui va être montré. et donc la question à laquelle les entreprises essaient de répondre c’est est-ce que cette personne peut emprunter 1200 euros par exemple ? Là, nous, c’est un peu plus compliqué. C’est que quand la personne va venir, elle va connecter ses comptes bancaires chez nous. Et après, c’est nous qui allons devoir nous prononcer sur le montant. Donc, il y a à la fois deux sujets. Il y a la prédiction du montant qu’on pense pouvoir prêter. Et une fois que la personne a fait une demande de prêt, soit de tout ce montant, soit de plus petit montant, essayez de prédire à ce niveau-là, est-ce qu’on va accepter ou non ? Et en théorie, il faut qu’il se soit bien synchronisé. Et si on a dit oui pour 20 000 euros, il faut que si on fasse 10 demandes de 2 000 euros ou une demande de 20 000 euros, les deux passent. Et en fait, cette question qui est de combien est-ce que je peux donner, elle est bien plus dure à répondre à nos yeux, en tout cas, que voici le montant dont j’ai besoin. Est-ce que vous l’acceptez, oui ou non ? Parce que ça, c’est un problème un peu plus classique, on va dire. 

 

Marc Sanselme 00:04:38 – 00:04:48 : D’accord. Alors, je n’ai pas bien compris pourquoi est-ce qu’il y avait besoin de deux étapes. Qu’est-ce qui fait la différence ? Pourquoi, en gros, est-ce que vous pourriez dire non la deuxième fois ? 

 

Danny Srage 00:04:48 – 00:05:30 : Donc, ce qui va se passer, c’est une bonne question. C’est, imaginez une entreprise avec des très gros revenus. On va se positionner sur une ligne de crédit à 100 000 euros, par exemple. Peut-être que nous, ce qu’on va voir, c’est que la plupart du temps, toutes ces factures fournisseurs sont, par exemple, à un montant de 1 000 euros. Si là, d’un coup, l’entreprise vient avec une facture qui est à un montant de 50 000 euros ou de 100 000 euros et qu’elle tire d’un coup, le modèle va être un peu moins content que si c’était justement une facture d’un montant habituel. De la même manière, on peut imaginer que le prêt, nous, vu qu’on est sur du BFR, c’est des prêts qui sont relativement courts jusqu’à 4 mois. Si la plupart du temps, on détecte que tous les prêts sont d’une durée de 15 jours et que là, d’un coup, il y a un prêt un peu plus élevé d’une durée de 4 mois, ça ne veut pas dire qu’on va dire non, mais globalement, ça peut expliquer une prédiction un poil différente. 

 

Marc Sanselme 00:05:30 – 00:05:53 : D’accord. Donc l’idée, c’est est-ce que tu es en train de demander la même chose que d’habitude ou pas ? Tu peux avoir anticipé en disant on va te prêter jusqu’à dix fois ce montant-là que tu as l’habitude de dépenser dans le cadre de ton activité. Mais si tu viens demander dix fois ce montant en un seul coup, on peut se dire là, qu’est-ce que tu es en train de faire ? Tu es en train de changer un peu tes habitudes et nous, on s’est basé sur tes habitudes pour faire nos prédictions. C’est un peu ça l’idée. 

 

Danny Srage 00:05:53 – 00:06:19 : C’est un peu ça l’idée. et quand on y réfléchit, c’est vraiment si par exemple on sait que l’entreprise va tirer que des prêts à hauteur de 1000 euros par exemple, donc des petits prêts entre guillemets, peut-être que notre algo il aurait envie de donner plus que si en fait ça va être un gros prêt parce que du coup il y aurait moins le temps d’avoir du feedback sur l’historique avec l’emprunteur. Donc il y a plein de considérations comme ça qu’il faut prendre en compte. Alors évidemment on ne les prend pas toutes en compte pour l’instant, c’est itératif, c’est un problème compliqué, mais c’est vraiment ça la problématique globale. Ok. 

 

Marc Sanselme 00:06:19 – 00:06:35 : Alors voilà, from scratch, comment est-ce qu’on construit un algo de prédiction, enfin de détermination du montant, puisque c’est celui-là qui arrive en premier chez vous, de ce que je comprends. Comment est-ce qu’on détermine le montant qu’on est prêt à prêter à une entreprise ? 

 

Danny Srage 00:06:35 – 00:06:43 : Alors, on a simplifié le problème et on a séparé le sujet en deux. Une première question qui est, est-ce que cette entreprise nous paraît solvable ou non? 

 

Marc Sanselme 00:06:43 – 00:06:44 : ? 

 

Danny Srage 00:06:44 – 00:10:13 : Et le montant. Donc le montant, pour l’instant, il ne vient pas encore trop dans l’optimisation de l’algorithme. On l’a fixé en fonction d’une grille, entre guillemets, et cette grille est alimentée par le score qu’on trouve. Et ce score, du coup, au début, en tout cas, on a commencé de manière assez indépendante. Quand on s’est lancé, on n’avait pas de données. Donc, du coup, il y avait vraiment un vrai problème de call start. Alors, il y a peut-être des acteurs dans le marché sur lesquels on pourrait récupérer, par exemple, des notes de solvabilité, mais ce n’est pas forcément évident parce que souvent, elles vont prédire la défaillance d’une entreprise sur le long terme. Nous, quand on fait des prêts plutôt court terme, en fait, ce n’est pas les mêmes enjeux. Prédire un défaut à trois mois, ce n’est pas la même chose que prédire un défaut à un an ou deux ans. Donc, ce n’était vraiment pas évident. Donc, on a commencé par une approche un peu plus statistique et beaucoup moins ML que ce qu’on a aujourd’hui. C’est-à-dire qu’on a regardé plein de KPIs financiers qui nous paraissaient intéressants. Au tout début, on a commencé d’ailleurs avec un modèle qui vient d’un expert. Donc, on calcule des KPIs financiers en fonction d’une note. Et quand on a eu assez de données pour commencer à regarder des distributions intéressantes, ce qu’on s’est dit, c’est que globalement, un emprunteur va nous rembourser. Quand on ne rembourse pas, c’est vraiment une anomalie, on va dire. Et donc, une fois qu’on a dit ça, on a transformé le problème en détection d’anomalies. Et donc, ce qu’on a fait, c’est que par exemple, on a regardé une distribution, par exemple, de la croissance des revenus. Et en fait, comme beaucoup de distributions, ça ressemble à des gaussiennes, sauf des fois, potentiellement, il y a des pics à droite et à gauche de la gaussienne, ou en tout cas, il y a des choses qui s’éloignent de la moyenne. Et on s’est dit qu’en fonction du capital financier, soit on veut rendre ça, on trouve que c’est un bon signal positif, et donc dans ce cas-là, ça va bonifier une note, soit à l’inverse, ça va, s’il y a vraiment une décroissance, c’est vraiment dans des valeurs extrêmes, ça va être plutôt un malus pour la boîte, et donc… Globalement, on a un système de bonus-malus qui fait qu’on arrive à une note pour l’entreprise. C’est une note qui est à la fois, quand on le dit, c’est très loin des approches un peu supervisées qu’on pourrait avoir, mais c’est très explicable. Et en fait, finalement, quand une entreprise a une note, on arrive très facilement à comprendre comment cette note est venue parce qu’on connaît les capillaires financiers et on sait qu’à priori, c’est parce qu’il y a une décroissance, mais par contre, il y a beaucoup de revenus. Et en fait, c’est très explicable. Là où on s’est dit que ça ne suffisait plus et on avait le luxe d’avoir déjà un peu plus de données, c’est que finalement, les distributions, en fonction des clients qu’on a, ça peut énormément changer. Par exemple, quand le compte bancaire va être un compte de dépense, ça va souvent être des comptes pour lesquels tu ne peux pas aller en dessous de 0€, alors qu’un compte bancaire plus classique, tu peux aller en dessous de 0€ si tu as un découvert autorisé. Et donc là, déjà, en fonction du type de banque, on peut avoir deux distributions qui sont différentes et c’est plus très fair, par exemple, de comparer les KPIs financiers en sachant que les distributions intrinsèques sont différentes. Donc là, on se dit, si on commence à faire plusieurs règles avec plusieurs types de distributions, ça commence à être un peu plus compliqué. Et le deuxième point qu’on a trouvé intéressant, c’est que ce n’était pas finalement si linéaire que ça. Quand on parle de la croissance des revenus, on peut imaginer que plus c’est élevé, mieux c’est, et inversement. Les autorisations de découvertes, un truc pas intuitif, mais on préfère une entreprise qui a moins 100 000 euros sur son compte que zéro euro, parce qu’en fait, si elle a zéro euro, probablement c’est qu’elle n’a pas eu d’autorisation de découvertes, alors que si elle a moins 100 000 euros, c’est qu’elle l’a eue. Donc maintenant, la distribution, c’est plus vraiment une gaussienne. Il peut y avoir deux modes où, en tout cas, nous, on va valoriser plus seulement des extrêmes. Et c’est là qu’on se dit, si on commence à faire des règles plus linéaires, c’est le moment de passer à autre chose. Et ça nous a permis de tenir quand même pas mal de mois avec une bonne qualité de résultat. Et c’est là qu’on s’est dit, maintenant, on est un peu plus prêt pour… du ML et des prêts un peu plus classiques parce que finalement, on a réussi à se faire un historique. Donc, telle entreprise avec tel KPI financier, elle a remboursé, elle n’a pas remboursé tant de jours de retard, tant de jours en avance. On a eu le temps d’avoir suffisamment de prêts pour pouvoir faire un premier modèle. 

 

Marc Sanselme 00:10:13 – 00:10:28 : D’accord, parce que vous, ce que vous avez, j’imagine, c’est les informations qui sont disponibles via l’open banking. Donc, tout ce qui est transactions, vous avez l’information sur les transactions et les montants sur les comptes, mais vous n’avez pas nécessairement accès à des informations sur les prêts, ce genre de choses ? 

 

Danny Srage 00:10:28 – 00:11:12 : Alors du coup, effectivement, une des grosses briques de notre système, c’est l’open banking. C’est vraiment le cœur du système parce qu’on peut récupérer, comme tu le sais déjà, mais vraiment des milliers de transactions instantanément une fois qu’on a l’accès. Donc ça, c’est vraiment super. Après, on utilise d’autres informations. C’est par exemple toutes les données publiques. la date de création de la boîte, est-ce que le dirigeant a cinq boîtes en parallèle, ce genre d’infos, les factures aussi. Par exemple, quand on est sur un outil comptable comme PennyLane, on a aussi accès aux factures. Il y a plusieurs informations et après, c’est à nous de rajouter de l’intelligence au niveau des transactions. Par exemple, quand on voit un montant de capital remboursé tous les mois, on va comprendre qu’il y a un prêt. C’est à nous aussi de tirer l’intelligence de ces transactions-là pour un peu reconstruire le bilan de l’entreprise. 

 

Marc Sanselme 00:11:14 – 00:11:42 : Pas mal de sous-étapes pour retomber sur les indicateurs qui comptent pour vous, la croissance, le chiffre d’affaires, en partant de snapshots de trésorerie à plein de moments du passé. C’est ça, oui. Si on reprend à la genèse, c’est quoi les KPIs financiers que les experts, des gens qui travaillent en banque j’imagine, vous ont fait remonter comme étant des statistiques à regarder quand on fait un prêt ? Qu’est-ce qu’un expert regarde ? 

 

Danny Srage 00:11:42 – 00:11:49 : Oui, je comprends. Il y a la diversification des revenus, par exemple. Est-ce que tu as un seul gros client ou est-ce qu’au contraire, tu en as beaucoup? 

 

Marc Sanselme 00:11:49 – 00:11:49 : ? 

 

Danny Srage 00:11:49 – 00:12:40 : Parce que du coup, tu es plus ou moins risqué si tu as moins de dépendance avec d’autres entreprises. Tu vas avoir la croissance. Tu peux aussi avoir des taux d’endettement. Est-ce que des chiffres d’affaires ? Donc, en tout cas, dans notre premier modèle, il n’y en avait pas énormément. Mais ce qui est intéressant, c’est qu’au fur et à mesure qu’on a fait nos prêts, on a réalisé qu’il y avait des choses beaucoup plus subtiles qu’on pouvait regarder. Et à l’échelle de la transaction, finalement, un taux d’endettement, c’est des choses qu’on calcule plus ou moins sur le long terme, entre guillemets, quand tu as un prêt qui va durer plusieurs années ou pareil pour la croissance. Par contre, quand tu fais des prêts sur le court terme et que tu as vraiment accès à toutes les transactions, tu peux être beaucoup plus subtil sur, par exemple, est-ce qu’il y a eu des agios ? Est-ce qu’il y a eu un retard de paiement ? Donc si tu vois que tous les 15 du mois, tu as un paiement et 3 mois de suite, il n’est plus le 15 du mois, tu peux avoir des petits flags comme ça. Ce qui fait que dans nos modèles de machine learning, maintenant, on s’est un peu éloigné du modèle d’expert. Donc on a encore ces KPIs un peu clés, comme la croissance. Mais finalement, on a vraiment pu enrichir avec nos propres connaissances. 

 

Marc Sanselme 00:12:43 – 00:13:17 : Et en même temps, en termes de biais, je me dis que quelqu’un qui veut faire financer son BFR, il faut avoir besoin de le faire pour le demander. Sinon, on paye un intérêt inutilement. Si on a les moyens de ne pas emprunter, on n’emprunte pas. Donc quelque part, ce que vous détectez avec un retard de paiement, par exemple, qui se fait toujours à un moment du mois et qui finalement est en retard, vous détectez le besoin de faire financer le BFR. Donc, ça doit être aussi compliqué. Ça serait un modèle un peu simple de dire quasiment, en fait, si tu fais la demande de BFR, c’est que tu es à risque. Si tu fais la demande de financement. 

 

Danny Srage 00:13:18 – 00:13:24 : Du coup, c’est à nous de quantifier, je sens, cette notion de risque. Mais c’est vrai, naïvement, on peut se dire, si je suis ici, c’est que j’ai des besoins de BFR. 

 

Marc Sanselme 00:13:24 – 00:13:27 : Ce n’est pas un bon signal. 

 

Danny Srage 00:13:27 – 00:14:21 : Ce besoin, il va toujours exister. Tu peux imaginer qu’en fait, si toi, tu sais que pour un euro investi dans ton stock, tu pourras en retirer deux euros ? en fait tu peux te dire si j’avais plus de disponibilité je pourrais faire beaucoup plus. donc tu as aussi cette logique de croissance qui peut venir mais c’est vrai que c’est très difficile de faire la part des choses entre cette entreprise traverse une passe un peu compliquée ou de croissance et à l’inverse cette entreprise on pense pas qu’elle pourra nous rembourser. un truc qu’on trouve vraiment super c’est que du coup vu qu’on regarde les transactions en fait on est très rapide à détecter dans un sens comme dans l’autre. c’est à dire que si une entreprise était dans une mauvaise passe il y a 6 mois peut-être que sur un bilan annuel on verra un bilan annuel beaucoup moins bien que les autres tandis que quand on regarde à l’échelle de la journée on va dire et de la transaction on peut vraiment voir qu’effectivement là c’était saisonnier il y a eu des petits soucis à ce moment là mais en fait là c’est bien revenu. donc c’est plein de petites choses et c’est vraiment cette adaptation qui va être intéressante. 

 

Marc Sanselme 00:14:21 – 00:14:33 : Oui, et puis comme tu disais, la motivation de simplement utiliser le cash qui dort à autre chose, notamment acheter des stocks en avance ou peu importe, ne va pas forcément se traduire par des retards de paiement pour le coup, contrairement à… 

 

Danny Srage 00:14:34 – 00:14:55 : Oui, c’est ça. Et un autre aspect aussi, c’est que notre outil est vraiment bien. Je suis un peu biaisé quand je dis ça potentiellement, mais sûrement d’ailleurs. Mais tu as aussi de la rapidité qui vient avec et donc tu as cet aspect confort que tu peux avoir par rapport à d’autres. Il y a moins d’overhead en tout cas en disant je vais financer cette facture, ça me coûte un peu d’argent, mais en fait ça vaut le coup parce que c’est un clic d’un bouton quoi. 

 

Marc Sanselme 00:14:55 – 00:15:01 : Oui, c’est ça. Il n’y a pas de dossier à remplir qui a un coût humain et donc un coût financier puisque les gens sont payés. 

 

Danny Srage 00:15:01 – 00:15:09 : Exactement. Là, tu connectes tes comptes bancaires et en fait, vu que c’est très pratique, tu as aussi cette valeur ajoutée qui peut valoir le coût en fonction de tes besoins. 

 

Marc Sanselme 00:15:09 – 00:15:18 : Ok. Alors du coup, le modèle de machine learning que vous utilisez pour prédire le risque aujourd’hui, comment il fonctionne ? Comment vous l’avez construit ? 

 

Danny Srage 00:15:18 – 00:16:13 : C’est une bonne question, effectivement, parce que du coup, on est passé d’un sujet où on avait trop peu de données à presque trop dans certains aspects. Donc finalement, l’algorithme en lui-même, il est assez classique. On a besoin d’un algorithme explicable, donc plutôt type Random Forest. Là où ça a été assez compliqué, c’est sur la création du dataset d’entraînement, ce qui est bien souvent le cas d’ailleurs. Mais par exemple, nous, on est dans un business où vu qu’on finance le BFR d’une entreprise, on va vraiment avoir des prêts récurrents. Et ce qui n’est pas évident, c’est quand une entreprise va te faire un prêt par semaine, Dans ton asset, potentiellement, tu vas avoir 5 ans d’entrée de cette entreprise-là, alors qu’une autre entreprise qui tirerait tout d’un coup et pour des longs prêts, elle va apparaître peut-être 3 fois dans l’année. Donc du coup, il y a vraiment eu un enjeu de savoir comment est-ce qu’on peut un peu équilibrer ça pour ne pas biaiser en faveur d’une entreprise comme dans l’autre. Ça, du coup, nous, on a décidé de faire un sampling. Là où ça ne pose pas de problème, c’est quand l’entreprise rembourse tous ses prêts parce que, du coup, tu crées juste un biais qui est de dire « Bon, ben, cette entreprise est plus représentée que ces autres entreprises. 

 

Marc Sanselme 00:16:13 – 00:16:13 : ». 

 

Danny Srage 00:16:13 – 00:19:15 : Là où ça a été beaucoup plus compliqué, c’est en fait cette entreprise-là, au bout de six mois peut-être, elle n’a pas remboursé. Comment est-ce que tu prends en compte les prêts d’avant ? Est-ce que du coup, en termes de très machine learning, est-ce que le label de tous les prêts, c’est défaut à tous ? Ou alors c’est seulement ceux qui sont un mois avant parce que du coup, ça commençait à être moins bon avant. Il reste encore des prêts après qui ont été remboursés potentiellement. Est-ce que je diffuse ce label ? C’est là qu’il y a eu des vraies questions. C’est là qu’il y a vraiment eu des questions à se poser, notamment du fait qu’on part du principe qu’une entreprise, globalement… à un moment donné ça va bien et à potentiellement un moment donné où ça ira pas. donc c’est pas faire de dire naïvement initialement on s’est dit bah quand une entreprise a mal remboursé on propage le label sur tous les prêts. et en fait ça ça fonctionne pas tant que ça. parce que les prêts pour notre premier modèle quand on avait pas un historique de plusieurs années c’était ok. mais maintenant qu’on commence à avoir un historique c’est pas très faire de dire son premier prêt avec ses KPIs financiers c’était des KPIs financiers qui montraient pas la solvabilité. donc du coup il a fallu un peu faire du sampling et être un peu plus smart là dessus et d’ailleurs à la fois smart et prendre des hypothèses et vérifier avec le temps si c’est les bonnes hypothèses ou non. et le deuxième enjeu qu’on a eu qui est très spécifique au lending et à faire des prêts c’est le besoin de stabilité vu qu’on se prononce sur un montant qu’on va te prêter. donc aujourd’hui t’as le droit à 20 000 euros. Si notre modèle demain te dit, hier ton KPI qui est le solde bancaire, il était à 20 000 euros et aujourd’hui il est à 30 000 euros. J’ai dit 20 000 euros dans les deux cas, ce n’est pas corrélé. Mais si hier c’était à 500 euros et aujourd’hui tu es à 20 000 euros, nous on ne peut pas dire d’un coup ta credit line est à 25 000 euros. Il faut vraiment qu’il y ait une stabilité parce que l’entreprise se projette avec ce montant-là. Quand on lui dit qu’elle a le droit à 20 000 euros de BFR, elle en tient compte dans son planning financier. On a vraiment un enjeu de stabilité. Quand on augmente, évidemment, ce n’est pas un souci. Mais si on passe de 20 000 euros à 10 000 euros, à 15 000 euros, là, il n’y a plus de confiance. Et donc, ça, ça avait vraiment été un travail pour savoir quel KPI financier tu veux prendre. Donc, si on prend le solde bancaire et qu’il est énormément valorisé, le solde bancaire d’une entreprise, souvent, c’est très bruité. Donc, là, on aura un output de modèle qui sera très bruité. Donc, il y a à la fois un travail à faire sur les KPI pour qu’ils soient relativement lisses, mais aussi sur le modèle pour qu’à l’inverse, si on n’arrive pas à rendre un KPI lisse, se dire que si tel KPI change, globalement, l’output du modèle devra… pas trop changé. Donc il y a vraiment cette dualité. Mais d’un autre côté, ce que je te disais tout à l’heure, c’est qu’on a la chance d’avoir des données très granulaires. Donc si d’un coup, il y a toute la caisse qui disparaît, pour une raison quelconque, il faut quand même qu’on soit alerté et pouvoir répondre relativement rapidement. Donc ça, c’est des enjeux qui sont beaucoup plus complexes. Par exemple, j’avais l’expérience un peu des moteurs de recherche. Si aujourd’hui et demain, tu ne vois pas exactement les mêmes résultats à la cinquième position… l’enjeu ne sera pas le même. Donc du coup, ça, ça pose vraiment des questions sur notre rapidité d’itération aussi sur un modèle. Quand tu as l’impression d’avoir un modèle qui est meilleur que l’ancien, est-ce que tu peux le déployer si facilement ? Ce n’est pas clair parce que tu t’es quand même engagé auprès d’entreprises, mais d’un autre côté, tu dois gérer ton taux de défaut. Donc il y a vraiment ces complexités-là qui ne sont pas simples à gérer. C’est beaucoup d’hypothèses aussi. C’est aussi produit de se dire, en fait, tous les trois mois, par exemple, tu peux accepter de changer la ligne de crédit. Entre-temps, non. Donc voilà, c’est vraiment ces complexités-là. 

 

Marc Sanselme 00:19:15 – 00:19:30 : C’est un sujet intéressant, le MLOps. Comment est-ce que vous validez un nouveau modèle ? Comment est-ce que vous vous assurez qu’un modèle est meilleur que l’ancien et qu’on le déploie ? Est-ce que vous faites des A-B testing ? Quelle est la pipeline pour qu’un nouveau modèle aille jusqu’en production ? 

 

Danny Srage 00:19:30 – 00:19:57 : C’est beaucoup de travail justement, parce qu’effectivement, comme je disais, vu qu’on ne peut pas changer tous les jours, on s’assure qu’il soit bon. Déjà, on fait un gros travail de backtesting, à la fois sur des métriques très classiques de ML, la précision et le recall, mais aussi sur les métriques qui nous intéressent. En fait, si je refuse telle personne, mon origination diminuerait de temps et le taux de défaut potentiellement diminuerait de temps. Donc, on a vraiment essayé de traduire ces métriques machine learning en métriques clé business pour voir si déjà, est-ce que ça vaut le coup? 

 

Marc Sanselme 00:19:57 – 00:19:57 : ? 

 

Danny Srage 00:19:57 – 00:20:44 : Parce qu’en fait, évidemment, si on supprime tout notre business, on n’a plus de taux de défaut, mais on n’a plus de revenus. Donc, on a vraiment essayé de faire ce travail de métrique. Et après, on a aussi un peu d’AB testing. Là où ce n’est pas évident, c’est de se dire que sur les prêts, si on refuse tous les prêts que le modèle dit de refuser, on ne saura jamais comment il performe sur cet angle mort. donc finalement on a pas mal d’exceptions à la règle et de process un peu manuels qui sont complètement générables et qui sont sur une petite portion qui fait qu’on arrive quand même à avoir des prêts pour lesquels l’algo aurait dit non mais on a eu un assessment humain ou un autre algo qui a dit oui ce qui fait qu’on a aussi en live plusieurs algos en parallèle et on peut dire là sur toutes les personnes pour lesquelles l’algo a dit non mais on a quand même dit oui voici le taux de défaut et voici le taux de défaut en live. donc voilà on sait qu’historiquement on est plutôt pas mal. 

 

Marc Sanselme 00:20:44 – 00:21:13 : Vous vous entraînez sur une donnée qui est votre historique. En nature, il n’y a que les prêts qui sont passés dont on est capable de dire s’il y a eu un défaut ou pas. Et donc, du coup, vous avez un mécanisme de correction qui est d’en laisser passer à la main certains. Mais d’une certaine façon, ce qui est impossible… à résoudre, c’est qu’il y a peut-être des prêts que la main n’a pas laissé passer non plus, mais qui seraient passés. Enfin, il y en a sûrement énormément, mais je veux dire qu’il y aurait eu un risque raisonnable malgré tout. 

 

Danny Srage 00:21:13 – 00:21:43 : Exactement. Et ce qui est rigolo, et qu’on ne pense pas forcément, c’est que, et ça, c’est encore plus difficile à mesurer, c’est peut-être que je t’ai proposé 20 000 euros et que tu as bien remboursé. Mais en fait, si je t’avais proposé 21 000 euros, tu aurais peut-être remboursé. Et qu’est-ce qui se passerait si je t’avais proposé 30 000 euros ? Ça, c’est beaucoup plus difficile à modéliser. À l’inverse, on sait que si on t’avait passé 30 000 euros, 20 000 euros, ce serait passé. Et pareil, si tu n’as pas remboursé 10 000 euros, est-ce que tu n’aurais pas remboursé 5 000 euros ? On n’est pas sûr. Peut-être que tu aurais été moins endetté, donc ça aurait été plus simple. Donc, il y a vraiment tout un espace qu’on n’arrive pas à couvrir. 

 

Marc Sanselme 00:21:43 – 00:21:48 : Vous faites une différence entre le retard de paiement et le défaut dans votre modèle ? 

 

Danny Srage 00:21:48 – 00:22:08 : Oui, globalement, nous, ce qu’on compte, ça va être un nombre de jours de retard. Donc, si tu as été en retard de quelques jours, ce n’est pas du tout pondéré de la même manière que si tu as été vraiment en retard sur le long terme. Tu peux avoir des soucis opérationnels qu’on n’arrive pas forcément à détecter avec nos KPIs financiers. C’est plutôt d’autres modèles. Alors que vraiment, ce qu’on essaie de détecter avec les KPIs financiers, c’est que tu ne vas pas nous rembourser. 

 

Marc Sanselme 00:22:08 – 00:22:21 : OK. Et comment est-ce que tu fais cohabiter le retard de paiement avec le défaut faillite dans tes données ? Si le but, c’est de prédire un défaut faillite, du coup, c’est une infinité de jours ? 

 

Danny Srage 00:22:21 – 00:22:59 : Oui, c’est une bonne question. Donc globalement, nous, au bout d’un certain temps, le prêt qui n’a pas été remboursé va rentrer dans la partie de récollection pour récupérer, voir comment est-ce qu’on peut s’arranger, faire un échéancier ou ce genre de choses. Et là, du coup, c’est plus vraiment de la question de l’opérationnel. Est-ce que tu fais trop tard ? C’est globalement, est-ce que tu fais rentrer en faillite ? C’est deux sujets qui sont un poil différents de se dire est-ce que l’entreprise va rentrer en faillite et en fait on ne récupérera jamais notre argent? et est-ce qu’elle va nous rembourser ce prêt-là? et il y a quand même une chance de récupérer l’argent. C’est intimement lié parce que finalement c’est basé sur les KPIs financiers mais c’est des termes qui sont un peu différents et finalement qui peuvent justifier deux algos différents. 

 

Marc Sanselme 00:22:59 – 00:23:04 : D’accord, donc c’est deux algos différents, vous ne pouvez pas cohabiter ces deux supervisions dans un même algo. 

 

Danny Srage 00:23:05 – 00:23:11 : Pour l’instant, on a plusieurs algos différents. Effectivement, un qui sera plutôt lié au prêt en lui-même et un autre qui sera plutôt lié au Binesse en lui-même. 

 

Marc Sanselme 00:23:11 – 00:23:18 : Comment est-ce que vous gérez le fait que certaines sociétés vont avoir un historique très court, d’autres un historique très long ? 

 

Danny Srage 00:23:18 – 00:24:37 : Ça, effectivement, il y a deux sujets différents. Donc, il faut s’adapter déjà. En fait, ça, c’est un des gros soucis qu’il y a avec la donnée en général, c’est que tu vas recevoir des données de toutes les sources. Et on sait qu’avec l’open banking, c’est génial, on peut recevoir des transactions bancaires, mais le minimum pour l’instant, à ma connaissance, c’est trois mois. En dessous de trois mois, on a vraiment du mal à calculer, mais du coup, on demande ce minimum de trois mois. effectivement par rapport à une entreprise qui va nous donner un accès à une banque différente qui donne 12 mois, là du coup ça va être un travail d’homogénéisation, donc on va essayer de ne pas faire cohabiter ensemble des KPIs qui sont à l’échelle de l’année et à l’échelle des 3 mois, donc par exemple le pourcentage de temps que tu passes en dessous d’un certain seuil, Ça, on peut se dire que c’est assez relatif à la période de temps, donc c’est un peu moins grave. Après, par exemple, quand on va regarder le chiffre d’affaires annuel, c’est un KPI qui nous plaît un peu moins parce que ce n’est pas forcément vrai d’annualiser les trois derniers mois. Si dans un business de maillot de bain, les trois derniers mois de l’été, ce serait énorme par rapport aux trois mois de l’hiver. Donc ça, c’est un KPI qu’on aime un peu moins. Donc on essaie vraiment de récupérer des KPI qui nous paraissent être homogènes. Et c’est assez simple d’ailleurs de… Simple. Non, mais ça peut se vérifier. Par exemple, si tu prends une entreprise qui a 12 mois de données et que tu essaies d’extrapoler le modèle sur les 3 derniers mois de données, tu arriverais à voir si tu prends la même décision. Si ce n’est pas le cas, c’est que probablement que tu n’arrives pas à faire un modèle qui est cohérent en fonction de la durée. Si c’est les mêmes décisions, tu peux dire que c’est OK. 

 

Marc Sanselme 00:24:39 – 00:25:20 : Est-ce que vous avez anticipé un data drift ? J’imagine que le comportement des gens à risque ou pas à risque n’évolue pas du jour au lendemain, que des choses qui étaient vraies hier le sont aujourd’hui. Mais au fil des années, sans doute les coutumes, les comportements de cas de transactionnels peuvent changer. Il y a des tendances, même la valeur de l’argent n’est plus la même. la valeur des emprunts, plein de choses qui changent. Comment est-ce que vous vous adaptez ? Parce que comme vous vérifiez votre algorithme sur les données passées, au bout d’un moment, en fait, être optimal sur les données passées ne va plus être optimal sur les données d’aujourd’hui. Donc, ce drift de distribution, on appelle ça, comment est-ce que vous… 

 

Danny Srage 00:25:21 – 00:26:16 : Oui, c’est un très bon point. Nous, on l’a vérifié en plus dans deux catégories différentes, on va dire. À la fois un emprunteur donné, son entreprise grandit, ses revenus augmentent et c’est génial. Et aussi, notre base d’emprunteurs, elle évolue avec le temps au fur et à mesure que notre produit change. Pour ça, on a la chance d’avoir des pipelines relativement bien construites, qui fait que pour l’instant, on arrive à réentraîner les modèles relativement fréquemment, qui fait que le drift n’est pas plus rapide que nos réentraînements. Avec ça, on arrive à s’en sortir et nos KPIs financiers sont très peu… On regarde quand même, comme on disait, vu qu’on a pour certaines boîtes seulement un historique assez récent, ils sont quand même basés sur des choses qui ont lieu dans la dernière année ou les derniers mois. Du coup, ça prend en compte les changements, mais c’est vrai que c’est le modèle au global qui peut changer. Pour ça, on est dans une logique d’entraînement régulier. 

 

Marc Sanselme 00:26:17 – 00:26:29 : Alors, sortons peut-être un peu de ce sujet d’algo particulier. D’une façon globale dans l’entreprise, chez DeFacto, vous êtes organisé comment au niveau de la data ? Comment sont distribuées les responsabilités ? 

 

Danny Srage 00:26:29 – 00:27:30 : C’est assez particulier du coup, vu qu’on veut rester petit. Il n’y a pas vraiment d’équipe data. On est une grosse équipe tech. On est tous considérés plus ou moins comme full stack, mais avec une casquette plus data ou infra ou front. Donc en l’occurrence, les data scientists de DeFacto sont full stack avec spécialité data. Ce que ça veut dire, c’est que globalement, quand je vais mettre un modèle, peut-être que j’ai dû déployer, enfin pas peut-être, j’ai déployé par exemple les API pour récupérer les données de tel connecteur. Et toute la partie qui concerne le crédit de risque, on va dire, c’est les personnes data qui la font, parce que ça supporte un peu tout ce scope-là qui régule la data. Donc on ne fait pas vraiment de différence, c’est juste qu’effectivement, quand on va entraîner un modèle, c’est plus nous qui allons le faire que quelqu’un d’autre. Mais par exemple, ce que ça veut dire, c’est qu’on n’a pas de data analyst, donc on croit beaucoup sur le self-service pour que tout le monde puisse faire les analyses qu’il le souhaite. Et un autre exemple, c’est que notre compliance officer sait coder, et donc c’est lui qui fait les algos plutôt liés à tout ce qui est compliance. Alors évidemment, c’est des casquettes qu’on a, donc on n’est pas tous spécialistes, donc on peut aider, mais on se considère vraiment un peu tous comme généralistes avec des petites spécialités et on s’aide. 

 

Marc Sanselme 00:27:31 – 00:27:44 : Ok, donc vous avez des dashboards ouverts sur un outil de BI à toute la boîte et les gens s’autoservent, créent des nouveaux dashboards ? 

 

Danny Srage 00:27:44 – 00:28:54 : Exactement. On a un data model qui est assez bien point déjà et aussi assez bien communiqué. C’est-à-dire que du coup, l’information importante au business est toujours bien présente et présente dans une table claire avec des noms clairs. Tout ce qui est traçabilité, on fait vraiment attention à faire la différence entre ce qui peut nous servir pour améliorer le modèle plus tard et ce qui peut servir au business. Ce qui fait que ça, plus un outil comme Metabase, si tu connais, ou en clic-bouton, tu peux faire plein de queries. n’importe quelle personne et d’ailleurs moi j’ai fait beaucoup moins de dashboards que les équipes sales qui ont fait des dashboards qui sont vraiment super. alors évidemment des fois tu as besoin d’un truc un peu plus complexe. donc elles nous demandent de l’aide sur des queries SQL mais tu peux vraiment faire ça. un autre exemple c’est Dataiku je ne sais pas si tu connais ou d’ailleurs n’importe quel outil d’AutoML c’est que finalement une fois que tu sais où il a donné d’entraînement Tu peux facilement te dire, tiens, moi, je rajouterais bien ce capital financier. J’ai réalisé que la décroissance, par exemple, de la dette, c’est un signal quelconque. J’aimerais bien le rajouter. Et en fait, c’est assez facile aussi en clic-bouton de faire l’expérience. Alors, il faut quand même un peu connaître, savoir ce que tu fais. Mais il y a beaucoup moins de barrières. Et après, effectivement, on est aussi là pour aider en disant, attention, parce que là, il y a quand même un biais. Mais effectivement, ça permet de se faire souvent une opinion d’un 80-20 de manière assez simple, quoi. 

 

Marc Sanselme 00:28:56 – 00:29:16 : Ok, et alors du coup sur les dashboards qui ont été construits par l’équipe Sales, notamment tu citais l’équipe Sales, est-ce que tu peux nous décrire un peu les KPIs qui ont été construits ? Qu’est-ce que des gens non tech, une équipe non tech sur Metabase, qui est un outil qui effectivement peut se manipuler sans écrire de SQL, qu’est-ce qu’ils ont réussi à construire justement tout seul ? 

 

Danny Srage 00:29:16 – 00:30:42 : Après tout, et donc là, par exemple, ce qu’ils peuvent regarder, c’est que nous, quand on sort un algorithme, même si on essaie d’avoir des métriques proches du business, eux, ils vont pouvoir regarder un petit peu, par exemple, parmi le nombre de nouveaux borrowers, de nouveaux emprunteurs qui a été éligible ou non, par exemple. Donc ça, c’est une métrique. Une autre métrique, c’est parmi toutes les personnes qu’on a onboardées, avec un montant donné, le nombre de personnes qui va faire un prêt dans le mois d’après. Donc ça, ça montre est-ce que la ligne de crédit est bien sizée. Donc il y a plein de choses comme ça où, globalement, Ils suivent au quotidien des entreprises, ils sont plus au contact des entreprises que nous, on peut l’être. Et donc, ils ont vraiment un point de vue du business qui est un peu différent. Par exemple, ils peuvent réaliser que tel emprunteur, par exemple, ça fait six mois qu’il ne s’est pas connecté. Nous, effectivement, on va un peu moins le voir quand on a nos gros datasets. Et donc, ça va leur donner l’idée de se dire, tiens, j’aimerais bien voir la pourcentage de clients inactifs. Et ça, en fait, vu qu’on remonte le nombre de prêts ou la date des prêts, ils peuvent assez facilement faire des jointures entre deux tables et avoir ces KPIs-là. la croissance de l’argent qu’on a en dehors du coup qui est prêté. donc ça c’est pas mal de métriques qui vont surveiller. il y a souvent je pense que la grosse différence c’est peut-être au niveau de la granularité même si fondamentalement on regarde des choses différentes eux peut-être qu’ils vont le regarder plus à l’échelle du mois ou du trimestre pour voir un peu comment on s’en sort sur l’acquisition de clients alors que nous ça va être plutôt un peu plus gros par exemple parce qu’on essaye de coller plutôt à ce qu’on a vu dans nos datasets d’entraînement. donc ça va être plutôt des granularités différentes que des métriques fondamentalement différentes. 

 

Marc Sanselme 00:30:43 – 00:30:55 : Alors dans tous les travaux techniques, à la fois dont tu nous as parlé, mais ceux dont tu n’en as pas encore parlé, est-ce que tu peux nous parler de grands verrous, grands obstacles que vous avez eu à surmonter ? 

 

Danny Srage 00:30:55 – 00:31:09 : Oui, un premier grand verrou, ça va être en tout cas un grand obstacle. C’est sur l’explicabilité des modèles. En gros, ce qui s’est passé, c’est qu’on a essayé de faire des modèles explicables, mais on a appris après qu’explicable ne veut pas forcément dire compréhensible. 

 

Marc Sanselme 00:31:09 – 00:31:28 : Oui, c’est explicable pour le législateur. C’est-à-dire qu’on doit, vu que c’est de la donnée bancaire, on doit dire que c’est explicable. Regardez, si on suit toutes les… Les 1000 arbres de ma random forest, on est capable de retracer pourquoi est-ce qu’on a pris cette décision. Mais c’est vrai que d’un point de vue humain, c’est complètement indigeste. 

 

Danny Srage 00:31:29 – 00:34:08 : Alors, tu as à la fois ça et nous, on essaie vraiment d’être explicable au niveau de l’emprunteur. Donc, principalement, parce que quand on essaye de faire en sorte que les sales soient self-served, on va vraiment leur montrer toutes les informations sur pourquoi est-ce qu’on a dit tel score à l’emprunteur. Et par exemple, une erreur, en tout cas, à posteriori, quelque chose que je ferais différemment, c’est que, je ne sais pas si tu connais les shape values, mais ça permet globalement de savoir comment un KPI financier a influencé la décision d’un score. donc ça on s’est dit c’est super de le montrer sur le dashboard au sales comme ça s’il voit qu’un entrepreneur a une grosse ligne de crédit c’est probablement dû à ça et inversement. et par exemple dans le machine learning c’est assez classique d’avoir des valeurs qui manquent. aujourd’hui les modèles ils traitent très bien les valeurs manquantes il n’y a pas de soucis. donc soit on met de la moyenne mais avec certains algos on dit juste que c’est manquant. Et un truc que j’ai réalisé, c’est que des fois, potentiellement, toutes les valeurs manquantes correspondaient à un certain type de client qui était plus ou moins risqué, ce qui faisait que c’était la première feature. Et en fait, même si tu arrives à l’expliquer à la personne en face que, effectivement, quand tu regardes les shape values, ce qui explique le plus que le score diminue, c’est qu’il manque cette valeur. Ça s’explique, ça s’entend, ça se justifie, mais c’est assez difficile aux clients de se dire « moi, je n’ai pas réussi à vous donner cette information parce que juste, je n’y ai pas accès ». Et ça peut être un truc très propre à un logiciel comptable, par exemple. Et c’est assez difficile de justifier ça en se disant « ta ligne de crédit diminue parce qu’on n’a pas réussi à calculer ce capital financier ». Et à l’inverse, on a réussi à calculer ce capital financier et donc, du coup, ta ligne de crédit augmente. ». Il y a vraiment un enjeu de traiter les nannes et montrer qu’il y a un impact. C’est assez différent de réussir à l’expliquer. Un deuxième exemple que je trouve assez rigolo, c’est sur TADKPI, par exemple, qui est l’âge d’une boîte. Si tu réfléchis d’un point de vue, est-ce que l’entreprise va faire faillite ? Quand la boîte va se lancer ? La probabilité qu’elle fasse faillite est relativement faible, elle vient de se lancer. Au bout de quelques années, ça augmente un petit peu si elle n’a pas réussi à trouver son marché, et après ça diminue une fois qu’elle l’a trouvé. Donc ça fait un peu comme c’est la probabilité de déférence d’une entreprise en fonction de son âge. Sauf que si tu dis à un client qu’il y a un mois on lui a autorisé un prêt parce qu’il se retrouvait avant le pic, donc c’était ok, mais un mois après il revient et en fait on lui refuse en disant… là regardez en fait vous avez un mois de plus et nous on sait que historiquement encore une fois ça s’explique, ça se justifie. mais quand on en parle au client final ou à l’excipit sales on comprend, c’est comme ça que ça fonctionne mais c’est difficile à expliquer ou en tout cas à comprendre et ça c’était vraiment un vrai enjeu. donc il y a des contraintes monotones. par exemple on peut introduire ce genre de choses pour rendre le résultat linéaire. donc il y a des choses à faire mais il faut penser à les faire et la performance c’est pas tout C’est pas tout. 

 

Marc Sanselme 00:34:08 – 00:34:44 : C’est un peu comme les prêts qui deviennent, les probabilités de défaut et donc les taux d’intérêt qui montent quand on devient plus vieux. Et à un moment donné, on est simplement en train de dire à la personne « t’as moins de sens de rembourser parce que ta carrière est moins longue derrière et ta probabilité de décès est plus grande ». Et donc là, finalement, on est en train de dire la même chose avec une boîte. Une fois le pic passé, celui où tu démarres, on sait que tu vas te battre et faire en sorte qu’elle dure au moins une année ou deux, cette boîte. Au-delà de ça, peut-être que tu n’auras plus assez d’énergie. C’est dur à dire, c’est dur à dire humainement. 

 

Danny Srage 00:34:46 – 00:35:17 : Oui, c’est ça. Après, tu as d’autres… Là, c’est un exemple un peu caricatural, mais tu as d’autres KPIs. Par exemple, quand tu regardes les revenus mensuels, tu peux imaginer que ce n’est pas exactement linéaire vu les data sets qu’on peut avoir. Par contre, pour un client, si tu dis que tu as un peu plus de revenus qu’avant, là, ça ne passe plus. Peut-être parce que dans ton data set, tu aurais eu des boîtes qui sont un peu plus grosses qui étaient en défaillance. Tu as plein de choses comme ça qui peuvent être expliquées, mais à la granularité de l’emprunteur, ce n’est pas forcément compréhensible. 

 

Marc Sanselme 00:35:17 – 00:35:21 : Côté recrutement, est-ce que tu peux nous parler un peu de ton process ? 

 

Danny Srage 00:35:21 – 00:36:41 : Oui, on a un process assez rigolo, je trouve. Sans ce process, je pense que je n’aurais même pas rejoint Defecto, d’ailleurs, parce qu’il a un peu attisé ma curiosité. Alors, on va avoir un screen un peu classique et un cultural feed un peu classique. Et après, on va avoir deux entretiens un peu moins… un peu plus exotiques. Le premier, ça va être une reverse interview. Donc, en fait, c’est toi, le ou la candidate qui va venir nous poser une question. Et c’est nous qui allons essayer d’y répondre. Et donc, en gros, l’idée, c’est vraiment de montrer que c’est nous qui sommes bons et que tu as intérêt à nous rejoindre parce que tu travailleras avec des personnes fortes. Ou alors, à l’inverse, si je me plante sur la question, peut-être que tu ne voudras pas venir et c’est dommage. Mais du coup, on aime bien vraiment inverser les rôles et ça montre aussi la collaboration, comment est-ce que la personne peut nous guider. Donc, c’est assez intéressant. Et le deuxième entretien, c’est un hackathon où là, en fait, pendant trois heures, on va se dire… On va travailler sur le sujet de ton choix. Moi, par exemple, j’ai fait une extension Chrome pour essayer de trouver des Vlibs pas très loin d’où t’es. Il y a plein d’exemples un peu basés sur les passions des gens. Il y en a qui aiment la musique. Ça va être des add-ons sur Spotify, par exemple. Et en fait, pendant trois heures, l’idée, c’est de délivrer quelque chose. Et c’est là que du coup c’est intéressant. quand on parlait d’une équipe full stack, en fait même si tu es data scientist, si tu veux réussir le hackathon, tu dois quand même avoir un certain côté full stack pour réussir à faire un produit au bout de trois heures. On teste beaucoup plus. est-ce que tu arrives à construire quelque chose, est-ce qu’on s’entend bien pendant trois heures? que les compétences techniques? parce qu’en fait si on s’entend bien et que tu es smart, tout se passera bien et on arrivera à construire des trucs super ensemble. 

 

Marc Sanselme 00:36:43 – 00:36:50 : côté évangélisation qu’est-ce que toi tu dis le plus souvent qu’est-ce que tu as le plus besoin de répéter aujourd’hui ? 

 

Danny Srage 00:36:50 – 00:37:52 : un peu comme sur les plateformes d’investissement j’ai l’impression les performances passées représentent pas forcément les performances futures. ça je trouve c’est particulièrement vrai dans mon domaine. et avant un peu sur le moteur de recherche c’est que ce que tu fais en offline donc les métriques quand tu es tout seul dans ton expérience ça dépend du domaine mais c’est rarement complètement les mêmes. quand c’est en prod t’as plein de choses qui peuvent expliquer effectivement tes données un peu driftées sur les moteurs de recherche par exemple. ce qui est rigolo c’est que si toi tu penses que ce résultat là devrait être montré en premier parce que c’est lui qui le plaît le plus bah en fait si tu le montres en premier forcément ça biaise un peu les résultats. donc t’essaies de le débiaiser mais t’as quand même tout le temps un impact sur la prod et donc les résultats seront corrélés. mais c’est assez difficile et dans un business comme le nôtre. quand tu dis bah je vais avoir un taux de défaut à x% c’est un chiffre qui est tellement clé que tu peux faire un BP avec tu peux vraiment te projeter avec et en fait si tu prends ça pour acquis tu peux vite avoir des illusions et je trouve ça particulièrement important de de répéter qu’on va dans la bonne direction. Je pense qu’on se garantit des performances qui sont au moins améliorées de temps. Mais en tout cas, si je vous dis X% de défaut, ce ne sera peut-être pas le cas. 

 

Marc Sanselme 00:37:52 – 00:37:54 : Quelle est la suite chez DeFacto ? 

 

Danny Srage 00:37:54 – 00:38:39 : Aujourd’hui, on a fait beaucoup de V0. Du coup, la suite, c’est des V1. Principalement ça. On commence à avoir un historique assez gros. Et quelque chose qui m’excite beaucoup, ça va être sur tous les faits network. C’est-à-dire que si nous, on voit qu’un emprunteur ne nous a pas remboursé, ou en tout cas, tu es très souvent en retard et que tu as une autre entreprise qui va essayer de se facturer auprès de cet emprunteur-là, on peut se dire attention ça sera potentiellement en retard. donc vraiment on va avoir un effet network qui est assez gros et ça je pense que ça va amener de très belles problématiques data et au sens large et aussi une autre scale parce qu’aujourd’hui une entreprise qui a quelques milliers de transactions c’est du small email enfin small data. quand tu commences à traiter tes transactions dans son ensemble ou tes emprunteurs dans les ensembles on est sur un ordre de grandeur autre et c’est à la fois un enjeu tech et super excitant 

 

Marc Sanselme 00:38:40 – 00:38:43 : Peut-être même un peu légal aussi, parce qu’il doit y avoir aussi des contraintes dans tous les sens. 

 

Danny Srage 00:38:43 – 00:38:46 : Complètement, oui. Il faut faire attention à ça. 

 

Marc Sanselme 00:38:47 – 00:38:52 : Est-ce que tu aurais un nom à nous suggérer pour un prochain invité de Data Driven 101 ? 

 

Danny Srage 00:38:52 – 00:39:14 : Lucas Meyer c’est quelqu’un qui a fait sa thèse sur un sujet qui est assez passionnant sur l’utilisation du deep learning pour améliorer les simulations numériques et la résolution d’équations. aujourd’hui on parle beaucoup de deep learning pour les chats GPT et autres et en fait ça c’est un autre sujet qui est assez passionnant un peu plus méconnu. en tout cas à mon sens c’est un sujet qui est passionnant et j’avais écouté sa thèse et ça valait vraiment le coup d’être entendu. 

 

Marc Sanselme 00:39:14 – 00:39:16 : génial, merci Dany merci à toi.