IA et Fraude documentaire - Data Driven 101

IA & fraude documentaire

Marc de Beaucorps, CEO de Finovox, est l’invité de l’épisode 56 de Data Driven 101.

Avec Finovox spécialisé dans la détection de fraudes documentaires grâce à l’intelligence artificielle, il nous plonge dans un univers où IA et sécurité se rencontrent pour contrer des menaces toujours plus sophistiquées.

Il nous parle de la manière dont Finovox aborde :

la constitution d’un dataset de fraude documentaire
la construction de pipelines complexes d’analyse
les cycles de ventes auprès de grand groupes et institutions

Transcript de l'épisode

Marc 00:00:00 – 00:00:10 : Aujourd’hui, je reçois Marc Debocor, CEO de Finovox depuis 2020. Finovox fournit une solution contre la fraude documentaire grâce aux technologies d’intelligence artificielle. Bonjour Marc.

Marc de Beaucorps 00:00:10 – 00:00:11 : Salut, merci de m’accueillir.

Marc00:00:11 – 00:00:16 : Avec plaisir. Alors, est-ce que tu peux nous parler un peu plus de Finovox en détail ?

Marc de Beaucorps 00:00:16 – 00:01:17 : Finalvox, c’est un outil de détection de faux documents de façon très simple. Tu nous envoies n’importe quel document, quel qu’il soit, quel que soit son format, sa taille, sa langue. On va l’analyser et faire trois choses. La première chose, c’est savoir si le document a été retouché au cours de sa vie. Je prends une facture, je la trafique. Le deuxième élément, c’est savoir si les informations sont cohérentes. Donc, faire des croisements avec des bases de données, comparer les informations. Est-ce que 1 plus 1 est bien égal à 2 sur ta fiche de paye ? Et le troisième élément, c’est savoir si le document a été généré de façon artificielle. Donc, tu as deux niveaux là-dedans. C’est généré par des templates tout fait où tu pré-remplis des ordonnances, des fiches de paye. ou générés par des LLM, par de la GNI, sur tout type de documents. Donc ça, c’est les petites proportions encore, mais c’est les fraudes qui grossissent de plus en plus. Et pour te parler un petit peu de l’entreprise, nous, on est une deep tech spécialisée dans la fraude documentaire. Et on est 25 collaborateurs. On est basé à Paris. Et on travaille avec trois associés sur le sujet depuis 2019. Et on est en full time depuis mi-2021. OK.

Marc00:01:17 – 00:01:20 : Alors, quel était le constat sur le besoin ?

Marc de Beaucorps 00:01:20 – 00:03:37 : On a rencontré pas mal de banques et d’assurances. Parce que moi, dans une précédente vie, je donnais des cours de développement informatique dans certaines écoles. Et dans ce cadre-là, j’ai été amené à rencontrer plusieurs directions bancaires qui nous ont dit qu’on sait très bien traiter les documents d’identité parce que c’est des documents qui sont quand même difficiles à trafiquer. J’imagine que tu saurais faire une fausse fiche de paye ou une fausse facture, mais que tu aurais du mal à faire un faux passeport dans une boutique. Déjà en termes de technicité, mais aussi en termes de légalité, c’est une barrière en plus. Et donc, il y a plein de technos qui existaient, qui sont des entreprises de KYC, donc Know Your Consumer. Et en fait, qu’est-ce qu’ils font de tous les autres documents qu’ils reçoivent ? Qui sont des fiches de paye, des RIB, des CABIS, des liasses fiscales, des factures. Et ces documents sont la base pour eux, parce qu’ils se basent sur ces éléments, ou les éléments qui sont fournis dans les documents, pour derrière faire des remboursements d’assurance, ouvrir des comptes en banque, allouer des demandes de crédit, etc. Et donc voilà, ils nous ont dit « on a 90% de notre flux sur lequel on n’a aucune maîtrise ». Donc si vous développez une solution qui sait traiter ça, et dans toutes les langues, parce que les acteurs avec qui on discutait sont des grandes banques, donc ils sont présents dans pas mal de pays, alors on sera très intéressé. Donc ça c’est le constat de base, puis on s’est dit déjà que c’était impossible à faire, parce que hyper technique, parce qu’applicable dans toutes les langues, parce que les documents sont trop différents, qu’ils n’ont pas de base de données de référence… trop compliqué. et puis nous on venait plutôt du monde du software et de la blockchain. donc évidemment on avait déjà fait de l’IA mais sans être des experts non plus. bon et du coup on s’est lancé on a commencé à dev des premiers trucs et on a généré des premières datas. ça a fait un truc qui était pas mal. et là on s’est dit ok il y a un vrai truc à faire en tout cas sur la partie technique. puis ça nous intéressait de fou. Et après, tu avais l’autre point qui est le business. On s’est rendu compte que c’était hyper profond. Les trois acteurs avec qui on avait discuté en banque, c’était un problème majeur pour eux parce que déjà, ils avaient six branches, donc la facturage, le crédit, l’assurance, etc. Ils étaient intéressés. En plus de ça, ça allait beaucoup plus loin que la banque. En dehors de l’assurance en plus, ça va dans l’immobilier, dans le recrutement. Tu as envie de savoir qu’un mec qui est grutier, il a bien sa certification pour être grutier. Les services publics, l’onboarding, on travaille même dans les télécoms maintenant. C’est un problème beaucoup plus large que le secteur bancaire.

Marc00:03:38 – 00:03:54 : Oui, bien sûr. New York Customer pour les banques, tout ce qui est gestion des sinistres côté assurance. Immobilier, j’imagine, vérification des dossiers de locataire, sans doute même les documents de transaction ?

Marc de Beaucorps 00:03:54 – 00:04:20 : Ouais, à la transaction, alors tu as les notaires, mais à la transaction, c’est surtout sur les documents de performance énergétique. Parce que tu sais, aujourd’hui, j’imagine que tu habites à Paris ou pas loin, tu n’as plus le droit de faire louer, enfin de vendre un appartement, blablabla, s’il est critère G. En fait, tu as maintenant, vu que c’est des nouvelles règles, tu as des mecs qui falsifient ces résultats de test, et donc voilà, qui passent de G à A. Donc à la transaction, c’est assez nouveau, mais de plus en plus.

Marc00:04:20 – 00:04:32 : Ok. Quelle a été la mise de départ pour démarrer l’aventure ? Parce qu’il y a besoin de données pour faire de l’IA. Comment est-ce qu’on trouve de quoi démarrer ?

Marc de Beaucorps 00:04:32 – 00:05:58 : Ce qu’il faut savoir, c’est que nous, on sortait globalement d’études. Déjà, on n’avait pas un COPEC. Qu’on devait rembourser les prêts étudiants et qu’on devait aussi vivre. Donc, on a commencé à mi-temps. On était dev à côté. Et donc, on passait la moitié de notre temps. En fait, on faisait de la facturation sur Finovox. Et derrière, ça nous permettait de financer des locaux, de recruter des premiers stagiaires, lancer la machine. Et donc, spécifiquement, en termes de besoins de financement, parce qu’on ne voulait pas faire une levée de fonds tout de suite, c’était avoir des bons ordis, générer de la data, clairement. C’était la base de tout. Et après, tu avais toute la puissance de calcul dont on avait besoin, surtout pour le Computer Vision, qui demandait pas mal de ressources. Et donc sur la partie data, ce dont on avait besoin, c’était avoir des fraudes, avoir des documents fraudés. Et nous, on allait voir les sociétés, elles nous disaient, on sait que… On subit des fraudes. Mais soit on ne peut pas vous fournir les docs, puis même si on vous fournit les docs, on ne sait pas exactement où est-ce qu’ils sont fraudés, comment ça a été fait. Donc ils ne sont pas labellisés. Et puis tu n’as que le faux, tu n’as pas le vrai. Donc c’est très compliqué d’apprendre. Et donc là, c’était un gros travail de notre part d’aller essayer de collecter auprès de plein de gens des faux documents Avec idéalement le vrai et le faux. Et donc, ça nous a donné un premier batch. Et après, on a fait ça à l’échelle en allant voir des gens en quel camp du monde et en leur demandant de nous fournir des faux docs et de le faire de la meilleure manière possible. D’accord.

Marc00:05:58 – 00:06:10 : Alors, tu nous as parlé de trois types de fraudes détectées. Si je me souviens bien, on a dit le fait de modifier le document, le fait de remplir un texte à trous, en gros, remplir un template.

Marc de Beaucorps 00:06:10 – 00:06:11 : Oui, et tu as la cohérence du contenu.

Marc00:06:11 – 00:06:20 : Et la cohérence de contenu, donc vérifier que ça somme bien comme il faut et qu’il n’y a pas des chiffres qui ont été modifiés en oubliant le fait que ça devait sommer à zéro.

Marc de Beaucorps 00:06:20 – 00:06:34 : Que l’entreprise existe bien en greffe, que l’adresse qui est dessus existe bien, que le mail correspond à un vrai mail, que le RIB existe bien dans la base de données des RIB. En fait, tu as plein de chèques de cohérence à faire qui sont spécifiques à chacun des docs et on les fait dans tous les pays de l’Europe aujourd’hui.

Marc00:06:35 – 00:06:49 : D’accord. Alors si on prend le premier, du coup, la modification de document, de quoi on parle exactement ? Est-ce qu’on parle de computer vision, vérifier que, je ne sais pas, sur un document scanné, par exemple, il y a du blanco ? Technologiquement, de quoi on parle ?

Marc de Beaucorps 00:06:49 – 00:08:19 : Tu as un pré-processing global pour savoir déjà si le document est recevable. C’est définir la qualité du document. Il y a plein de fraudes qui se font où les mecs essayent de brouiller les informations. Toi, tu scans, tu re-scans, tu prends une photo, le truc est lisible. On a déjà des triggers là-dessus. Tous les documents qui sont reçus de mauvaise qualité, déjà, ils dégagent. Après, tu as un autre élément qui est de savoir classifier les documents automatiquement. Ça, on le fait. C’est aussi une brique qu’on peut vendre à côté, mais la plupart achètent l’ensemble. Et tu as une brique d’extraction d’informations. Donc, on a en fait une liste de champs sur les principaux documents où en fait, on te rend de façon structurée les 10 champs dont tu as besoin sur une fiche de paye pour aller derrière, les mettre dans ton système et puis faire ce que tu as envie de faire. Déjà, à ce niveau-là, il y a forcément des technologies d’IA, c’est plutôt des OCR. Il y a un peu du LLM pour corriger les OCR. J’ai la cohérence du contenu. Tu vas se dire… Ce n’est pas un zéro, mais c’est un O parce que c’est dans un prénom. Après, on fait un focus sur la première brique d’antifraude, la détection de retouches ou détection d’anomalies. Là-dessus, on va avoir différentes analyses. Tu vas avoir évidemment du computer vision pour analyser visuellement les documents, ça peut être forcément des images, mais tu peux aussi avoir des PDF, des PDF que tu transformes en images, ou des images incluses dans les PDF. Donc là-dessus, à chaque fois, on passe différents algos, c’est voir qu’il y a des alignements qui sont chelous entre les mots, qu’il y a des espacements entre les caractères qui ne sont pas normaux, qu’il y a des polices de caractères qui ne correspondent pas, que le noir n’est pas le même noir au sein d’un même mot. Tu vois, c’est plein de petites analyses comme ça qui vont essayer de spotter des anomalies.

Marc00:08:19 – 00:08:22 : Chaque petite analyse est un algo à part entière ?

Marc de Beaucorps 00:08:22 – 00:10:35 : Il y a de tout. C’est-à-dire qu’on a des algos spécifiques qui vont, par exemple, te dire algo espacement entre les caractères. On a aussi des algos un peu globaux qui ont pour objectif de cibler la zone. Donc après, en fait, ce qui fonctionne le mieux déjà pour savoir si la technique marche, c’est de faire un algo par un algo. Mais après, une fois que tu sais qu’ils marchent, tu peux les combiner entre eux. Et donc, il y a un peu de tout. Mais Computer Vision, ça, c’était un gros, gros, gros, gros chantier parce que c’est technique, parce que ça demande une puissance de calcul de ma boule, parce que même la littérature là-dessus n’est pas hyper développée. Nous, on a commencé la R&D il y a quatre ans. Ça a beaucoup évolué depuis, mais en tout cas, ça ne l’était pas énormément au départ. Puis voilà, ça demande des skills assez spécifiques. Donc, quand on a sorti l’algo et que ça fonctionnait très bien, là, on fait de la R&D en continu, donc on l’améliore. Mais quand on l’a sorti, on a fait un papier de recherche, une publication, quoi. On a fait une demande pour faire la conférence là-dessus. Et donc, c’est les PhD chez nous qui ont bossé là-dessus. C’était le truc le plus lourd. Après, tu as d’autres sujets sur les analyses qui vont être plutôt du NLP sur les structures de code. En fait, quand un document est reçu de façon informatique, on ne traite pas les papiers. Tu ne peux pas nous envoyer un papier. Tu n’as qu’un format digital. Tu exportes tes pièges joints, tu nous plugs sur ton logiciel de gestion documentaire, sur ta réception des docs, etc. Quand un doc est reçu, c’est le binaire qui est transformé en différents layers. Il y a des hexadécimaux derrière, il y a du XML sur les PDF, etc. Il y a des strings. Et en fait, tous ces éléments, c’est du code qui est complètement illisible pour l’œil humain, mais la machine, elle sait le lire. Il y a quelques énergumènes chez nous qui savent dire ce genre de trucs. Donc en fait, nous, on entraîne là-dessus. Et après, tu peux essayer de trouver grâce aux binaires qu’il va cibler des éléments qui sont des patterns de fraude, qui sont des preuves comme quoi ça sort de Photoshop, différents éléments. Et le dernier niveau, c’est une analyse des métadonnées où tu peux ressortir plein d’infos. Celui que le document a été scanné, que le document sort de quel logiciel, qu’il a été modifié à telle date. Parfois, tu as même l’endroit, tu as même la localisation. On combine tout ça, soit avec de l’IA, soit pas forcément de l’IA. Tu peux avoir des systèmes de règles assez simples. Ça permet de donner du contexte au doc. Après, tu as des sous-branches, mais pour te synthétiser, tu as trois briques principales sur ce développement.

Marc00:10:35 – 00:10:52 : D’accord. Donc vous entraînez des LLM à reconnaître sur le langage informatique XML ou peu importe le langage, mais celui qui structure le document sous le capot, le PDF, etc. Vous entraînez à reconnaître des patterns de fraude.

Marc de Beaucorps 00:10:52 – 00:11:37 : Ce n’est pas des LLM, c’est du machine learning. Parce que déjà, quand on les a développés, ça n’existait pas. En tout cas, on n’avait pas connaissance. Et le deuxième point, c’est qu’à nos yeux, c’est ce qui fonctionnait mieux. Les LLM, on s’en sert pour la partie cohérence. Donc, ça peut être analyser la cohérence du contenu. sur le texte ça fonctionne très bien. et ça peut être aussi sur de la correction d’OCR parce que sur tous les OCR qu’on a pu tester il n’y en a pas un qui était suffisamment satisfaisant en termes de perf. et moi ça c’est une anomalie vraiment pour moi. je ne comprends pas que les OCR qu’on a testé ne fonctionnent pas si bien que ça alors que c’est quand même un truc qui est mainstream. pour moi les OCR c’était vraiment les premières briques d’IA.

Marc00:11:37 – 00:11:45 : bon Il y a un vrai sujet sur l’OCR open source. On parle bien de la partie transformer l’image en texte, juste cette partie-là.

Marc de Beaucorps 00:11:45 – 00:13:14 : C’est ça, oui. Donc, c’est OCR et parseur, où parseur, c’est la partie extraire le texte quand il est écrit de façon structurée dans le code du document. C’est notamment le cas des PDF. Et donc, sur la partie OCR, moi, en tout cas, je n’ai pas compris ce truc-là. On n’a pas trouvé sur étagère. On était même prêt à payer, tu vois, des trucs qui étaient bien faits. Donc, on a dû les refaire nous-mêmes en prenant, évidemment, des prix qui existaient sur des OCR, mais en fait, les améliorer. Et pour les améliorer, un des éléments qu’on a fait, du coup, qui concerne les LLM, c’est de pouvoir corriger les OCR avec du LLM parce qu’il peut naturellement savoir que ce n’est pas un haut dans le numéro de téléphone, mais c’est forcément un zéro parce qu’il a compris la partie un peu… De bon sens, alors qu’un OCR pur ne va pas forcément le comprendre. On traite des très gros volumes. Une grande banque française va traiter plusieurs dizaines de millions de documents par an. Donc en fait, si tu as un taux d’erreur, le taux de faux positif de notre côté, de 1%, c’est 1% de 10 millions qui sont juste des erreurs. Et en fait, derrière, vu qu’il y a un montant de fraude qui va être, je ne sais pas, à 3 %, en fait, tu vas noyer les fraudes que tu remontes au milieu de fausses alertes. Et donc, ce n’est pas possible. Donc, on a énormément travaillé sur cette OCR. Et c’est pour ça que maintenant, c’est une brique qu’on vend même à côté parce qu’on a tellement bossé dessus que sur tous les documents classiques en Europe, on sait extraire toutes les informations. Et maintenant, on sait même faire sur d’autres alphabets en cyrillique, en arabe, etc. Parce que nos clients nous l’ont demandé. Et donc, bref, on a intégré du LLM là-dedans et ça fonctionne bien.

Marc00:13:14 – 00:13:19 : C’est un business à part entière, ça, de faire de l’extraction ?

Marc de Beaucorps 00:13:19 – 00:14:00 : Oui, tout à fait. Mais c’est comme on avait développé notre propre plateforme d’annotation pour générer des données. C’est un business à part entière. Mais en fait, on a screené le marché. On n’a pas trouvé ce qu’on voulait. Du coup, on a développé nous-mêmes le truc. J’avais discuté avec un fonds d’investissement. Il m’avait dit, mais nous, on a une boîte en portefeuille qui fait ça. Et vous avez fait ça comme ça. En fait, ça ne prenait pas, je ne sais pas, il ne prenait pas les PDF, par exemple. Non, ça ne peut pas marcher pour nous. Après, évidemment, notre truc est moins travaillé et il est spécifique sur notre cas d’usage, mais on n’a jamais revendu la partie annotation. Mais la partie extraction, effectivement, c’est un truc qu’on vend à part entière et on l’a tellement bossé pour éviter les faux positifs parce que c’est notre trigger numéro un qu’aujourd’hui, il est stylé et on le vend à d’autres gens.

Marc00:14:00 – 00:14:30 : Parce que la partie annotation, c’est vrai qu’il y a des boîtes qui font ça, mais… Comme tu dis, c’est très difficile de trouver celui qui marche sur ton cas d’usage parce qu’en fait, c’est très difficile d’en faire un qui est universel pour tous les cas d’usage. Donc, c’est assez courant de voir des gens refaire une plateforme d’annotation en interne. Mais c’est vrai que l’extraction de données sur les documents, que ce soit les pièces d’identité, un justificatif de domicile, etc., C’est le produit à part entière de pas mal de sociétés comme Clipa, Mindy. C’est des sous-produits de AWS, GCP et compagnie.

Marc de Beaucorps 00:14:30 – 00:15:09 : On en a testé, dans ceux que tu as cités, on en a testé plusieurs et on n’a jamais été satisfait. Même Google, quoi. Google s’appelle Document AI, je crois. on était pas suffisamment satisfait. et puis dans tous les cas Google nous on traite des informations qui sont sensibles donc on peut pas envoyer nos datas comme ça. sur Document AI on sait pas où c’est géré et tout. mais bon même si c’était possible de faire du on-premise suite Google on a pas été bluffé en tout cas parce qu’ils mettent en open. donc c’est pour ça qu’on a dû le refaire nous-mêmes. et bon après on est une grosse équipe de tech. donc je pense que ça les faisait kiffer et c’est très bien Et c’est un axe de développement de Finovox de développer ça.

Marc00:15:09 – 00:15:16 : ou finalement c’est juste un side produit mais vous ne mettrez pas les budgets marketing pour le développer parce que ce n’est pas ce que vous voulez faire ?

Marc de Beaucorps 00:15:16 – 00:16:28 : C’est une bonne question. On a déjà beaucoup à faire sur le sujet de fraude. Je pense qu’on n’a même pas capté 8% du marché français. Sachant qu’on a une ambition internationale, on doit être à moins de 1% du marché international. On a quand même un gros truc à faire. Il y a plus de valeur ajoutée à capter sur la fraude que sur l’extraction d’infos. Sur l’extraction d’informations, tu vas les facturer pas très cher. Quelques centimes… voire moins par document extrait parce qu’il y a beaucoup de concurrence, parce que plein de trucs. Alors que sur la fraude, il y a une vraie expertise, il y a une collaboration. On a collaboré avec des gendarmes, on a collaboré avec des services anti-fraude, avec des laboratoires de recherche. Donc là-dessus, il y a plus de valeur ajoutée. Donc on se concentre plutôt là-dessus, mais c’est poser la question de comment on le markete. Est-ce qu’on fait un site séparé ? Est-ce qu’on le rebrand ? Est-ce qu’on l’intègre uniquement dans notre offre quand on discute avec nos clients ? Est-ce qu’on fait plusieurs produits sur notre site web ? Et aujourd’hui, on n’a pas tranché, donc ça veut dire qu’on garde le produit classique de détection de fraude et on le présente en plus, comme je le fais là. Et plus tard, quand on aura plus de monde ou moins de croissance à aller chercher sur l’anti-fraude, on pourra faire ça.

Marc00:16:30 – 00:16:46 : J’ai une question qui me vient, mais sans connaître le marché de la détection de fraude, il y a des acteurs qui sont passés par là, les shift technologies, il y a beaucoup de bruit. Quel est l’état des lieux avant Finovox, on va dire, sur la détection de fraude ?

Marc de Beaucorps 00:16:46 – 00:18:22 : J’ai l’impression qu’en France, on est très bon sur la fraude. Parce que je pense que les Français fraudent pas mal, déjà. Qu’on est bon en tech et qu’il y a quand même un gros écosystème de grosses structures. De grandes banques, de grandes assurances, sociétés, etc. Donc, on est quand même très en avance là-dessus. La preuve, Shift, qui est un… peut-être le leader ou dans le top 3 des sociétés sur son sujet comme en KYC. maintenant tu as IDNow qui est un espèce de Airbus européen comme ils aiment le dire sur les sujets de vérification d’identité. donc voilà il y a pas mal de structures qui fonctionnent bien. Donc le terreau de base sur l’antifraude est assez bon, on va dire. Et quand tu discutes avec des gens, que ce soit dans les métiers, dans les banques ou avec toi ou avec des investisseurs, tout le monde connaît ce sujet-là et c’est peut-être moins le cas dans certains pays. Ça, c’est le premier élément. Et donc nous, avant qu’on arrive, le constat, c’est qu’on sait très bien traiter les documents d’identité. Par contre, on ne sait pas faire tout le reste. Et donc voilà, ça c’était le truc de base, avec comme contrainte que le motif numéro un d’une entreprise, c’est de générer du business, c’est d’avoir des clients qui sont satisfaits. Donc il ne faut pas que l’anti-fraude soit un frein à ça. Donc tu peux faire tous les algorithmes que tu veux, à la fin, il faut que l’expérience client soit nickel, que ton process d’onboarding, quand tu fais une demande de crédit, elle dure moins de X minutes ou heures. Et donc voilà, il faut faire très attention à ça. Et donc voilà, Shift, en l’occurrence, ils font globalement de la digitalisation chez les assureurs, de ton parcours d’indemnisation, de ton parcours de fraude. Et ils font ça très bien. Voilà.

Marc00:18:22 – 00:18:46 : OK. On a eu un séisme dans le monde de l’IA avec l’arrivée de JetGPT il y a une grosse année et demie. Les LLM se sont développés, ont tout changé. Vous étiez déjà en place, établi, vous avez déjà fait plein de choses. Qu’est-ce que ça change pour vous ? Toutes ces technologies disruptives sur plein de domaines, qu’est-ce que ça change, que ça existe ?

Marc de Beaucorps 00:18:46 – 00:19:56 : On était au courant qu’il y avait un truc de dingue qui était en train de se faire. Ce qui fait qu’un an avant que ça sorte, on avait fait une demande à OpenAI. Moi, c’était à l’époque, en tout cas, des infos que j’avais, c’était un peu un projet de Elon Musk, un peu philanthropique. Tu pouvais leur faire une demande et si ton projet changeait le monde, ou si c’était surtout sur des trucs à impact positif, alors ils pouvaient donner accès à un bêta-test. Donc nous, on avait déposé une demande. Je dirais que c’était peut-être en 2021, 2022, je ne sais plus. Et on n’a jamais eu de retour. C’est un truc qu’on suivait. Et après, quand c’est sorti, nous, on a développé nos propres LLM à la base. Et ils avaient de très bonnes performances. Mais on s’est rendu compte que tu avais d’autres boîtes qui avaient développé des LLM, qui avaient les mêmes performances que nous, mais ils étaient beaucoup plus légers. Celui qu’on avait développé, nous, il faisait 8 gigas. Et en l’occurrence, on utilise Mistral AI. Et celui de Mistral qu’on utilise, là, il fait 1 giga. Et donc, c’est 8 fois plus rapide, à peu près en équivalence. Et donc, là, on a arrêté, nous, de développer nos propres LLM et on utilise ceux qui sont faits par l’extérieur parce que…

Marc00:19:56 – 00:19:58 : Mais open source, quand même.

Marc de Beaucorps 00:19:58 – 00:22:29 : Mais open source, oui, oui. Et puis, c’est une prémisse, surtout. C’est-à-dire qu’on n’a pas besoin d’envoyer à Mistral. Nous, c’est inconditionnel, ça. ChaGPT, aussi bien soit-il, nous, on ne pourra jamais faire une requête ChaGPT parce que tu traites des données cofinancielles et c’est très, très probable que moi, j’ai déjà traité un document qui t’appartienne, tu vois. Et donc, non, ce n’est pas possible que ce soit envoyé, on ne sait pas où. ça c’est le premier truc un peu sur les lèmes. et donc qu’est-ce que ça change dans nos métiers en termes de fraude qui était plutôt ta question initiale. il y a deux choses donc. le premier c’est que ça permet de faire des meilleurs fraudes. les fraudeurs ont des outils de dingue maintenant pour frauder. t’avais déjà un premier niveau qui a été un vrai changement de paradigme c’est qu’avec les éditeurs de photos type photoshop, indesign gimp etc. où tu pouvais trafiquer un document et c’est indétectable à l’œil nu La plupart d’entre eux sont gratuits ou quasi gratuits. Et n’importe quel collégien, s’il a vraiment envie de le faire, il peut apprendre à le faire. Donc ça, c’était une première étape. Et la deuxième étape, là, ça a été tous ces outils où tu peux aller générer des faux documents. Tu peux aller demander à un LLM de générateur d’images de dire génère-moi une 206 qui a foncé dans un mur pour le remboursement de l’assurance. Ou l’exemple que je donnais tout à l’heure, génère-moi une fausse fiche de paye. Alors si tu as encore des anomalies visuelles que tu peux voir, mais tu as des templates qui sont tout faits, et ça tu peux pré-remplir, ce n’est pas forcément des LLM, mais c’est des nouveaux outils que tu vois sur Dark Web et même parfois sur Google, de façon temporaire, où tu pré-remplis des éléments. Tu vois, plein d’outils. Puis si je sors un peu de notre cas de la fraude documentaire, tu avais beaucoup de type brouteurs ou un peu des spammers. Tu pouvais les détecter parce que leur mail n’était pas bien fait, qu’il y avait des fautes d’orthographe, qu’ils ne respectaient pas l’espèce de conformisme que doit respecter la banque. Donc tu disais, OK, lui, c’est bizarre qu’il m’écrive ça. Aujourd’hui, avec Tchad GPT, les mails sont incroyablement faits. Donc tu peux être un brouteur, un mec de l’Europe de l’Est, et discuter avec quelqu’un, faire une fraude au président de façon hyper bien faite. Nous, on se bat contre ça. Et de l’autre côté, quels sont les outils que nous, on a en face de ça ? Tous les outils qu’ils ont, on les a aussi. C’est un jeu du chat et de la souris permanent. S’il y a un nouvel LLM qui sort qui est trop bien, parfait. S’il y a une nouvelle base de données qui s’ouvre, qui nous permet de vérifier certaines informations, parce que c’est quand même la tendance globale, c’est de pouvoir avoir accès à pas mal d’infos, on le fait. C’est ce jeu du chat et de la souris permanent.

Marc00:22:31 – 00:22:49 : Oui, parce que dans les cas que tu cites, on pourrait imaginer une fraude au président avec une voix de synthèse. Aujourd’hui, ce ne sont plus les LLM, mais ce sont aussi des choses, le deepfake, qu’ils soient visuels ou audios. Je ne sais pas si ça rentre dans la catégorie fraude, mais ça peut être un instrument du fraudeur qui a limité une voix.

Marc de Beaucorps 00:22:49 – 00:24:32 : Complètement. Initialement, ce qui arrivait souvent, c’était ce qu’on appelait une fraudométro. C’est-à-dire que le fraudeur, il avait du mal à écouter ce que tu dis, à le processer et à te donner une réponse. Donc en fait, ce qu’il faisait… C’est qu’il te disait, toi tu es le président de ta boîte ou un des fondateurs, tu vas avoir ton comptable ou ta secrétaire qui va être contacté par un fraudeur. et il te dit, hello c’est moi, je suis dans le métro, je n’ai pas beaucoup de réseau, je ne t’entends pas bien, mais il faut absolument que tu fasses le virement, que tu as super mail là parce que les mecs je les rencontre dans une heure et la négo est un peu chaude et tout. Et donc tu as la personne en face, ton comptable, qui te dit « Quoi ? Je ne t’entends pas bien et tout. » « Oui, je suis dans le métro. ». Et en fait, le truc, c’est juste une espèce de bande enregistrée. Donc ça, déjà, ça marchait. C’était incroyablement bien fait. Tu as plusieurs personnalités en France, des grands entrepreneurs, des patrons de boîtes qui se sont fait avoir par des deepfakes. Je crois que c’est le Drian en disant « On a besoin de X millions d’euros pour une opération. On en a besoin maintenant. ». Et en fait, ça, c’était avant les LLM. Donc tu te dis maintenant, avec des outils de générateur de vidéos, d’images, où tu peux reprendre le son. Je pense que tous les auditeurs ont déjà testé, s’ils sont sur ce podcast, ce genre de générateur, ou au moins entendu des trucs qui ont été faits. tellement bien fait. quand j’ai entendu les musiques de Drake l’année dernière j’ai trouvé ça tellement fou. et donc voilà tout ça. c’est des outils qui sont incroyables et qui sont quasi gratuits et donnés à la main de 8 milliards de personnes. et donc c’est des dangers clairs.

Marc00:24:32 – 00:24:41 : je pense qu’il va falloir que tout le monde s’y habitue et comprenne que c’est possible. quand on entend quelqu’un que ce soit pas cette personne qui parle on en est loin dans nos têtes.

Marc de Beaucorps 00:24:42 – 00:25:28 : hier j’ai failli me faire avoir. j’ai eu une tentative de fraude hier et c’était par mail mais le truc était incroyablement bien fait. ils ont utilisé un même service que j’utilise à chaque fois. ils m’ont demandé de signer électroniquement un document en passant par Dropbox Sign sachant que mon avocat utilise Torbox Sign et que j’utilise Torbox Sign, donc j’en signe tout le temps. Et ça respectait parfaitement le truc. Je regarde, je me dis bon, ok. Je regarde pour ouvrir le doc et là je me dis, il y a un truc qui pue, c’est bizarre. Alors je contacte deux, trois personnes en disant, est-ce que ça vient de toi ? Est-ce que ça vient de toi? ? Personne ne me répond. Du coup, je me dis, je ne vais pas signer. Puis avec le recul, je me dis, au bout d’une semaine, si personne ne m’a relancé, c’est que le truc, c’était une fraude. Et donc derrière, dans le doute, moi, j’ai tout reset, changé tous mes identifiants, etc. Parce que c’est les faibles données, je crois. Ouais.

Marc00:25:28 – 00:26:12 : Tiens, t’as dit un truc sur lequel j’aimerais revenir, c’est que t’as dit avec Photoshop, c’est indétectable, on fait des trucs, c’est indétectable. Et d’un point de vue computer vision, j’essaie de me mettre un peu dans le costume de ta scientist qui bosse là-dessus, mais je me dis si on fait des sélections carrées, si on fait des gommages, si on fait même du tampon qui vient copier un morceau par rapport à tous les outils que t’as dans Photoshop qui permettraient éventuellement de couvrir du texte avec du blanc et puis ensuite de réécrire du texte par-dessus. Ça paraît être des choses que l’homme va avoir du mal à détecter, mais que l’algo, lui, va trouver facilement. Quand on parle de forme carrée ou de copier avec l’outil tampon, ou même de mettre du blanc là où c’était en fait un peu un blanc cassé, mais qu’à l’œil, ça ne se voit pas.

Marc de Beaucorps 00:26:12 – 00:27:48 : Pourquoi c’est difficile ? 90% des fraudes documentaires sont indétectables à l’œil nu. C’est ce que nous, on a vu sur 100 000 data. Donc, tu es forcément obligé de t’équiper. Et après, en quoi c’est difficile? ? Parce que tu as cette notion de faux positif. C’est-à-dire que oui, l’algo peut détecter des compressions de pixels. Tu fais ce qu’on appelle un ELA. Tu peux faire des différences de couleurs. Tu traces des traits, tu calcules des alignements. Il y a plein de choses qui fonctionnent, mais… Mais tu dois garder en tête que ton taux de faux positif doit être quasi à zéro. Quand tu fais ça, même si tu as sorti un bon algo sur les espacements entre les caractères ou détecté qu’il y a du gommage, la proportion des gens qui utilisent Photoshop dans le cas d’une fraude, on va dire que c’est 15% des gens. Le reste, c’est d’autres softwares, d’autres méthodes. Sur ces 15%, tu n’as que la moitié qui ont utilisé le gommage et sur cette moitié, on va dire que tu vas en détecter 90%. À la fin, tu as passé beaucoup de temps, tu as mis un data scientist, tu as fait un entraînement qui t’a coûté X milliers d’euros et tu as rajouté un pinième de pourcent de détection. Et en fait, c’est ce qu’on fait. C’est notre métier, c’est qu’on rajoute en continu différents algos. brique par brique. et donc quand des nouveaux membres de l’équipe arrivent en tech on leur dit rien on leur explique pas comment ça fonctionne. on leur dit pas les trucs qu’on fait. on veut qu’ils aient un esprit hyper ouvert et pendant deux semaines on leur file 2000 vrais les 2000 faux associés. donc tu vois A et A’ et on leur dit débrouille vous faites un truc.

Marc00:27:49 – 00:27:51 : Ils ne savent pas quels sont les vrais et quels sont les faux ?

Marc de Beaucorps 00:27:51 – 00:28:53 : Si, ils savent qu’ils sont les vrais. Ils savent comment ils ont été falsifiés, à quel endroit, même par quelle personne. En revanche, on ne fait pas ça du tout pour les piéger. On fait ça pour qu’ils ouvrent nos chakras. Ils nous ouvrent l’esprit. C’est-à-dire que si nous, on arrive en leur disant « Regardez, ça fait trois ans qu’on travaille dessus, on est les boss, blablabla. » On fait comme ça. Le mec, il va se dire « C’est comme ça la meilleure méthode. ». En vrai, peut-être pas. Peut-être qu’on se trompe depuis le début et que tu as un mec qui va avoir une idée géniale et te dire… Non, mais vous n’avez même pas regardé la police des caractères, alors que c’est le truc à faire. Et donc, on ne leur dit rien. Et donc, pendant X jours, on essaie de le faire deux semaines, ils essaient de faire des algos. Et à la fin, on regarde ce qu’ils ont fait. Et en fait, parfois, ils font exactement ce qu’on a voulu faire, nous, ou ce qu’on a déjà fait. Et parfois, ils font des trucs complètement différents. Donc, c’est ça qui est intéressant. C’est qu’en fait, tu as énormément de méthodes différentes. Et en entrée, en data d’entrée, tu peux prendre plein de choses. Parce qu’en soi, le document, c’est… Tu as plein de data. Tu as le contenu, mais en fait, tu as des pixels, tu as les strings, tu as le XML, tu as les métadonnées, tu peux combiner, tu peux faire plein de choses.

Marc00:28:54 – 00:29:03 : Comment on obtient toute cette donnée ? La donnée de fraude documentaire, comment on constitue un jeu de données de fraude documentaire ?

Marc de Beaucorps 00:29:03 – 00:30:10 : C’est compliqué parce que c’est des données qui sont confidentielles, que les entreprises ne souhaitent pas communiquer là-dessus, sous-estiment dans la plupart du temps les fraudes qu’elles subissent. Donc quand tu vas les voir, ils te disent on ne peut pas vous les fournir. Et puis même s’ils les fournissent, c’est des datas qui sont incomplètes parce qu’on n’a pas le vrai qui est adossé, parce qu’on ne sait pas exactement ce qui s’est passé. Et alors si tu commences à faire des entraînements sur des datas biaisées, tu vas perdre ton temps en fait. Donc ce qu’il a fallu faire, c’était comment est-ce qu’on arrive à refléter la réalité du monde ? Parce que les fraudeurs, je veux dire, si on fait qu’un détecteur d’une même méthode, un mec qui va toujours faire Photoshop… En fait, tu vas passer à côté de plein d’autres fraudes, de gens qui vont passer par un imprimante, un scanner pour trafiquer, les mecs qui vont passer sur leur téléphone, toutes les méthodes qui peuvent exister. On a un répertorié 350. Donc comment est-ce que tu arrives à refléter ces 350 méthodes ? Et d’autant que les fraudeurs ne sont pas les mêmes en fonction de leur âge, de leur niveau de skills, on va dire, et de leur pays. Parce que tu n’as pas les mêmes outils de bureautique en Russie qu’au Maroc, en France.

Marc00:30:10 – 00:30:10 : Oui.

Marc de Beaucorps 00:30:11 – 00:31:35 : Donc voilà, ça c’était compliqué. Et donc ce qu’on a fait, c’est qu’on est allé voir des gens aux quatre coins du monde. Et on leur a demandé de falsifier les documents. Donc on leur dit, vous fournissez un vrai, vous fournissez un faux qui est adossé. On vous rémunère pour ça. Et on essayait au maximum d’inclure les gens, vraiment même dans la partie détection. Le but, ce n’est pas d’inciter les gens à frauder, c’est plus de leur expliquer la démarche globale, de dire, ce qu’on fait, c’est un impact social qui est fort. Parce que derrière, quand tu économises, C’est-à-dire, nos clients estiment qu’on a permis d’économiser 5 millions d’euros de fraude chez eux. C’est 5 millions qui sont à court terme redistribués à l’entreprise, mais quand même à long terme, c’est redistribué à la société. C’est ta police d’assurance qui va diminuer parce que tu fais économiser 1 million d’euros à l’assurance. Et donc voilà, on essaie de les mettre dans cette démarche et de trouver des gens qui ont des âges, des skills de pays différents pour pouvoir capter un maximum de fraude. Et nous, en fait, ça nous permet quoi ? Ça nous permet d’avoir des datas pour des entraînements. Ça nous permet aussi d’avoir des statistiques. Derrière, on sait qu’on a tel pourcentage de détection que là-dessus, on est bon, là-dessus, on n’est pas bon. Et ça permet un dernier point, c’était toujours à jour. Parce que la fraude évolue. C’est ce qu’on disait juste avant, c’est un jeu du chat et de la souris. Donc, ces espèces de concours de fraude qu’on faisait en 2001 ne sont pas les mêmes que ceux qu’on fait cette année en 2024. Parce que les méthodes ont changé. Donc, je suis sûr que cette année, on va avoir des mecs qui vont générer de façon artificielle des documents, ce qui n’était pas le cas l’année dernière.

Marc00:31:35 – 00:31:41 : Quels ont été les grands verrous, grands obstacles que vous avez pu rencontrer? ? Grands obstacles techniques ?

Marc de Beaucorps 00:31:41 – 00:32:34 : technique je dirais c’est la puissance de calcul. il faut une puissance monstre qui coûte très cher. heureusement on a été aidé par différents cloud providers qui nous ont pas mal financé pour deux raisons pour les aspects techniques qui les intéressaient et après pour l’aspect social aussi le bien commun donc ça demande énormément de puissance de calcul. quand tu fais un entraînement ça peut durer plusieurs heures ou jours avant d’avoir ton résultat et donc notamment quand tu fais du computer vision Ça, ça a été assez compliqué parce que c’est très exploratoire. Déjà, nous, de base, on est plutôt pirates dans notre manière de faire. Donc, on ne va pas faire trois semaines de théorie. pour après, on lance notre truc et ça marche nickel parce qu’on a surtravaillé le truc. En plus, on va tester des trucs, puis on teste autre chose, puis on avance comme ça. Et donc, ça, ça prend du temps, ça consomme de l’énergie derrière. Et donc, c’était le premier problème, je dirais.

Marc00:32:36 – 00:32:43 : Et du côté non technique, que ce soit humain, un frein à l’adoption, qu’est-ce qui représente des obstacles pour vous ?

Marc de Beaucorps 00:32:43 – 00:35:02 : Le cycle de vente. quand même, parce qu’on est sur des sujets complexes, on est sur des sujets, grosses entreprises, en tout cas c’est là où il y a la plus grosse valeur à capter. Il faut convaincre la direction générale, parce qu’à la fin tu as un sujet de ROI, c’est combien je dépense pour ton outil versus ce que ça va me faire gagner en termes de fraude ou en termes de gain de temps, d’efficacité et d’espérance client, mais bon c’est un ROI. C’est la conformité, les services antifraude qui vont utiliser ton outil, c’est la DSI, c’est le juridique. Et pour mettre tout le monde dans le même bateau d’une grande banque française, ça prend du temps. Donc, il faut compter quand même 18 mois pour ça. Et d’autant que quand tu es une petite société, parce que 25, ça reste petit, quand tu es une petite société, tu dois prouver deux fois plus que tu es sérieux, que tu es crédible, que ton produit tourne, que tu ne vas pas faire faillite dans six mois. Donc, ça nous a mis du temps. On a mis du temps à signer les premières boîtes du CAC 40, on va dire, parce que tout ça est un autre sujet aussi. Là, ça va revenir un peu à la technique, mais c’est vraiment un travail de petites mains. qu’on nous remonte toutes les petites techniques de fraude. tous les retours d’expérience, tous les outils qu’ils ont pu avoir. Dès qu’on discute avec des clients et qu’on a un document qu’on ne détecte pas, ils nous le remontent. Comme ça, on peut faire des cash prizes en interne pour développer ce nouveau truc. C’est un travail en continu et c’est savoir s’adapter à tous les types de docs. Un jour, on va traiter avec un nouveau client qui va demander une analyse de cohérence sur un nouveau doc qu’on n’a jamais traité en Espagne. Là, c’est rajouter différentes analyses. Et en fait, tout ça, c’est un travail de petites mains, c’est-à-dire que c’est impossible à développer en laboratoire. Tu peux prendre les meilleurs ingénieurs du monde avec les meilleures techs et un budget illimité et de la puissance de calcul illimitée, tu n’arriveras jamais à développer ça parce que c’est un travail de terrain d’ingénieur qui discute avec le métier et qui remonte et qui améliore en continu. Pour te donner un exemple… Pôle emploi, ils éditent certains de leurs documents sur InDesign. Pour nous, InDesign, c’est considéré comme un logiciel de retouche. Donc on a dû, c’était l’année dernière, faire en sorte que détecter tous ces types de documents-là, savoir détecter le document, si c’est InDesign, alors ce n’est pas une fraude, parce que ça veut dire que ça vient de Pôle emploi. C’est un travail de petite fourmi sur plein de docs. Et ça, tu dois le faire un peu dans tous les pays. C’est très chronophage.

Marc00:35:02 – 00:35:08 : Il y a une sorte de cartographie des des possibles qui dépassent le champ technique, quoiqu’il y ait vraiment une construction.

Marc de Beaucorps 00:35:08 – 00:35:19 : Ce qui est une barrière à l’entrée énorme pour les futurs entrants, parce que ce n’est pas juste en développement un outil de détection de Photoshop que tu vas réussir, parce que ça représente 15% des fraudes. Mais ce qui, pour nous, est un gros boulot.

Marc00:35:21 – 00:35:36 : Côté évangélisation, qu’est-ce que tu dois beaucoup répéter aujourd’hui à tes interlocuteurs, que ce soit des prospects, des clients, etc. Quel est le travail d’évangélisation qui est important dans ton travail ?

Marc de Beaucorps 00:35:36 – 00:36:49 : Globalement, les entreprises savent qu’elles se font frauder. Elles n’ont pas besoin de nous pour ça. Même si nous, on peut leur apporter des spécificités, on peut leur apporter des chiffres. On fait des études là-dessus, on fait des sondages. Enfin, en tout cas, on passe par des cabinets de sondage. Donc, on leur fournit des informations, mais tu vas voir un assureur, il sait que, pas exactement le montant, mais il sait qu’il se fait frauder une banque pareille, etc. Donc là-dessus, ça va. Nous, ça s’est fait en deux étapes. La première, ça a été, on a mis le produit sur le marché l’année dernière. 2023 c’est notre première année complète de commercialisation. et d’abord ça a été se faire connaître dire à tout le monde voilà on a créé ça on est l’acteur de référence sur le sujet et on est une techno qui marche parce que dès les premiers mois on a déjà eu des adopteurs dont des très belles boîtes. quoi donc ça? c’était le premier truc. et aujourd’hui on est plus dans une deuxième phase de se dire les acteurs nous connaissent les principaux Et maintenant, c’est leur prouver que c’est le bon outil au bon endroit qui va leur faire gagner de l’argent. Donc, c’est plus parler de ROI, parler de retour client, de use case spécifique, montrer qu’on a signé MetLife aux Etats-Unis, un assureur. Donc, ce sera applicable aussi là-bas. C’est montrer qu’on travaille avec un assureur en Espagne. Donc, si vous avez ce use case, ça marche bien. C’est plus prouver.

Marc00:36:49 – 00:36:54 : Oui, gagner en crédibilité grâce à ce que vous faites avec d’autres clients.

Marc de Beaucorps 00:36:55 – 00:37:00 : Oui, exactement. C’était plus ce awareness un peu au départ, puis là, c’est conversion.

Marc00:37:00 – 00:37:11 : Est-ce qu’il y a des erreurs que tu as faites ou que vous avez faites, soit sur la partie business, soit sur la partie technique, que tu pourrais nous partager pour nous faire gagner du temps ?

Marc de Beaucorps 00:37:11 – 00:39:32 : On a fait pas mal d’erreurs en tech parce que c’est très exploratoire. On s’inspirait de certains secteurs à côté, comme il y avait pas mal de littérature sur les deepfakes, détection de deepfakes. On s’inspirait de ça, mais en fait, il n’y avait jamais vraiment rien de spécifique à ce qu’on faisait. Donc, forcément, en R&D, on a lancé des projets, des trucs. Ça n’a jamais marché. On a perdu 50 000 balles et on a perdu du temps. mais d’une certaine manière ça je peux pas l’éviter parce que c’est de la R&D. donc en fait tu sais pas à l’avance et t’as des petits projets à la con menés par un stagiaire sur lequel t’aurais pas parié et qui t’a sorti un algorithme incroyable sur lequel t’es pas parti. mais ça fait partie de la R&D. donc ça là dessus. pour le coup j’ai pas de conseils à donner parce qu’il faut juste essayer et tenter plein de trucs en revanche Surtout s’il y a des techs qui nous écoutent. Nous, on avait un biais dès le départ, c’est qu’on avait honte de ne pas présenter un produit fini au client. On avait honte d’aller commencer à discuter avec des gens et de présenter un Figma. Ce n’était pas possible pour nous parce qu’on était tech, parce qu’on n’avait pas envie de ça, parce que je ne sais pas pourquoi on n’a pas fait. Et donc, on a mis beaucoup de temps à mettre le produit sur le marché. En soi, quand on a commencé la R&D, dès début 2022, On avait un premier produit qui détectait peut-être que 40% des fraudes, mais on avait un truc qui fonctionnait, qui aurait déjà pu être mis en prod. et on améliore comme ça. Et puis, tu ne factures pas très cher. Et en fait, on a voulu attendre d’avoir un produit qui est parfait avant de le commercialiser. Et ça, je regrette parce qu’on a perdu du temps. Et c’est quand notre troisième associé, troisième fondateur est arrivé, lui, purement business. C’est lui qui a préparé toute la commercialisation, recruté le premier commercial, le premier personnel marketing. Et c’est vraiment là que ça nous a débloqué. Et c’est là qu’on a fait les meilleures avancées technologiques. Parce qu’avant, c’était que des discussions avec le métier. Là, c’est vraiment le métier qui utilise son outil et qui te fait les retours qui sont les retours les plus incroyables. Donc, en fait, il faut se confronter au marché. Il ne faut pas hésiter à aller proposer un produit qui n’est pas fini parce que tu as une période de POC dans laquelle tu peux te faire un rush de un mois pendant le POC. En fait, tu vas trop avancer. Il faut se lancer et ne pas avoir honte de ça. Je peux te donner un autre conseil, c’est de ne pas réinventer la roue. Si tu as un outil externe qui marche hyper bien, même si ça t’embête de dire que c’est une autre boîte qui le fait mieux que toi, même si ça t’embête de payer un peu, les mecs qui sont spécialisés, s’ils le font mieux que toi, fais leur confiance.

Marc00:39:32 – 00:39:36 : Est-ce que tu as une anecdote à nous partager ?

Marc de Beaucorps 00:39:36 – 00:40:15 : Une anecdote, les trois fondateurs ont des copains depuis longtemps et j’étais voisin de table en sixième de mon cofondateur. On a commencé par se battre quand on était voisin de table parce qu’on avait des noms qui sont très proches. On a commencé par craquer des iPhones dans la cour pour gagner un peu d’argent. Depuis qu’on est tout petit, on fait des petits business tous les deux et puis petit à petit, on les a fait tous les trois. à différents niveaux et aujourd’hui j’ai juste l’impression d’être dans le prolongement de ce qu’on faisait en sixième à plus grande échelle avec 25 personnes et des investisseurs mais dans ma tête c’est un peu la même chose. voilà c’était un pote de collège.

Marc00:40:16 – 00:40:19 : ok est-ce que tu veux nous partager une opinion ?

Marc de Beaucorps 00:40:19 – 00:41:47 : frauder pas voilà. enfin évidemment moi en tant que business ça m’arrange parce que plus il y a trop de plus je gagne d’argent mais ça a des conséquences qui sont énormes et il n’y a pas tellement de punitions qui sont attachées à ça. Il y a une société par exemple qui s’appelle Urica qui en 2018 a fait faillite à cause de faux documents. C’est-à-dire que c’est un agriculteur dans le nord de la France qui, je crois que l’histoire, il voulait refaire sa moissonneuse batteuse, réparer un truc. Et donc il a fait une fausse facture, puis une deuxième, puis une troisième. Puis il est allé voir une deuxième société à la facturage. Il a fait une première fausse facture, deuxième, troisième. Et donc à la fin, il y avait une double mobilisation. Donc tu envoies deux créances à deux sociétés différentes. C’est comme si tu faisais deux prêts sur les mêmes fiches de paye auprès de deux banques, ce qui est interdit. Enfin, en tout cas, sans le déclarer. Et donc, il a fait tout un système. Et à la fin, il n’a pas remboursé ses finances et ses dettes. Et la société a déposé le bilan, Eureka. Et l’autre structure, c’est une grande banque française qui a juste absorbé les millions de fraudes en question. Donc ça a des conséquences qui sont assez fortes pour les entreprises. Et en fait, on a l’impression que ça a un impact qui est très faible. parce que, si je prends l’exemple d’une assurance, je paye mon assurance, c’est normal qu’ils me remboursent. En fait, ça ne marche pas comme ça. Et aujourd’hui, le taux de fraude en assurance sur le document, c’est entre 5 et 10 %. Donc, toi, quand tu souscris un mois d’assurance, tu as un mois qui est payé pour la fraude. Et en fait, ça a un impact très fort après sur tout le monde. Donc, tu peux appliquer le même raisonnement de prestation sociale, etc. Ok.

Marc00:41:48 – 00:41:54 : Alors, quel invité est-ce que tu aimerais entendre au micro de Data Driven 101 dans un prochain épisode ?

Marc de Beaucorps 00:41:54 – 00:41:58 : Sam Atman. D’accord.

Marc00:41:58 – 00:42:01 : Je prends la recommandation. Merci Marc.

Marc de Beaucorps 00:42:02 – 00:42:04 : Merci à toi.

Marc00:42:04 – 00:42:18 : Vous venez d’entendre Marc Debocor, CEO de Finovox sur Data Driven 101. Dans le prochain épisode, je recevrai Bruno Donnet et Alid chez Léonard, l’incubateur du groupe Vinci, pour nous parler d’IA et d’innovation dans un grand groupe. À très vite !

IA & fraude documentaire

Suivez-nous

En savoir plus

IA & fraude documentaire

Vous devriez également aimer

Finance et Durabilité : Explorer l’Impact des Données ESG

IA consultation médicale

Chloé Dupuy : Comprendre le client

Suivez-nous

En savoir plus