IA et imagerie satellite au service du renseignement

Renaud Allioux, cofondateur de Preligens, société qui développe des solutions d’IA pour l’aérospatiale, la défense et les institutions gouvernementales, est l’invité de l’épisode 47 de Data Driven 101. Il nous parle notamment de : 

  • La genèse du projet et leurs aventures
  • L’impact des évolutions de l’IA avec un focus sur les modèles de fondation et l’IA générative.
  • La gestion de données sensibles et les contraintes strictes du secteur.

 

 

 

Marc 00:00:00 – 00:00:15 : Aujourd’hui, je reçois Renaud Allioux, cofondateur de Préligens. Préligens est une société qui développe des solutions d’IA pour l’aérospatiale, la défense et les institutions gouvernementales, en particulier dans l’analyse de données images, audio et vidéo, notamment satellites et drones. Bonjour Renaud. 

 

Renaud 00:00:15 – 00:00:16 : Bonjour. 

 

Marc 00:00:16 – 00:00:20 : Alors est-ce que, Renaud, tu peux nous parler un peu plus généralement de Préligence ? 

 

Renaud 00:00:20 – 00:01:03 : Alors donc Préligence, comme ça a été dit, nous sommes une société d’IA, on développe diverses solutions pour le gouvernement, la défense, etc. Là où on est le plus connu, c’est sur des sujets par exemple d’analyse d’images satellites ou d’analyse d’images vidéo. Donc typiquement, si on prend une grande image satellite, les images satellites c’est relativement grand, il y en a de plus en plus, il y en a des milliers qui peuvent par jour. Les gens qui regardent ces données ne peuvent pas les regarder de plus en plus, c’est des humains. Donc avec l’IA, on va automatiser certains process, par exemple compter des avions, détecter des sous-marins, détecter des navires, etc. pour permettre justement à ces personnes qui regardent les images, qui sont les analystes, de travailler plus efficacement, plus vite et se concentrer sur leur valeur ajoutée. 

 

Marc 00:01:03 – 00:01:08 : Ok, alors quel genre de data vous traitez ? J’ai bien compris l’image satellite. 

 

Renaud 00:01:08 – 00:01:39 : Beaucoup d’images satellites et d’images vidéo, du son aussi, comme ça a été dit. Donc des données à la fois assez grosses, assez volumineuses, par contre en petit volume. Quand on dit petit volume, ça ne dépend pas. Quand on compare par exemple aux gens qui vont faire de l’IA, typiquement des modèles génératifs ou de l’IA sur… des données Instagram, etc., on reste quand même sur des volumes plus contraints, avec des données qui sont elles-mêmes plus grosses, donc ça crée différents problèmes techniques. Et ces données peuvent aussi avoir des degrés de sensibilité importants, par exemple des données qui peuvent être classifiées, etc. 

 

Marc 00:01:40 – 00:01:47 : Ok. Et alors du coup, sur le côté images et photos prises de satellites, mais côté son et vidéo, on parle de quoi ? 

 

Renaud 00:01:47 – 00:02:20 : Alors vidéo, ça peut être des vidéos prises de drones, d’avions, donc c’est beaucoup ça. C’est-à-dire qu’on a de plus en plus de, lorsque les militaires appellent de vecteurs, donc de véhicules finalement, qui enregistrent des images. Donc que ce soit des avions, des drones, des hélicoptères, etc., Donc là, ces vidéos, il faut pouvoir aussi les regarder, les traiter en tirant de l’information, pour que ce soit du renseignement, de la reconnaissance. Puis en audio, il peut y avoir des sujets, comment dire, de comprendre l’environnement en audio, par exemple des départs de coups, des gens qui tirent, il peut y avoir des sujets sonores, etc. Ok. 

 

Marc 00:02:20 – 00:02:39 : Alors, pour monter cette entreprise, vous avez eu besoin de mettre en place ces algos. Comme tu as dit, la donnée est potentiellement classifiée. Il y a plein de problèmes pour se constituer le dataset d’entraînement de vos algos. Quelle était la mise de départ ? Comment vous avez démarré ? Qu’est-ce qui vous a mis le pied à l’étrier ? 

 

Renaud 00:02:39 – 00:04:09 : Alors, l’intérêt dans notre domaine, c’est justement qu’on a commencé par le satellite, qui est plus simple. Pourquoi ? Parce que l’imagerie satellite, on peut en acheter. On peut en récupérer en open source, puis on peut en acheter aussi chez Airbus, chez les fournisseurs américains, etc. Donc, ce ne sont pas les mêmes images exactement qui sont les satellites espions français, même si les militaires achètent aussi les données commerciales. Ils valorisent les deux, les données commerciales et ce qu’on appelle les données souveraines. Donc… Mais ça ressemble un peu, donc ça permet de développer des premiers modèles, de commencer à travailler, avant d’après passer sur des données qui sont plus sensibles, où là on travaille en environnement classifié, etc. Mais là il faut des bâtiments habilités, etc. Donc ça on n’a pas pu commencer par ça. Donc on a commencé par ces images satellites, et puis après on s’est diversifié sur d’autres types de données, mais toujours pour le même style de clients, donc des clients gouvernementaux et défense, et donc on a aussi récupéré des données vidéo, etc. On récupère différents types de données. Donc, le pied à l’étrier, c’est vraiment de pouvoir être sur des données qui sont relativement accessibles. Et je pense que c’est tout le monde qui en fait de l’IA. C’est-à-dire que si on est de données trop spécialisées, trop sensibles, le temps d’avoir accès à ces données, parce que c’est possible, mais le temps d’y avoir accès, en fait, quand tu as une boîte qui commence ou tu es deux, etc., ça ne marche pas, tu n’as pas de temps. Maintenant, on est beaucoup, on est plus de 250, donc on arrive à faire tourner différents environnements logiciels, différents stack clouds, etc., en fonction des… en fonction de la sensibilité des données. Et du coup, si des fois il faut 6 mois pour créer des données sur un projet, ça va, on a d’autres choses qui nous payent en attendant. 

 

Marc 00:04:09 – 00:04:15 : Du coup, aujourd’hui, de quels datas vous disposez pour entraîner, construire et qualifier les algos ? 

 

Renaud 00:04:15 – 00:05:08 : Alors aujourd’hui, on a énormément de données. Alors images, je ne sais plus, on a plusieurs centaines de teras. Alors, ça dépend toujours par qui on compare, mais dans notre domaine, c’est beaucoup. Et de différentes… Comment dire ? Qui sont souvent annotées. Donc, on va avoir des gens qui vont… On fait de l’IA, on fait de l’apprentissage supervisé, beaucoup. Donc, on va annoter ces données, c’est-à-dire détourer les avions, pointer les véhicules… enregistrer les sons, etc. Se dire, ce qui est intéressant dans l’image, c’est ça. Et ça, on le fait avec des équipes dédiées et des équipes en sous-traitance. C’est ce qui nous permet aujourd’hui d’avoir à la fois plusieurs centaines de terras de données brutes, mais aussi plusieurs dizaines de millions d’annotations sur des images vidéo, drones, satellites et audio. Et ce qui nous permet là de vraiment avoir une base de données assez unique. Donc là-dessus, on a une matière première qui est assez unique dans notre domaine. 

 

Marc 00:05:10 – 00:05:16 : Quel était le constat à la base sur le besoin quand vous avez décidé de faire ça avec ton cofondateur ? 

 

Renaud 00:05:16 – 00:06:44 : Au début, la volonté était plus de dire on veut monter une boîte dans la défense et dans le spatial, enfin plutôt dans le spatial, avant de dire on veut faire de l’IA dans la défense. Et de fil en aiguille, on est arrivé justement à trouver ces problèmes dans la défense. En particulier, on a eu la DRM, la Direction du Renseignement Militaire, qui a ouvert ses portes. La majorité de gens ne connaissent pas, mais quand on entend le nom, on se rend compte que ce n’est pas un truc… Dans la direction du renseignement militaire, on se dit que ce n’est pas un truc où ils ont pignon sur rue, c’est assez secret, c’est assez confidentiel. Et il y a un moment, ils ont ouvert leur porte à des startups qui faisaient un peu de l’IA, etc., pour dire « Regardez, on a des problèmes et on ne sait pas comment les résoudre. ». Et là, ils ont ouvert leur porte, ils ont expliqué comment ils traitaient leurs données satellites, et nous, on commençait à s’intéresser à ça. Et on était là, mais en fait, c’est démentiel, quoi, la puissance, comment on peut les aider. Parce qu’ils font tout à la main. Il faut s’imaginer que, par exemple, vous prenez une image de Paris sur Google Maps, en haute résolution, là, Google Earth, et vous comptez toutes les voitures. Vous imaginez combien de temps ça vous prend, quoi, c’est démentiel. C’est vraiment… C’est des tâches très, très chronophages, et ils doivent le faire très, très régulièrement, de manière très rapide, parce que, après, derrière, il y a des opérations qui se montent, il y a le président qui demande des renseignements, etc., donc c’est… C’est là où on a eu le déclic en se disant que c’est dans la défense et le gouvernemental qu’il faut qu’on aille parce qu’il y a énormément de données. Et plus on a creusé, plus on a vu qu’ils avaient des données, plus ils achètent des nouveaux supports. On parle énormément de drones aujourd’hui avec l’Ukraine. Et donc de plus en plus, il va falloir mettre de l’IA partout. 

 

Marc 00:06:45 – 00:06:55 : Alors depuis que vous avez commencé, les technos ont évolué, en IA en particulier. Qu’est-ce que ces avancées technologiques ont changé pour vous ? 

 

Renaud 00:06:55 – 00:08:13 : Il y a eu plusieurs avancées. On est quand même très innovant dans notre domaine. Souvent, on adapte les nouvelles entreprises, les transformeurs, les choses comme ça. On a même travaillé sur ce qu’on appelle les capsules network. adapter les nouvelles architectures, les nouveaux domaines. Ce qui change quand même pas mal de choses, c’est qu’on a vu avec l’IA génératif, on a vu apparaître des nouvelles fonctionnalités, et nous on voit apparaître aussi, commencer à développer en interne ce qu’on appelle des modèles de fondation, donc on fait ça avec le supercalculateur Jean Zay, où on va se permettre de développer des très très gros modèles en non-supervisé, c’est-à-dire en auto-apprentissage, avec des modèles sur plusieurs milliards de paramètres qui vont nous permettre d’être plus efficaces dans la création de modèles spécialisés. C’est vraiment un peu comme les fondations d’une maison qui vont permettre de construire les murs de manière plus simplement avec des briques. Et ça, c’est des choses qu’on a vu apparaître récemment qui sont en train de changer un petit peu les manières dont on travaille. Et puis surtout, on a vu apparaître l’adoption de l’IA. Alors, ce n’est pas la technologie, mais on a vu l’adoption de l’IA. Et puis le fait que l’IA ait passé quand même d’une technologie émergente à quelque chose qui est aujourd’hui un must-have, en tout cas dans la défense, c’est un acte stratégique qui est maintenant reconnu comme tel. 

 

Marc 00:08:13 – 00:08:50 : Oui, mais alors, typiquement, par exemple, sur la segmentation de l’image, je pense à ce modèle qui a sorti Metal l’an dernier, le Segmenting Missing Model, SAM. Quand quelque chose comme ça arrive, alors vous, c’est de l’image satellite, c’est peut-être un petit peu différent de ce sur quoi ils sont entraînés, mais quand ils arrivent avec un modèle fondation comme ça, est-ce que, du coup, vous devez… repartir de là et faire tout ce que vous aviez fait dans votre branche de développement sur ce nouveau modèle meilleur que les précédents ? Ou bien est-ce que ça ne vous concerne pas tant que ça finalement et ce n’est pas si transférable à ce que vous faites ? 

 

Renaud 00:08:50 – 00:11:02 : Alors en plus c’est le cœur de mon poste et même ce que j’ai évolué de poste, toute l’arrivée des liais génératifs et des modèles de fondation m’a fait vouloir changer de poste pour se focaliser plus sur des sujets, ce qu’on appelle nous innovation et des sujets prospectifs pour justement comprendre un peu les tendances. Typiquement, quand c’est arrivé, Segment Hennessy, ça a généré chez nous une étude où on s’est dit qu’il faut qu’on regarde vraiment concrètement pour essayer de voir justement est-ce que ça nous aide, est-ce que ça nous met en danger en baissant les barrières à l’entrée, est-ce que c’est quelque chose qui est utile pour nous. Donc on a passé un peu de temps pour regarder. Et on a vu plusieurs choses. La première chose, c’est que déjà directement, ce n’est pas applicable à nos domaines. Et c’est quelque chose qu’on retrouve un petit peu sur toutes les IA génératives. C’est-à-dire que le chat GPT, aujourd’hui, ça peut regarder des images. On lui met des images, on peut lui demander de l’analyser. C’est bon pour faire des choses un petit peu générales, pas trop mal. Ça ne va pas analyser une image médicale ou une image satellite à un niveau de performance qu’a besoin un expert. Donc ça, c’est le premier truc. Ça ne remplace pas. Et c’est des modèles aussi qui sont très complexes d’utilisation, de fine-tuning, etc. Donc nous, là, on a trouvé ça intéressant. C’est que par exemple, il y a des approches très innovantes dans la manière dont sont gérées les données dans les architectures que nous, on a reprises pour créer nos propres modèles, on pourrait dire notre Samanou qu’on est en train de développer. Et ce qu’on voit en fait, c’est qu’au début, tout le monde disait « est-ce que ce n’est pas une menace ? ». Moi, ce que je vois, justement, c’est que c’est des choses qui nous aident énormément parce que ça nous permet de développer des différenciateurs, mais ces différenciateurs sont durs à développer. C’est-à-dire que tu as à réentraîner un modèle de fondation, réentraîner un modèle d’IA génératif. En fait, ça demande beaucoup de compétences, ça demande beaucoup de savoir-faire, ça demande une grosse équipe. Donc il n’y a pas beaucoup de gens qui peuvent le faire. Par contre, si tu veux être bon, il faut pouvoir le faire. Et donc nous, ça ne nous met plus qu’en fait de nous mettre en danger, ça nous met plutôt, je trouve que ça augmente les barrières à l’entrée qu’on est capable de mettre nous par rapport à des concurrents. Donc on a trouvé ça intéressant. Mais typiquement, on regarde beaucoup ces choses-là, on voit un peu les évolutions, voir si on a besoin justement de tout ce qui est multimodalité entre l’image et le texte. C’est des choses qui nous intéressent beaucoup aussi. côté recherche. 

 

Marc 00:11:03 – 00:11:34 : Oui, c’est intéressant parce que ce que tu dis, finalement, avec des modèles comme SAM, ça devient beaucoup plus facile pour n’importe qui de développer un modèle de segmentation basique. Mais du coup, dans le monde d’avant, tout le monde faisait ses propres modèles. Dans le monde d’après, tout le monde utilise une brique sur étagère, sauf quelques-uns comme vous qui ont besoin de faire leur propre modèle. Et ça vous rend plus exceptionnel qu’avant le fait qu’il y ait des briques sur étagère aussi complètes que SAM, finalement. C’est un peu ce que tu dis. 

 

Renaud 00:11:34 – 00:11:46 : Oui, pour reformer, je dirais    que SAM, ça te permet facilement de segmenter. Tu mets des images, ça segmente. Par contre, si tu veux reprendre de SAM, c’est beaucoup plus difficile que de reprendre d’un ResNet d’il y a deux ans, je crois. 

 

Marc 00:11:46 – 00:11:48 : D’accord. C’est plus dur à finituner. 

 

Renaud 00:11:48 – 00:13:08 : Ah ouais, ils font une puissance de calcul énorme, ça diverge tout le temps, c’est pas stable, t’as plein de paramètres dedans qui sont très complexes. Modifier les architectures, c’est tout un autre travail que modifier un simple reset. Donc en fait… De toute façon, l’IA, il y a toujours eu des modèles de base. C’est-à-dire qu’il y a 5 ans, on utilisait un ResNet et puis on repartait d’un ResNet. Beaucoup de gens utilisent ImageNet ou une grosse base de données publique pour entraîner. Donc, personne ne repart de zéro. C’est-à-dire que je prends une feuille blanche et puis je reconnais mon réseau de neurones. Ça n’existe pas. Par contre, aujourd’hui, tu repars de modèles de plus en plus complexes, de plus en plus puissants, de plus en plus lourds, ce qui fait qu’aujourd’hui, n’importe quel étudiant est capable, avec un petit notebook et un PC un peu puissant, d’entraîner un ResNet,   , réentraîner un lama, réentraîner ce genre de choses. C’est tout un autre savoir-faire. Et donc, le truc, c’est que les meilleurs, ils vont être capables de réentraîner, que ce soit en texte, en images, réentraîner des… adapter ce genre de modèle open source très gros, très lourd, très complexe. Par contre, les petites équipes ne vont pas être capables. C’est aussi un des dangers sur les modèles de texte. Un des dangers, c’est justement le fait que ce soit capté par les GAFA et que la barrière à l’entrée soit trop grosse pour des acteurs autres. 

 

Marc 00:13:09 – 00:13:37 : D’accord. Et sur ce sujet-là, parce que je trouve ça intéressant de creuser, qu’est-ce que tu penses de l’aspect distillation ? C’est-à-dire qu’on prend Sam pour finalement construire une base de données supervisée avec des images qui, elles, n’ont pas été annotées par des humains. Donc on récupère juste des images, on les annote avec Sam. Et ensuite, on entraîne un petit modèle qui est facile à finituner, comme tu dis, pour la tâche dont on a besoin. Qu’est-ce que cette approche pourrait faire sur ton domaine ? 

 

Renaud 00:13:37 – 00:15:02 : Alors, il y a un moment où, en particulier sur notre domaine, mais je pense que c’est pareil sur pas mal de domaines très précis, type, par exemple, le contrôle de pièces en industrie ou l’imagerie médicale, il faut que tu aies quand même la notation, tu vois, avec, nous, il faut qu’on ait le modèle d’avion, il faut savoir si c’est une fracture ou pas. Donc, la segmentation peut t’aider à pré-entraîner. Oui. Et nous ce qu’on voit c’est plutôt que ça aide à entraîner des très très gros modèles un peu spécialisés. C’est-à-dire en haut on va prendre un modèle de fondation qui est très fort sur de l’imagerie satellite aérienne, et là on va utiliser des outils comme SAM pour justement nourrir de milliards ou de millions d’images ce modèle de fondation custom, qui après, là on va demander à des experts d’annoter des images, et quand même il en faut pas mal, c’est pas quelques centaines, c’est plutôt quelques milliers, dizaines de milliers, d’annoter des images, mais là très précisément, Donc avec du savoir-faire métier. Nous, c’est quel modèle de char ? Est-ce que c’est un lanceur de missiles ? Ce genre de trucs. Et ça, il faut à un moment des gens spécialisés. Aujourd’hui, il n’y a pas de choses sur étagère qui savent différencier les classes de sous-marins. Ou savoir si le pick-up, est-ce qu’ils ont mis une mitrailleuse ou pas dessus ? Des trucs comme ça. Ou travailler sur des données. Par exemple, nous aussi, on a le fait qu’on travaille sur des données qui n’ont pas été vues. Par exemple, des images infrarouges, des images radars. Ça, il n’y a pas de modèle sur étagère qui conduit des images infrarouges de Reaper. 

 

Marc 00:15:02 – 00:15:04 : Donc on sort des photos ordinaires. 

 

Renaud 00:15:04 – 00:15:07 : Voilà. 

 

Marc 00:15:07 – 00:15:27 : Sur la phase d’annotation, ça peut être quand même utile d’avoir un masque de l’objet et ensuite de dire, ça c’était un tank de telle marque, tel modèle. Mais avant, on va dire, le notateur aurait dû carrément, pixel par pixel, détourer l’image, peut-être même le faire de façon moins précise que le ferait Sam aujourd’hui. 

 

Renaud 00:15:28 – 00:17:47 : Oui, c’est assez utile. C’est vrai que c’est des outils qui servent à la préannotation. C’est assez utile. Il faut faire attention parce que nous, ce qu’on a vu dans tous ces outils, on les utilise, mais des fois avec parcimonie. C’est-à-dire qu’en fonction des cas, on sait quand il faut utiliser, quand il ne faut pas utiliser. Parce qu’en fait, ça peut créer des biais. Typiquement, par exemple, l’humain, si tu lui mets des masques comme ça, il a tendance à plus rajouter des choses qu’en enlever. Donc, si tu as un truc qui est un peu incertain, qui est pris en compte par la pré-annotation, l’humain ne va pas l’enlever. Par exemple, si ta pré-annotation a tendance à être plutôt conservateur, là, l’humain va rajouter. Donc, tu peux te créer des biais, par exemple, où tu te retrouves… Donc, on avait vu ça en faisant des tests, nous, des comparatifs, etc. Et ça, ça peut être, par exemple, sur des véhicules, quand tu prends des images satellites, si tu veux regarder des véhicules, c’est vraiment tout petit, c’est quelques pixels. Et donc, tu as des fois, si tu mets trop d’outils d’anneau automatique, tu vas créer des biais et tu te trouves avec une base de données qui n’est pas la base de données qu’aurait fait un humain. Et du coup, avec des résultats qui ne correspondent pas à ce que voudrait l’humain. Donc, on les utilise, mais c’est intéressant parce que vous faites attention. Il y a d’autres sujets, par exemple, où on travaille sur des sujets cartographiques. Donc, tu vas vouloir faire des cartes. Et là, ce qui est intéressant, c’est que tu ne veux pas seulement détecter des bâtiments ou des routes, mais tu veux vraiment le faire selon un format cartographique particulier. Par exemple, il faut que les angles soient droits, il faut que les routes, ce soit une ligne ou ce soit positionné au milieu de la route, etc. Et donc, si tu fais de la segmentation brute, ça détecte, mais en fait, la personne qui regarde la carte, ça ne l’intéresse pas, parce que ce n’est pas une carte, ce n’est pas un objet technique, c’est une image avec des masques dessus. Et donc, en fait, elle va mettre plus de temps à reprendre avec les bons critères, c’est-à-dire les bons angles droits, le fait que les routes soient au milieu, etc. Ça va lui mettre plus de temps à reprendre le masque fait par un truc de segmentation générique que le faire des front scratchs. Donc, tu as ces sujets-là qui font que ça aide, mais en fait, c’est souvent aussi plus compliqué que ça et que tu peux te retrouver avec des trucs où… Donc, on utilise, on a ces outils, on a d’autres outils, on a des outils, par exemple, de génération d’images synthétiques, on a des outils différents qui, en fonction des cas, on utilise pour pré-annoter, pour faire de l’apprentissage non autosupervisé ou des choses comme ça. 

 

Marc 00:17:47 – 00:17:54 : Ok. Alors, quels ont été les principaux verrous et obstacles que vous avez dû résoudre pour faire ce que vous faites ? 

 

Renaud 00:17:54 – 00:19:48 : Un des verrous dans la défense, c’est quand même de récupérer la donnée, d’avoir de la donnée en quantité assez importante. Donc ça, nous, on a créé un centre vraiment dédié, qui est, on pense, assez unique à Rennes, où on traite, ce qu’on appelle une usine algo, où on traite de la donnée classifiée, et où, en fait, on rentre des données et on sort des algos. Donc il y a des gens qui annotent, il y a des data scientists, il y a des devops, des devs, il y a tout le monde. Un data center privé… tout verrouillé et tout avec des murs blindés pour éviter le rayonnement électromagnétique, enfin des trucs assez marrants techniquement et du coup on a ce… parce que en fait il y a plein de cas d’usages où la donnée elle est très sensible et donc tu peux pas, genre si tu veux entraîner des algos dessus t’es obligé de le faire en environnement fermé. et donc ça, avoir cette donnée et aussi l’avoir en masse. Parce que ce qui est intéressant, c’est que c’est une des discussions qu’on a avec nos partenaires et nos clients. C’est que souvent, ce qu’on appelle en masse pour de l’IA, ce n’est pas la même chose qu’en masse pour un opérateur. Un opérateur, il se dit « je t’ai donné plein de données ». il va te fournir 20 heures de vidéo. tu dis non mais moi il me faut 2000 heures de vidéo. et là t’es là. ah oui tu vois cette espèce de parce que 20 heures de vidéo pour un humain à regarder c’est énorme. et puis c’est des fois des choses qui mettent bah s’ils font voler drone 20 heures de vidéo intéressante c’est peut-être 10 vols. tu vois genre c’est pas mal c’est beaucoup sauf qu’en fait par rapport à la technique. Donc, arriver à trouver des moyens de récupérer de la donnée, en récupérer beaucoup. Des fois, la donnée n’est pas sauvegardée. Comme c’est des données sensibles, ils n’ont pas le cloud, ils ne peuvent pas mettre ça sur AWS. Donc, ils n’ont pas non plus de l’historique à foison, des choses comme ça. Donc ce côté acquérir de la donnée sur des sujets sensibles est toujours un côté, c’est un challenge qu’on travaille avec eux. Il y a aussi tout le côté réglementaire, parce que c’est de la donnée qui appartient au gouvernement, donc on ne peut pas en faire n’importe quoi. Si on les met à disposition, c’est contre quatre contreparties, etc. 

 

Marc 00:19:48 – 00:20:06 : Justement, sur cet aspect réglementaire et les histoires de murs blindés, magnétiques et compagnie, comment ça se passe concrètement dans le déroulé ? Comment est-ce qu’à un moment donné, on vous dit, il va falloir que vous mettiez des murs blindés ? Est-ce que c’est des normes respectées pour manipuler ces données ? Est-ce que c’est eux qui font venir quelqu’un et qui disent… 

 

Renaud 00:20:06 – 00:21:10 : C’est des normes, c’est long, mais c’est très normé. C’est tout ce qui est dans la défense, c’est la gestion des supports classifiés. Il y a ce qu’on appelle une instruction générale interministérielle qui décrit comment… C’est un peu comme un ISO 9001, c’est une norme. Tu construis tes trucs. Il y a des prestataires spécialisés. Après, ils viennent faire un audit, ils viennent vérifier, ils mettent un tampon. Une fois que tu as le tampon, tu as le droit de récupérer les données. Il y a la procédure, tu dois utiliser certains outils. C’est assez procéduré, c’est pas facile et rapide, mais c’est des choses qui sont classiques. Par contre, tout le côté données IA, c’est assez nouveau. Et ça, c’est des trucs qu’on construit avec eux, c’est-à-dire, si les données sont classifiées, l’algo derrière qui sort, est-ce qu’il est classifié ? Quel va être son degré de sensibilité ? Comment les données sont stockées ? Est-ce qu’elles sont détruites ? Qui a les droits derrière dessus ? Ça c’est des trucs un peu nouveaux parce qu’on a les premiers à faire de l’IA sur ce genre de sujet. 

 

Marc 00:21:10 – 00:21:15 : Quelle est la réponse aujourd’hui s’il y a des images classifiées dans le dataset d’entraînement ? Est-ce que l’algo est classifié ? 

 

Renaud 00:21:15 – 00:22:30 : C’est des choses qu’on discute avec eux et qui sont assez intéressantes technologiquement. La question, c’est aussi, du coup, tout est assez précis. C’est-à-dire que la défense est assez précise. Et donc, quand il y a des choses qui ont des degrés de classification, c’est pour certaines raisons. Typiquement, je Je ne sais pas, c’est classifié parce que la résolution du capteur est sensible. Et donc en fait, la question après, quand tu mets ça dans un algo, c’est quelle est l’information que tu peux récupérer derrière à partir de l’algorithme. Et donc ça, on fait des tests assez intéressants, donc il n’y a pas encore toutes les réponses, mais on a travaillé avec le CEA, on commence à faire des pen-tests d’algorithmes. On leur donne des algorithmes, on leur dit qu’est-ce que vous pouvez récupérer comme informations de ces algos ? Et eux, ils essayent de secouer le truc pour se dire « Ah ben voilà, on peut retrouver ». Et aujourd’hui, ce qu’on voit, c’est quand même que si l’algo est bien fait, nous, il y a peu d’informations initiales, des données que tu peux récupérer. Donc c’est plutôt satisfaisant. Mais c’est des choses qu’on est en train d’essayer. Aujourd’hui, les réponses ne sont pas complètement fixées. Et je pense qu’il y a de la standardisation qui va être faite aussi au niveau ministère, à partir des travaux qu’on mène, etc., En attendant, j’imagine qu’on est conservateur. Voilà, en attendant le conservateur. C’est un dialogue qui se passe assez bien, de toute façon. 

 

Marc 00:22:32 – 00:22:38 : Est-ce qu’il y a des obstacles non techniques, plutôt côté humain notamment, à l’utilisation de votre travail ? 

 

Renaud 00:22:38 – 00:26:20 : Oui, je pense que comme partout, il y a les sujets d’adoption qui sont vraiment clés chez nous. En particulier parce qu’on a des gens, on travaille avec des militaires beaucoup, et donc c’est des gens qui ont des missions et qui sont très drive et mission. Et donc ils ont vraiment leur mission, je ne sais pas, faire du renseignement, sortir de l’information, répondre à une question de l’état-major. Et nous, l’IA, on arrive en plus. Ils ne nous ont pas attendus pour faire leur mission, ils ne nous attendent pas. Donc il faut qu’on arrive à leur montrer de la valeur ajoutée. Il faut qu’on arrive à les aider, mais tout en prenant bien en compte cette mission. pour le dire un petit peu, comment dire, brut, ils s’en moquent de l’IA. C’est-à-dire que, eux, ce qu’ils veulent, c’est faire leur mission. Et donc, si on leur donne des outils pour faire leur mission mieux, ils sont super intéressés. Mais ils ne vont pas mettre de l’effort pour faire marcher de… Voilà, quoi. Enfin, ils mettent beaucoup d’effort. On travaille beaucoup ensemble. C’est-à-dire qu’à la base, leur but, c’est de réaliser cette mission. Et donc, il faut qu’on s’adapte dans leur workflow. Il faut qu’on s’adapte dans leurs outils. Il faut qu’on s’adapte dans leur manière de travailler, dans leurs contraintes opérationnelles. Un exemple assez classique, mais si on leur donne de l’IA super puissante, mais qui a besoin d’une connexion Internet, ça ne les intéresse pas. Parce qu’eux, ils ont besoin d’un truc qui fonctionne sur le terrain ou dans des environnements où il n’y a pas de connexion, etc. Donc, ce côté adoption, c’est un peu tous les sujets d’IA. Aujourd’hui, un des grands sujets de l’IA, pour moi, c’est l’adoption. Mais nous, il est encore plus prégnant. Et puis, c’est des gens qui sont très pressés, perpétuellement sous pression. On va dire… La défense, surtout dans les métiers avec qui on discute, c’est des gens qui sont toujours en… L’environnement géopolitique en ce moment est très changeant. Il y a beaucoup de choses qui se passent. Donc ils ont beaucoup de travail. Ils ont pas des gens illimités, des budgets illimités. Donc il faut vraiment qu’on arrive à s’inclure dans leur process et dans leur… dans leurs outils et dans leur manière de travailler. et c’est à la fois passionnant mais à la fois pas toujours facile. parce que c’est vrai que quand on met par exemple un officier d’effort spécial en face d’un développeur informatique de 24 ans Des fois, il y a une petite barrière culturelle. Il est là pour réaliser son truc et on lui parle de technique. Il dit « mais c’est cool, mais en quoi ça m’aide à réaliser ma mission ? ». Pour ça, on a embauché pas mal d’anciens désarmés de tous les niveaux pour nous aider aussi à comprendre le métier, à s’adapter, à faire des outils qui s’incluent dans leurs process, dans leurs environnements. C’est un travail de tous les jours. Aujourd’hui, on n’a pas fini. Il y a encore beaucoup de challenges. Sachant que ce qui est super intéressant, mais aussi très difficile, c’est que Chaque unité, chaque centre a ses spécialités. Si on prend des centres de renseignement, le centre de renseignement marine ne va pas travailler pareil que le centre de renseignement traire, ne va pas travailler pareil que l’état-major, parce que chacun a des missions différentes. Et donc, tu fais un outil qui marche, qui satisfait par exemple une entité, tu vas voir l’EDM, il dit « ça m’intéresse vachement cet outil », tu lui mets et tu fais « ah ouais, mais ça m’intéresse, mais par contre là, Ce truc-là, je sais pas, les bateaux, de la manière dont vous les détectez, pour telle ou telle identité, eux, ça leur va, mais nous, on veut que vous le fassiez un peu différemment. Parce que nous, on a cette spécialité, et c’est un peu du tout ou rien, quoi. Soit ça leur sert, soit ça leur sert pas, quoi. Genre 80%, c’est cool, mais 80%, quand t’es dans la défense, c’est pas assez. Donc il y a cette adaptation permanente, ce changement permanent, pour avoir une bonne adoption. qui est très difficile, ça rend le truc très intéressant mais c’est difficile, c’est un gros challenge et ça occupe beaucoup beaucoup les équipes. 

 

Marc 00:26:20 – 00:26:53 : Oui, de vous spécialiser pour chacun des use cases, ça peut être un produit universel. Il n’y a pas que le gouvernement français, je crois, parmi vos clients, Comment ça se passe sur la possibilité de travailler avec d’autres États, dans la mesure où vous travaillez à partir de… Déjà, c’est des technologies qui doivent être sûrement considérées presque comme des sortes d’armes, déjà, de renseignement. Et puis, donc, très réglementées. Et puis, en plus, vous les avez faites à partir de données fournies par l’armée. Quel est le cadre légal pour bosser avec d’autres États ? 

 

Renaud 00:26:53 – 00:28:01 : Il y a pas mal de réglementations. Toutes nos technologies aujourd’hui sont faites de base sur des données non protégées. Et après on va faire l’extra mile sur certaines données protégées. Donc ce qu’on va exporter c’est souvent la partie non protégée mais qui reste quand même sensible. Donc on discute avec nos autorités de tutelle. On exporte, bien entendu. Aujourd’hui, les gens avec qui on exporte, c’est l’OTAN, les États-Unis, l’Angleterre, la Grèce, enfin des pays comme ça. Bien entendu, ça reste des pays alliés. On va dire que Préligence, on fait partie de ce que le jargon appelle la base industrielle et technologique de défense. La BITD, c’est les industries de défense. Comme toutes les industries de défense, c’est-à-dire que quand on vend un rafale, le ministère français a un droit de regard, regarde à qui on vend, comment les technologies sont protégées, quelles sont les informations qui sont partagées par partagé. Nous, c’est un peu pareil. On est un peu plus petit, mais c’est pareil. Mais par contre, ce qui est intéressant, c’est que dans ce contrôle, on est vachement incité à exporter, puisque ça crée de la souveraineté, ça crée de l’excellence française, etc., Donc, il nous incite beaucoup à exporter, à essayer d’aller vendre à l’étranger. 

 

Marc 00:28:01 – 00:28:07 : Oui, bien sûr. Il y a un juste milieu à avoir. Si on veut développer des technologies innovantes, il faut qu’il y ait un marché aussi. 

 

Renaud 00:28:07 – 00:28:12 : Voilà. On ne peut pas se reposer juste sur le marché intérieur. 

 

Marc 00:28:13 – 00:28:23 : Quelles erreurs est-ce que tu peux nous partager pour nous faire gagner du temps sur le démarrage ou l’évolution ? 

 

Renaud 00:28:23 – 00:28:59 : J’ai monté l’équipe technique de la société et en tant que bon ingénieur, en plus j’ai fait un peu de la recherche avant, j’ai tout de suite voulu embaucher beaucoup de data scientists pour créer des algos. Mais je n’ai pas embauché assez de dev assez vite. Et je pense que quand on fait de l’IA, à la base, on fait quand même du software. C’est-à-dire que ce qu’on livre, c’est du logiciel. Même si dedans, il y a un algorithme de réseau de neurones qui est entraîné, à la base, on livre du logiciel. Et si on livre du logiciel, il faut des développeurs. Donc, tout de suite. Donc, j’aurais tendance à dire, dès qu’il y a un data scientist, il faut qu’il y ait un développeur en face. Et nous, on a mis un peu plus de temps et ça nous a créé quelques problèmes au début de la boîte. 

 

Marc 00:29:00 – 00:29:03 : Qu’est-ce que tu préfères dans ce métier ? 

 

Renaud 00:29:03 – 00:29:58 : Moi, j’adore le côté technologique, le côté innovant de ce qu’on fait, d’être à la pointe. Dans la société, on a une mission assez particulière et on trouve ça assez passionnant de travailler sur des enjeux qui, à notre sens, on pense importants. Dire avec ce qui se passe en Ukraine, les tensions géopolitiques, on a l’impression de… D’être utile, pas juste faire de la tech pour de la tech, mais vraiment aller dans des problèmes qui sont importants, régler des problèmes qui sont importants pour des gens avec qui on a beaucoup de respect et voire d’admiration. Et ça, c’est quelque chose qui nous passionne. Entre guillemets, je n’aurais pas pu faire la même chose… pour par exemple simplement du e-commerce ou des choses comme ça, même si je respecte parfaitement ces sociétés-là, c’est juste que moi c’est moins quelque chose qui me passionne, et que du coup le sens qu’on met derrière la technologie, dans toute la majorité de la société, paraît super important et nous passionne. 

 

Marc 00:29:59 – 00:30:01 : Et à contrario, quels sont les plus grands points de douleur ? 

 

Renaud 00:30:01 – 00:31:09 : Les points de douleur, il y en a beaucoup. Comme toujours, c’est jamais facile de monter une société. Les points de douleur sont quand même que la défense est un milieu compliqué. Donc c’est un milieu passionnant, mais c’est un milieu aussi très difficile administrativement, la contractualisation. Alors là, on a bien su agir en France, mais c’est pareil partout. C’est-à-dire que les États-Unis, c’est beaucoup plus compliqué que la France pour aller vendre de la défense. C’est l’administratif, tout le côté administratif finalement. C’est complexe. C’est complexe dans la défense. Et c’est vrai que des fois, ça peut être un peu frustrant pour nous comme pour les opérateurs parce que tu as la technologie, tu as envie de la déployer, mais en fait, il y a le fait que c’est une grosse machine, il y a des règles à respecter, c’est normal. Du coup, ça met plus de temps que prévu. Et ça, c’est pareil partout. On est à l’OTAN, qui est aussi une très grosse machine. On discute avec, je ne sais pas, des pays comme la Belgique. Ça prend beaucoup de temps. Tout prend beaucoup de temps dans la défense. Et c’est normal. C’est pas que la France. Même si on aime bien dire qu’on est un pays administratif, c’est pareil partout. Oui, puis il n’y a peut-être pas que l’enjeu administratif. 

 

Marc 00:31:09 – 00:31:11 : Il y a peut-être l’enjeu de protectionnisme un petit peu. 

 

Renaud 00:31:11 – 00:31:38 : Oui, voilà, de protection. Ces enjeux, on les comprend. Souvent, ils ont des raisons d’être… Ce n’est pas pour rien, souvent, qu’il y a ces choses-là. Le code des marchés publics, il est là pour certaines raisons. Mais du coup, des fois, quand on compare à des boîtes qui font du B2C ou du B2B, on est des fois un peu jaloux de la vitesse à laquelle ils peuvent… L’intérêt, c’est que nous, on est sur des enjeux qui peuvent être assez vite gros. C’est long de signer un contrat, mais les contrats peuvent être gros. 

 

Marc 00:31:38 – 00:31:41 : Et puis quand vous êtes là, vous êtes là. 

 

Renaud 00:31:41 – 00:31:42 : Il faut que tu aies là. 

 

Marc 00:31:42 – 00:31:44 : Ce sera aussi difficile de vous déloger. 

 

Renaud 00:31:44 – 00:31:45 : C’est ça. 

 

Marc 00:31:45 – 00:31:50 : Est-ce que tu as une anecdote à nous partager ? 

 

Renaud 00:31:50 – 00:32:47 : Une anecdote qui a été marrante, c’est que justement, un des premiers systèmes opérationnels de développement qu’on a fait, c’était pendant le Covid. Donc c’est maintenant public, ils sont communiqués, c’est la DRM à la base de Creil, qui était notre plus grand, enfin c’est notre client, on va dire, presque pilote et qui nous a supportés. Et on a fait le premier déploiement en plein Covid en mai 2020, je crois. Et c’était super drôle parce que, alors moi j’y étais parce qu’on ne voulait pas, c’était pendant le Covid, donc on voulait faire attention. Moi, j’y étais et j’y étais avec un collègue de la société qui avait eu le Covid. Donc, on s’est dit qu’il était vacciné, entre guillemets. Et donc, on a pris des Uber pour aller là-bas. C’était en plein confinement, tout était vide. C’était assez marrant de se retrouver. On a pris l’autoroute entre Paris et Creil, qui est d’habitude blindé. Là, c’était vide. Ça faisait un peu bizarre quand on rentrait dans le taxi pour lui demander la base aéronautique de Creil. Il nous regardait un peu bizarre. Est-ce que c’est des espions ? Qu’est-ce qu’ils vont faire là-bas ? C’était marrant. C’est une anecdote assez marrante. 

 

Marc 00:32:47 – 00:32:50 : On va se faire post-apocalyptique. 

 

Renaud 00:32:50 – 00:32:59 : Ça faisait assez apocalyptique d’aller… Et donc on a déployé ça, le premier système, en plein Covid, plein milieu du confinement. C’était assez marrant. 

 

Marc 00:33:00 – 00:33:02 : Est-ce que tu as une opinion à nous partager ? 

 

Renaud 00:33:02 – 00:34:24 : Une opinion ? On discute pas à la fois sur une des opinions en ce moment. On parle beaucoup d’IA générative et de très gros modèles. Moi, mon opinion sur ces très gros modèles, c’est que ça va être très complémentaire et que ça va pas remplacer les modèles plus spécialisés comme nous on peut faire ou comme d’autres boîtes. Je vois vraiment une complémentarité entre les IA génératives, génériques, qui vont aider pour les tâches génériques en faisant beaucoup de choses pas trop mal, et des IA très spécialisées, très haut de gamme, dans l’imagerie médicale, dans le contrôle non destructif, dans la défense, où là, pour aller traiter des problèmes plus de niche, très particuliers, mais là où il faut être très précis, et là… Là où les IA génératifs ne pourront pas résoudre ces problèmes, il faudra vraiment de la connaissance métier très précise. Et souvent, on voit une opposition des deux. On dit, est-ce que le chat GPT, ça ne va pas ? C’est ce qu’on dit. Est-ce que ça ne remet pas en cause tout ton business? ? Non, justement, au contraire. Moi, je trouve ça vachement complémentaire. Et il y a plein de produits qu’on peut imaginer où on met à la fois de l’IA générative à la voie de l’IA spécialisée. Il y a des trucs qui seront déployés, qui seront embarqués. Il y a des trucs qui seront dans des gros centres data center. Et tout ça va pouvoir aider beaucoup. Mais moi, je vois plutôt le business que ça peut ouvrir plutôt que je ne vois pas du tout ça comme une menace. Au contraire, je me dis mais c’est super, ça peut m’aider vachement. 

 

Marc 00:34:25 – 00:34:31 : Oui, ce n’est pas au niveau des IA spécialisés et la marge est élevée. 

 

Renaud 00:34:31 – 00:34:49 : Oui, et concrètement, ce sont deux systèmes qui font des choses différentes. Ils ne vont pas se remplacer, ils vont se compléter. Alors, il y a bien entendu toujours des trucs où il y a un peu de friction à la frontière, mais quand on va mettre de l’IA dans des drones ou dans des sous-marins ou des choses comme ça, on ne va pas mettre le GPT dans un sous-marin, ça n’arrivera jamais. Oui. 

 

Marc 00:34:50 – 00:34:54 : Oui, surtout, certainement pas passer par des serveurs. 

 

Renaud 00:34:54 – 00:34:56 : Voilà, c’est ça, il n’y a pas la place. 

 

Marc 00:34:56 – 00:35:01 : Alors, c’est quoi les prochaines étapes de Préligence ? 

 

Renaud 00:35:01 – 00:35:45 : Nous, on a atteint une taille où maintenant, on commence à essayer de se normaliser, c’est-à-dire qu’on passe du mode start-up à un mode… On essaye de garder les avantages de la start-up, la flexibilité et tout, mais aujourd’hui, on vise une rentabilité cette année très rapide. On vise à une diversification sur différentes sources de données. Et puis l’export, continuer à grandir l’export, mais avec une croissance qui sera toujours forte, mais une croissance basée éventuellement plus sur la rentabilité et le chiffre d’affaires que sur des très grosses levées de fonds, etc. Donc ça, c’est nos objectifs aujourd’hui et c’est des objectifs qu’on est en train d’atteindre. Donc il n’y a pas de souci. 

 

Marc 00:35:45 – 00:35:50 : Super. Alors qui est-ce que tu aimerais entendre dans un prochain épisode de Data Driven 101 ? 

 

Renaud 00:35:50 – 00:36:50 : Ce que j’avais dit en préparation, quelqu’un, moi je trouve quelqu’un de super intéressant, c’est Barthélémy Minier, qui travaille sur le centre d’expérimentation sur les hélicoptères de combat, qui est un pilote d’hélicoptère, qui fait de la formation et qui est très très technophile, et qui fait beaucoup de choses autour des données. autour de la réalité virtuelle, de l’IA, ce genre de choses. Donc si jamais ça t’intéresse de l’encontrer, c’est quelqu’un qui a énormément d’idées, alors ça reste dans le milieu défense, mais qui a énormément d’idées et de choses à aller chercher dans… Je l’adore, il est passionnant. Et il a fait beaucoup de choses dans son centre, justement, d’innovant, en utilisant de la réalité virtuelle, en utilisant de l’IA, en utilisant des modèles de données, pour aider à la formation, aider à préparer les missions. On a travaillé pas mal avec lui sur les concepts de préparation de missions d’hélicoptères, où on va chercher les otages, comment on utilise l’IA pour détecter les obstacles, etc., Donc c’est vraiment, il est super. 

 

Marc 00:36:51 – 00:36:54 : Super, merci pour la recommandation. Et merci Renaud. 

 

Renaud 00:36:54 – 00:36:55 : Merci. 

 

Marc 00:36:55 – 00:37:06 : Vous venez d’entendre Renaud Alliou, cofondateur de Préligence sur Data Driven 101. Dans le prochain épisode, je recevrai Antoine Bua, dirigeant de DigDash, pour nous parler de Business Intelligence. A très vite.