Data et IA au service du bien commuN

Ronan Sy, responsable projet chez Data for Good, est l’invité de l’épisode 60 de Data Driven 101.

Il nous plonge dans la diversité des projets traités, de la lutte contre les “carbon bombs” à la gestion des incendies de forêt en passant par la surveillance de la sur-pêche.

Ronan nous apprend que les équipes abordent ces problématiques avec des missions variées : migration des données vers le cloud, visualisation des données ou machine learning. Il nous donne ses conseils pour agir avec pragmatisme dans le cadre associatif.

Marc 00:00:00 – 00:00:11 : Aujourd’hui, je reçois Ronan Sy, responsable projet chez Data for Good. Data for Good est une association créée en 2014 dans le but de rassembler des bénévoles de la tech qui veulent faire le bien commun. Bonjour Ronan. 

 

Ronan 00:00:11 – 00:00:12 : Bonjour Marc. 

 

Marc 00:00:12 – 00:00:18 : Alors Ronan, est-ce que tu peux nous parler un petit peu plus de Data for Good ? Quel est le sens de cette association? ? 

 

Ronan 00:00:18 – 00:02:15 : Oui, alors Data for Good, comme tu l’as dit, c’est une communauté entièrement de bénévoles. Et en fait, pour aider les associations, on va organiser plusieurs temps forts pendant la saison. Donc il y a un temps fort qui commence maintenant en janvier, qui dure trois mois. Ce temps fort, on appelle ça les saisons. Donc là, cette année, on vient de finir la semaine dernière la saison 12 de Data for Good. Et donc pendant trois mois, un peu plus de trois mois, on va en fait accompagner avec la communauté des associations qui ont des problématiques techniques. Alors avant, on parlait des problématiques « data », En fait, en pratique, maintenant, on s’est rendu compte qu’il y avait toujours besoin d’avoir toute une panoplie de métiers qui va aussi bien de l’infra jusqu’à la data vise, voire le produit. Donc, c’est vraiment très tech. Pendant cette saison, on va accompagner une dizaine d’associations. On essaye d’être très orienté sur l’impact, sur ce qu’on peut vraiment apporter à l’association pendant trois mois, parce qu’on se doute bien qu’avec des bénévoles qui vont travailler deux, trois, quatre heures par semaine, On ne peut pas créer un nouveau Google. Donc voilà, on essaie vraiment de se concentrer sur l’impact, sur ce qu’on peut faire en trois mois avec des bénévoles. En dehors de cette période de trois mois, on va pouvoir accompagner aussi des associations qui sont du plus long terme, en fait, parce que les bénévoles, sur trois mois, ils vont être très concentrés. On va avoir un peu le climax de la saison à la fin. On va pouvoir mettre en production un petit POC. On fait très peu de production, mais je pourrais peut-être en reparler plus tard. Mais en fait, il y a des associations qui n’ont pas ce besoin-là, qui ont des choses très impactantes, mais qui peuvent durer un an, deux ans. Donc là, on appelle ça le hors-saison. Donc avec des bénévoles plus investis sur le long terme, on va créer une petite communauté. Alors sur un projet, en général, il faut compter entre 5 à 10 bénévoles très actifs. Au-delà, de toute façon, ça devient compliqué à gérer pour une association. Et puis après, nous, pour la communauté aussi de bénévoles, on essaie aussi de faire de la formation, pour les associations aussi, mais pour la communauté, on essaie de faire pas mal de formations, d’onboarding sur des nouvelles technologies, etc. Et nous, sur notre volonté propre, on va aussi faire un peu de plaidoyer, c’est-à-dire mettre en avant les associations qui nous ont plu, qui ont eu un fort impact. Donc pareil, ça, je pense que j’aurai l’occasion de donner quelques exemples. 

 

Marc 00:02:15 – 00:02:18 : Ok. Quelle taille est votre association, du coup ? 

 

Ronan 00:02:18 – 00:02:56 : Alors, quand on lance une saison, on a 200 à 300 bénévoles qui vont s’impliquer dans la saison. Mais l’équipe organisatrice, celle qui va vraiment gérer les temps forts, gérer les événements, etc., c’est entre 15 et 20 personnes. En fait, tous les ans, le turnover est très, très fort. Tous les ans, on va être obligé de retrouver 5 à 10 personnes qui vont se réimpliquer dans l’équipe organisatrice pour pouvoir nous aider à faire la documentation sur nos chaînes, organiser les événements, etc. préparer les projets, spécifier les projets avant la saison. Avant même la saison, en janvier, il y a beaucoup de travail. En fait, nous, quand on est dans l’équipe hors-gare, on va commencer en septembre, on va finir souvent en mai, juin, parce qu’il y a toujours des choses de fond à faire. 

 

Marc 00:02:56 – 00:03:04 : Alors, quels sont les enjeux sociétaux liés à la data ? Est-ce que tu peux nous structurer un peu cette pensée ? 

 

Ronan 00:03:04 – 00:04:46 : Vaste sujet. Les enjeux sociétaux, tous les enjeux sociétaux, on peut retrouver de la data dedans parce que la data, c’est en fait une modélisation, j’ai envie de dire, une formalisation des problèmes qu’on a. Donc, dans n’importe quel enjeu, dans quelle problématique sociétale, on va pouvoir retrouver de la data. En plus, ça dépend beaucoup du contexte. Évidemment, quand Trump s’est fait élire, il y a eu énormément de projets sur les fake news. Il y a 5 ans, on avait beaucoup de projets sur l’écologie, mais au niveau du CO2, le calcul de CO2, l’atelier d’automne notamment, passé par Data for Good. Et là, maintenant, on est plus sur pas mal de biodiversité. On a aussi beaucoup de choses autour de la vie publique, comment mieux appréhender les lois du Parlement européen, des choses comme ça. Alors là, je parle aussi de projets qu’on nous envoie. On ne va pas tout accepter. 10 projets par saison, on ne peut pas tout accepter. Mais voilà, on a vraiment beaucoup, beaucoup de choses autour de l’écologie. Maintenant, on sait que, comme je disais, tous les points de la société peuvent avoir des enjeux data. Et nous, ce qu’on a remarqué en interne, c’est qu’on avait beaucoup, beaucoup de mal à lancer des enjeux liés en fait aux problématiques sociales, typiquement la pauvreté. Là, cette année, on en a un sur les dix et c’est le seul qui a postulé sur une cartographie des camps de SDF et des migrants à Paris pour pouvoir mieux organiser toutes les associations. C’est donc une asso qui centralise le besoin, qui vont faire des dons, etc., Et en fait, sur les problématiques sociétales, on a du mal à savoir encore si est-ce que c’est trop terrain, est-ce qu’ils ont déjà trop de maturité pour faire appel à nous ou est-ce que c’est totalement l’inverse ? Nous, on pense qu’ils n’ont pas assez de connaissances sur la partie data et c’est pour ça qu’on va essayer de prendre contact avec des membres de l’ESS, de l’économie sociale et solidaire, pour diffuser la bonne parole et pouvoir lancer de plus en plus de projets de ce type-là. 

 

Marc 00:04:48 – 00:04:54 : C’était quoi le besoin initial ? Quel était le constat sur le besoin ? 

 

Ronan 00:04:54 – 00:05:47 : Alors la catchphrase un peu de l’association depuis neuf ans, c’est de dire qu’il y a un ingénieur chez Facebook qui avait dit « les esprits les plus intelligents de ma génération sont juste en train de passer leur temps à faire que les gens cliquent sur des publicités ». Bon, ça reste qu’une seule phrase, mais on en pense ce qu’on veut. Mais c’est assez symbolique, effectivement, le fait que Facebook, Google arrivent à l’heure actuelle à employer des gens à un salaire indécent, tout ça pour rendre les gens addictifs à la technologie. c’est quelque chose qui fait que l’association s’est lancée pour dire que la tech, ce n’est pas que ça. Nous, on sait qu’il y a des gens qui ont du temps libre, qui ont acquis des connaissances dans leur travail et qui veulent faire autre chose que de la banque, que de la finance, etc. On a essayé de créer cette communauté là-dessus. Pour l’instant, ça marche assez bien. Comme je disais, sur une saison, on va avoir 200-300 personnes actives, mais en pratique, sur toute l’année, on a 5000 personnes sur notre forum de discussion. Donc voilà, ça marche plutôt pas mal. 

 

Marc 00:05:49 – 00:05:54 : Quels sont les exemples de données que vous pouvez avoir à traiter dans le cadre de vos accompagnements ? 

 

Ronan 00:05:54 – 00:07:49 : Donc, on a trois types, je dirais, de données. Donc, il y a vraiment la donnée métier. Et de toute façon, comme je dis souvent, la data, nous, quand on fait des projets data, la difficulté, elle est dans la connaissance métier. Alors évidemment, on a des problématiques organisationnelles, etc. On n’est pas à plein temps, donc on est ralenti par certaines choses. Mais la vraie difficulté, c’est dans la connaissance métier. Et donc cette data-là, ça va être, par exemple, on a accompagné le projet Tax Observatory, c’était de la donnée financière, c’était pour pouvoir lutter contre la fraude fiscale. Donc on avait des PDF à part C de données financières. Pour l’association Bloom, on avait des données qui s’appellent AIS, c’est des données de position de bateau pour lutter contre la surpêche. Donc ça, c’est des données assez spécifiques qu’il faut réussir à appréhender pour pouvoir bien commencer le projet. Dans la donnée métier, on a la donnée qui appartient déjà à l’association. Ça, c’est assez rare, c’est souvent quand même de la donnée à scraper. Donc les BDNF, on va les récupérer sur Internet. L’AIS, comme je disais, les positions de bateau, on va les récupérer sur des API. Et puis des fois, on a des associations qui vont faire des analyses sur Internet. Par exemple, on a une association qui va créer une analyse sur l’imaginaire des gens via le cinéma. Comment le cinéma va diffuser des valeurs qui ne sont pas écologiques, pour le dire simplement ? Par exemple, une personne qui prend l’avion trois fois ou dix fois dans un film qui dure trois jours, en termes écologiques, c’est une catastrophe. Donc ils ont fait une analyse et ils ont dû scraper la donnée sur Internet des films. Je crois que c’est IMDB, il y a aussi Wikicinema, je ne sais plus comment s’appelle le site, mais on peut trouver aussi pas mal de données open source comme ça. Donc, comme je disais, après, il y a de la donnée un peu plus qui appartient à l’association. Donc, Pyronia, en fait, a des contrats avec les SDS. Alors, je ne me souviens plus exactement ce que ça veut dire, mais c’est en gros les pompiers qui vont leur envoyer des… Alors, par exemple, Pyronia, qui lutte contre les feux de forêt. Donc, ils vont recevoir de la donnée de caméras qui sont installées sur… C’est leur propre caméra, hein, qu’ils vont installer dans des parcs forestiers. Ils vont récolter des images et ils vont lancer des algos de machine learning dessus. 

 

Marc 00:07:49 – 00:07:52 : Pour détecter les feux de forêt dès le début ? 

 

Ronan 00:07:52 – 00:08:02 : Voilà, c’est exactement ça, pour détecter le feu de forêt via la fumée dès le début du feu. Donc voilà, je crois que c’est à peu près tout. Ça fait quelque chose de très différent. 

 

Marc 00:08:02 – 00:08:10 : Et alors, les missions que vous faites d’accompagnement pour ces associations, les quelques missions types, c’est quoi ? 

 

Ronan 00:08:10 – 00:10:44 : Si on prend d’un point de vue technique, la data est très variée, mais les missions tech aussi sont très variées. C’est-à-dire qu’on va pouvoir faire de la data vise, du storytelling aussi avec des spécifications, etc. On va faire aussi de l’infrastructure parce qu’il faut aider les associations à migrer sur leur propre cloud. Ça peut être de l’ETL pour pouvoir modifier la data, la remettre dans les bases de données, etc. Gestion de base de données, gestion cloud avec du S3 sur Scaleway au hasard. C’est très varié. Du développement, forcément. Essentiellement du Python. Ça, c’est parce que la communauté bénévole fait qu’on ne peut pas lancer n’importe quel projet en Java, par exemple. La semaine dernière, il y avait une personne de l’association Interop qui travaille avec les hôpitaux, qui avait commencé un peu son pitch de fin de saison en disant… Oui. Bon, nous, on travaille qu’en R. On a vite compris que ce ne serait pas possible. Donc, on a dû créer un pont pour pouvoir lire le Python avec leur outil en R. Donc, ça, c’est assez symbolique. On est aussi un peu restreint par la communauté. Donc, voilà, c’est très varié. Et là, c’est que les aspects techniques. Après, les missions en soi, ce n’est pas le technique, en fait. C’est quel est l’impact qu’on veut avoir. Donc, si, en fait, on fait de la data vise, pourquoi est-ce qu’on fait de la data vise ? Par exemple, là, le projet Ping Bombs. Pourquoi Ping Bombs ? Parce que c’est, en fait, pour vulgariser les méfaits de l’exploitation industrielle de saumon. En fait, ils ont fait une super database, un super storytelling pour pouvoir vulgariser la problématique au grand public. Ça, c’est quelque chose qui est très intéressant. Ils ont fait un très beau projet. Mais par exemple, si on prend l’association Bloom, qui lutte contre la surpêche avec les fameuses données AIS, eux, leur sujet, c’est moins le grand public, ou du moins ce que j’ai pu voir passer, c’est moins le grand public. C’est plus de réussir à prouver que les bateaux sont… sont en train de pêcher dans des aires marines protégées. Donc, la finalité de la data vise n’est pas la même. Ce n’est pas le même public. Là, Bloom, avec la donnée, ils vont pouvoir aller porter plainte contre des industriels, etc. Donc, ce n’est pas du tout le même public. On ne va pas faire les choses exactement pareil. La data vise sur Bloom, elle est beaucoup moins léchée que sur Pingbong. Il y a aussi, en termes de mission, il y a pas mal d’organisations internes. Je parlais du Topia 56, les camps de migrants. C’est beaucoup l’organisation interne. Mais ça, après… Là, je parle de data for good, mais en fait, c’est quelque chose qu’on va aussi beaucoup retrouver en général dans l’ESS et même dans le privé. Pourquoi on utilise la donnée ? C’est pour faire des KPI, pour les objectifs. Tout ça, c’est de l’organisation interne. Si on fait de la communication externe, comme je disais, il y a plusieurs manières de le faire, du plaidoyer, de la vulgarisation. Et après, il y a la pure R&D. Donc là, comme Pyronir, les feux de forêt, on va faire des algos de machine learning super développés. En fonction de la finalité et de l’impact qu’on veut avoir, on va vraiment aborder la technique différemment forcément. 

 

Marc 00:10:44 – 00:10:51 : Et alors les associations qui sont vos clients, ça ressemble à quoi généralement ? 

 

Ronan 00:10:51 – 00:12:07 : C’est soit des associations qui ne sont pas assez grosses pour avoir leur propre data scientist, ou alors un ou deux, parce que les très grosses associations, les très grosses ONG, elles ne font pas faire appel à nous. Alors c’est très très rare, c’est déjà arrivé, c’est très très rare. Je vais expliquer dans quel cadre ça peut arriver. Donc soit des associations moyennes, soit sinon ça va être des… On va dire un peu des entrepreneurs sociaux, c’est-à-dire des gens qui ne sont pas forcément attirés par la Startup Nation, qui sont peut-être déjà impliqués dans l’ESS et qui vont porter un projet à eux tout seuls. Ces gens-là, on va les accepter parce qu’on sait qu’ils sont dans l’ESS depuis longtemps. Évidemment, nous, on fait un tri aussi parce qu’on a vu tellement de projets échouer. Parce qu’en fait, la personne est toute seule et le projet n’est pas assez mature. Donc on va attendre quand même une certaine maturité. Mais par exemple, là, on a accepté pour la saison 12, deux personnes qui travaillaient depuis longtemps avec les Shifters, donc l’Observatoire des Imaginaires, dont je parlais tout à l’heure sur le cinéma, les images véhiculées par le cinéma. En fait, ça, c’est deux personnes qui étaient volontaires chez les Shifters depuis un moment. Ping Bombs, l’association venait d’être créée, mais c’était déjà plusieurs personnes qui étaient très motivées et qui avaient travaillé dans d’autres ONG au préalable. Ce qu’on va regarder, c’est plutôt la maturité du projet. Est-ce que c’est vraiment quelque chose qui a été réfléchi ? Mais en général, ça peut être des associations de 20 personnes comme de 3 personnes. C’est assez variable. D’accord. 

 

Marc 00:12:07 – 00:12:14 : Et alors, quels sont les principaux freins ou obstacles que vous avez sur votre route quand vous développez quelque chose ? 

 

Ronan 00:12:14 – 00:15:12 : Alors déjà, le temps. Nous, on est bénévole. Passer, comme je disais, un peu de temps par toutes les semaines, ça ne suffit pas. Donc il faut être très bien organisé. Et en même temps, on ne peut pas non plus tout centraliser, faire des réunions, etc. Encore une fois, pas de problème de temps. Donc il y a vraiment ce compromis à trouver entre les informations qu’on se partage et puis en même temps, il faut avancer, il faut avancer. Donc des fois, on voit arriver des choses qu’on n’a pas vues avant parce qu’il n’y a pas le temps. On va vraiment privilégier la décentralisation pour pouvoir avancer tous ensemble. Ce qui fait qu’on va se resynchroniser tous les mois, voire tous les deux mois. On peut louper des choses, mais ce n’est pas grave. Vu les résultats qu’on a, on est plutôt content de ce fonctionnement en pôle. On a créé plusieurs pôles, pôle formation, pôle partenariat, pôle financement. maintenant. Comme je disais, le temps nous manque et on espère pouvoir choper des financements d’ici un an pour recruter quelqu’un d’ici 2025. Donc le temps et l’organisation, c’est vraiment un des gros problèmes qu’on a. Et puis après, niveau technique, je parlais de technologies qui sont un peu obligatoires parce que notre communauté, ça reste quand même beaucoup de data scientists qui vont coder en Python. Mais en même temps, on ne peut pas se passer des goûts de practice de développement. On ne va pas dire sous prétexte que notre communauté fait ci ou fait ça. On ne peut pas dire non, vous n’allez pas… On oublie les tests, on oublie… Alors évidemment, je ne dis pas qu’on met plein de tests non plus parce qu’on est en trois mois, on a des pocs à faire. Mais ce à quoi je pense très concrètement, c’est Docker. Docker, la communauté a beaucoup de mal à utiliser Docker. Alors je dis la communauté en général, il y a plein de gens qui sont très, très bons en Docker. Mais on a vu quand même que c’est un outil… qu’on avait du mal à faire accepter dans les projets. Et en même temps, l’année dernière, on avait dit qu’on n’en ferait pas. Et en fait, ça a été très douloureux. après pour récupérer les projets, pour pouvoir les remettre en production. Donc Docker, par exemple, on essaye vraiment de l’imposer parce qu’on considère que c’est vraiment une good practice de développement qui est basique pour un POC, qui derrière, on ne sait pas où ça va aller. Est-ce que ça va aller dans le cloud ? Est-ce que ça va être sur des serveurs on-premises ? Donc cette acceptabilité des good practice, c’est vraiment quelque chose de difficile. Et c’est aussi pour ça qu’on a un pôle formation. Voilà, on essaye d’homogénéiser au maximum les goûts de practice entre les projets. Et en même temps, c’est des projets qui sont très différents. Par exemple, sur le projet L’Observateur des Imaginaires, ils sont partis sur une solution no-code. Alors, ils ont eu un très bon résultat. C’est très bien. Le no-code, on voulait pousser parce qu’on pense qu’il y a, justement, comme on n’a pas beaucoup de temps, on pense qu’il y a de l’avenir dans le no-code. Mais du coup, c’est des techniques complètement différentes que ce que nous, on a fait sur les autres projets. Donc voilà, le côté homogénéisation, c’est un sacré problème. Et puis sans parler de problème, un des trucs un peu douloureux, c’est forcément la mise en production. Parce que quand on a passé déjà trois mois à faire un POC, c’est sympa. Le POC, on le crée de from scratch. C’est le côté un peu, j’ai envie de dire, fun du boulot. Et puis bon, en fin de saison, quand on doit se taper les mises en production, que les bénévoles ne sont souvent plus là parce que c’est la fin de la saison, etc. Alors j’exagère un peu, les bénévoles vont toujours un peu rester. Mais souvent, ce n’est pas des gens qui sont très infras. Donc voilà, il y a vraiment la partie infrastructure, comment gérer des serveurs, comment gérer du monitoring, etc. Ça, c’est des choses qui sont encore très douloureuses à l’heure actuelle. 

 

Marc 00:15:12 – 00:15:18 : D’accord. Alors, est-ce qu’on peut rentrer dans le détail de quelques projets que vous avez pu faire ? 

 

Ronan 00:15:18 – 00:17:17 : Pour parler du plus connu pour notre communauté, je ne sais pas si tout le monde en aura entendu parler, mais il y a les Carbon Bombs qui sont sortis en octobre 2023, octobre-novembre. Et en fait, on a fait une page sur le monde.fr et ça a été repris par beaucoup, beaucoup de médias. En fait, le terme Carbon Bombs a été repris. Alors, le terme Carbon Bombs ne vient pas de nous. Du coup, je vais contextualiser un peu. Les Carbon Bombs, c’est… Un article scientifique qui est sorti, je ne sais plus quand, il y a un an ou deux, qui explique dans cet article que Total et plein d’autres entités, aussi bien des banques que des entreprises prétendières, vont participer à des projets qui sont en fait des banques climatiques. C’est-à-dire que la quantité de CO2 émis par le pétrole ou le gaz qui va être extrait de ces mines, de ces projets, contient… à eux seuls, tellement de CO2 qu’en fait on explose les accords de Paris. Et chacun de ces projets, on considère que c’est une bombe climatique, parce que chacun de ces projets peut faire exploser les accords de Paris. Et donc cet article, on l’a repris, c’est une collaboration entre une association qui s’appelle Eclaircie et Data for Good, et donc on l’a repris pour faire une super data vise, un peu comme Pingbomb, je disais, là le but c’est vraiment de faire quelque chose de vulgarisé pour le grand public, pour alerter le grand public sur une problématique. Et en fait, il y a eu une commission d’enquête au Sénat qui a été lancée sur les activités totales. Et en fait, Data For Good a été appelée pour témoigner à cette commission d’enquête. Donc ça, c’est quelque chose qui a été très fort pour nous parce que les projets qui vont vraiment avoir de l’impact, comme je disais, c’est ce qui nous fait vivre aussi. Donc on a été vraiment très heureux de ce résultat-là. Après, j’ai déjà parlé de Boom plusieurs fois, mais pour nous, c’est un très, très gros projet. Ça fait un an et demi. Donc, on a fait un an d’heures saison et trois mois de saison. Et ils ont réussi à créer un bel outil qui leur a permis, comme je disais, de porter plainte contre des industriels qui faisaient de la surpêche. Après, il y a l’atelier 2 tonnes qui est assez reconnu, je crois, maintenant. C’est un serious game qui permet, encore une fois, de vulgariser la consommation de CO2 de tout un chacun en fonction de vos activités quotidiennes, de vos vacances, etc. Donc, il a été joué plusieurs dizaines de milliers de fois. 

 

Marc 00:17:17 – 00:17:23 : Tu nous avais parlé de DataVis avant et sur Bloom, c’était quoi votre impact ? 

 

Ronan 00:17:23 – 00:18:38 : Donc nous, ce qu’on a fait sur Bloom, c’est que déjà au début, eux avaient la connaissance métier de la problématique, mais ils ne savaient pas trop comment récupérer la donnée. Il y a des outils payants qui existaient, qui existent d’ailleurs, mais ils ne connaissaient pas tout. En fait, il y a vraiment une côté spécification technique, on va dire. D’où vient la data ? Est-ce que c’est du scrapping? ? Alors au début, on est parti sur le scrapping. Ensuite, on s’est rendu compte que le scrapping, c’était très douloureux. Et en plus, il y avait un outil qu’ils ne connaissaient pas, qu’on a réussi à trouver nous sur Internet en creusant un peu, qui était beaucoup moins cher, qui s’appelle Spire. En l’occurrence, c’est une API payante pour récupérer des données AIS. Donc, on avait implémenté les deux en parallèle, le scrapping plus l’école API. Et au final, Spire faisait très bien le boulot. Et donc, on a mis les données dans une base de données sur notre scalway à nous. Et finalement, on a migré cette base de données sur leur infrastructure cloud à eux, à Bloom, tout en les aidant à faire la migration parce qu’à l’époque, ils n’avaient pas encore les connaissances. En fait, là aussi, on a été content. Peut-être qu’ils avaient déjà ça en tête depuis le début, mais ils ont fini par recruter quelqu’un en interne parce que le projet a eu de l’impact pour eux en interne. Ils se sont rendus compte vraiment de l’utilité du projet. Et donc ça, c’est un signe fort aussi. C’est que quand une association a été convaincue par la saison ou l’hors-saison et qu’elle recrute en interne, ça veut dire qu’on a vraiment réussi notre boulot parce qu’ils veulent maintenir le projet en interne. 

 

Marc 00:18:39 – 00:18:41 : AIS, ça veut dire quoi ? Donner AIS ? 

 

Ronan 00:18:41 – 00:18:44 : Je n’ai plus le terme en tête. 

 

Marc 00:18:44 – 00:18:45 : Des données de pêche ? 

 

Ronan 00:18:45 – 00:19:38 : C’est les données de position de bateau. C’est obligatoire pour un bateau de renvoyer les données de position via ce fameux capteur AIS. Et donc, on peut les récupérer en payant. Mais bien sûr, les bateaux vont tricher un peu quand ils vont pêcher dans des zones, dans des aires marines protégées. ils vont souvent éteindre leurs capteurs. Donc ça, c’est un des trucs qu’on y réfléchit depuis un bon moment. Comment est-ce qu’on pourrait pas créer un algorithme qui pourrait dire OK, il a éteint avant d’arriver dans la zone, il est resté tant de temps, il est ressorti à ce moment-là. On sait que c’est la saison de la pêche. Voilà, donc comment on fait ? Alors, il se trouve que, alors c’est rigolo, tout à l’heure je parlais de Google et Facebook, mais là, il se trouve que Google a soutenu un projet qui fait exactement ça, qui est open source. On ne va pas s’amuser à refaire ce qui a déjà été fait, mais donc si on continuait à les accompagner, on se disait que peut-être d’ici un an ou deux, on pourrait reprendre cet algo pour l’utiliser chez Bloom, quoi. 

 

Marc 00:19:39 – 00:19:50 : Ok, d’accord. Donc l’idée c’est d’utiliser la donnée de position de bateau pour lever l’alerte sur une potentielle surpêche et ensuite c’est des contrôles réels qui vont faire la fin du travail ? 

 

Ronan 00:19:50 – 00:20:52 : Oui, c’est ça. Alors, je suis peut-être allé un peu vite, mais j’ai voulu simplifier le problème. En fait, en France, il y a un autre problème qui est législatif, c’est que dans les aires marines protégées, on a le droit de pêcher. Ce qui n’est pas… Il y a des législations, des normes un peu mondiales, qui existent et qui disent que ça ne devrait pas être le cas. Une zone marine protégée, ça devrait être une zone où on n’a pas le droit de pêcher de manière industrielle. Salblum fait bien la différence entre la pêche artisanale et la pêche industrielle. L’association est très soutenue par les pêcheurs qui sont souvent mangés par les gros industriels. Et donc en fait, on parle sur pêche et pas de pêche interdite, hélas, parce que la pêche n’est pas interdite en France. En l’heure actuelle, les aires marines strictement protégées, je ne sais plus exactement quel est le terme, mais les aires marines dans lesquelles on n’a pas le droit de pêcher, ça ne représente que 0,3% des aires françaises, alors que notre cher président avait promis que 30% des zones françaises seraient protégées d’ici 2025. Donc elles sont protégées de quoi ? On ne sait pas trop, mais elles sont protégées. Et donc voilà, c’est aussi ça qu’essaye de mettre en avant Bloom. Oui, porter plainte contre la pêche illégale quand il y en a, c’est bien. Mais en fait, juste faire une législation adaptée, c’est mieux. 

 

Marc 00:20:52 – 00:21:02 : Alors qu’est-ce que vous devez beaucoup répéter chez Data for Good à des interlocuteurs non techniques en termes d’évangélisation, par exemple ? 

 

Ronan 00:21:02 – 00:24:18 : Comme je disais tout à l’heure, souvent la solution n’est pas dans la technique, elle est dans le métier. C’est les associations qui apportent des solutions et nous, on va juste essayer de mettre sur le papier les idées qu’ils ont. Tous les ans, on a des personnes qui viennent en disant « oui, mais grâce à cette application, je vais créer une communauté qui va faire ça ». En fait, non, ça ne marche pas du tout comme ça. Créer ta communauté sur WhatsApp s’il faut, quand tu as plus de 30 personnes motivées pour faire ce que tu as envie de faire… Ça veut dire que tu as un filon. J’ai envie de dire que c’est presque comme quand tu crées une startup. C’est d’abord que tu vérifies ton POC, ton proof of concept, avant d’investir dans de la technique, dans une technique qui est un peu bien foutue. Là, non. Nous, on ne résout pas des problèmes. On aide à résoudre des problèmes. Et donc, du coup, tous les ans, entre septembre et décembre, quand on a les associations qui postulent, on se retrouve un peu toujours à dire, en fait, non, nous, on n’est pas là pour créer des applications en trois mois, alors que vous n’avez pas encore, vous, des… utiliser concrètement ce type d’idées sur le terrain. Je pense que pour le machine learning, c’est encore plus vrai. Depuis un an, peut-être deux ans, on entend beaucoup plus parler de machine learning. Quand on a des calculs de CO2, c’est sur le machine learning. Quand on a un projet qui veut détecter quelque chose, c’est avec du machine learning. C’est un peu le buzzword en ce moment. Nous-mêmes, d’ailleurs, on a autoporté un projet qui s’appelle le livre blanc de l’IA. On est assez fiers, c’est un projet qu’on a apporté sur la saison 11, donc l’année dernière, et en fait, il y a eu un certain retentissement dans la communauté française, alors peut-être parce qu’il y a moins de références en français qu’en anglais, mais il a été pas mal cité, et on était assez contents. Et nous, dans ce livre-là, dans ce livre blanc, on se positionne en disant… Il faut être lucide. Il y a des défauts. On ne peut pas utiliser l’IA pour tout. On ne va pas demander à une association de faire du data mining, de faire tourner leurs propres algos, etc. S’il y a des API payantes, Faites un test avec une API payante, essayez de faire fonctionner quelque chose en payant 100 euros par mois. Si vous y arrivez, en fonction des résultats, vous vous improvisez. Soit vous avez réussi à faire quelque chose d’extraordinaire et effectivement ça vaut le coup de pousser, soit ça marche bof bof et peut-être qu’il faut se demander ce qui ne fonctionne pas. Mais pour l’instant, il faut d’abord se rendre compte de ce qu’on veut vraiment faire avec l’IA, avec la data. Peut-être juste pour parler un peu du livre blanc de l’IA en cinq secondes, on a créé un jeu de cartes co-créé avec l’association Latitude, un jeu de cartes qui est basé sur ce livre blanc. Et donc, ça s’appelle La bataille de l’IA. Et en fait, c’est pareil, parce qu’on a beaucoup parlé de Serious Game depuis tout à l’heure, mais La bataille de l’IA, c’est une sorte de Serious Game qui va se faire en deux heures, en trois parties, et qui va en fait vulgariser les différentes problématiques de l’IA à l’heure actuelle. Donc, c’est très récent, puisqu’on parle de chat GPT, etc., Et finalement, tu parlais un peu d’enjeux. C’était une de tes premières questions. L’enjeu de la data. Forcément, quand on parle d’enjeux de la data, on parle aussi de l’enjeu de l’IA derrière. Et notamment pour l’IA, on va beaucoup entendre parler de biais. Donc là, les biais, les problématiques sociétales avec le remplacement des… Par exemple, c’est un exemple très connu, mais le remplacement de la force humaine par éventuellement des machines. Donc ça, c’est des sujets qui sont abordés. Mais on va aussi aborder des sujets un petit peu plus poussés. Je laisserai découvrir. Pour ceux qui veulent, n’hésitez pas à contacter Latitude. Vous pouvez le faire jouer en entreprise par des personnes de Latitude. Si c’est des sujets qui intéressent. 

 

Marc 00:24:18 – 00:24:21 : D’accord. C’est un jeu de cartes. Ça se joue à combien ? 

 

Ronan 00:24:21 – 00:24:32 : Autant que vous voulez, c’est juste qu’on va faire les choses un peu différemment, mais disons qu’une vingtaine de personnes, c’est bien. Après, plus, si vous êtes 40, peut-être qu’il vaut mieux faire deux tables, mais voilà. 

 

Marc 00:24:32 – 00:24:35 : D’accord, ok, c’est vraiment un truc de grand groupe. 

 

Ronan 00:24:35 – 00:24:42 : Oui, oui, alors moi, je l’ai fait une fois en tant qu’animateur, et on était 8 ou 8, voilà, ça peut se faire à 8, 8-6 s’il faut, c’est… 

 

Marc 00:24:43 – 00:24:59 : Ok, hyper intéressant. Alors quelles erreurs tu peux nous partager sur la route d’un développement, sur la route de l’assistance à des associations qui forcément ne sont pas techniques à la base ? Qu’est-ce qu’on peut éviter comme erreur ? 

 

Ronan 00:24:59 – 00:29:38 : Oui. Alors, on va rester un peu sur la technique, parce que c’est vrai que je pourrais parler d’organisation pendant deux heures, mais sur la technique, déjà, ça ne sert à rien d’essayer d’optimiser à l’avance. J’ai un collègue qui, avant, me disait « Premature optimization is the root of evil ». Donc, si on s’amuse à tout optimiser dès le début, on est sûr qu’on va se planter, grosso modo. Et nous, on l’a fait. On l’a fait, en fait, il y a deux ans, on a créé le Pôle Tech. C’était le début de l’organisation en pôle. On a créé le Pôle Tech. Et un des premiers trucs qu’on a fait, en fait, c’était des personnes nouvelles dans Data for Good. Moi, personnellement, je n’avais fait qu’une saison avant de rentrer dans le Polytech. Et on avait finalement assez peu d’expérience des saisons à part entière. C’est peut-être aussi un des défauts de ce côté un peu très décentralisé. Ce qu’on a fait, c’est qu’on a mis un super outil Kubernetes dans le cloud en disant, voilà, les gens n’auront plus qu’à lancer des… Je ne sais plus comment s’appelle ce script sur Kubernetes, mais en gros, les gens qui savent utiliser les scripts Kubernetes pour lancer leurs outils sur Kubernetes, ce sera magique, ils seront indépendants, etc. Ça n’avait dans aucun sens, c’est toujours plus facile à dire à posteriori, mais quand on voit qu’on avait du mal sur beaucoup d’associations à juste lancer un serveur et à se connecter à un CSH dessus, parce que les gens sont en Windows, Kubernetes en mode autonome, ça n’avait vraiment aucun sens. Voilà, donc on a bien appris sur le tas. Les associations, en fait, nous, on va les chercher. On va vraiment les chercher parce que la plupart des gens qui postulent, soit ne sont pas conscients de ce qu’ils veulent faire, soit ça ne correspond pas vraiment au mode data, data for good. C’est-à-dire que sinon, on n’est pas là juste pour faire une petite application ou pour faire un site web. Nous, il faut qu’il y ait de la data, il faut qu’il y ait un impact, etc. Donc, il y a quand même beaucoup d’associations qui nous contactent et ça ne matche pas, quoi. Donc nous, on va beaucoup les chercher pour mieux cibler. Ensuite, sur les erreurs techniques, c’est toujours aller au plus simple. C’est un peu comme Premature Optimization, mais même sans parler d’optimisation, c’est comment faire… En fait, il y a eu un débat cette année sur quels outils on utilise pour faire la devise. En fait, dans la plupart des cas, un Streamlit, ça suffit. Alors pour ceux qui connaissent Streamlit, c’est un outil qui permet en Python de lancer une interface graphique avec des boutons, des interactions, afficher des graphes Plotly. Donc Plotly, c’est une librairie Python qui permet de faire des graphes. C’est bien foutu. Il y a d’autres librairies qui font ça. Dash, qui est légèrement plus compliqué. En fait, c’est ça aussi qu’il y a un vrai problème à l’heure actuelle. C’est qu’il y a 150 librairies pour chaque problème, pour chaque fonction. Et donc, bref, Streamlit a plusieurs compétiteurs. Et en fait, on a passé, je crois, au moins trois semaines dans chaque projet. C’était le même débat dans chaque projet à discuter. Mais est-ce qu’on part sur du React ? Est-ce qu’on part sur d’autres outils qui sont basés sur du SQL ? Est-ce qu’on part sur du Python ? En fait, nous, on est là pour faire des pocs. On est là pour faire des pop, pour convaincre des gens à un moment donné et faire quelque chose d’hyper beau. Ce n’est pas souvent le cas. J’ai parlé de Pink Bombs tout à l’heure. C’est quand même un cas particulier. Sur les dix projets, il n’y en a peut-être que deux ou trois qui ont vraiment besoin d’avoir une interface très, très belle. Et dans ce cas-là, oui, faites du React. Mais sinon, si vous avez juste besoin de convaincre en interne, Je n’ai pas parlé de zéro déchet sauvage, mais par exemple, zéro déchet sauvage, c’est une association qui a besoin de créer une data vise qui montre l’état de déchets qui ont été déposés dans des zones non adaptées, donc des parkings, des parcs naturels, des plages, etc. Et donc, c’est des bénévoles qui vont envoyer via un formulaire la position des déchets, la quantité, le type de déchets. Et en fait, le but de l’association, c’est d’aider les collectivités à visualiser et à comprendre le problème sur une région donnée. Bon, effectivement, là, on est dans une relation presque association client, mais en même temps, c’est quelque chose de très technique. On n’est pas vraiment dans une relation financière. Il n’y a pas une concurrence énorme sur ce marché-là, j’ai envie de dire. On n’a pas besoin de partir sur du React. Et Streamlit, ça fait très bien l’affaire. Et en fait, typiquement, les personnes qui étaient en charge du projet ne se rendaient pas compte de ça. Donc quand ils étaient en train de débattre sur les outils… Ils ne se disaient pas « Ok, Streamlit ». En fait, il a fallu qu’on leur montre un exemple de ce qu’on pouvait faire avec Streamlit. Ils ont dit « Ah bah oui, Streamlit, en fait, ça marche très bien ». Et c’est juste que, comme souvent, les chargés de projet bénévoles ne sont pas toujours hyper tech, et en plus, ils n’ont pas forcément cette expérience d’accompagnement, ils vont passer à côté de ça. Donc une des solutions qu’on espère mettre en place l’année prochaine, c’est de dire que tout le monde part sur Streamlit par défaut. Et c’est seulement nous si on voit que ça ne fait pas le boulot parce que vous, vous devez convaincre telle ou telle personne, ça doit vraiment être joli, passer sur autre chose. Donc voilà, j’ai parlé de pas mal de choses, mais ce côté technophile de la communauté où chacun dans chaque projet va essayer de mettre en avant des technos différents qui ne sont pas toujours adaptés, Et en même temps, ils sont bénévoles. Les gens ont envie d’essayer des nouvelles choses. Et moi, le premier… 

 

Marc 00:29:38 – 00:29:45 : Et puis, ils savent se servir de certains outils et pas d’autres. Donc, c’est vrai qu’ils vont toujours utiliser les outils qu’ils connaissent. 

 

Ronan 00:29:45 – 00:30:43 : Là-dessus, pour le coup, comme c’est une association bénévole, quelqu’un qui sait utiliser son outil, et même nous, si on ne le connaît pas, s’il nous dit que ça a fait le taf, on va lui faire confiance. Mais c’est vraiment ce côté hyper curieux, et c’est très bien de la communauté, de dire, moi, je vais absolument essayer Observable, qui est un framework Python qui est sorti il n’y a pas longtemps, parce que c’est tout nouveau. Oui. ça on va essayer maintenant de le réfréner un peu parce que nous on l’a fait aussi. d’ailleurs c’est pour ça presque qu’on a essayé Kubernetes l’année dernière et on s’est bien rendu compte que non ça peut poser problème. il faut faire confiance aux outils qui sont matures aussi et donc on n’est pas juste là pour servir de toy set quoi. alors ça s’est très bien passé la saison. ils ont fait un très beau taf sur observable. il y en a qui ont fait du dash ça s’est très bien passé aussi. Mais est-ce qu’en gagnant les deux petites semaines de discussion, est-ce qu’on n’aurait pas pu faire encore mieux ? C’est ce qu’on espère. Et à l’inverse, il y a eu un échec cette année, puisqu’on a lancé 11 projets, il n’y en a que 10 qui ont abouti. L’année dernière, il y a eu deux échecs. Est-ce que c’est aussi à cause de problématiques comme ça ? Il faut qu’on réduise au maximum ce genre de friction pour que tous les projets arrivent à fin. 

 

Marc 00:30:43 – 00:30:50 : Quel conseil tu donnerais à une association sur la gestion de sa data en interne et sur l’adoption d’outils IA ? 

 

Ronan 00:30:50 – 00:33:08 : C’est un peu comme les conseils dont on parlait tout à l’heure sur le fait que ce n’est pas la data qui fait tout. Il ne faut pas se dire qu’en recrutant quelqu’un, on va faire sauter les… Déjà, recruter quelqu’un, c’est bien pour recruter quelqu’un à plein temps. Cette personne-là ne peut pas se permettre de tout faire toute seule. Il vaut mieux utiliser des outils payants. En fait, nous, on va souvent dire ça, c’est que si vous n’avez pas de temps, il faudrait même dépenser un peu d’argent. Si vous n’avez pas trois, quatre ingé pour faire tout ça, il faut utiliser des API payantes, comme je disais, pour le machine learning. Il faut utiliser le cloud au lieu de faire de tout on-premise. Voilà, donc ça, c’est un autre problème. Si vous n’avez pas de temps, pas d’argent, nous, on peut aider Data for Good pendant trois mois. Il y a eu des associations qui ont réussi à avoir des financements, en fait, grâce à notre travail. Je pense à Côte-à-Climat qui était en hors-saison l’année dernière. Donc Côte-à-Climat qui est un média qui va en fait scraper de la donnée sur Internet sur ce que sortent les autres médias grand public pour pouvoir dire « Ok, le taux de sujets écologiques, par exemple, c’est 1% à l’heure actuelle sur… ». Je dis un chiffre au hasard, j’ai plus les chiffres en tête, mais bon, Côte-à-Climat, on parle souvent sur LinkedIn, donc je vous invite à regarder si ça vous intéresse. Mais voilà, ils vont faire des statistiques comme ça grâce à du scrapping. Et grâce à ce projet, ils ont réussi à avoir un financement de l’ADEME. Donc c’est là où nous, on a notre rôle à jouer. C’est-à-dire que si vous n’avez pas de temps, pas d’argent, on peut vous aider pendant 3 à 6 mois. Je dis 3 à 6 mois parce que les saisons, ça dure toujours un peu plus longtemps que 3 mois, mais après un peu en off. On peut vous aider, mais après, il faut réussir à vous débrouiller tout seul. Soit vous êtes convaincu que le POC est utile, comme je disais tout à l’heure, et vous arrivez à financer en interne, soit vous demandez des financements grâce au projet. Soit après, il y a d’autres sujets. C’est que dans la communauté Tech for Good, il y a pas mal de choses. Donc, il y a Latitude, il y a Shareit, il y a Make Sense, qui sont des incubateurs qui vont souvent prendre des projets un peu plus matures que nous. Nous, typiquement, je crois que Shareit, il faut avoir deux employés à temps plein, alors que nous, on n’a pas cette contrainte-là. Et donc, si le POC a bien réussi chez Data for Good… Pourquoi pas, c’est déjà arrivé, on envoie vers ces acteurs-là. Il y a aussi un acteur public qui s’appelle l’AIC, Accélérateur d’Initiatives Citoyennes, qui a repris par exemple le projet, qui a aidé l’association Paironir dont je parlais tout à l’heure. Donc voilà, en fait, il y a un moment, il faut de toute façon jongler avec ces contraintes. Il faut être pragmatique. Si vous passez d’un acteur à l’autre, c’est aussi un cheminement logique jusqu’à ce que le projet soit assez mature pour que vous soyez autonome. Ok. 

 

Marc 00:33:09 – 00:33:14 : Est-ce que tu as un invité à nous suggérer pour Data Driven 101 ? Quelqu’un que tu aimerais entendre dans un prochain épisode ? 

 

Ronan 00:33:14 – 00:33:58 : Une personne en particulier, pas spécialement, mais tout à l’heure quand je parlais des enjeux sociétaux et du fait qu’on avait beaucoup de mal à l’heure actuelle à contacter des associations qui sont vraiment des associations de terrain, qui luttent sur des enjeux sociétaux, Et si demain, il y avait une personne qui serait vraiment impliquée dans l’ESS au niveau local, dans les associations de quartier, etc., ou sur la pauvreté, et qui lançait un appel à l’aide sur ces enjeux data, je serais très heureux de l’écouter. parce que nous, on a vraiment toujours du mal à trouver les bons projets qu’on peut aider, qu’ils soient bien à notre échelle, etc. Et donc, forcément, une personne qui serait dans l’ESS et qui aurait des besoins data, moi, ça m’arrange. Donc, si jamais tu trouves, ce sera avec plaisir. 

 

Marc 00:33:58 – 00:34:00 : Le message est passé. Merci, Ronan. 

 

Ronan 00:34:00 – 00:34:02 : Merci Marc. 

 

Marc 00:34:02 – 00:34:05 : Vous venez d’entendre Ronancy, responsable projet chez Data for Good.