LA DATA À LA COUR DES COMPTES
Victor Cluzel, administrateur de l’Insee détaché à la Cour des comptes, est l’invité de l’épisode 19 de Data Driven 101. Il nous parle du rôle de la data à la Cour des comptes et des défis liés à l’utilisation des données dans ce contexte.
Marc — 00:00 :
Aujourd’hui, je reçois Victor Cluzel, administrateur de l’Insee détaché à la Cour des comptes depuis 2019 Après 2 ans à la direction générale du Trésor. Bonjour Victor, Bonjour Marc. Alors, Victor, est-ce que tu peux nous dire exactement qu’est-ce que c’est la Cour des comptes?
– Victor — 00:13 :
Alors la Cour des comptes, c’est une institution, une juridiction plus précisément. Qui est fondée sur la déclaration des droits de l’homme et du citoyen de 10 789 pas vraiment fondé, mais en tout cas l’essence de ces missions est fondée sur cette phrase qui dit, dans cette déclaration, la société a le droit de demander compte à tout agent public de son administration, elle doit s’assurer du bon emploi, de l’argent public et informer les citoyens. Et c’est une juridiction financière, donc les rapporteurs, ceux qui écrivent les fameux rapports de la Cour des comptes sont des magistrats et elle a été fondée en 10 807 Donc juste après cette déclaration des droits de l’homme et du citoyen.
– Marc — 00:48 :
Alors qu’est-ce que tu y fais à la Cour des comptes?
– Victor — 00:50 :
Et Ben justement, je voudrais peut-être que je rappelle l’émission de la Cour des comptes parce que même si c’est une de ses missions essentielles, le contrôler, les comptes de l’État et de la sécurité sociale, c’est pas sa seule mission, donc elle a 4 missions, elle contrôle tous les organismes et institutions recevant de l’argent public. Elle juge les comptes des comptes publics, certifie les comptes de l’État et du régime général de la sécurité sociale et évaluer les politiques publiques. Et c’est là nous où les data scientistes on va le plus intervenir, c’est dans l’évaluation des politiques publiques.
– Marc — 01:18 :
D’accord, alors toi tu es administrateur de l’Insee? Est-ce que tu peux nous dire exactement qu’est-ce que c’est administrateur de l’Insee, ce que c’est que l’Insee la différence entre les 2?
– Victor — 01:28 :
Tout à fait. C’est une très bonne question parce que déjà un fact c’est qu’environ 60 à 70 % des administrateurs de l’Insee travaillent à l’Insee, mais il y en a 30 à 40 % qui ne travaillent pas à l’Insee environ pourquoi? Parce que, au même titre que les corps, on va dire d’ingénieurs de l’État, qu’on connaît les ponts, les mines, les administrateurs de l’Insee. On est un peu les matheux de l’État, ça veut dire qu’on va aller un peu. Dans tous les ministères et faire tout ce qui est prévision économique, analyse économique des modèles de microéconomie, des analyses économétriques, tout ça pour conseiller le gouvernement sur ces politiques et pour l’aider à évaluer les impacts de ces politiques publiques. Donc en tant qu administrateur, l’Insee j’ai été comme tu l’as dit tout à l’heure 2 ans donc à Bercy pourrait et faire un peu tout ce qui était économie de la santé, contribuer à des réformes comme le 100 % santé pour tout ce qui était lunette gratuite. Audioprothèse et prothèses en terre en tout cas, gratuite, ça veut dire rembourser complètement par la sécurité sociale et les mutuelles. Et puis après j’ai décidé un peu de me réorienter plus fortement vers la data. C’est pour ça que je suis allé à la Cour des comptes même si j’en faisais un peu quand j’étais à Bercy. À la Cour des comptes, je suis devenu au début rapporteur, donc, c’est-à-dire le cœur de métier de ce que fait la des personnes qui travaillent à la Cour des comptes. Comment déjà ce serait important, je pense, de préciser comment ils travaillent ces rapporteurs, comment ils écrivent leurs rapports tout simplement et un peu expliquer le processus de publication de ces rapports. Déjà, pour présenter à quoi sert la Cour des comptes defacto et comment elle travaille, mais surtout pour voir comment nous les data scientists de la Cour des comptes, on s’inscrit dans ces rapports. En tout cas, on y contribue. Donc ces magistrats, ils instruisent sous le secret de l’instruction puisque c’est une juridiction financière et en contrepartie ils ont accès à beaucoup d’éléments des administrations, entités publiques, des documents internes et ce qui nous intéresse aujourd’hui, des données donc une fois le rapport écrit, ils le soumettent à la collégialité. Un ensemble de magistrats qui valident ou modifient les messages du rapport. Le rapport est ensuite envoyé aux administrations concernées pour ce qu’on appelle la contradiction, puisque c’est important que les administrations contrôlées aient également leur mot à dire dans tout ce processus là. Et enfin, les rapports publiés à leurs messages sont ensuite portés par l’ensemble de la Cour et donc son premier président. Alors pourquoi on parle de data à la Cour? Mais peut-être ça, je te laisse me poser les questions, mais je pense que c’était important d’un peu poser le décor pour savoir comment nous les data scientists, on s’inscrit là-dedans.
– Marc — 03:57 :
D’accord bah dis nous, la data à la Cour, comment ça se passe et d’où elle vient qu’il utilise?
– Victor — 04:02 :
Effectivement, donc, les data scientists, principalement de la Cour, donc on vient d’arriver à 12 data scientists à la Cour des comptes, ce qui est une bonne taille critique disons, pour pouvoir contribuer à ces largement à ces rapports qui sont faits par il faut le resituer dans une institution qui emploie 1800 personnes. En tout, quand on compte la Cour des comptes, mais aussi les chambres régionales des comptes qui aussi contrôlent tout ce qui est organisme, logo et collectivités locales. Nous les data scientistes, comment on s’inscrit dans ce rapport, c’est à dire notre rôle s’est déclaré le travail des magistrats et de la collégialité en mettant à leur disposition des analyses quantitatives là où eux sont des spécialistes du droit public, des spécialistes de la fonction publique. C’est des gens qui ont eu des très grandes carrières dans la fonction publique et nous, l’avantage qu’on va leur apporter, en plus de leur expertise sur tous les sujet thématique, c’est tout ce qui est quantitatif donc comme je le dis tout à l’heure, comme les administrateurs de l’Insee en général dans la dans l’État. On fait des statistiques de l’économie du machine learning. On fait beaucoup évidemment de traitement de base de données. On va pas le redire ici, je pense que tous les data scientists qui nous écoutent savent que c’est 70 à 80 % de notre travail seulement quand les data scientistes ils font ce travail de traitement des données, ils se placent aussi en position d’auditeur, c’est-à-dire les data scientists quand ils vont regarder ces données, ces bases de données administratives et statistiques en même temps qu’ils les redressent, qui font les traitements qui traitent les autres layers, les doublons. Et cetera pour rendre la base exploitable, ils vont pouvoir se placer en termes d’auditeurs et proposer des recommandations magistrats pour améliorer la qualité générale des données de suivi des politiques publiques ou d’administration ou de ministères que l’État utilise ensuite pour conduire ces politiques publiques.
– Marc — 05:50 :
Alors, ces données, elles vont être de quel type par exemple?
– Victor — 05:54 :
C’est une très bonne question parce que justement, elles sont de très nombreux types et ça va rejoindre après ce que je pourrais dire aussi sur le profil des data scientists qu’on a à la Cour. C’est très pluridisciplinaire, donc ça veut dire qu’on va avoir à la fois des personnes qui sont spécialistes de beaucoup de types de traitement des données, mais aussi de beaucoup de thèmes sous-jacents, c’est-à-dire les politiques d’énergie, les politiques de l’agriculture, les politiques de la justice, les données de santé, les données des impôts des particuliers, les impôts des entreprises. Et on va avoir des data scientists qui vont alors ils vont être aussi pluridisciplinaires dans ces thèmes où ils vont pouvoir en étudier mais ont quand même une majeure chacun ou ils vont pouvoir être de plus en plus compétents sur les politiques publiques qu’ils vont étudier. Qui empêche pas qu’au cours de leur plusieurs années qui passent chez nous, bah ils puissent ensuite aller vers une pluridisciplinarité au niveau de ces thèmes. Ce qui est intéressant dans cette pluridisciplinarité au niveau à la fois des techniques et des thèmes étudiés. C’est important de savoir que la Cour des comptes, elle, étudie effectivement toutes les données, potentiellement que l’État peut avoir, donc ça peut être des données de santé, des données agricoles, des données comptables, des données d’enquête de l’Insee, des données de paye des agents publics, des données de publications scientifiques, des aides sociales. Donc tout ce qui est travail, famille, retraite, logement. Des données de l’éducation nationale peut aussi regarder les données, par exemple de parcours sup. Les données des douanes. Et puis je le disais tout à l’heure, les impôts des particuliers et les impôts des entreprises.
– Marc — 07:16 :
Alors ce que tu peux nous partager? Une recommandation que vous auriez fait en regardant les données de près?
– Victor — 07:22 :
Peut-être qu’il faut d’abord que je dise le s 4 missions de la Cour pour bien situer comment on intervient, donc elles contrôlent tous les organismes et institutions recevant de l’argent public. Là, les data scientistes, ils peuvent effectivement aider les magistrats aussi. Donc quand ils foncent ces contrôles on dit organiques. Ils vont regarder une administration ou une entreprise publique, ils vont faire un scanner les RH le management, les données, les systèmes d’information, et nous, on va les aider forcément sur l’exploitation des données de cet organisme. Et de la Cour des comptes juge aussi les comptes des comptes publics. Elle certifie les comptes de l’État. Là aussi, on peut intervenir effectivement pour aider les certificateurs pour tout ce qui est estimation de la fraude et on va les aider à quantifier avec des méthodes économétriques de machine learning et des audits méthodologiques de la façon dont ils s’y prennent sur la dernière chose, sur les évaluations de politiques publiques. Donc comme je disais tout à l’heure, là on intervient le plus, les data scientists, ils vont pouvoir vraiment accompagner l’ensemble de l’évaluation de politiques publiques, c’est à dire depuis le début où on fait la note de faisabilité. Où on définit les questions évaluatives, puisque tout ça est très normé, mais c’est pas tout à fait la même chose qu’un contrôle le contrôle. Il abrite aussi de repérer des mauvais fonctionnements. Il peut aussi dans certains cas mettre en exergue des fraudes là où l’évaluation de politiques publiques, c’est simplement de dire, voilà les objectifs que l’État s’est fixé et nous, on va regarder comment il y est arrivé, comment il n’y est pas arrivé ou la façon est ce que c’était pertinent. Est-ce que c’est efficient? Est-ce que c’était efficace? Et nous, les data scientistes, ils vont venir épauler les magistrats, contribuer à cette évaluation de politique publique. Pour tout ce qui est analyse quantitative. Là où le magistrat lui, va s’occuper de évidemment de tout la conduite du rapport d’A à Z et puis aussi de tout ce qui est, analyse qualitative et là, le data Scientist va intervenir sur tout ce qui est quantitatif. Je vais prendre l’exemple d’un rapport qui est sorti en juillet dernier. Une évaluation de politique publique sur l’agriculture biologique, donc l’état s’est fixé un certain pourcentage d’exploitation agricole biologique à un horizon fixé. Et nous, on est allé voir la façon dont il s’y était pris. Nous les data scientists, plus particulièrement là ce qu’on est allé voir, c’est leur donner et ce qu’ils peuvent bien suivre, le nombre d’agricultures biologiques et ce qu’ils peuvent évaluer leurs performances et leur soutenabilité économique. Et là, on a eu accès à plein de bases de données. Des ministères des bases de données qui venaient aussi d’institutions indépendantes aussi, mais qui sont aussi publiques. Donc on peut y accéder et effectivement, ce qu’on a vu, c’est que les données étaient pas tout à fait, même s’il y avait une forte volonté de l’État de pouvoir le faire, qu’il fallait encore franchir une étape supplémentaire pour que les données puissent complètement suivre la soutenabilité économique des agricultures biologiques. Donc nous les data scientistes on a proposé aux rapporteurs et à la collégialité des magistrats des recommandations. Ils les ont acceptées et donc ils ont fait ces recommandations au gouvernement. Cette recommandation particulièrement donc, de rajouter des variables, de s’y prendre différemment pour faire des enquêtes sur tel ou tel type d’agriculture, voilà. Mais je vous invite, si vous êtes plus intéressé par cette question, à lire le rapport en question.
– Marc — 10:23 :
Alors est ce que tu peux nous donner un exemple d’analyse de données qui a été fait dans le cadre de tes missions?
– Victor — 10:28 :
Oui, alors le dernier rapport auquel j’ai pu contribuer mais y en a beaucoup que les data scientists du département font actuellement ou qui sont déjà publiés. Par exemple, il a été publié il y a quelques semaines sur la pédopsychiatrie. Donc le data Scientist il a pu contribuer au rapport en fournissant des statistiques descriptives basées sur le système national des données de santé qui regroupe l’ensemble des données de carte vitale des Français et aussi des données hospitalières. Et il a pu du coup fournir tous ces chiffres et ces données en magistrats et les analyser avec eux pour que le rapport puisse produire aussi des analyses quantitatives. Je vais pouvoir vous parler plus en profondeur d’une expérience. La dernière expérience que j’ai eue en tant que Data Scientist avant de prendre la direction du département, c’était le rapport sur la stratégie nationale de recherche en intelligence artificielle. Ce rapport il est sorti il y a une ou 2 semaines et on a pu faire beaucoup d’analyses quantitatives différentes. On a pu faire du crawling, du Clustering, des métriques de réseau. On a pu faire de l’intelligence artificielle pour étudier la stratégie nationale de recherche en intelligence artificielle de l’État. C’est pas une tautologie, c’est simplement pour dire voilà, on a pu utiliser des outils d’intelligence artificielle pour étudier ce que l’État fait en matière d’intelligence artificielle pour le crawling peut-être, c’est important peut-être de définir ce que c’est pour nos auditeurs. Le Crawling, c’est le fait de passer, c’est un peu différent du Scraping, donc la fouille de données sur Internet ça veut dire on va aller sur un site. Récupérer tous les liens vers les autres sites et puis aller te branche en proche récupérer un corpus de sites et les liens qui existent entre eux et constituent ainsi un réseau. Et ce crawling nous a permis en fait de représenter par un réseau en 2D ou en 3D tous les acteurs de l’intelligence artificielle en France. Et on a pu aussi le faire de façon comparative en Allemagne pour pouvoir comparer la structuration entre les labos de recherche, les grandes écoles, les universités, entre les centres de recherche, le CNRS l’inria et cetera, et voir comment tout ceci s’articulait, comment les acteurs communiquent entre eux, alors c’est qu’un proxy, puisqu’on a fait ça. Via leur site web institutionnel et les liens qui existaient entre eux. Mais on a aussi pu le faire avec ce qu’on appelle de la SCIENTOMÉTRIE, c’est-à-dire en analysant toutes les publications scientifiques sur un certain nombre d’années. On a pu voir souvent les chercheurs y travaillent en collaboration, donc ça veut dire ils co publient des articles et souvent ils viennent de différents organismes où universités. On a pu aussi établir des réseaux de liens entre tous ces acteurs de l’intelligence artificielle et ensuite on a pu faire du clustering dessus pour faire ressortir quels étaient ceux qui collaboraient le plus. Et on a pu aussi faire des métriques de réseau. Pour comparer avec l’Allemagne est-ce que notre réseau de chercheurs et de ceux qui appliquent l’intelligence artificielle en France et ce qui collabore plus ou moins bien, et donc je vous invite, encore une fois à aller voir le rapport? Si vous êtes intéressé par ce sujet-là Alors,
– Marc — 13:12 :
En quelques mots, si tu nous résumes, si nous intéresse quand même un rapport sur l’intelligence artificielle, est ce que tu peux nous résumer ce que vous avez dit dans le rapport?
– Victor — 13:20 :
C’est les magistrats hein qui ont écrit en définitive le rapport, même si nous les data scientistes ont contribue aussi fortement à la fois dans l’écriture de tout ce qui est méthodologique, mais aussi on contribue à certains endroits dans le rapport. Mais c’est vrai qu’il y a des recommandations qui sont, mais peut-être avant de parler des recommandations, on a quand même fait des trouvailles. Les recommandations c’est un peu ce qui sort, ce qui résume bien le rapport, il y a des observations. Qui permettent de dire un peu l’état de l’art. Mais les recommandations, c’est quand les rapports de la Cour des comptes ils sont écrits, c’est une critique constructive, donc elles proposent aussi des solutions aux administrations. Comment on est arrivé à certaines de ces recommandations? Certains de ces recommandations, elles viennent aussi donc forcément de cette étude quantitative, comme on l’a vu tout à l’heure. Et peut-être une anecdote sur ce rapport. Il existait pas vraiment de consensus autour de la définition d’intelligence artificielle dans la communauté scientifique, en tout cas à la communauté scientifique française, mais aussi internationale. Donc ce qu’on a fait, on a utilisé en collaborant avec, alors peut-être avant même de poser ça. C’est la particularité des évaluations de politiques publiques, c’est qu’elle. Elle s’adosse d’un comité de suivi qui va être un comité composé de parties prenantes. Donc ça peut être des directeurs des entités de recherche, ça peut être des chercheurs, des scientifiques. Qui se réunissent plusieurs fois au long de cette évaluation de politique publique pour donner leur avis sur le travail que les magistrats et auxquels les data scientistes contribuent, font. Et donc on a commencé à constituer un corpus d’ensemble de publications à la fois sur la recherche elle même en intelligence artificielle, mais aussi sur les corpus qui faisaient aussi de l’intelligence artificielle appliquée à des domaines parce qu’il y A la recherche fondamentale, disons presque sur l’intelligence artificielle, mais aussi tous les thèmes sur lesquels l’intelligence artificielle s’applique, la physique, la chimie y a beaucoup de papiers qui s’appuient de plus en plus sur l’intelligence artificielle aussi pour aider leurs recherches dans leur domaine thématique spécifique donc, ce périmètre étant défini, donc on a constituer un corpus, on en a fait sortir un certain nombre de mots clés qu’on a soumis à une consultation à beaucoup de scientifiques qui ont pu donner leur avis justement pour arriver à un consensus le plus possible et ces mots clés, on a pu les publier en même temps que le rapport avec une licence open source, c’est-à-dire qu’ils peuvent être réutilisées aujourd’hui. Pour les chercheurs, les sociologues qui cherchent autour de tout cet écosystème. Disons en tout cas sur réseau autour de l’intelligence artificielle pour qu’il puisse le réutiliser pour bien les finir. Ce qu’on a vu aussi, c’est qu’il y avait l’intelligence artificielle où nous, les data scientists, on est le plus habitué. Finalement, qui est le machine learning, l’apprentissage automatique, mais aussi l’IA symbolique? C’est le départ en fait de l’ordinateur. C’est des instructions déterministes et pas statistiques et donc on a aussi inclus cette définition à l’intérieur de l’intelligence artificielle en général, mais en séparant entre intelligence artificielle symbolique et apprentissage automatique. Et puis, en ajoutant aussi certains éléments dérivés, donc le traitement automatique du langage naturel, donc le NP la fouille automatique de données et la vision. Par ordinateur, La Computer Vision, voilà tout cela. On l’a mis au même endroit, on a consulté les scientifiques et on a publié les mots-clés, donc c’est ça qui a été assez intéressant dans ce rapport et qui est un peu novateur par rapport aux autres travaux qui ont été faits en la matière.
– Marc — 16:29 :
D’accord, ça segmente un peu les domaines. Les sous domaines de l’intelligence artificielle, en les définissant devant une définition un peu, le voilà le contour de ce que ça représente.
– Victor — 16:38 :
Tout à fait. Et puis il y a des recommandations qui sont forcément aussi budgétaires puisque c’est la Cour des comptes. Donc elle a aussi une vision budgétaire. Enfin surtout. Une vision budgétaire aussi de cette stratégie. Mais donc il y a des recommandations qui sont précisées, les missions respectives des 4 centres d’excellence en IA les instituts fameux 3IA établir de manière partagée les objectifs et les indicateurs prioritaires de la politique publique en intelligence artificielle, en lien avec la stratégie européenne. Donc ça, c’est ce que je disais tout à l’heure, tout ce qui est suivi de la politique publique et pour faire un aparté, elle a de particuliers aussi, cette évaluation de politique publique, elle s’est faite in itinere, c’est-à-dire qu’on n’a pas attendu. La fin de la politique publique pour l’évaluer? Normalement, on doit plutôt attendre pour avoir suffisamment de données. Mais comme elle a 3 phases, c’est ça qui est avantageux, c’est qu’on a pu attendre la fin d’une phase pour évaluer la phase et pour pouvoir directement donner des recommandations à l’État pour qu’ils puissent tenir compte de ces recommandations dans l’élaboration des phases suivantes de cette stratégie nationale. Ensuite, voilà donc y a des recommandations par rapport à la formation, par rapport aux besoins des enseignants, aussi du secondaire, puisque tout ça se construit assez tôt, élaborer une charte et un catalogue de bonnes pratiques. Mais voilà, si vous voulez avoir plus de précisions sur ces recommandations, je vous invite. À lire le rapport et en tout cas les recommandations, elles sont écrites au début, voilà.
– Marc — 17:57 :
D’accord dans les cas d’usage du machine learning, tu peux nous donner des exemples, nous raconter un peu des applications que vous avez pu mettre en place.
– Victor — 18:05 :
Tout à fait. Alors c’est pas la majorité des cas. Les analyses qu’on fait en machining, mais on en fait donc très souvent en fait, donc des statistiques descriptives, de la Dataviz, des modèles économiques, des analyses économiques, beaucoup d’analyses économétriques. Et effectivement, on fait aussi des consultations auprès des citoyens pour constituer nous-mêmes nos bases de données. J’ai parlé de scraping aussi de crawling. Qui nous permettent aussi de constituer nos bases de données. Une machine learning effectivement, c’est pas majoritaire dans nos travaux, mais on en fait aussi. Bah je viens d’en parler pour l’intelligence artificielle. On a pu en faire alors y a vraiment beaucoup de techniques mises en place. Il y a beaucoup de personnes qui ont contribué et qui étaient de formation quantitative sur ce rapport sur l’intelligence artificielle, mais on a aussi fait à la fois des choses au sein de rapport, mais on fait aussi un peu, je te le cache pas de R et d pour justement capitaliser et puis avancer nous-mêmes sur ces compétences là, on a pu faire des choses. Pour prédire le prix du médicament ou prédire le comportement des usagers de l’hôpital est-ce que comment prédire si un usager en fonction de ses caractéristiques âge, revenus, catégories socioprofessionnelles et cetera, il va plutôt choisir l’hôpital privé ou l’hôpital public, ce qui est assez intéressant aussi pour enseigner la politique publique et comment elle est construite. On fait aussi un peu de NP ce qui est important pour la Cour puisque la base aussi de ces productions, c’est des rapports, donc on utilise aussi pour nous aussi concaténer un peu tous les rapports parce qu’on a eu beaucoup depuis sa création à la Cour. Ça c’est aussi un peu de tout ce qui est recherche et développement qu’on fait, alors c’est pas énorme, c’est modéré, mais je pense que c’est important qu’on le fasse pour qu’on puisse ensuite capitaliser là-dessus et pour pouvoir le proposer au sein de rapports aux magistrats.
– Marc — 19:42 :
Vous faites des analyses de vos rapports anciens? Ouais, d’accord.
– Victor — 19:46 :
Alors là-dessus en fait, on va prendre les recommandations. Là on a un projet en cours, on va prendre les recommandations de la Cour et on va regarder le contenu à qui elle s’adresse, à qui on dit à qui, c’est dire à quel ministère on va essayer aussi de quantifier, est-ce que c’est une recommandation plutôt d’accompagnement ou plutôt qui peut être plus sévère aussi? On va caractériser aussi la sévérité de la recommandation. Voilà, et ce que ça va être, une recommandation qui va être pouvoir être suivie parce qu’aussi le suivi des recommandations, mais tout ça est un travail. Assez titanesque parce qu’on a eu beaucoup des travaux de la Cour des comptes, mais c’est quelque chose, effectivement qu’on est en train de regarder pour nous voir effectivement ce qu’on peut en tirer.
– Marc — 20:22 :
De donc c’est essayer de faire ça avec des algorithmes de LP tout à fait automatiquement juger de la sévérité de la recommandation, ont jugé de tous ces éléments.
– Victor — 20:31 :
Ouais tout à fait.
– Marc — 20:32 :
Alors, quelles sont les principales difficultés que tu rencontres que vous rencontrez pour faire ce que vous faites, en tant que Data Scientist dans la Cour des comptes et comment vous les avez surmontés?
– Victor — 20:43 :
Il y a 2 difficultés qu’on a souvent la première, c’est la multiplicité des identifiants dans l’administration, on a les identifiants par exemple le numéro de sécurité sociale t’as le numéro fiscal Ensuite t’as les numéros effectivement qui sont propres aussi aux caisses d’allocations. Quand on a toutes ces choses là, effectivement, quand nous on arrive pour faire des contrôles qui sont assez transversaux aussi, ou des enquêtes ou des évaluations assez transversales, on a besoin souvent de les apparier évidemment, en toute sécurité, hein, protégées par le secret de l’instruction et juridiquement et techniquement, et pour apparier ces bases, souvent, ça peut effectivement être un obstacle, et ce qu’on recours de plus en plus à des techniques de faisi matching aussi pour que l’administration aussi d’ailleurs, pour rapprocher effectivement. Les noms. Voilà sans qu’ensuite, une fois que ça, c’est fait par des tiers de confiance. Une fois que les bases sont appariés, évidemment, on regarde pas du tout, ça nous c’est pas du tout le nom des personnes qui nous intéressent plutôt pouvoir à parier de base pour pouvoir faire une analyse à la fois disons fiscale et sociale en même temps, il y a une 2ème difficulté qu’on rencontre aussi, alors elle est pas si régulière que ça, mais quand ça arrive ça peut poser aussi pas mal de nœuds au cerveau. C’est l’accès aux données peut y avoir beaucoup d’obstacles techniques à entrer dans les données de l’administration. Parfois la plupart du temps ça se passe bien. Mais certaines bases sont tellement spécifiques ou sensibles qu’il faut parfois, en dernier recours, utiliser des ordinateurs directement de l’administration, qu’on évalue ou contrôle ou se déplacer pour étudier les données sur place. Quand on sait que déjà, on a des instructions qui sont 3 à 9 mois pour les data scientists, il faut qu’ils puissent faire déjà la revue de littérature, regarder toutes les bases qui existent, commencer à rentrer dans ces bases quand je pense aux bases de l’Insee, y a des personnes qui vont ou des bases des services statistiques, ministères de l’État, qui vont passer presque toute leur vie à étudier qu’une seule base. Nous, on doit le faire en 9 mois, alors on capitalise beaucoup sur ce qui est fait sur la revue de littérature. Mais quand en plus on a de problèmes d’accès aux données, ça peut être compliqué, alors on trouve toujours des solutions. Comme je disais, on va sur place, ça nous prend un peu plus de temps, mais on y arrive.
– Marc — 22:41 :
Ce que tu regrettes de pas avoir fait autrement dans tes travaux passés.
– Victor — 22:44 :
Alors, en tant que Data Scientist, puis rapporteur avant quand j’étais dans le cœur de métier, mais surtout en tant que Data Scientist de pas avoir passé autant de temps que le souhaiter, voire très peu, pas du tout sur des projets transversaux donc de R et D comme disait Tout à l’heure sur la mise en place de techniques un peu novatrices ou des projets aussi sur la façon dont on travaillait. La capitalisation, le pire learning pour justement pouvoir capitaliser sur tout ce qu’on a appris à la fois thématiquement et techniquement. Aujourd’hui, on est en train de redresser le pied, on est en train de se rendre compte que c’est assez important. C’est un investissement qui reste modéré parce qu’effectivement, on doit, et c’est notre mission principale et majoritaire, c’est de répondre aux demandes des magistrats. Mais en investissant un peu de notre plan dans ces sujets transversaux, à la fois organisationnels et de fonds techniques, on sera encore plus efficace à leur service, donc c’est aussi quelque chose qu’on fait pour ensuite être d’une plus grande valeur ajoutée pour les magistrats et les rapports publiés par la suite. Il y a aussi quelque chose qui est important que je voulais. Signaler aussi.
– Marc — 23:45 :
Je t’entends beaucoup dire, Voilà, vous êtes servi des magistrats, vous créez pour des magistrats, est-ce que tu peux nous dire combien il y a de magistrats, combien y a de data Scientists, qu’on est un peu une idée de cette équipe data? La taille qu’elle a?
– Victor — 23:58 :
C’est une équipe qui est assez neuve, va dire dans sa taille, disons, même si la première data Scientist est arrivée en 2017 à la Cour. Avant que je n’arrive en 2019 ils étaient 3 data scientists, puis on arrivait en à 5 en plus lors de mon arrivée, donc on a on a plus que doublé l’équipe et là on s’est constitué en pôle puisqu’on était et part dans une direction un peu plus générale que la data. De 8, on est passé à 11 entre 2020 et 2022 et donc c’est devenu un département, jargon du public oblige. Et on devrait 13 dans les semaines qui viennent. Voilà donc c’est effectivement une chance qu’on a dans le public de pouvoir avoir 13 data scientists dans une institution ou une administration qui est pas forcément data centrique comme pourrait l’être la direction interministérielle du numérique. Néanmoins, quand on le resitue par rapport au 1800 employés de la Cour des comptes, 1800 personnes qui travaillent la Cour des comptes, alors elles sont pas toutes magistrates ou même personnelles de contrôle. Mais ça resitue aussi.
– Marc — 24:57 :
Combien de magistrats?
– Victor — 24:58 :
Les magistrats, j’ai plus le chiffre en tête. Exact, je pourrais le repréciser, mais ils sont je pense, quand tu prends à la fois les magistrats de la Cour des comptes et ceux des chambres régionales des comptes, ils doivent être autour de 800 à 1000. Mais ça, j’ai pas les chiffres exacts, mais en tout état de cause, ça veut dire qu’on n’est pas du tout le cœur de métier. Et effectivement, nous on peut contribuer sur l’ensemble du rapport, on peut mais on participe forcément pas à tous les rapports et donc on priorise en fonction des besoins des magistrats et donc des chambres de la Cour. Il y a cette Chambre à la Cour des comptes, 6 chambres thématiques et puis une 7ème. Et on priorise en fait en fonction de leurs besoins et nous aussi, là où on voit, on a plus de valeur ajoutée aussi à leur apporter. Donc c’est un dialogue qui s’établit avec les magistrats pour déjà affecter data scientists comme on est dans une un service transversal aux chambres de la Cour. Où sont les magistrats, cette secrétariat général et les data scientists? On est à l’intérieur de ce qu’on appelle la direction du numérique et des données. Et puis à le département des data Scientists, voilà un peu pour situer la façon dont on s’inscrit à la fois organisationnelle, ement et puis. En fonction aussi du processus du rapport avec la magistrat.
– Marc — 26:05 :
Ce que tu préfères dans ce métier?
– Victor — 26:06 :
Je dirais depuis que je suis arrivé à la Cour, j’ai toujours eu un peu les pieds entre 2 mondes, le monde de la fonction publique, de la Cour et puis le monde de la donnée, de la data Science, donc c’est pour ça. Tu me disais tout à l’heure, oui, là t’es arrivé en costard cravate. Là je suis plus en costard cravate parce qu’on est plutôt côté donnée. Mais c’est vrai que plusieurs fois par jour, ça m’arrive de remettre la cravate ou de l’enlever si on est plutôt côté administration ou plutôt côté données. Voilà donc ça, c’est quelque chose d’assez intéressant. Au début, ça peut être un choc effectivement, et de devoir jongler entre ces 2 façons de voir les choses, mais c’est une très grande richesse parce que le travail entre les magistrats et des data scientists, quand il contribue au rapport, il est très itératif. Le magistrat, au début, va peut-être avoir une idée parce qu’on lui a parlé de quelque chose qui a fait un data scientist sur tel ou tel rapport. Il va lui demander au Data Scientist il va lui dire Bah tiens ça c’est possible, c’est pas possible. Et quand il va rejoindre l’équipe, le magistrat, quand le Data Scientist va lui proposer d’autres techniques qui peut appliquer le magistrat? Il va pouvoir voir de plus en plus tout ce que peut faire le data Scientist. Qui pourra devenir de mieux en mieux un maître d’ouvrage pour faire des demandes de scientiste et en même temps le data Scientist. Quand il arrive sur le rapport, il fait de la revue de littérature, alors il participe pas autant effectivement à l’étude de la politique publique en soi que le magistrat, parce que lui aussi, il doit aussi faire son travail quantitatif de code, d’analyse, effectivement technique, quantitative, économétrie et cetera. Il va participer aussi de temps en temps le data Scientist aux entretiens avec l’administration ou le magistrat rencontre l’administration pour qu’ils leur parlent des sujets qu’ils contrôlent ou qu’ils évaluent. Et donc le Data Scientist. Il va être de plus en plus à même au cours de son contrôle et même des contrôles suivants, parce qu’ils peuvent aussi être sur des thématiques qui peuvent être connexes va être de plus en plus à même de pouvoir aussi proposer des choses aux magistrats. Des analyses de plus en plus pertinentes en fonction des objectifs de la politique publique et des objectifs du contrôle. Ce qu’on veut contrôler et ça c’est quelque chose d’hyper enrichissant, à la fois du côté de l’État scientiste, et puis j’imagine aussi du côté des magistrats.
– Marc — 28:02 :
Et alors à l’inverse, qu’est-ce qui te frustre le plus dans ce métier?
– Victor — 28:06 :
C’est une bonne question, je pourrais donner une réponse un peu niaise et blanche en disant qu’y a pas grand chose qui me frustre. Parce que. On a vraiment une explosion, hein, quand je te dis en termes de personnes recrutées, pour être data scientist à la Cour, c’est quelque chose qui au long de cette Constitution de notre département des data Scientistes, c’est beaucoup amélioré et on a encore un long chemin à faire mais on s’est déjà beaucoup amélioré sur comment leur expliquer à quoi sert un data scientist. Voilà expliquer aux magistrats à quoi sert batiste. Et effectivement, ce qui est intéressant aussi avec la structure des chambres de la Cour, c’est que les magistrats, ils travaillent par équipe de disons 2 à 3 magistrats et donc on va pouvoir leur proposer. Une analyse effectivement quantitative pour contribuer à leur rapport. Et ensuite, ces 3 magistrats vont travailler dans 3 autres équipes différentes et donc de proche en proche. On va pouvoir finalement montrer de plus en plus ce que les data scientists peuvent faire, même si on fait aussi des formations aussi, pour que les magistrats ils puissent de mieux en mieux comprendre ce qu’on peut leur proposer et nous-mêmes leur proposer au cours des rapports. Mais s’ils ont pas forcément l’idée de à quel moment on peut les aider, ils auront pas forcément l’idée de venir nous voir et c’est à nous aussi de leur montrer et au début. Effectivement, c’était plus compliqué parce qu’on était très nouveau et il savait pas forcément à quoi on était utile et là je trouve que c’est de plus en plus le cas. D’ailleurs, ce qui est symptomatique, c’est comme je te disais tout à l’heure, on est obligé parfois de reprioriser en fonction des demandes des magistrats. Alors on dit rarement non, hein? Très rarement. Mais on est aussi obligé parfois de restreindre certaines analyses quantitatives parce que sur chaque sujet qu’on étudie les 2 que j’ai évoqué, on pourra faire une thèse à chaque fois. Et donc c’est frustrant, on pourrait toujours aller plus loin. Effectivement c’est pas non plus une temporalité qui est celle de l’administration ou tu as une commande ministre, faut la rendre dans la semaine, c’est entre la recherche. Et justement cette étude très éclaire qu’on peut faire dans les ministères donc c’est aussi une grande, une grande chance qu’on a de pouvoir étudier autant à fond un sujet. Mais quand on est allé déjà autant avant dans ce sujet, c’est frustrant de devoir arrêter pour passer à l’autre parce qu’on a énormément de demandes et donc ça oui, voilà tu cherchais le mot? Frustrant voilà, je l’ai, c’est de devoir rapidement passer d’un sujet à l’autre, même si on a quand même b eaucoup de chance pour voir l’étudier. En profondeur. Bah, une fois que le contrôle est fini, bah on passe à autre chose effectivement.
– Marc — 30:26 :
Alors ce que vous utilisez des données personnelles et si oui, est-ce que le règlement européen RGPD vous contraint ou pose problème? Comment ça se passe exactement?
– Victor — 30:36 :
Alors la Cour des comptes au sens du RGPD est ce qu’on appelle 1/3 autorisé. C’est-à-dire que comme la Cour des comptes a une mission de service public, on a le droit d’accéder à des données personnelles sous certaines conditions. D’accord, ça nécessite de notre part un effort effectivement de transparence et de pédagogie continue auprès des administrations qu’on évalue et qu’on contrôle. La contrepartie d’accéder à ces données, c’est que sous le sceau du secret de l’instruction et de la sécurité des données qu’on met effectivement autour de ça effectivement. Bah ces données elles sont pas publiées non plus, c’est simplement pendant la phase d’instruction pour nous permettre de ce qu’on a dit tout à l’heure de faire des appariements ou de consulter les citoyens par exemple des citoyens qui auraient pu recevoir le RSA et ce qu’ils sont satisfaits de recevoir cette aide là je pense aussi à une enquête qu’on a fait sur le Fonds de solidarité auprès des entreprises qui a été mis en place pendant le COVID on a interrogé les chefs d’entreprise donc on a le droit d’accéder à ces données. Néanmoins, on peut pas non plus faire n’importe quoi, hein, c’est bien normal, il faut faire des registres de traitement, il faut respecter le principe de proportionnalité, c’est-à-dire demander que ce dont on a besoin, mais effectivement, on a quand même certaines facilités mais avec effectivement des contreparties de sécurité qu’on met en place.
– Marc — 31:50 :
Ce que tu as une opinion à nous partager.
– Victor — 31:52 :
Au risque de que ça paraisse une opinion facile, je dirais qu’on a beaucoup de chance parce que c’est assez inédit d’avoir une concentration comme je disais tout à l’heure de Data Scientist, de 12 data Scientists. Même au sein d’une administration. Aussi grande que la Cour des comptes et des chambres régionales des comptes et on a aussi une chance de la richesse des parcours des personnes qui sont data sortis à la Cour des comptes. Ils viennent d’écoles mais d’écoles de commerce ou d’écoles d’ingénieurs. Ils viennent de l’université, on a des docteurs en sciences économiques et sociales, donc on a vraiment une très grande diversité de parcours et souvent, il y a cette double dominante, c’est-à-dire à la fois pouvoir coder en python, faire de l’économétrie tout ce qui est technique, mais aussi être intéressé. Ou compétent dans les domaines des politiques publiques, par exemple, on a des personnes qui sont spécialisées en données de santé, on a des personnes qui sont spécialistes, qui ont étudié les sciences comportementales à l’école normal supérieure. On a des personnes qui sont démographes, alors elles sont toutes data Scientist et toutes les composantes que je dis là. Elles s’ajoutent finalement à leurs compétences de base, qui est celle de Data Scientist. On a beaucoup d’économistes aussi, on a des personnes. Voilà qui savent faire du NP certaines du machine learning, d’autres qui sont grands spécialistes d’économétrie voilà.
– Marc — 33:04 :
Comment on devient data Scientist? La Cour des comptes parce que d’une façon générale, pour l’État, pour être fonctionnaire, il faut avoir passé un concours. Quels sont les moyens de devenir des scientist pour le compte de l’État?
– Victor — 33:17 :
Alors, tu l’as évoqué au début, il y a la possibilité du détachement à la Cour des comptes, c’est pas la majorité des cas, la majorité des cas ce sont des contractuels et donc on fait passer des entretiens, on publie des fiches de poste et on fait passer des entretiens pour des contrats qui vont de 3 à 5 ans. D’accord et j’ai quand même une anecdote à dire, la première chose que je regarde chez un candidat quand on le recrute, c’est sa capacité pédagogique. Parce que même si évidemment on va lui faire un entretien test technique pour vérifier effectivement qu’il est capable de mettre en œuvre des lignes de code de l’économétrie et cetera. On va regarder aussi comment ils communiquent parce que ces interlocuteurs, comme je disais tout à l’heure, ce sont les magistrats, les administrations et in fine dans le s rapports publiés, ce sont les citoyens qui doivent pouvoir comprendre ce qu’on a fait et donc il y a vraiment une grande partie de notre travail qui est aussi beaucoup de pédagogie et de vulgarisation. Et donc ça c’est quelque chose qu’on regarde beaucoup aussi quand on recrute les candidats parce que c’est essentiel dans notre travail de tous les jours, on demandera pas aux personnes d’être seulement techniques, on leur demandera aussi. De savoir vraiment être très pédagogue.
– Marc — 34:23 :
Si c’était à refaire, tu changerais quoi aujourd’hui?
– Victor — 34:25 :
Bah réponse blanche, encore une fois, si je puis me permettre, on est encore très jeune, on a plein de choses encore à mettre en place. On est en train de réfléchir sur plein de sujets, sur la façon dont on travaille, sur la capitalisation, sur le peer learning. Même s’il y a déjà une revue par les pairs parce qu’on revoit notre travail entre nous mais aussi dans la phase de contradiction, on va pouvoir donner notre méthodologie à l’administration. Donc s’il y a des data scientists en face, il y a des statisticiens en face, ils vont pouvoir répondre même si on a déjà discuté avec eux au cours de l’instruction, qu’on on les a déjà rencontrés. Ils vont pouvoir aussi nous faire un retour sur notre méthode et effectivement, ça c’est déjà une première étape, mais on a encore des choses à mettre en place comme on est, on va dire à cette taille donnée de 12 personnes, on est très jeunes donc il faut qu’on se structure, faut qu’on voit comme en place du pire learning comme on capitalise sur les choses à chaque fois qu’on a mis en place parce que comme je te disais, on passe d’un rapport à l’autre, effectivement, comment on capitalise à la fois sur les données qu’on utilise, les thèmes qu’on étudie sur les techniques qu’on met en place? Et donc ça, on a encore du travail là-dessus, même si c’est déjà en très bonne voie.
– Marc — 35:27 :
Alors justement, c’est quoi les chantiers de la data à la Cour des comptes?
– Victor — 35:30 :
Alors on est en train de mener une réflexion en fait, autour de la façon dont on travaille, même si elle va pas changer en substance. Mais comment capitaliser sur des bonnes pratiques pour qu’on puisse travailler de façon plus collaborative? Souvent, les data scientistes sur des contrôles, ils sont souvent 2, mais ensuite parfois 5 ans après, il y a le même contrôle, c’est-à-dire si l’État a étudié une politique publique 5 ans après, il va pouvoir réétudier la même politique publique pour voir comment elle a été modifiée et c’est toujours utile de savoir ce qu’on a déjà fait. Et quelle base de données on a utilisé parce qu’elles sont tellement nombreuses? Les bases de données, ce qui est une grande richesse, hein, de l’État et de la sécurité sociale et des administrations en général? Mais nous, ça veut dire qu’il faut qu’on puisse bien capitaliser sur toute cette étude, simplement de voir quels sont le panorama de toutes ces données. C’est déjà un travail assez important qui prend peu de temps. On quand on fait la faisabilité de toutes nos études pour voir quelle est la meilleure base à utiliser comme on les a parié, je sais pas parce que 2 bases existent, je vais pouvoir les apparier si je prends une base qui est à la maille. De l’entreprise et l’autre à la base des groupes d’entreprises juridiques. Ben, on va pas forcément pouvoir les apparier, il y a toutes ces choses là qui sont à prendre en compte, mais on le fait pour chaque contrôle. Le next step c’est de pouvoir effectivement capitaliser même si on le fait d’une certaine manière. On présente nos travaux entre nous, mais il faut qu’on le fasse de façon plus structurelle pour s’adapter à ce rythme effectivement d’un rapport, une technique, enfin plusieurs techniques, mais ensuite on passe à un autre rapport.
– Marc — 36:53 :
Faut pas que la technique tombe, alors les oublier?
– Victor — 36:55 :
Voilà, c’est ça et effectivement pareil, c’est un peu comme les magistrats. À l’heure, les data Scientists si vous voyez 2 donc ils vont travailler avec quelqu’un d’autre, donc la personne va pouvoir transmettre cette technique mais si quelqu’un part par exemple ou si quelqu’un ne travaille plus sur le sujet, comment on fait pour capitaliser et partir? Pas du niveau 0 à chaque rapport, mais de repartir sur déjà les acquis qu’on a eu mais qui peuvent être parfois 3 ans auparavant. Et ça c’est une grande thématique pour nous et on avance beaucoup là-dessus et je pense qu’on va pouvoir aboutir dans les mois qui viennent à des choses intéressantes.
– Victor — 37:25 :
Et Ben Bon courage, merci beaucoup.
RAJOUTER UN PEU DE SILENCE CAR CA S’ENCHAINE TROP VITE
Vous venez d’entendre Victor Cluzel. Administrateur de l’Insee dans data driven One One si vous avez aimé que vous les nous soutenir, n’hésitez pas à vous abonner à la chaîne, à liker et à partager dans le prochain épisode, je recevrai Coralie betbeder déchelette, lead data chez Joko, pour parler de data et de shopping à très vite.