ANNOTATION DE DONNÉES
Édouard d’Archimbaud ingénieur en machine learning et CTO fondateur de Kili Technology , est l’invité de l’épisode 21 de Data Driven 101. I
Il nous parle des difficultés liées à l’annotation de données pour le machine learning et explique pourquoi la qualité de la donnée est essentielle pour obtenir des modèles fiables.
Marc — 00:00 :
Aujourd’hui, je reçois Édouard d’Archambault, ingénieur en machine learning, il a passé 10 ans en banque et en fonds notamment. Créé et dirigé le Lab de la BNP entre 2015 et 2018 Il crée ensuite en 2018 qui Technology avec François Xavier Leduc, qui technologie est un logiciel d’annotation de données. C’est une start-up qui a levé un site de 7000000 d’euros en 2020 puis une séria de 25000000 d’euros en 2021 Aujourd’hui, ils ont des centaines de clients de fortune 500 et start-ups partout dans le monde et une soixantaine d’employés entre l’Europe et les États-Unis. Bonjour Edouard.
– Edouard — 00:30 :
Bonjour Marc, Bonjour à tous.
– Marc — 00:32 :
Alors, est-ce que tu peux nous parler de qui technologie, qu’est ce que vous faites d’écrire un peu ce que vous faites?
– Edouard — 00:36 :
Volontiers, donc, chez qui technologie on développe, on offre à nos clients. Une plateforme qui leur permet de labelliser ou d’annoter la donnée, ce qu’il faut bien comprendre, c’est qu’il y a pas d’i a sans data, sans donner. L’intelligence artificielle, c’est 3 choses, c’est du code qu’on trouve souvent en open-source, sur Internet. C’est de la puissance de calcul qui n’est plus vraiment un bottleneck au trouve, énormément de puissance de calcul dans les solutions des différents cloud providers. Et puis c’est de la donnée d’apprentissage et cette donnée d’apprentissage, elle doit être construite pour chaque cas d’utilisation des modèles. C’est quelque chose qui est long est fastidieux pour vous en donner une représentation. Il y a quelques années, sur Facebook, on pouvait taguer, nos amis ont placé un rectangle autour de leur visage et ce faisant, vous étiez en train de labelliser, donc créer une base de données pour apprendre la mode Facebook et donc nous offre une plateforme qui permet de faire ça sur grande variété de données.
– Marc — 01:27 :
D’accord, donc, c’est une plateforme, une application web que les labellisant leurs vont manipuler depuis un ordinateur ordinaire.
– Edouard — 01:34 :
Exactement. C’est une application web qui est disponible en SAS, mais aussi un permis, donc les clients qui ont besoin de. Pas de voir sortir la donnée de leur propre structure peuvent utiliser et qui équipe aujourd’hui à peu près la moitié des entreprises du CAC 40. Beaucoup de start-up dans différents domaines, que ce soit de la santé pour, par exemple détecter les cellules cancéreuses, détecter des fractures dans le luxe pour reconnaître des sacs à main sur des images dans la défense, dans la surveillance pour d’analyse d’images satellitaires. Dans l’assurance dans la Banque pour procéder de documents.
– Marc — 02:12 :
Alors à noter des données, qu’est-ce que ça veut dire concrètement, si on peut prendre des exemples assez variés de ce que ça veut dire? À noter des données.
– Edouard — 02:19 :
Donc à noter des données, ça veut dire marquer sur du texte, de l’image ou de la vidéo, des informations. Un exemple très concret. Vous voulez automatiser les réponses Email à votre service client? Vous allez vouloir par exemple automatiquement classer les mails de vos clients et donc Pour ce faire, vous allez charger d’Enki. Des mails. Et une équipe d’animateurs, donc une équipe d’humains, va lire les mails un à un et va leur assigner un tag plainte pour tel sujet demande de réinitialisation du mot de passe, et cetera. Et en bout de chaîne en fin de projet, au bout de quelques jours, parfois quelques semaines, vous allez pouvoir extraire la donnée, qui est annotée donc d’un côté les mails de l’autre côté, les catégories qui ont attribué aux mails et utiliser cette information là pour entrer un modèle et donc la notation, c’est la création à la main de l’output donc de la réponse attendue par le modèle. Un petit peu comme quand vous étiez petit sur les genoux de vos parents, vous regardiez un livre d’images, et puis vos parents vous disaient ça, c’est une voiture, ça, c’est un avion, ça, c’est une moto. Et donc ce qu’on fait, qu’on fait la natation, on fait exactement la même chose avec de lire.
– Marc — 03:31 :
Ok et alors c’est quoi les on va dire? Les points de douleur pour parler français de dans le monde de la dotation?
– Edouard — 03:37 :
La dotation, c’est le sujet pas du tout sexy d’une machine learning, mais qui représente 70 % du coût d’un projet. Alors pourquoi c’est pas sexy? Parce que c’est Manuel donc la notation par définition, c’est des gens qui doivent regarder des documents, des images, des vidéos, et faire un travail à la main et c’est répétitif donc c’est long. C’est fastidieux, ça coûte cher et c’est error prône donc ça veut dire à force de répétition a tendance à faire des erreurs. Ouais et donc bah c’est une vraie peine. Ça représente 70 % du temps et souvent du coût d’un projet de machine learning et donc on a de pouvoir s’équiper d’outils qui aident à le faire de manière plus efficace et de manière plus sécurisée pour éviter de faire des erreurs. Et alors comment est-ce qu’on résout ces problèmes là la, la productivité, il y a énormément de moyens de l’adresser, que ce soit au niveau de l’interface ou en proposant des modèles qui aident les animateurs à faire leur travail. Et la qualité donc et le 2ème grand enjeu, pourquoi est-ce que c’est important? Parce que le machine learning, c’est garbage in, garbage out, c’est-à-dire que vous entraîner un modèle sur de la mauvaise donnée, vous allez avoir de mauvais résultats et pour vous donner un exemple, 10 % d’erreur d’annotation, ça va avoir un impact de l’ordre de 5 % sur la performance de votre modèle et ça va nécessiter de doubler la quantité de données à annoter.
– Marc — 04:54 :
Pour compenser, pour avoir un modèle de même qualité avec 10 % d’erreur, il va falloir avoir 2 fois plus de données. Que si on avait pas.
– Edouard — 05:02 :
D’erreur, exactement exactement. Et donc la qualité est extrêmement importante quand on exécute un projet d’annotation et donc y a un vrai tradeoff, un vrai compromis à trouver et c’est notre métier. Entre la vitesse d’exécution du projet et la qualité de la notation. Et pour ça, il y a énormément de stratégies qui existent. Je peux vous donner un exemple et on pourra reparler en détail un peu plus tard. Un exemple pour contrôler la qualité de notation, c’est sur un certain nombre d’images qu’on note les fers. À noter par 2 personnes différentes et de comparer. Je calcule un consensus doit regarder si les gens sont d’accord et c’est vrai pour tous les sujets, ça peut être vrai pour annoter des feux rouges en masse comme ça peut être vrai pour annoter des radios médicales.
– Marc — 05:43 :
Donc j’ai dit 1000 images à faire. À noter, j’ai 2 personnes qui vont aller les annoter. La l’idée c’est de dire y en a un petit ensemble qui vont être annoncés par les 2.
– Edouard — 05:51 :
Exactement voilà. Et qui permet calculer une métrique, le consensus qui vous donnera un proxy, une idée de si vos indicateurs sont d’accord ou pas, et vous pouvez le faire donc avec 2-3-4-5 indicateurs et ça vous permettra d’avoir une idée de la fiabilité des indicateurs. Si l’un d’eux travaille moins bien et qui a un peu plus de formation, et cetera.
– Marc — 06:11 :
Ok j’imagine, on commence par là peut être dans le protocole.
– Edouard — 06:14 :
Exactement exactement, donc les projets, un projet d’animation, c’est pas un projet comme un autre. C’est un projet qui doit être exécuté de manière extrêmement agile et la première personne qui doit noter, c’est le l’ingénieur machine learning. Et puis pourquoi? Parce que bah il a besoin de pouvoir comprendre la donnée, qui cherche à modéliser, de faire lui-même la tâche d’annotation, de voir si la tâche est faisable ou pas, de se créer une intuition si elle sera faisable ou pas par un modèle. Il a besoin de pouvoir aussi valider que le plan d’annotation l’ontologie d’annotation, par exemple les catégories de mails qui cherchent à assigner, couvrent tous les cas ou pas. Et puis donc, une fois qu’il a fait ça, on va commencer par faire annoter quelques personnes plutôt expertes, donc plutôt des personnes seniors qui vont annoter cinquante cents documents.
– Marc — 06:56 :
Expertes, pas en machine learning, ce coup ci, mais dans le domaine de la tâche qu’on veut résoudre avec du machine learning.
– Edouard — 07:01 :
Exactement, dans notre jargon, on appelle ça des subject maths expertes, donc des experts métiers qui peuvent être les médecins sur un husky. Médical des avocats sur un use case polygonal des banquiers, des experts en compliance, des gens du support sur leurs différentes, sur différents métiers et donc on va les faire annoter pour construire une première, un premier ensemble de vérités souvent avec des métriques de qualité, donc par exemple de consensus de l’ordre de 100 % être certain de la qualité. Et puis petit à petit, donc on va leur faire ça sur quelques badges cinquante cent documents, puis encore 100 documents, voilà. Et puis ensuite, on va commencer à pour accélérer le projet à embarquer 2 animateurs qui peuvent être des gens un peu moins experts, mais qui vont être formés à l’aide d’instructions qu’on va leur fournir. Et donc on va tester la bonne maîtrise de la tâche sur la donnée qui a déjà été annotée par les experts. Et une fois, ils sont suffisamment bons, on va pouvoir aller faire noter et au fur à mesure du déroulement du projet, quand il maîtrise parfaitement la tâche, on va pouvoir relâcher les contraintes de calcul de consensus et de vérification de la profanation.
– Marc — 08:08 :
Les phases d’annotation, elle est ce qu’elles sont avant les phases de recherche algorithmiques, entraînement et cetera. Ou est-ce qu’y a un overlap, comment ça se passe?
– Edouard — 08:18 :
Donc y a un overlap historiquement, y en avait pas. Historiquement, les équipes avaient tendance à d’abord à noter, puis ensuite travailler sur le modèle de manière séquentielle. La bonne pratique aujourd’hui, c’est de faire ça de manière concurrente. Inspirée de l’Agile donc, la révolution de l’Agile dans les années 2000 sous l’influence de Martin Fowler? Ça a été de rendre les opérations de développement, donc le travail des développeurs, le travail des gens qui testent le logiciel, le testing par les utilisateurs aussi concurrentes de manière à créer plus d’interactions entre ces gens-là Et à développer sur des boucles très serrées. Aujourd’hui, on applique ces recettes là également m’acharner. C’est encouragé par la tendance qu’on appelle le data centric qui et qui consiste à annoter par petites touches. Donc à noter une première premier base de données entraîne un premier modèle, vérifier les performances du modèle, voir où le modèle est bon ou le modèle est pas bon. Identifier là où il est, pas bon les félure, mode du modèle et construire à partir de là un nouveau badge de données, Annoter pour mieux couvrir les scénarios sur lesquels le modèle se trompe. Donc, par exemple, je cherche à annoter des scènes pour un véhicule autonome. Je vais me rendre compte que mon modèle est pas bon pour détecter des piétons la nuit à 50 MÈTRES et pour gérer les entrées sorties des tunnels. Les relations d’humilité, je vais construire mon prochain bac de natation en allant spécifiquement chercher. Ces scènes là dans la donnée que j’ai à disposition.
– Marc — 09:48 :
Ok quand tu dis concurrente, qu’est-ce que tu entends exactement?
– Edouard — 09:50 :
Par là quand je dis concurrente, donc un travail en concurrence entre la création de la donnée et l’entraînement du monde, je trouve un anglicisme. C’est de manière parallèle, donc on va de manière cyclique, avec des petites itérations. Faire l’un puis l’autre et l’un est dans l’autre donc on a notre un petit peu de données, ça permet d’entraîner une nouvelle version du modèle et de comprendre ces résultats. Et puis on peut utiliser ce modèle là pour également aider les animateurs en pré annotant une partie de la donnée pour créer une première version des annotations.
– Marc — 10:17 :
D’accord donc éventuellement, peut-être même que l’annotateur n’aura qu’à valider la 2ème passe une fois que le modèle.
– Edouard — 10:23 :
Après exactement exactement la première chose à bien comprendre, c’est que le travail des notations, c’est important qu’il soit essentiellement Manuel, si pouvait honnêtement automatisé, on a pas besoin d’annoter si l’équipement automatisable, ça veut dire que le modèle sait déjà faire la tâche. Ceci étant dit, comment peut-on utiliser au mieux les modèles pour faciliter le travail des animateurs, à la fois pour qu’ils soient plus rapides et aussi pour qu’il se trompe pas, et donc pour ça y a plusieurs stratégies. Généralement, ce qu’on essaie de faire en début de projet de rotation. C’est de réutiliser toute la matière qu’on peut avoir à priori pour pré annoter par exemple, vous voulez identifier des noms de produits, mentionner dans des documents, des mails, des contrats? Vous allez pouvoir utiliser des référentiels, des dictionnaires, des listes de produits qui existent en interne, que vous pouvez aller chercher dans des bases de données. Et vous allez avec ça, construire une fonction, une règle, un petit bout de code qui va aller chercher toutes les occurrences de ce nom de produits dans les documents textes et les pré. Noter, vous pouvez aussi faire ça avec des expressions régulières et aujourd’hui, vous pouvez aussi faire ça avec des LM donc des large modal où vous allez écrire un prompt. Qui va vous permettre de construire from scratch, une première version d’annotation. Ensuite, vous allez souvent avoir une phase manuelle qui va consister. Bah, dans les cas, vous avez la chance de pouvoir une première présentation. Bah validé quoi ou corriger et ensuite, quand vous avez suffisamment de données et c’est souvent en fin de projet, vous allez pouvoir commencer à entraîner un modèle pour pré annoter les 20 derniers pourcents du projet. Si vous le faites trop tôt, le risque c’est de créer plus de bruits de choses et de créer plus de confusion qu’autre chose. Pour vous amateurs plus de bien qu’autre chose, dans leur façon d’annoter.
– Marc — 12:02 :
Qui sont les clients? Enfin, quels sont les types de clients? On va dire de kiwi Technology?
– Edouard — 12:07 :
On a 2 grandes populations de clients, on a d’un côté ce qu’on appelle les jargon, les labeling service provider. Donc ce sont ces entreprises qui fournissent de la main-d’œuvre pour annoter, donc souvent, ce sont des entreprises qui sont situées dans des pays où les coûts sont plus bas, par exemple, aux Philippines, en Inde, à Madagascar pour le Français et dont le métier c’est de fournir des experts dans les différents domaines, la santé. Donc on va pouvoir trouver des internes, le ligo, le la finance, et cetera. Et qui vont vendre du service de notation. Donc ce sont des entreprises auxquelles vous donne la data SET? Des instructions qui décrivent la façon d’annoter et ils vous renvoient dataset à noter. Et donc nous on va être la plateforme sur laquelle ces entreprises là vont travailler, donc ça c’est la première grande population. Et la 2ème, CE sont les équipes de machine learning elles-mêmes qui vont vouloir maîtriser le déroulement du projet de notation. Donc l’intérêt étant temporel, que l’annotation se fasse sur une plateforme à laquelle ils ont accès et à laquelle ils puissent notamment brancher leur propre modèle pour aider les amateurs, donc réduire le coût du projet d’habitation sur laquelle ils puissent également vérifier eux-mêmes. Très tôt dans le projet. La qualité des annotations, donc pour pas avoir cet effet boîte noire dans lequel vous confirmez un jeu de données, à noter, vous le récupérez enfin d’annotation, mais peut être que l’instruction a été mal comprise et qu’elle était à faire, et donc ce que recherche ces personnes là c’est un chacune avec leurs enjeux, les équipes qui fournissent de la workforce. Leur métier c’est vraiment d’Annoter donc ce qui va être important pour ces équipes là, c’est qu’on couvre leurs besoins, donc des équipes qui vont aller à la fois du texte, de la donne, des conversationnelles, du PDF De l’image de l’image satellitaire, de l’image de drone, de l’image médicale, de la vidéo donc grande diversité d’use case et ce qui va être important pour ces équipes là, c’est qu’on couvre proprement leurs différents du case et qu’on soit capable. 2ème chose, pour une qualité d’annotation donnée, donc moins de n % d’erreur. Qu’on soit capable de les aider à être aussi rapides, aussi efficaces que possible. Et donc comment ça marche? Ça marche, notamment en leur permettant de facilement collaborer dans l’application en équipe, d’avoir. Voilà différents systèmes de contrôle de qualité. Donc ça, c’est des équipes dont le métier, c’est vraiment la notation et les équipes plus machine learning et leur enjeu, c’est évidemment ce que je viens de dire, mais c’est aussi de pouvoir correctement intégrer la plateforme d’annotation dans une stack de l, donc faire en sorte de pouvoir insérer la plateforme d’annotation, l’outil d’annotation. Et la connecter à la fois alors système de stockage de données? Leur bucket S 3GCP Azure et cetera. En amont et en aval, de pouvoir connecter donc Kelly. À leur modèle, leur frère en boucle fermé quelque part justement avec le le machine learning. D’un côté, la notion de l’autre quoi exactement? Ouais, exactement voilà.
– Marc — 15:14 :
Tu parles de philosophie data centric, est-ce que tu peux nous expliquer un peu ce que c’est oui,
– Edouard — 15:19 :
Volontiers. Le data Centric A I donc c’est un terme qui a été inventé par Andrew Lang qui est une des personnes les plus connues du monde du machine learning, qui a monté le cours de machine learning à Stanford. Il a introduit le Deep learning chez Google. Et donc il y a maintenant 2 ans, il en est venu à la conclusion qu’aujourd’hui, le meilleur moyen de construire des modèles performants sur une case donné, c’était plus de travailler sur le code, mais c’était de travailler sur la donnée pour donner un exemple sur la direction de défaut. Il a fait travailler pendant plusieurs semaines des peut être zistes sur le code. Et les améliorations de performances étaient marginales, de l’ordre du % alors qu’en travaillant sur la donnée, il arrivait à à améliorer les performances du modèle de l’ordre de 10 % et pour un effort, une technicité moindre. Au contraire, sur la donnée. La bonne nouvelle, c’est qu’on a pas besoin d’avoir un pied en Computer science. Ouais en mathématiques appliquées et donc ça c’est le mouvement du data Centric et après on se pose la question d’OK mais ça veut dire quoi, avoir un bon dataset? Et donc le 2ème élément c’est qu’aujourd’hui grâce au progrès du Deep learning craquer un sujet de modélisation, un sujet de machine learning, ça revient à avoir suffisamment de données en quantité, en qualité et en diversité, et donc tout l’enjeu data centric et I c’est de savoir comment contrôler la qualité de la donnée. Enfin ce que veut dire avoir de qualité, ce que veut dire avoir de la donnée diverse et ce que veut dire avoir suffisamment de données et donc nous notre métier là-dedans c’est de fournir. À travers la notation, cette plateforme qui permet de construire cette parfait.
– Marc — 16:58 :
Et alors, comment on fait pour avoir la qualité et la diversité?
– Edouard — 17:01 :
Alors c’est une bonne question, donc la qualité, comment est-ce qu’on a défini la qualité? C’est d’abord et avant tout avoir des annotations qui soient consistantes sur un projet d’animation. On l’a vu, y a pas une personne qui travaille, mais c’est une équipe des équipes va aller jusqu’à plusieurs dizaines, plusieurs, parfois centaines de personnes. Et chacun va avoir une manière un peu à lui, d’annoter de comprendre les les instructions, donc par exemple, vous devez mettre des rectangles pour entourer des piétons ou ou des fractures. Comment est-ce que vous la placez et ce que vous laissez une marge autour du rectangle de la Bonding Box. Est ce que vous la sentez toujours même sur des cas beaucoup plus triviaux si on vous demande d’entourer des piétons, est-ce que vous faites un rectangle autour de chaque piéton ou un rectangle autour de tous les piétons? Et donc ça, c’est des choses qui, si elles sont pas parfaitement, si les gens sont pas parfaitement alignés entre eux, ça va créer de la confusion pour le modèle et ça va détériorer la performance et donc bah comment on fait la première chose, c’est de fournir des instructions qui soient claires aux amateurs. Et des instructions claires, ça veut dire quoi ça veut dire à la fois décret la tâche précisément et puis montrer des Edge cases, donc des cas au bord des cas compliqués sur lesquels bah c’est pas si simple. Par exemple si on a un piéton qui sort de l’image enfin, qui est vraiment bord de l’image et ce qu’on a et qu’on hein si on a un bout de piéton qui sort de derrière un arbre et qu’on la note qu’on aime pas, et cetera, donc c’est la première stratégie. Il y en a plein d’autres, on pourra pas l’après. Et ça, c’est pour la qualité. Avant la consistance de la donnée et la diversité qui est le 2ème grand sujet? Donc c’est quoi ce important? Un modèle a une capacité à généraliser mais qui est limitée et donc il faut être certain qu’en construise sa donnée d’entraînement, qu’elle couvre suffisamment les différents cas, les différents scénarii que le modèle va rencontrer en production donc par exemple, est-ce que votre modèle doit couvrir la détection de personnes la nuit et ce que le modèle doit couvrir la conduite à droite, la conduite à gauche, et cetera. Et donc le jeu, c’est d’identifier ces scénarios là. Et puis, pour chacun d’entre eux, de s’assurer qu’on a suffisamment de données d’apprentissage et donc il y a des stratégies, notamment par exemple autour de l’active learning pour se concentrer uniquement sur la donnée qui a de la valeur ajoutée à être annotée. Donc par exemple à l’appui de qui vous pouvez brancher un modèle d’action en ligne qui vous permet de prioriser l’année qui a de la valeur. Et c’est un vrai intérêt aussi financier et économique, parce qu’on estime que dans les datasets d’entraînement, il y a à peu près 40 % de la donnée qui sert à rien, donc y a un vrai enjeu à être capable d’identifier la bonne tonalité. Et par ailleurs, sur la consistance, on estime que dans les datasets académiques les plus connus, donc communistes, image nette et cetera, il y a à peu près 3 % d’erreurs. C’est énorme, donc même si son État 7, qui existe depuis 20 30 ans pour certains qui ont été cités des milliers de fois utilisés par des dizaines de milliers de personnes, y a toujours des erreurs. Donc il y a un vrai enjeu à la fois sur la qualité. Sa consistance et sur la diversité de la.
– Marc — 20:12 :
Du coup, en fait, si je comprends bien, vous essayez sur certaines images de prédire en gros, est-ce que le modèle va être confus ou pas? Quoi c’est un peu comme regarder le score de confiance de la prédiction du modèle. Et puis c’est dit, on va commencer par annoter celle sur laquelle la confiance est basse.
– Edouard — 20:27 :
Nous, notre tout premier métier, c’est de faire en sorte de créer des vérités dont on soit absolument sûr sur les documents qui sont notés, sur les images, sur les vidéos, et c’est quelque chose qui est vraiment pas évident pour plein de sujets. La vérité n’est pas forcément simple. Des experts médicaux sont pas forcément d’accord. Des personnes comme toi et moi sont pas forcément d’accord sur les parties d’une vidéo Youtube ou d’un podcast. Qui sont les plus intéressantes ou les moins intéressantes et des choses qui doivent être annoncées pour, par exemple, améliorer les algorithmes de recommandation ou génératif. Et donc nous, notre métier, c’est de faire en sorte. De pouvoir dans la plateforme créer ce consensus enfin, ces vérités de la manière la plus précise possible, donc sans ambiguïté, et de la manière la plus rapide possible, et donc pour que ce soit rapide, plein d’outils qu’on développe, qui permettent d’accélérer avec du machine learning et notamment un des enjeux, c’est aussi de créer moins de vérités. D’où ces stratégies d’e learning.
– Marc — 21:24 :
Alors, comment vous vous différenciez de vos concurrents?
– Edouard — 21:26 :
Alors, comment se différencie de nos concurrents? Alors il y a 5 ans, quand on a créé qu’il lit. Il y avait quasiment aucune solution. Maintenant, on a quelques quelques concurrents un petit peu plus et qui lie, c’est la, donc c’est la. Ce du tout, c’est la meilleure plateforme de natation, c’est la mieux noté. La puce noté. C’est d’ailleurs. Et alors, qu’est-ce qui la différencie? La première chose, c’est qu’elle est, c’est le Google Dogs de la natation, donc elle est extrêmement facile à utiliser, extrêmement collaborative. Et donc ça c’est super important parce qu’une façon de réduire les erreurs et en améliorant l’accessibilité de la plateforme. La 2ème chose qui la différencie, c’est qu’elle couvre énormément de types de données, donc tout l’univers du texte, tout l’univers de l’image. L’univers de la vidéo? La 3ème chose, c’est son API donc elle a une qui est extrêmement rapide, qui est extrêmement souple. Tout ce que vous pouvez faire, l’interface vous pouvez faire dans l’API, vous pouvez brancher énormément de modèles tous les modèles que vous voulez. De présentation d’activer les donc ça c’est génial en tant que mage learning ingénieur. La 3ème chose c’est que c’est une plateforme qui est faite pour faire de la qualité. Donc notre tagline c’est Kelly, sa plateforme pour faire de la high Quality data parce que c’est ce qui permet d’avoir des modèles qui soient fiables et la fiabilité quand on fait du machine learning qui est important et donc ça on le fait avec bah différentes choses, on a 3 lignes de défense qui permettent de construire de qualité. La première, c’est un processus de review. Donc l’idée c’est quoi c’est comme quand vous collez y a les développeurs et y a des reviewers, donc y a des gens qui construisent des tags et ensuite il y a des gens qui relisent les tags. Les annotations ont été créées par d’autres qui les valident ou qui est marqué éventuellement les problèmes et renvoient la nation. Sa première ligne de défense, la 2ème, c’est des métriques tout à l’heure, on parlait du consensus, il y en a d’autres, comme par exemple au iPod et qui consiste à comparer une animation en faite par l’animateur à une vérité déjà créée auparavant. Et on a. On peut voir ces métriques là sur différents dashboard qui permettent de comprendre où sont les erreurs, donc par exemple le consensus classe par classe et donc Regardez les objets qui sont plus difficiles à noter par exemple plus confus. Et la 3ème ligne de défense, c’est ce qu’on appelle le programmatique Q donc il consiste à pouvoir créer des règles métier sous forme de plugin directement dans l’outil et qui vont valider les propriétés d’annotation créées par les l’Aviateur. Alors je vous donne un exemple, vous avez des piétons, donc après ils sont plutôt debout avec des rectangles. Normalement les rectangles doivent être plus haut que large sauf qu’à particulier et donc vous pouvez implémenter ça dans une règle et quand elle est pas validée, demander une double vérification. Un autre exemple, c’est dans le médical. On a 32 ans. Si l’un d’eux on met 33 il y a une alerte à une double invitation à faire ouais.
– Marc — 24:07 :
Alors, quels sont les principaux verrous et obstacles que vous avez rencontrés que vous avez surmonter pour en arriver là?
– Edouard — 24:13 :
Alors, la chaîne de valeur de l’annotation. Enfin, la pyramide de Maslow, la base de la pyramide de Maslow. Alors, c’est une application qui est extrêmement stable, extrêmement rapide, donc ça c’est le premier enjeu quand on fait la notation quoi. Et les gens qui notent, c’est leur métier, qu’ils arrivent le matin à 07h00 ils partent le soir à 17h00 et entre les 2 ils en ils donc si la plateforme est down ne serait-ce que quelques minutes, ils le ressentent immédiatement on contrairement par exemple à un site d’e-commerce où la personne peut revenir un peu plus tard. La 2ème chose, c’est que les animateurs travaillent de manière continue et donc mise. Lecteur sur la plateforme, c’est l’équivalent de 1000000 d’utiliser. Moteur d’une plateforme e-commerce? Donc c’est extrêmement demanding en termes de de performance, de stabilité. Le 2ème sujet, c’est les interfaces, les X. Donc une plateforme d’annotation, c’est conçu pour faciliter. L’interaction entre l’homme et la donnée, ça va pouvoir permettre de visualiser, de la donner, de naviguer dedans, donc d’afficher du PDF mais d’afficher pas n’importe quel type de PDF, des PDF d’une page, des PDF de 300 pages dans le browser des images, mais des images microscopiques, des images énormes satellitaires. Vous êtes capable de gérer du tuilage comme sur Google Maps, d’afficher de la vidéo la vidéo de quelques frames, mais de la vidéo de milliers de milliers de de frames, tout ça dans le Brother. Et puis de pouvoir interagir avec de pouvoir dessiner une Morning box, un rectangle ou des milliers, des milliers sur des milliers, des milliers de Frames, donc c’est extrêmement extrêmement difficile. Et ensuite le la notation, c’est un sujet qui existait il y a quelques années et donc bah sur lequel il y a énormément de d’opportunités d’innover. Par exemple, le framework que j’écrivais avec 3 lignes de défense, donc la review le fait d’avoir des métriques. Le programmatique a, c’est des choses qui n’existaient pas quand la construit, en collectant des bonnes pratiques, en en construisant nous-mêmes au cours des projets rotations et donc la 3ème chose qui était difficile c’est enfin c’est le le fait d’arriver à formaliser. La meilleure approche pour aider nos clients à créer de la donnée de qualité le plus rapidement possible.
– Marc — 26:21 :
Alors, sur 5 ans, de qui est technologies, qu’est ce que tu regrettes de pas avoir fait autrement, si ça, refaire?
– Edouard — 26:26 :
Ben je regrette rien parce que à chaque étape, on prend toujours la décision avec les informations qu’on a bon, on peut toujours en regardant en arrière se dire on a fait chose différemment mais. Ce que j’aurais peut-être fait différemment, c’est faire plus de marketing dès le début, donc de la très très pragmatique, on a construit une boîte au début, en tout cas assez française, donc avec un produit excellent et peu de marketing, alors ça a beaucoup changé ces derniers mois et c’est devenu top. Mais à posteriori, j’aurais commencé par autant de produits que de marketing parce que je pense qu’en France, on a souvent tendance à avoir un prisme d’ingénieur. On doit avoir un bon produit et on passe au moins de temps à mettre en valeur.
– Marc — 27:05 :
Et au contraire, de quoi est ce que t’es super satisfait? Quelles ont été les meilleurs moments dans ces 5?
– Edouard — 27:10 :
Années il y a plein, plein de beaux moments, chaque succès client, c’est un bon moment chaque fois qu’on peut aider sur un projet très concret de nos clients. C’est des supers moments. Une de mes fierté et joie, c’est l’équipe qu’on a pu construire de gens passionnés, excellents techniquement dans leur domaine. Donc on a démarré l’entreprise en 2018 Entre les 2, on a eu le COVID, donc on a commencé à travailler à distance. À une époque, ça nous a obligé à changer un petit peu notre façon de travailler avec plus de Remote avec des of sight, des moments où on se retrouve 4 fois dans l’année, soit toute l’entreprise, soit par équipe, et ça nous permet de vivre des supers moments ensemble. On a par exemple descendu une partie de la Loire en canoë kayak. On a dormi dans des yourtes et cetera, et donc c’est aussi des très bons moments passés ensemble, et c’est une vraie joie.
– Marc — 28:01 :
Ce que vous devez réexpliquer à chaque client aujourd’hui. Qui ne sera plus comme ça dans 10 ans pour toi?
– Edouard — 28:08 :
Alors, ce qu’on devait expliquer énormément au début, c’était la valeur de la donnée, donc à la fois que la performance d’un modèle vient de la qualité de la donnée. Un modèle, c’est garbage an, garbage out. Sans data il n’y a pas d’i a. Ça, c’est quelque chose qu’on devait énormément expliquer au début, qu’on doit expliquer un petit peu moins parce que les équipes commencent à comprendre que la natation, c’est une étape indispensable sur ton projet de machine learning. Alors aujourd’hui, les enjeux, c’est d’expliquer l’importance de la qualité de la donnée, qu’il suffit pas d’annoter. Il suffit de noter bien. Et si on adapte pas proprement, ça impose à noter plus de données, c’est compliqué et je pense qu’aujourd’hui il y a un enjeu à continuer d’expliquer la valeur de la donnée dans le contexte des modèles de fondation, donc des JPT Taj piti segment tennis thing model Sam que métal assorti un peu plus d’une semaine donc, ce sont des modèles qui permettent d’avoir des résultats rapides sur une grande variété d’ukase, mais qui permettent pas d’avoir de garantie, de consistance et d’incurie des résultats. Et donc c’est extrêmement important, c’est plus important que jamais de fin tuner ces modèles là donc de créer la donnée d’apprentissage à la fois qui servent à évaluer leurs performances et qui servent aussi à les à les spécialiser.
– Marc — 29:32 :
Quels conseils tu as pour quelqu’un qui démarre? Un projet doit labelliser de la donnée indépendamment de l’outil utilisé.
– Edouard — 29:38 :
Donc le succès d’un projet d’annotation dépend fortement de la méthode utilisée, donc un projet d’animation, c’est comme tout projet. Il y a une une bonne façon de le faire. En ayant des métriques de succès une méthode, et cetera, et en particulier pour un projet de rotation, il y a des phases à respecter, des prérequis au début d’avoir de la donnée qu’un ingénieur en machine learning passe du temps à lui même à noter, pour raffiner son anthologie, pour raffiner ses instructions qui vont servir à former les indicateurs. Avoir une idée claire de la qualité attendue, qu’est ce qu’une bonne benning box, qu’est-ce qu’une bonobo qui est pas bien placée en termes de marge en termes de taille, et cetera? Quel est le process de qualité que vous l’utilisez? Il faut faire de la review, donc il faut à la fois annoter puis avoir des gens qui vérifient les invitations. Sur quel pourcentage est-ce que vous le faites? Sur 10 % sur 20 % ce qu’on conseille au début, c’est de commencer par un pourcentage élevé, parfois 100 % Et puis de réduire petit à petit. Quelles sont les mesures que vous utilisez, ce que vous mettez en place du consensus sur quel pourcentage du dataset, avec combien de personnes? Est-ce qu’il y a des règles de vérification de la qualité des animations qui peuvent être mises en place? En parler de compter les dents, on peut faire plein d’autres choses et ce qu’on utilise du machine learning pour aider à la natation. Quand est-ce qu’on le fait, c’est mieux de pas le faire trop dans le projet pour pas biaiser. Comment est-ce qu’on découpe le dataset en batch? Donc on conseille pas du tout de noter un monolithe de 10000 images. On conseille plutôt de commencer par quelques dizaines des tranches de disque, puis de 100, puis 200 puis 200 puis 2000 Bref, d’avoir des badges qui à peu près toujours la même durée dans le temps, mais qui de plus en plus gros au fur à mesure que cet acteur sont accoutumés à la tâche. Donc y a énormément comme ça, de tips qui permettent de faire que le projet de natation se déroule bien et un conseil là-dessus, on a fait un webinar dédié au sujet, vous pouvez retrouver sur notre site web. En libre accès.
– Marc — 31:28 :
Ce que t’en anecdote à nous partager.
– Edouard — 31:30 :
Je vous raconte un petit peu, donc la notation j’ai commencé ça quand j’étais chez BNP Paribas, où je m’occupais de leur enfin, j’avais monté l’équipe vers la pédia et puis je l’ai dirigé pendant quelques années et donc le mandat de l’équipe, c’était de construire des modèles pour traiter la donnée non structurée, donc le texte la voix un peu d’image. On avait énormément de données, il y en a partout dans le système. Elle était pas noté, donc on avait commencé à à construire une ébauche de plateforme d’annotation, donc c’est quelque chose de vraiment rustique. Ça en gestion de la qualité sans appuyer et cetera. Mais ça nous a permis de construire nos premiers dataset, donc de construire des modèles extrêmement pertinents, de remplacer un outil de traduction qu’on avait, qu’on payait par un outil de traduction interne, de construire un papier de processing documentaire et très rapidement l’équipe, elle est passée de 2 personnes à 50 personnes, de 0 use case à plus de 60 use case en production et plusieurs centaines d’use case identifiées traités. Et donc, si je raconte cette histoire, c’est pour illustrer l’impact qu’à la notation dans les équipes de machine learning, historiquement, on confié aux équipes de machine learning des projets sur lesquels la donnée a noté la donnée exister dans les systèmes sur lesquels on avait à la fois l’entrée et la sortie attendue. L’annotation, ça permet d’inverser ce paradigme et donc de construire, de prendre des projets qui sont non pas des projets sur lesquels on a toute la donnée pour créer un modèle, mais qui sont des projets qui vraiment ont de l’impact pour le business, qui sont stratégiques et sur lesquels on se donne les moyens. De construire le dataset nécessaire pour entrer les modèles.
– Marc — 33:00 :
Le futur de la data chez vous, c’est quoi
Edourad
la data y en a, il y en a partout. Il y a le type d’entreprise, il y a des entreprises qui sont opinion driven, il y a des entreprises qui sont data driven, pour nous, c’est extrêmement important d’être drivé par la donnée, de prendre notre décision de manière quantitative à tous les niveaux, au niveau stratégique sur le marché, au niveau du produit, en analysant, en comprenant les comportements de nos utilisateurs sur la plateforme. Que ce soit au niveau du marketing pour comprendre les populations de clients que nous pouvons aider, que ce soit au niveau RH pour faire en sorte de faire progresser au mieux nos collaborateurs.
– Marc — 33:37 :
Super merci à toi.
– Edouard — 33:38 :
Merci à vous, merci à toi,
– Edouard — 33:39 :
Vous venez d’entendre Edouard d’Archambault City, o de kiwi Technology dans data driven One One si vous avez aimé que vous les nous soutenir, n’hésitez pas à vous abonner à la chaîne, à likez et à partager dans le prochain épisode, je recevrai Alexandre Angel, Heart of Data chez Winamax pour nous parler de data et de récolte. À très vite.