L’IA générative pour créer des médicaments

Hamza Tajmouati, Head of AI & Data chez Iktos est l’invité de l’épisode 23 de Data Driven 101.

Il nous parle de l’utilisation de l’IA générative dans la chimie, et en particulier l’industrie pharmaceutique.

Ils nous expliquent avec beaucoup de clarté comment un réseau de neurones peut servir à créer de nouvelles molécules.

Hamza Tajmouati : L'IA générative pour créer des médicaments

Marc — 00:00 :

 Aujourd’hui, je reçois amza Tahiti après une école de commerce. Il commence sa carrière dans le marketing un an et demi. Chez Publicis, il rejoint Atos en tant que Senior Data Scientist. Il y a 6 ans devient ensuite principal puis aide of data ECTOS. C’est une entreprise qui a été créée en 2016 pour la recherche de nouveaux médicaments grâce à l’IA et aux simulations physiques. Aujourd’hui, 60 personnes sont passées par 2 levées de fonds et ont un portefeuille de clients qui incluent les grands noms comme fixer et Merck, Bonjour Hamza, Bonjour alors Hamza, est-ce que tu peux nous parler de hectos nous dire un peu ce que vous faites? 

 

– Hamza — 00:30 :

 Ouais ouais bien sûr. Comme tu l’as très bien dit. Ikuto, c’est une start-up qui travaillait dans le domaine de la Pharma, principalement dans le domaine de la chimie au globale, mais principalement la Pharma. C’est là où on fait notre plus grand chiffre d’affaires. Donc le but c’est d’accélérer la recherche de nouveaux médicaments. Donc on est vraiment sur la toute première phase de recherche de candidats médicaments qui vont par la suite faire un long parcours. Le parcours du combattant, ça peut durer 5 ans, ça peut coûter des dizaines de millions d’euros jusqu’à ce que ça aboutisse à des tests sur des animaux, sur des humains. Et, on l’espère tous, aboutir à un médicament sur le marché. Donc nous, on est principalement sur des méthodes comme tu l’as bien dit qu’on dit in silico, ça veut dire sur ordinateur et donc il y a 2 grandes familles de méthodes qui sont utilisées, l’intelligence artificielle avec pas mal de branches qui sont utiles dans ce qu’on fait, on pourra les préciser après et bien sûr tout ce qui est simulation physique parce qu’au final dans la biologie bah y a des phénomènes physiques qu’il faut simuler pour pouvoir aboutir à ce qu’on veut. 

 

– Marc — 01:35 :

 Alors pourquoi on comprenne bien avant de rentrer dans la data exactement ce que vous vendez? C’est quoi le business model? 

 

– Hamza — 01:40 :

 Donc on a 2 types de business model le premier, c’est le business des licences, donc aujourd’hui on a 2 produits machia espanya pour faire très simple machia, c’est ce qui va aider à proposer des librairies de molécules candidates, donc candidates pour résoudre un certain problème et certaines maladies dans cette phase. En début de projet. Donc ça ça se vend sous forme de licence annuelle sur plusieurs années et on a aussi un autre logiciel qui s’appelle Spira, qui est tout aussi important. Et qui lui bah te dit comment fabriquer la molécule, c’est un peu il te dit OK j’aime bien ton gâteau au chocolat, mais donne-moi la recette pour le faire parce que si tu me donnes un gâteau au chocolat, je peux jamais le faire, c’est pas intéressant. Je le verrai jamais, la molécule ne verra jamais le jour, donc on a ces 2 logiciels là qui sont complémentaires d’ailleurs parce que l’un propose l’autre dit comment faire. Et d’ailleurs c’est un critère important de faire des molécules qu’on dit synthétiquement accessibles, qui peuvent être faites au laboratoire. Donc ça c’est le premier, c’est le business des licences, c’est un business model qui permet d’avoir des revenus récurrents et après y a l’autre façon qui est le service des collaborations. On peut être amené à collaborer avec des laboratoires pharmaceutiques sur des projets bien particuliers de recherche de nouveaux médicaments et là, ça se passe avec des équipes pluridisciplinaires, des data scientists, ce qu’on appelle des chimistes médicinaux, donc les chimistes qui comprennent un peu la biologie des chimistes computationnels et puis bah des chimistes synthétiques qui font laboratoire donc toute ultime dédiée un peu à ce projet qui vient directos du client pour faire avancer un projet et bah proposer de nouvelles idées. 

 

– Marc — 03:13 :

 D’accord donc, ce qui fait qu’on va sur le 2ème type de service, c’est c’est le produit on va dire limité et donc il y a des choses sur lesquelles il faut faire du sur-mesure ou bien c’est 2 choses qui sont différentes. 

 

– Hamza — 03:25 :

 C’est tout simplement parce qu’on a commencé avec ça au début. Y avait pas de produit, donc y avait que du service. C’est un peu du service routier, on avait des premiers outils qu’on met à disposition à à nos clients, donc ça c’est la première raison. La 2ème, C’est un peu une nouvelle façon de faire un nouveau process, de faire ça se passait pas comme ça traditionnellement. Traditionnellement, c’est le chimiste médicinal, avec son expérience sans clair avec l’observation des données, qu’en fait un projet de chimie médicinale. C’est quoi c’est le principal critère, c’est l’activité. Je veux cibler une protéine, je veux faire entrer une molécule dedans pour la calmer. On parle de binding en anglais, Je veux binder dedans, donc ça c’est important mais y a pas que ça y a d’autres critères, faut pas que je sois toxique, faut que je sois soluble, parce que si si je le prends par voie orale, que ça soluble, faut que ce soit spécifique, ne pas cibler d’autres protéines pour ne pas créer. Des phénomènes indésirables? Donc c’est un peu un problème à multi objectifs, c’est un peu le Rubik’s Cube. Et le chimiste, traditionnellement, bah il faisait ça de manière. Voilà avec son expérience en fleur, en observant les données, il va essayer de comprendre le lien entre la structure d’une molécule et les mesures observées, les mesures qui se fend d’activité et tous les autres critères. Et donc, aujourd’hui, nous, ce qu’on propose, c’est une nouvelle façon de faire où c’est pas le chimiste qui va proposer? C’est l’i a générative qui va proposer qui va optimiser ces critères là donc qui dit optimiser critères, il faut des scores qui scorent ces critères donc ces scores là, c’est pour ça qu’on a parlé, ça peut être des algorithmes supervisés, ça peut être des scores qui viennent d’une simulation physique, ça peut être des métriques expertes, ça peut être plein de choses qui vont guider cette ia génératif pour aboutir à des molécules qui vont dans le cahier de charge et donc là c’est un peu une boucle d’optimisation, donc ce qu’on utilise beaucoup, c’est des méthodes de renforcement. Ou c’est, c’est y a générative qu’on peut nommer policy va être guidé par les scores pour aboutir à des molécules sympas. Et donc ça, c’est une nouvelle façon de faire et OK quand tu fais ça, il te faut aussi un support de la part d’un chimiste médicinal qui va créer le lien avec le client qui va lui dire OK Ben cette idée-là et cette idée-là voilà le rationnel, il faut expliquer, faut pas dire, voilà c’est comme ça et et test et on verra. Il faut un accompagnement et donc c’est ce que j’appelle du social Engineering qu’il faut faire aussi du côté des entreprises pharmaceutiques avec lesquelles on travaille, ce qui a un changement et le changement n’est pas toujours facile à accepter, il faut le faire de manière de manière. Voilà smooth. Pour que ça se passe bien et que le projet soit bénéfique et qu’on ait pas une résistance au changement. 

 

– Marc — 05:58 :

 Ou les obstacles sont pas exclusivement techniques à ce niveau-là Exactement, sur les 2 produits que vous avez, tu dis, il y en a un pour trouver la molécule, un pour comprendre comment on la, on peut la faire, donner une recette, j’imagine. C’est 2 choses complètement différentes techniquement, derrière c’est 2 tâches qui n’ont rien à voir absolument absolument. 

 

– Hamza — 06:16 :

 Le l’une, ça va être donc parlons de trouver comment faire la molécule Ben en gros la tâche si on veut simplifier. C’est créer un mapping au plusieurs entre un gâteau au chocolat et des ingrédients de base, donc me donner des étapes. Voilà, il faut de je sais pas, je sais pas, je suis pas un costaud, mais il faut du chocolat, il faut du lait, il faut de la farine. Faut voilà donc tu me donnes déjà les ingrédients de base et après tu me donnes les étapes que je dois suivre, les enchaîner, ça peut être successif en parallèle, après mixer et du coup l’équivalent d’une étape en cuisine. Enfin, en chimie, c’est une réaction. Donc mélanger ce qu’on appelle des tartines matérielles, enfin des des produits de base qui sont achetables sur le marché. Donc je vais acheter et du coup dans mon laboratoire je peux les mixer pour faire la molécule finale et du coup souvent on peut avoir plusieurs stratégies comme pour un gâteau tu peux avoir plein de façons de le faire et son souvent, plusieurs stratégies peuvent être valides et du coup au final, bah le chimiste, il choisit ce qu’il veut pour pouvoir fabriquer sa molécule et donc il y a ce besoin là de savoir comment faire la molécule, mais y a aussi une autre chose qui est sympa à savoir, c’est juste de dire OK et c’est faisable et voilà et je te propose une façon de la faire parce que déjà le fait de savoir qu’elle est faisable mais ça rassure un peu le client, le fait de proposer une molécule et de dire Bah je compte sur toi pour la faire. Faites vos études entre chimiste, entre vous et faites la, c’est c’est moins rassurant. Mais quand tu proposes un peu. Une façon de la faire, de faire, c’est, c’est un peu une forme de collaboration où on aide le client à faire la molécule. L’autre produit, c’est un peu. Donc voilà, aujourd’hui y a beaucoup de hype autour du l’IA Générative. Chatte, j’ai PT Dali 2 et compagnie, mais bah en fait nous on a commencé à faire ça en 2017 à générer des molécules pour remplacer un chimiste médicinal. Lui il va dessiner la molécule, il faut quelque chose qui imagine une structure. Imaginez une structure toute seule, c’est bien, donc écrire une molécule Random c’est bien. Mais écrire une molécule qui obéit à des scores, c’est mieux et en vrai, ce qu’on voit aujourd’hui, tu vois. Avec Chad GPT c’est qu’il y a un peu cette boucle de feedback humain qui a aidé le l’algorithme c’est spécialisé qui a un peu douloureuse à avoir parce qu’il faut que les humains annotent des données. En chimie, c’est moins douloureux parce que ce qu’aurait une molécule, ça va, on sait, on peut trouver des métriques pour serrer la molécule, le chimiste, il va te dire, je veux que ma molécule fasse tant de poids moléculaires qu’elle contienne 3 cycles et pas plus. Je sais construire des modèles supervisés pour prédire la solubilité, donc le fait que j’ai des scores ça m’aide à renforcer mon I génératif vers mon cahier de charge. C’est un peu le lien qu’on peut faire. On peut générer du texte, des images, mais on peut tout à fait générer des molécules. 

 

– Marc — 09:00 :

 Alors tu parlais tout à l’heure de reinforcements Learning ouais donc c’est ce que vous utilisez aujourd’hui pour améliorer vos algos, vous vous utilisez donc cette méthode qui consiste à équilibrer entre l’exploration et l’exploitation de ce qu’on a déjà appris et de permettre à l’algorithme de donc d’apprendre davantage cette méthode qui est derrière toutes les IA qui ont fait beaucoup de bruit à maintenant presque 10 ans sur le jeu de Go, alpago et cetera. Est ce que tu peux peut-être nous expliquer comment est ce que le renforcement de learning? Peut être implémenté pour un sujet enfin, qui n’est pas un jeu du coup. 

 

– Hamza — 09:35 :

 De base Ouais Ouais Ouais Bah il suffit de se ramener à un jeu non en gros donc j’ai parlé du d’outils de rétro synthèse donc sépia qui permet de donner la recette pour faire la molécule c’est tout cela. Typiquement le problème peut être modélisé de la même façon qu’un jeu d’échec ou un jeu de Go. Il n’y a pas le côté adversaire rial ou 2 machines se battent entre elles, mais pour fabriquer ma molécule si je te propose 50 façons de découper, de faire le premier découpage, OK je me retrouve avec 50 possibilités. Après, pour chacune de ces possibilités là, imagine j’aboutis pas des produits commerciaux. Ça veut dire que pour chacune, ces 50 possibilités, là je peux avoir 50 autres possibilités, donc ça crée un arbre qui va croître de manière exponentielle et je peux, je peux aller au 3ème étage, 4ème étage. Ce qui fait que là on se ramène aux mêmes idées qu’on a quand on modélise le jeu des échecs, le jeu d’égo, c’est beaucoup de possibilités, mais pas beaucoup de solutions optimales et cette façon d’aller chercher l’optimalité de manière maligne sans explorer tout l’espace des possibilités, sans explorer l’arbre complet. Les possibilités, c’est ça qui fait qu’on va vite aujourd’hui, faire ce qu’on appelle une rétro synthèse, trouver la recette pour faire la molécule. Ben ça prend quelques secondes au mieux. Allez quelques minutes au Max. Quand la molécule est très compliquée mais ça reste un problème qui se résout plutôt bien si on le fait de manière brute, force, ça prendra beaucoup de temps et beaucoup de ressources. Donc ça c’est voilà, c’est ce qui se rapproche du jeu de Go pour machia. Pour l’IA Générative, on est sur des méthodes qu’on appelle de Poly Gradient, ça veut dire que j’ai une politique qui s’est générée. Des molécules et je dois la spécialiser, ça veut dire, je dois faire en sorte à ce que je change ces poids. Pour respecter pour renforcer des scores, donc là il y a 2 notions, il y a. Faire une molécule vraisemblable qui ne choque pas un chimiste, donc ça faut garder ça et faire une molécule qui optimise un score et du coup là ce qui se passe c’est que j’ai une boucle qui va changer mes poids grâce à des algorithmes, des descentes de gradients qui vont donc quand la police elle est dérivable on est content, c’est qu’on peut dériver, changer ses poids et le plus important ici c’est le scoring. Si mon score est précis, Simon scoring est générique. Simon S Corine a un domaine d’applicabilité un peu étendu des choses comme ça. Là je peux boucler et aller vers un espace qui respecte mon cahier de charge. 

 

– Marc — 11:56 :

 Et ce que tu disais à ce niveau-là c’est que le Scoring donc enfin quelque part, la donnée supervisée, la réponse à la question que tu te poses, elle t’est donnée facilement par bah les règles physiques par un certain nombre de tu peux traduire ton cahier des charges en ce scoring qui est calculé par l’ordinateur instantanément à chaque étape d’apprentissage. De quoi il a besoin pour le faire, ce qu’il a besoin de modèles de simulation physique. Il a besoin de de choses comme ça. 

 

– Hamza — 12:20 :

 C’est du cas par cas. Quand je disais que c’est facile, c’est facile par rapport à d’autres domaines comme le langage ou comme la musique ou comme c’est automatisable, disons, c’est un peu ouais, c’est un peu quantifiable, on sait quantifier une mesure, donc ça dépend des cas. Il y a des cas où le client vient avec des mesures expérimentales. Il a mesuré la solubilité, il a 1000 points de solubilité. D’accord tu peux construire un modèle supervisé pour ma paix, une molécule à une prédiction de solubilité. Bien sûr, ce qui est très important quand on fait une boucle entre un modèle génératif et un modèle de scoring superviser, c’est le domaine d’applicabilité. Je peux pas générer n’importe quelle molécule. Et utiliser ce prédicateur là donc faut faire attention à pas trop s’éloigner de la connaissance, donc ça, ça peut être une limitation. Ce type de modèle c’est qu’OK il te permet de scorer mais pas très loin. Si j’apprends à différencier des chats et des chiens, je dois pas générer des chevaux. Je pourrais scorer mais ça voudra rien dire. Donc il y a ça, ça vient des données des clients mais y a aussi voilà ce que tu as cité des méthodes de simulation physique elles elles vont servir principalement à mesurer l’activité et ce que ma molécule est active par rapport. À la protéine que je cherche à binder et donc là bah c’est vraiment de la mécanique. Il y a de la géométrie a de la physique, on va faire des hypothèses simples sur ce qui se passe et on va dérouler un peu des équations pour être rapide, ça va être statique, on peut figer la protéine et essayer de trouver une position d’équilibre statique avec le Liban et quand ça rentre, on est content, quand ça rentre pas, on n’est pas content et ce score là, bah il peut être donné à l’i génératif pour se renforcer. 

 

– Marc — 13:54 :

 À quoi ça ressemble cette donnée? Justement, les, les molécules? À quoi ressemble de la data qui encode des molécules pour un algo? 

 

– Hamza — 14:02 :

 Cheetos, on manipule beaucoup les molécules et les protéines, c’est un peu les 2 héros de l’histoire. Les molécules, c’est la solution, la protéine, c’est la cible qu’on veut. Binder, donc une molécule ça peut être représentée par un graphe. Donc en 2D en 2 dimensions. Le Graphe de Valence. On peut facilement l’observer, ou bah anatome, oxygène, azote, machin, les liaisons, on peut avoir une liaison double triple, donc c’est bien un graphe. 

 

– Marc — 14:27 :

 Dont les sommets sont les atomes et les et les les arêtes sont. 

 

– Hamza — 14:32 :

 Des les agents chimiques. Ouais, et les ans chimiques peuvent être simples, doubles, triples ou aromatiques. 

 

– Marc — 14:37 :

 Alors du coup, en écrivant ça comme ça, on a pas la forme que ça a pris dans l’espace, on n’a que les liaisons. 

 

– Hamza — 14:43 :

 Absolument. On n’a que les liaisons. 

 

– Marc — 14:45 :

 Et elle est pas importante cette forme que ça a pris dans l’espace? 

 

– Hamza — 14:47 :

 Elle est très importante, ouais. Il y a des phénomènes où on peut simplifier ou la 2D est suffisante. D’autres phénomènes ou la 3D est indispensable. D’accord mais bon ça sera une simplification si on prend que la 2 c’est une simplification. D’accord quand on prend en compte la 3D ça veut dire que sur chaque nœud du Graphe on va rajouter ces coordonnées. Xyz d’accord donc pour traiter un graphe en 2D ou en 3D aujourd’hui y a des types de modèles de Deep learning quand on a assez de données, bien sûr qu’on appelle Deep learning géométrique enfin c’est des Graphes Networks qui prennent un peu en compte ce côté ce qu’un graphe. On peut le tourner dans tous les sens. Ouais enfin y a une sorte d’invariance par rapport à la permutation des nœuds quand on prend en compte les coordonnées XYZ des nœuds. Là il faut aller plus loin, faut être invariant par rapport au référentiel, parce que que je mets ma molécule dans un endroit ou un autre, la représentation doit être équivalente et donc c’est des choses qui existent aujourd’hui qui sont pas mal étudiées dans la Communauté. Je pense dans la communauté de l’IA appliquée à la chimie, enfin, c’est là où il y a plus d’études, des graphes. News Network, c’est un sujet intéressant qui peut être appliqué aussi aux images. Et enfin là, on peut modéliser par des groupes, on peut faire ça. Après, à d’autres façons de représenter la molécule, si on veut pas la représenter comme un graphe. Il y a des façons d’écrire le graphe, comme un texte, si une représentation qu’on appelle en chimie le smiles et ce smiles, il contient toute l’info du graphe en 2 dimensions et donc là on se ramène à des méthodes de NLP alors le défaut de ça c’est qu’il y a pas d’invariance par rapport à la permutation, je peux avoir beaucoup de smiley qui représentent la même molécule, mais l’intérêt c’est que je peux me ramener à toute la panoplie de méthodes qui ont été étudiées ont une p et d’ailleurs pour l’anecdote, c’est comme ça que tout a commencé. 

 

– Marc — 16:27 :

 Avec des smiles? 

 

– Hamza — 16:28 :

 Avec des smileys. Une pause clope entre les 2 cofondateurs, donc là docteur en chimie, l’autre docteur en IA et. Il a vu faire Jojo avec des méthodes de NP enfin, avec à l’époque avec des LSTM qui généraient du caractère, donc à l’époque, c’était généralement du Nietzsche. Généralement des choses comme ça. Le chimiste a dit, Bah tiens, ça a l’air pas mal. Pourquoi tu t’es mis à faire à faire ça sur du texte? Bon à l’époque, le texte le chimiste ne voyait pas trop l’importance, ça pourrait avoir là. Aujourd’hui, on voit que ça peut avoir beaucoup d’importance, notamment dans tout ce qui est conversationnel. Il dit bah généralement des molécules, on peut se faire de l’argent avec ça. Et donc ça voilà, ça a commencé avec le semestre parce qu’il avait déjà des choses de développer au final, suffisait de rapprocher ces 2 mondes et voilà et ça a été fait et et par pur hasard, il y a d’autres gens dans le monde, dans des laboratoires académiques à Toronto, à et Maïti qui ont commencé à faire ça aussi. Il y a dans la chimie. Ça a commencé avec les smiles. Grâce à au développement de des méthodes de LP d’accord et après les protéines, mais on imagine que c’est pareil. Enfin, une protéine est une grosse molécule. 

 

– Marc — 17:36 :

 Pour aller vraiment jusqu’au bout de la compréhension de ce que produit le modèle. Votre entrée? Donc si je comprends bien c’est un graphe un plutôt 2 graphes, 2 molécules, une protéine molécule et la sortie ça va être quoi ça va être des ajouts sur la molécule initiale des propositions d’ajout d’atomes à tel endroit. 

 

– Hamza — 17:53 :

 Non alors si on parle de générateurs, c’est celui qui génère la molécule. Il commence de rien. 

 

– Marc — 17:58 :

 Il commence de rien. 

 

– Hamza — 17:58 :

 Lui, au début, il est aléatoire. 

 

– Marc — 18:00 :

 Il a la protéine quand même si les contraintes. 

 

– Hamza — 18:01 :

 Sont pas en fait. Si on se fiche de la protéine, ça veut dire qu’y a pas beaucoup de variabilité, on pourrait la figer pour faire du scoring qui tient compte d’elle mais en disant que pour les générateurs il est pas obligé même de la connaître. D’accord, au début, ils peuvent vraiment commencer en aléatoire et apprendre à faire des choses qui lui donnent un bon score mais la protéine, elle, est cible, donc il faut quand même que, à la fin, ce soit là-dessus que ça se fixe. Bien sûr qu’on lui donne cette contrainte. 

 

– Hamza — 18:24 :

 Elle est dans le score d’accord. 

 

– Hamza — 18:26 :

 Donc moi je peux générer une molécule aléatoire et toi quand tu vas à la soirée tu vas me dire c’est n’importe quoi. Et le générateur va dire Ah, c’est n’importe quoi, faut que je fasse autre chose, d’accord du coup, il va explorer, il va faire autre chose jusqu’à ce que, à un moment donné, il commence à catcher un peu de signal. Le score de binding, il est pas discret, c’est pas 01 c’est OK Tu chopes une interaction, t’as un petit quelque chose, OK pas mal, vas-y je continue. Et il poursuit, d’accord, après c’est du multi objectif y a pas que ça donc ça c’est une composante mais imaginons j’ai un peu de ça mais je suis très mauvais en solubilité il va dire OK Bah je dois m’éloigner de ça donc c’est un problème. Il y a plusieurs objectifs qui sont mis en compte dans le score et le le générateur, il va apprendre à s’assimiler s’assimiler jusqu’à ce qu’il trouve la bonne molécule. 

 

– Marc — 19:11 :

 D’accord, donc, le l’input en fait, c’est j’imagine un vecteur aléatoire, enfin c’est vraiment rien, y a pas d’information dans l’input elle-même. 

 

– Hamza — 19:19 :

 Non, le générateur. Il doit-il doit quand même faire de la bonne chimie. Il a appris sur beaucoup de molécules, donc c’est une façon de faire une façon de faire un générateur de molécules. Bah tu lui donnes beaucoup de molécules en self supervise comment on fait avec par exemple, j’ai PT 3 ou j’ai PT 4 Ben il a appris sur un corpus énorme de textes pour savoir générer du texte. Après, pour que ces spécialistes dans du Conversationnel, on a 2, le fin un peu plus et c’est pareil donc on a ce qu’on peut appeler un prieur qui s’est entraîné sur beaucoup de molécules, qui connaît un peu la chimie donc il il va prendre des molécules aléatoires disons au niveau d’un étudiant en master de chimie mais c’est vraiment aléatoire. Mais après faut spécialiser ça. 

 

– Hamza — 19:58 :

 D’accord l’intérêt. 

 

– Marc — 19:59 :

 Du scoring? Ce que je disais tout à l’heure, c’est que c’est en chimie, c’est un peu plus simple. Enfin, c’est plus simple. Disons que l’informatique dans la chimie, c’est quelque chose qui a commencé y a très longtemps. L’un des domaines qui a été le plus digitalisé, mine de rien, à tel point qui a un métier qui existe, qui s’appelle chimiste, computationnel ou qui est moins informaticien. Donc le ML dans la chimie, ça a commencé y a très longtemps représenté des molécules dans un ordinateur. Ça a commencé à très longtemps, ce qui fait que ça fait des années qu’on s’est donné un score à une molécule sur un ordinateur, ce qui est peut-être moins le cas dans d’autres domaines. Je crois pas qu’on avait des méthodes pour scorer, des phrases, scorer un paragraphe, scorer une musique. En fait, je peux faire la même chose pour n’importe quel domaine et du moment que tu me donnes un score pour nous dire OK cette musique là elle est triste ou elle est joyeuse et moi je veux faire du triste. Ouais bah je peux renforcer une IA qui crée de la musique. Mais il faut quantifier ce cette chose là tu sers la quantifier, c’est cool. Alors si on prend un peu de recul sur on va dire, le machine learning dans le monde médical, qu’est-ce que tu dirais toi, qui a passé 6 ans là-dedans? Ce sont les particularités de ce champ d’application du machine learning. 

 

– Hamza — 21:05 :

 Ce qui est particulier, c’est que déjà y a une finalité qui est sympa. Bien sûr, il y a toujours enfin, on travaille dans des entreprises, donc ça a vocation à générer du profit. Mais y a aussi une finalité qui est bah aider à résoudre des maladies et des passions. Et de la recherche. Donc nous, on travaille pas mal par exemple sur tout ce qui est oncologie, cancer. C’est même si on ne voit pas le résultat sur le court terme. Peut-être dans 20 ans, il y a un médicament qui va sortir sur le marché et et ça, le travail aurait été initié par ECTOS par des premiers candidats qui ont fait leur bout de chemin pour aboutir à un médicament. Donc ça c’est pas mal. On est moins sur je fais des algorithmes pour vendre un maximum ou pour enfin j’ai rien contre ça, mais c’est juste que c’est des finalités différentes donc ça c’est pas mal. Après, il y a le côté technique qui peut être très très large, donc dans le domaine de la chimie médicinale et de la biologie. C’est des objets qui sont mine de rien, qui sont assez complexes et c’est des phénomènes qui sont assez complexes. La physique aujourd’hui n’y arrive pas. Parce que pour simuler vraiment exactement un système comme ça, il faut des équations hyper précises, hyper lourdes, qui vont prendre beaucoup de temps, ce qui fait qu’on n’a pas encore, on sait, pas encore résoudre un problème comme ça de manière précise avec de la physique, donc tout ce qui est fait en simulation, c’est des approximations, approximation assez assez simples. Et ce qui fait que l’i a, c’est le bon langage. Enfin, pour faire des approximations, c’est pas mal des modèles de machine learning. Une, ils savent des bruiter, ils savent extraire des patterns, sortir des choses pour ce domaine là, donc ça c’est intéressant le côté utile, l’u ML dedans. Et puis il y a une toute une panoplie de méthodes qui sont utilisées, donc on a parlé de renforcement, on a parlé de méthode générative, on a parlé de self, supervise donné, on a parlé d’autres méthodes qu’on fait de l’active learning parce qu’on fait des itérations et du coup il y a la connaissance qu’on a à chaque à chaque essai, elle est importante pour améliorer nos modèles donc mine de rien, beaucoup de méthodes de ML qui sont décrites dans la littérature sont utilisées pour traiter ce phénomène qui est complexe. 

 

– Marc — 23:17 :

 Alors selon toi, qu’est ce qui doit être dit aujourd’hui? Énormément dans votre travail au dit au client dit au au non spécialiste du machine learning qui dans 10 ans 20 ans, sera connu de tous, sera une évidence au niveau de l’évangélisation. Quel est le travail que vous faites aujourd’hui qui sera plus nécessaire demain? 

 

– Hamza — 23:36 :

 C’est le travail de l’adoption, je pense. Demain, le chimiste médicinal sera outillé d’I Product de produits basés sur l’IA. Et limite. Il sera, s’il n’a pas ça, il pourra pas travailler parce que ça sera un peu la norme. C’est comme aujourd’hui, on a des ordinateurs. Si on a pas d’ordinateur, on va pas noter tout ce qu’on fait sur des fiches. Demain, le chimiste médicinal sera équipé de produits direct. C’est comme ça qu’il va travailler aujourd’hui, c’est pas le cas, ça dépend des entreprises. Donc il y a des laboratoires pharmaceutiques qui sont assez avancés dans l’adoption, en tout cas dans les preuves de concept, mais il faut savoir que dans la recherche en chimie médicinale, c’est le chimiste qui a le dernier mot. C’est lui qui va décider en fait. C’est en fait cette molécule, on va voir la synthétiser, on va la tester. 

 

– Marc — 24:20 :

 Donc pour toi la vraie différence, c’est simplement le poids, l’autorité, qu’aura le résultat de l’algorithme au sein du processus de création d’un médicament. 

 

– Hamza — 24:30 :

 Exactement parce qu’il aura fait ces preuves au fil du temps, au fil des années. À un moment donné. Il y aura tellement de candidats très cliniques qui vont sortir grâce à l’i a que l’adoption ne peut être que systématique. 

 

– Marc — 24:45 :

 D’accord, et alors, quels sont les principaux obstacles? Verrous technologiques hein, pour prendre l’expression qu’on voit dans les rapports de CIR qu’est-ce qui fait que, demain, l’étudiant qui est aujourd’hui en train d’apprendre la machine learning peut pas faire exactement ce que vous faites? 

 

– Hamza — 25:03 :

 Il y a pas forcément de verrou technologique, il y a un grand frein à l’entrée qui est le côté pluridisciplinaire pour faire ce qu’on fait chez ECTOS. Si tu regroupes une équipe passionnée qui contient des machines, donner des chimistes, computationnels des chimistes médicinaux, des Software, ingénieurs data, ingénieurs et les développeurs web et de bons commerciaux, tu peux reproduire auto   s. Nous, ce qu’on fait enfin, on fait des technologies propriétaires, on a pas mal appris sur le terrain. La connaissance client, elle, est importante. Tout ce qu’on a acquis sur tous les projets qu’on a faits pendant les 6 dernières années, ça vaut de l’or, ça vaut beaucoup, donc y aura, quand ces gens-là commenceront et commenceront avec beaucoup de motivation, mais avec pas beaucoup d’expérience sur le terrain. Mais en tout cas, déjà aujourd’hui, il y a pas mal d’initiatives open source pour commencer, donc ces gens-là pourront commencer pour en faire des choses. Et puis ils feront leur bout de chemin. Ils apprendront avec le temps. Après, au fil des années, il y a aussi des assiettes data que nous on, on a su avoir. On a su créer, on a des annotations que nos chimistes nous ont fait il y a un peu ce côté expert qui aide donc y a un peu un cumul de savoir et c’est tout ça qui crée un peu la force de nos outils et qui fait que l’outil qu’on propose sont meilleurs que ce qu’on peut trouver en open source. Qui traite de cas un peu. On dit de de Troy exemple le soin de citer un peu, c’est un peu des cas d’école, c’est comme le le le Dataset Iris, sur lequel beaucoup de personnes, beaucoup de débutants l’apprennent dessus. Mais la vraie vie ça ne ressemble pas à ça. 

 

– Marc — 26:34 :

 Et alors, ce que vous avez développé les technologies machine learning mais aussi tous les outils qui sont autour et ce que vous avez déjà des idées de d’autres applications qui pourraient en profiter, à quoi d’autre? D’autres secteurs qui auraient rien à voir d’autres, ça pourrait servir tout, tout ça. 

 

– Hamza — 26:49 :

 Le secteur le plus proche, c’est le design de matériaux parce que c’est de la formulation chimique. 

 

– Marc — 26:54 :

 Les matériaux plastiques dans ce qu’on fait bien, dérivé du pétrole qu’on agence ça avec comment créer? Ou par exemple, comment faire un matériau qui a les bonnes propriétés désirées pour un ordinateur, pour un Airbus pour un comment designer le bon matériau qui se composite exactement? Ouais, ça, c’est le secteur qui est un peu le plus proche. Après il y a aussi des secteurs un peu plus spécifiques, par exemple la formulation des parfums qui est pareil si un moyen de scorer, voilà les parfums de manière à dire Voilà ça c’est plutôt enfin, il y a des agressifs sur temps pour décrire des parfums. Et si on arrive à quantifier ça, là on peut adapter nos méthodes à de la formulation de parfum. Après, si on sort de tout ce qui est formulation chimique, le terrain est très vaste et c’est ce que je dis tout à l’heure, dès qu’on a des méthodes de score line qui peuvent être imaginées pour quantifier des données. On peut appliquer ce qu’on a fait donc si on prend le par exemple, la musique aujourd’hui y a des y a qui génèrent de la musique. Si une équipe de personnes s’amuse à annoter parce que ça peut passer par d’annotation, si on s’amuse à annoter des musiques pour dire telle musique, c’est ça telle musique, c’est ça. Dans ce cas-là on pourra scorer pour avoir du scoring de musique et on pourra faire une boucle de renforcement pour aboutir à du musique hyper bien fin tuné qui répondent à mon cahier de charge. Ça, c’est un exemple pour les images, ça peut être fait pour le texte, ça peut être fait. Il y a l’approche qu’on a aujourd’hui qui est pas mal répandue, qui est un peu une approche One shot. Donne-moi tes critères. Je te sors mon output, donc ça, ça donne, c’est ce qu’on voit dans les différents ia qui sont sortis. Au grand public. Mais si on veut avoir un rendu de meilleure qualité, on peut rajouter une boucle de renforcement et de dire, OK Tu m’as sorti un One shot, c’est bien mais améliore l’et pour l’améliorer, il suffit de donner des scores derrière et là on aura un résultat de meilleure qualité, que ça soit de l’image ou de la musique, ou peu importe. 

 

– Marc — 28:51 :

 Qu’elle a été ta plus grande déconvenue? Avec la data dans le travail, Sextos. 

 

– Hamza — 28:56 :

 Pour moi, c’est le côté gourmand de la data. 

 

– Marc — 28:59 :

 En calcul en calcul ouais. 

 

– Hamza — 29:01 :

 C’est un peu la conscience que bah pour faire tourner des pipelines de préparation de données, ça prend du temps, ça consomme beaucoup de ressources. 

 

– Marc — 29:11 :

 C’est quoi l’ordre de grandeur de pour, par exemple générer une molécule? Combien de GPU tournent pendant combien de temps on va dire? 

 

– Hamza — 29:18 :

 Bah notre produit essentiel, il peut faire tourner plusieurs GPU en parallèle donc ça dépend de, disons, un ordre de grandeur. C’est 1GP par utilisateur et donc le produit il est scalable dans le cloud et combien de temps ça met une génération? 

 

– Hamza — 29:32 :

 Une génération, ça peut durer quelques heures, donc c’est quelques ordres. Consommation de GPU par utilisateur avec le côté scalable, ça consomme pas mal de ressources et aussi au-delà de ça, quand on fait des opérations sur des graphes. Le temps de calcul sur une molécule, il est plus élevé que si je fais une manipulation simple sur une donnée lambda, ce qui fait que même si on n’a pas des terras de données, le traitement par unité de par ligne prend du temps, ce qui fait que tu as besoin de ce caler pour réduire ce temps-là Et voilà, c’est un peu la conscience qu’on consomme pas mal de ressources. Et qu’en pollue par voie de conséquence. Donc c’est c’est quelque chose qu’on a aujourd’hui. On se pose moins les questions que se posaient les informaticiens d’avant, d’optimiser le code qu’ils consomment le moins de mémoire pour qu’il consomme le moins de temps, pour qu’il vu l’abondance des ressources on prête pas trop trop d’attention là-dessus parce qu’on veut arriver rapidement au résultat et c’est des questions mine de rien, qui sont pas à négliger. C’est pour ça que je suis fan de toutes les méthodes qui permettent de réduire un la taille d’un modèle. Si je peux réduire la taille d’un modèle. Diviser sa taille par 100 et ne pas réduire les performances je suis content. Si je peux réduire le temps de calcul aussi d’un pipeline de traitement de données parce que parfois il suffit d’optimiser des petites choses et tu gagnes pas mal de temps. Je suis content aussi. 

 

– Marc — 30:56 :

 Et alors, qu’est-ce que tu regrettes de pas avoir fait autrement ou qu’est-ce que tu ferais différemment si t’as refaire? 

 

– Hamza — 31:00 :

 C’est ce que j’appelle le couplage faible entre les équipes de R et D et les équipes de développement produit. C’est quelque chose qu’on a dû apprendre au début. En fait, la recherche et on a un produit et on a envie que tout ce qu’on fait en recherche par rapidement dans le produit. Quand on n’a pas de couplage faible entre la R et D et le développement de plateformes, on peut rapidement, quand on est une start-up, perdre un avantage concurrentiel qui fait 2. Bah rapidement, sortir les nouvelles features et nouveaux développements dans le produit pour les données à des clients et c’est quelque chose. Au début, on savait pas trop comment faire parce que souvent c’est les gens qui gèrent le produit qui vont te dire OK bah moi je fais d’une autre JS moi j’aimerais bien que tout soit en autre JS et au début quand tu commences tu te dis OK comment est ce qu’on peut faire? Il y a un petit processus à à apprendre. Et finalement, quand on est dans une start-up innovante? Pour moi, le la façon optimale de faire, c’est au TEAM qui font de la recherche, de packager ce qui sortent et la team qui fait le développement doit consommer, ça doit être la consommation et le couplage doit être faible pour qu’il soit rapide, on doit minimiser le temps de passage. 

 

– Marc — 32:08 :

 D’accord, ce que tu dis, c’est que le couplage est trop fort naturellement si on si on fait rien. 

 

– Hamza — 32:12 :

 Si on fait rien, il est trop fort. Ok il est trop fort et si ça communique pas bien, si. 

 

– Marc — 32:17 :

 Il fallait dire non, on fait pas d’une autre GS Ouais, 

 

– Hamza — 32:20 :

 Dès le départ, c’est comme ça qu’il faut faire quelque chose que tu apprends. Et qui te fait gagner beaucoup de temps, tu fais gagner énormément de temps et qui te fait gagner de la force de frappe et qui te fait gagner du feedback aussi parce que quand t’as des feedbacks, tu luttes, tu attaques, tu améliores, c’est la boucle de scène. Par contre, si on veut rester sur trop d’optimisation ou trop de contraintes techniques pour respecter tel stack technique, l’on s’en sortira jamais, le produit ne verra jamais le jour. Les nouvelles features resteront dans les équipes R et D ne verront jamais le couplage faible de la R et des et d’et de la prothèse. Pas ça. Qu’est-ce que tu préfères dans ce métier? Les meilleurs moments? 

 

– Hamza — 32:57 :

 Les meilleurs moments, c’est les séances de travail avec la TEAM, donc aujourd’hui, je suis manager d’une team de 8 personnes. Et ce que j’adore le plus, c’est quand on se pose 01h00 comme ça, à travailler vraiment pas à faire du suivi ou faire dire j’ai fait ça, j’ai fait ça, les recherche, voilà, se poser, réfléchir à des questions. Sortir des slides, noter des choses. Sortir du code, discuter de ce qu’il y a dans le code, discuter des équations. Vraiment ce ce travail là, c’est Ce que j’aime le plus, donc ça avec la TEAM c’est cool mais aussi avec les membres des autres teams. Donc échanger avec avec des chimistes, c’est très stimulant. On parle des langages différents mais quand on commence à se comprendre, ça peut donner de belles choses parce qu’au final, en fait, il y a 2 choses qui peuvent être utiles enfin, qui peuvent être gratifiantes quand on travaille. C’est le la reconnaissance dire, OK tu as fait du bon travail, mais je peux être reconnaissant et si tu fais du super boulot mais qui n’est pas utile. Bah il y a quelque chose qui manque. Donc si on peut être utile là c’est c’est la la chose la plus gratifiante quand on travaille. Donc si le chimiste à la fin il dit Ah ouais mais tu m’as sorti hein? Une super techno ça m’aide beaucoup. Mon travail, c’est ça qu’on cherche, c’est ce côté-là et ça vient avec beaucoup de communication, beaucoup de travail avec le, avec, les chimistes de dialogue pour comprendre ce qu’ils veulent et pour essayer de quantifier et d’avoir des idées un peu quantitatives pour un peu refléter ce qu’ils veulent. 

 

– Marc — 34:23 :

 Et ce que tu as, une anecdote à nous partager? 

 

– Hamza — 34:25 :

 Les anecdotes, je pense à. On a déménagé 3 fois et au début on était incubé chez un grand cabinet de Conseil. Et après, on est parti dans le 9ème rue Chaptal et dans le 9ème, on partageait les locaux. Avec une entreprise qui fait du e-commerce, spécialisée dans des produits liés à des cancers de Sein, des cancers de bah pour les femmes et ce qui est marrant, c’était nous. On était ultime, 100 % masculine au début, c’est un peu le cas de pas mal de start-up dans la tech et à côté c’était une TEAM 100 % féminine du coup finalement, ça s’est complété. Et voilà. Non, on passe à un moment parce que nous on était dans un domaine assez niche dans nos ordis et à côté, c’était un autre domaine encore du service client d’il y avait une dressing-room à côté où il y avait des soutiens-gorge, des perruques, des donc c’était un peu le décalage. Nous, on avait des la déco, c’était des graphes moléculaires, des choses comme ça. Mais voilà, le jour où on a eu le le premier recrutement, la première fille qui a rejoint la TEAM, ça faisait du bien. J’imagine, ça change un peu l’ambiance. 

 

– Marc — 35:33 :

 Ça change l’ambiance. T’as une opinion de partager? 

 

– Hamza — 35:36 :

 La simplicité quand on peut faire simplement en faisant simplement faut essayer les solutions simples d’abord, et si il faut complexifier pour aller chercher mieux oui, mais toujours commencer par le plus simple. Ça c’est une première opinion. 2ème opinion, qui est liée au produit, mais ça à tous les gens qui ont bossé dans des produits, dans des. Il faut itérer, il faut itérer, il faut accepter de donner un produit avec tous les défauts du monde à un client pour avoir un retour. 

 

– Marc — 36:05 :

 Les bons retours, pas ceux qu’on imagine. 

 

– Hamza — 36:07 :

 Les bons retours exactement. Mais même les critiques, c’est pas grave, ça te pousse à à itérer à améliorer. On peut avoir cette envie mais non, il y a plein de défauts, il y a ça qui manque, y a ça qui manque, mais je suis en train de travailler sur quelque chose qui va être encore mieux et non. Attends, non, il faut donner, il faut sortir son produit, il faut-il faut itérer. 

 

– Marc — 36:26 :

 Alors, le futur de la data Sextos, c’est quoi il y a un chantier. Enfin, y a 2 chantiers qui sont un peu futuristes. Le premier, c’est donc là? Au début, j’ai parlé de génération de molécules, ce qui est généré, c’est des graphes en 2D et c’est après qu’on peut être amené à faire du scoring en en transformant la de D en 3D Bon le chemin n’est pas un un, on va dire ce qu’on aimerait, c’est pouvoir pendre directement la molécule en 3D étant donné la contrainte de la protéine, la placer comme ça directement, c’est un sujet qui n’est pas simple, dit comme ça, on peut se dire Ouais c’est possible mais c’est pas très simple parce que c’est un objet qui est assez complexe. On a à la fois un graphe avec des atomes et des nœuds qui sont discrets, mais aussi des positions dans un espace. Enfin, l’espace du coup faut mettre vraiment les atomes aux bonnes positions. C’est pas un sujet qui est simple, mais je pense que ça va être résolu dans les prochaines années et c’est quelque chose sur laquelle on travaille activement. Il y a aussi un 2ème chantier qui est important. C’est donc avec la levée de fonds qu’on a fait début d’année, on a lancé Hecto Robotics, c’est pour avoir un laboratoire de chimie, un vrai laboratoire de chimie automatisée qui aura vocation à traiter nos propres projets. Qu’en fait en interne, mais aussi des projets externes et donc là il y a beaucoup de supports qu’on sera amené à faire pour côté robotics, notamment pour prédire les conditions expérimentales à faire. Une réaction est pour lui prédire la température des sols à faire, et cetera, mais aussi tout ce qui est planning, ce qui est du lean. Si j’ai un pipeline où j’ai pas mal de réactions à faire dans un même robot, si je peux batcher et faire du parallèle de manière maligne de telle façon à ce que je dépile toutes les réactions que j’ai à faire, c’est du gain de temps et le temps c’est hyper important. Dans le domaine de la Pharma le, le temps, c’est le plus important, arriver rapidement aux résultats, c’est ce que tout le monde cherche. 

 

– Marc — 38:07 :

 C’est un beau programme. 

 

– Hamza — 38:08 :

 Ouais c’est pas mal merci amza avec plaisir, merci à toi. 

 

– Marc — 38:12 :

 Vous venez d’entendre Hamza tâche moitié Ed of data chez Hectos dans Data driven, Wanna One? Si vous avez aimé et que vous voulez nous soutenir, n’hésitez pas à liker et partager le podcast dans le prochain épisode, je recevrai David Elkaïm, 16 director chez Big Data, pour nous parler de collecte de data sur Internet. 

 

– Marc — 38:29 :

 À très vite.