GÉNÉRER DES IMAGES GRÂCE À L'IA

Loin des applications les plus courantes, il y a la ligne de front technologique. Dans ce numéro hors série à vocation pédagogique, nous cherchons à démystifier un des domaines technologiques qui a le plus progressé récemment : générer des images grâce à l’IA.

 Nikolaj Groeneweg est l’invité de cette épisode hors-série de data driven 101, et nous parle notamment : 

👉 Des ficelles de la génération d’image et nous apprend avec beaucoup de pédagogie comment démarrer sur ce sujet.

👉 Comment écrire vos « prompts », c’est à dire murmurer à l’oreille des Intelligences Artificielles.

Générer des images grâce à l'IA Nicolaj Groeneweg

– Marc — 00:00 : 

 Aujourd’hui, je reçois Nicolaj Groeneweg, entrepreneur et ingénieur en IA, il est également neuropsychologue et travaille dans le domaine depuis 15 ans. Originaire d’Amsterdam aux Pays-Bas, son parcours commence dans la recherche avant d’être situé en start-up y a en santé à Paris, de prendre un focus stratégique business chez CNP assurance. Il a ensuite passé 4 ans à Singapour à développer des solutions dans le domaine de la santé, puis les produits SAS de retour en France en 2021 il passe un an dédié à faire du Conseil en I à aujourd’hui, il entreprend de nouveau projet et se focalisé sur les produits dia. Génération d’images, Bonjour Nicolas. 

 

– Nikolaj — 00:33 :

 Salut Marc, tu vas bien? 

 

– Marc — 00:34 : 

 Très bien alors, peut être, avant de parler de faire un petit historique de ce qui se fait dans le domaine de l’i a la génération d’images est-ce que tu peux nous parler d’Evry point à, il a le projet que t’as lancé récemment. 

 

– Nikolaj — 00:47 :

 Ouais, c’est mon projet actuel sur lequel je travaille. En fait c’est un l’idée est très simple, on a tous une téléphone, un iPhone ou Android rempli de photos de nous-mêmes qui sont assez pourri, qu’on a pas forcément des selfies, et cetera. Je développais un service qui te permet d’uploader ses photos et qui te sort. Bah des photos de profil magnifiques, des avatars fantastiques si tu veux te redécouvrir en Superman ou en super héros, tu peux ou qui te permet de créer des photo shoots un peu comme un photoshoot avec un photographe professionnel. Mais depuis ton ordi. 

 

– Marc — 01:19 :

 D’accord, il faut combien de photos de toi pour générer une bonne série ensuite d’avatar? 

 

– Nikolaj — 01:24 :

 Idéalement, il en faut une vingtaine, donc pour certains personnes, c’est très peu, pour d’autres ça fait beaucoup. Mais à partir d’une dizaine de photos, ça peut marcher assez bien. L’enjeu, c’est de quand même avoir certaines variétés en termes de photos et en termes de données d’entrée, parce que si t’en utilises qu’un ou 2 par exemple, bah l’algorithme, c’est que reproduire ces photos là. 

 

– Marc — 01:45 :

 Alors je vais faire un petit historique pour les auditeurs quand même de ce monde de la génération de photos, c’est des choses qui arrivent au milieu des années 2010 On va dire, on a notamment les gants, les génératives adversaires, le Network qui viennent créer des petites images. Au début, c’est des miniatures 28 par 28, 32 par 32. Une Via rentré dans la course et trouve un moyen d’augmenter la qualité de ces images. On a des personnes très réalistes, des photos de visage très réalistes, donc parle notamment du site web. 10 personnes notexist.com qui affichent des portraits. Autre résolution de personnes qui n’existent pas, générées par par IA Et puis arrivent les années 2020 avec Open I qui sort Dali d’abord une première version peu convaincante mais déjà assez bluffante de génération. À partir du texte. Et là c’est un peu la révolution. Parce que jusque-là, on pilotait pas vraiment ce qui sortait de de l’autre côté, les, les images, notamment les photos de de personnes réelles. On pouvait pas vraiment contrôler en input bah ce qui sortait au niveau de l’image. Et puis Bah Dali nous permet de faire un prompt un une description, un caption d’image et de générer à partir de là une image. La version 2 sort en 2022 progressivement et là donc Ben c’est bien plus convaincant. D’un coup on est sur des images qui sont vraiment. Le fond parfois presque abstraite et rentre d’autres acteurs alors notamment stable diffusion, développé par stabilité et I qui a le mérite d’être un projet open source, donc entraîné sur ce grand dataset qui est l’avion 5B 5 milliards d’images labellisées et disponibles à open source et donc d’autres sociétés comme mes journée vont ensuite proposer ces services là en en mettant leur talent à exécution, donc créer des variations. Donc on a une explosion de la Communauté autour de l’IA générative et une explosion des objections éthiques également, qui qui vient? Donc voilà un petit peu pour ce qui est de l’historique. 

 

FAIRE UNE PETITE PAUSE

 

Maintenant, pour ce qui est de la pratique, quand bah tu te sers de ces outils là, concrètement, qu’est-ce que tu fais, en quoi ça consiste? Ben adapter ces modèles là à une nouvelle personne. 

 

– Nikolaj — 03:56 :

 Reprenons d’abord peut être rapidement le mode d’utilisation de ce genre de modèle, puisque c’est peut-être pas évident pour tout le monde hein, donc on est sur un modèle l’i. A qui permet de créer des images à partir de ce qu’on appelle en prompt textuel. Donc grosso modo tu dis à l’algorithme, moi j’aimerais bien avoir une image d’un bah prenons la fameuse exemple d’Ali. Une chaise, avocat, qu’est-ce que ça sort cette sort? Une espèce de hybride, chaise en qui ressemble à un avocat, quoi, ça, c’est bluffant. La prise en main de ce genre d’algorithme, je me souviens la première fois que je l’utilisais, j’étais vraiment. Enfin, j’ai joué avec pendant des heures quoi. On dirait qu’un designer a essayé de faire une chaise qui ressemble à un avocat? On n’a pas un mi-chemin entre l’avocat et la chaise, on a vraiment un travail de designer est vraiment quelque chose de nouveau en en fait, qui n’existait pas en vrai et en jouant avec, on se rend assez rapidement compte qu’on peut vraiment créer de nouvelles choses. À partir de notre description textuelle, donc c’est assez bluffant quand même. L’enjeu de ce que je fais avec every par exemple et ce que ce qui est possible grâce à stable diffusion et des algorithmes qui ont été développés par-dessus c’est qu’en fait on prend une petite ensemble de photos de la personne et on va introduire cette personne comme nouvelle concept dans l’algorithme et on va pouvoir dire Ben créez moi une photo de marque par exemple qui fait du ski sur un volcan et ça va sortir en photo de toi qui est en train de faire du ski sur un volcan. Qui à priori n’est pas en photo, qui existait avant? Enfin je sais pas comment je connais pas tes loisirs, mais à priori tu fais jamais ça et donc du coup Ben on peut créer des photos de nous-mêmes en situation de nouvelle en circonstances inédite et c’est pas rigolo quoi. 

 

– Marc — 05:37 :

 Et alors donc, comment on y arrivé? Donc on parle de fine tuning hein sur ce sur ce modèle, comment est-ce qu’on y arrivé partir de ce modèle là et créer une photo de Ben moi qui sur le volcan? 

 

– Nikolaj — 05:46 :

 Ben continue, on va finir le modèle. En fait, il y a un algorithme qui a Ben une approche qui a été développée, qui s’appelle Dream bouf. Qui permet de faire du fine tuning de ce genre de modèle sans que le modèle oublie tout le reste de ce qu’il a appris. Parce que souvent, quand on fait du tuning, c’est ça le problème. On va prendre le modèle qui consiste. En fait, c’est un ensemble de de poids, de, de pondération. On va dire, on va dire OK on va pouvoir les modifier, on va les spécialiser sur quelques images et du coup Ben catastrophe, on oublie tout le reste quoi. 

 

– Marc — 06:16 :

 On a écrit sur la même mémoire. 

 

– Nikolaj — 06:18 :

 En fait exactement et on on oublie tout et on sait plus rien faire. Alors avec Dream bouffe en fait, on va juste introduire nouvelle concept. Mais on garde quand même la capacité de de se servir de tout le reste, que le réseau a appris, donc ça c’est puissant qu’on m’approche, c’est open source, c’est open source, oui, tout à fait. Oui, oui, tout à fait et du coup Ben on peut introduire en fait quelque chose qu’on n’avait pas vu avant et on peut le mélanger avec tout ce qu’on avait déjà appris. 

 

– Marc — 06:44 :

 D’accord, et alors l’enjeu quand on manipule ce genre de modèle et Dream bouffé par-dessus c’est quoi globalement? 

 

– Nikolaj — 06:51 :

 C’est de faire en sorte qu’on a suffisamment de données en entrée. Parce qu’en fait, on n’a pas énormément de liberté de d’action. Enfin, on a ces contraintes quoi, parce qu’on suit Dream wouf. Voilà donc il faut avoir suffisamment de données en entrée, il faut choisir et ça c’est assez. Enfin, on sait pas vraiment comment le faire, mais il faut choisir un nom de concept. En fait, le nouveau concept qu’on va introduire, un modèle c’est pas très clair ce qui marche le mieux. Enfin, moi j’ai essayé par exemple des descriptions, on peut aléatoire, par exemple Nash tu vois une suite de lettres complément aléatoire, mais tu peux aussi dire Bah par exemple et je vais remplacer le concept de dénomme par les photos de marque et Bah les 2 fonctionnent c’est pas toujours clair ce qui fonctionne mieux et sous quelle circonstance donc ça c’est un 2ème enjeu et puis le reste est en fait en réalité un complément standardisé en fait hein. Donc on suit les guidelines, les algos qui ont été développés par des gens beaucoup plus brillants que nous et on fait avec donc tu dis 2 approches alors la 2ème en gros c’est remplacer un concept par un autre dire le concept d’homme, je vais, je vais mettre la photo de marque à la place et donc du coup de laqué je demanderai un homme, ce sera marqué et là la première est ce que tu peux. 

 

– Nikolaj — 08:01 :

 Réexpliquer en fait, c’est de parce qu’en fait ce que tu fais. Qui introduit un concept mais un concept, ça correspond à à un petit bout de texte en fait. Oui, tu vois, parce que ça a été entraîné sur sur des images et les descriptions textuelles. Donc tu vas dire à le rythme? Bah génère moi une photo d’un homme. Il va chercher dans l’espace de tous les représentations d’hommes qui trouvent dans les choses qu’il a appris avant. Maintenant, je vais introduire nouvelle concept, bah faut que ce soit quelque chose soit qui est complètement nouveau donc par exemple suite aléatoire de chiffres c’est probablement quelque chose qui n’a pas vu avant. Oui dans les descriptions textuelles. Et donc dans ces cas-là j’ai introduit quelque chose de vraiment nouveau dans ces représentations. 

 

– Marc — 08:38 :

 Mais avec cette vingtaine d’images, il y aura assez pour comprendre ce nouveau concept. 

 

– Nikolaj — 08:42 :

 Bah ça, ça marche, ouais, du coup il va essayer de sortir ce nouveau concept et il va essayer de mélanger avec les concepts qu’il a déjà accord et grâce à ça, ça sort quand même des choses assez intéressantes. 

 

– Marc — 08:52 :

 Ouais alors globalement qu’est ce que tu comprends de ce qui se passe à l’intérieur d’un modèle comme stable diffusion? C’est intéressant, 

 

– Nikolaj — 08:58 :

 C’est assez. C’est à moi parce que ce sont des modèles qui fondamentalement? Enfin, je pense que tout le monde peut les comprendre. Les papiers sont disponibles, et cetera, donc c’est pas forcément facile de tout reproduire. Droit par exemple, j’ai lu les papiers, j’ai reproduit des petits bouts mais pas tout. De toute façon on peut pas l’entraîner nous-mêmes, hein? On a ni la capacité de calculs. Enfin on peut pas le faire quelque part, on se sert de modèle open source qu’on comprend sur le plan conceptuel mais qu’on pourra pas forcément reproduire A à Z et ce qui est bien je trouve aujourd’hui c’est que à la limite même pour construire des produits basés sur ces technologies, on a plus besoin de tout comprendre n’importe qui aujourd’hui en réalité, en se basant sur ces vols de fusion. Et Dream Booth ou d’autres modèles là, hein, qui sont disponibles aujourd’hui en en PI peut construire des produits. Peut mettre sur le marché des produits et monétiser des produits qui pourraient jamais recréer sans s’appuyer sur ces technologies open source. Et on voit d’ailleurs émerger tout un mouvement de, de à la fois d’indie builder, donc, des développeurs indépendants de start-up, mais aussi de de grandes sociétés comme Adobe par exemple, qui intègre des fonctionnalités d’i a basées sur ses API sans que les équipes qui les mettent en place savent forcément vraiment en profondeur. Comment ça marche? Donc on arrive enfin en période, enfin, ça nous a été promis pendant longtemps, hein? Que l’intelligence artificielle allait servir à grande échelle, n’importe quelle société, n’importe quel produit. Je pense qu’aujourd’hui on arrive à un point où ça va être réellement le cas. Aujourd’hui, on peut avec une équipe de dev lambda entre guillemets, développer des produits d’intelligence artificielle où il y a encore quelques années, on avait besoin d’une équipe vraiment spécialisé, d’ingénieurs en machine learning où y a qui bah forcément sont plus rares, plus chers et plus difficiles à embaucher. 

 

– Marc — 10:51 :

 Oui, ce qui révolutionnaire, c’est le côté un peu plug and play d’exactement ça. Là, effectivement y a canevas aussi de t’as mentionné Adobe, mais à canvas qui a qui a ajouté ça donc pour faire des fonds d’écran qui sont générés je pense aux applis de retouche photo aussi sur téléphone. Dans le clip Drop. 

 

– Nikolaj — 11:09 :

 Où y en a plein. 

 

– Marc — 11:11 :

 Tous ont décidé d’intégrer ce genre de choses, et ce en quelques mois. On est vraiment sur un secteur en ébullition. 

 

– Nikolaj — 11:17 :

 Et ça te fait pas flipper en tant qu ingénieur en IA

 

Marc

Ben si si c’est non, c’est impressionnant. Je veux dire, l’on prend un exemple de génération mais chat GP hein Bah oui. Le sujet que tout le monde, tout le monde traite en ce moment, voilà ce ce chat mis à disposition peut open AI qui répond de façon extrêmement précise et pertinente à à des questions humaines. Mais effectivement on va totalement le contrôle, moi en très peu de temps y a énormément de gens qui sont pas forcément qualifiés dans le domaine, qui l’ont testé beaucoup plus que moi et j’ai un métier, je peux pas passer ma vie à à taper sur sur chat GPT pour voir ce qui se passe. Donc en fait, la veille technologique effectivement devient extrêmement. Une jante quoi à ce niveau-là Ouais, 

 

– Nikolaj — 12:01 :

 Je crois que Josette a eu 1000000 d’utilisateurs en 5 jours, je crois. Bon, c’est un courbe d’adoption absolument hallucinant. C’est c’est complètement dingue et les gens qui te sortent tout va faire des exemples absolument hallucinantes qui détournent complètement les systèmes. Enfin c’est vraiment très impressionnant, mais moi ce que je trouvais très c’est que ça veut aussi dire qu’en fait il y a en ce moment une explosion et c’est la raison pour laquelle je me suis orienté et à nouveau un entrepreneur avec un focus sur des produits dia. Je pense qu’en ce moment y a plein d’appuis qui sortent, il y a plein de possibilités et de produits qui émergent et ça va s’accélérer encore l’année prochaine. Ouais et on va rentrer dans une phase je pense ou y a énormément d’opportunités à saisir, mais c’est une phase qui, entre guillemets, est temporaire parce que. On a un période pendant laquelle Ben y a trop d’opportunités. Enfin, où y a quasiment un nombre illimité d’opportunités de produits, mais à un moment donné, ça va se consolider parce qu’il y a des segments de marché qui va être conneries par des grosses entreprises. Il y aura des gens qui vont prendre vraiment des bouts de marché et qui vont devenir très difficiles à à décrypter. Et l’enjeu à plus long terme va être plus sur les données parce que si tous les appareils sont disponibles, si tout le modèle sont disponibles, bah l’enjeu suivant, ça sera de sortir des modèles. Spécialisées plus adaptées à certains problèmes et pour faire ça, Ben il faut avoir accès à à des données et du coup bah d’ici 2-3 ans ça sera ça le vrai enjeu je pense. 

 

– Marc — 13:30 :

 Oui, là aujourd’hui on se rend compte de la puissance de de l’outil et de toutes les applications qu’on peut avoir, mais au bout d’un moment on va avoir compris que ces applications sont limitées, que certaines applications qu’on peut aller chercher demande d’autres efforts. C’est là qu’un nouveau un nouveau champ va va apparaître. Alors si on creuse dans cette direction et qu’on va chercher justement les limites, se dire OK quelles vont être les limites auxquelles on va se confronter et qui va créer en fait les les métiers de demain? On en parlait à avant et on parlait de prompt ce fameux impôt, hein, qu’on donne au modèle, la description de l’image. Regarde les comptes qui marchent le mieux. Voilà, les gens publient. C’est une communauté qui est active, qui publie les les les belles images, à quoi ressemblent les pompes? C’est extrêmement long, extrêmement descriptif, on y comprend parfois à pas grand chose, donc je veux dire des morceaux hein, mais portrait taken by David Lazare, taken on a Sigma thirty five millimètres. Post processing, post-production, Cell Shading, hyper maximaliste, super detailed. Tous ces mots séparés par des virgules. Là j’en ai donné quelques-uns mais c’est un pot de 20 lignes que j’ai sous les yeux et ça seulement parce qu’on a fait cet effort d’aller juxtaposer tous ces petits mots clés qui viennent chacun influer sur le l’algorithme. On obtient le résultat souhaité. Alors Ben toi, aujourd’hui tu fais ça, on va dire une bonne partie de tes journées. Est-ce que tu peux nous en parler un peu des enfin voilà, qu’est-ce que c’est que cette science du prof, qu’est-ce que c’est, les, les clés du succès avec l’écriture d’un prompt? 

 

– Nikolaj — 15:07 :

 C’est un peu bizarre hein, ça c’est marrant ailleurs parce qu’on on reproche parfois au modèle qu’en fait tu vois, on entend beaucoup de gens dire d’utiliser un modèle génératif d’intelligence artificielle, c’est pas créatif parce que le modèle fait tout le travail, alors je dis toujours aux gens Ben essayez déjà pour voir si c’est vraiment si facile que ça, parce qu’on se rend compte que si on a envie de créer quelque chose en particulier, c’est pas facile en fait. Parce qu’il faut trouver comment faire dans l’espèce latente de toutes les représentations de toutes les images possibles. Donc il faut trouver un moyen de diriger l’algorithme. Dans ce petit bout dans l’espace latent où se retrouvent l’image de base qu’on souhaite manipuler dans certains représentations qu’on a dans notre tête alors qu’on sait pas quels mots clés ont été utilisés et quels mots-clés sont associés, à quel type d’image. Donc c’est vraiment un travail d’expérimentation, donc on peut commencer par exemple avec un photo de l’homme dans la rue et ajouter des modificateurs de style par exemple pour voir si on peut avoir un certain effet de lumière. Un certain effet de profondeur de champ, et cetera. Mais pas pourquoi est-ce que ça fait des combinaisons de mots clés un peu bizarre? Ça, c’est aussi lié aux données que j’ai utilisées pour entraîner les modèles, c’est à dire Bah ça a été fait sur des photos accompagnées de leur altex. Leur description textuelle? Donc, qui est à la fois très partielle, très loin d’être parfait, qui segmente pas du tout les objets dans l’image, hein. Enfin, et qui va pas décrire par exemple, le les effets de lumière où l’atmosphère dans l’image, et cetera, mais qui peut être complètement à côté de la plaque, de ce que c’est l’image en fait. On est en lutte permanente avec les descriptions qui sont présentes quelque part dans les représentations, dans les modèles, ce qu’on veut avoir comme atout et comment il dirigeait l’algorithme et donc du coup, c’est vraiment Ben, c’est un peu un art et on voit d’ailleurs des gens qui sont particulièrement forts à ça dans la Communauté, qui ont développé par un filing pour la manipulation des ponts et en meme ces termes qui qui a émergé de prompt Engineers de quelqu’un qui est fort dans la manipulation des ponts et dans le pilotage de ces algorithmes nouveaux métiers. Et je vois même sur Twitter quelqu’un qui s’est fait embaucher en tant que promener il y a quelques jours et ça doit être la première personne dans le monde et qui a été embauchée sur un métier. Donc t’es magine même pas l’existence il y a 2 mois parce que stable fusion par exemple c’est sorti en août 2022 quoi. Enfin c’est c’est y a quelques mois c’est vraiment super super frais, super récent et donc on voit déjà que Ben ces technologies font émerger des métiers dont elle est magine impact qui pourrait un jour exister. 

 

– Marc — 17:50 :

 Quoi ouais? Et la compétence qui est derrière ce métier? Elle est floue parce que finalement tu tu disais, il faut être créatif pour imaginer en fait ne serait-ce que Ben comme un réalisateur ou un directeur photographique dans un film. Oui OK quelle est la lumière, qu’est-ce qu’on, qu’est-ce qu’on va choisir comme lumière sur cette scène qu’on va choisir comme décors? En fait, c’est hyper créatif et hyper éloigné du métier d’ingénieur. En tout cas, c’est à ce niveau-là, mais il faut quand même comprendre que c’est un modèle et et une une machine qui a des boutons dans tous les sens et c’est ça, il va falloir. 

 

– Nikolaj — 18:20 :

 Appuyer sur les boutons mais ça va passer, hein? C’est en fait. C’est aussi intéressant d’observer que c’est lié à un modèle en particulier, donc là par exemple le style de fusion. Ils ont sorti une nouvelle version de leur modèle il y a il y a une semaine. Je crois, c’est le fusion 2. Du coup, la Communauté est un peu perdue parce que tout d’un coup. Bah tous les progrès qui fonctionnaient avant. Ne fonctionne plus pourquoi? Parce que c’est Stability I ont décidé de sortir un certain nombre des données, notamment par rapport à raison de suicides, Copyright et cetera et de contenus non souhaitable. Donc ils ont plus d’un peu la base de données de d’entraînement d’accord et ça a fait qu’en fait l’espace latent ne représentation est complètement différente et que les progrès qu’on utilisait avant ne fonctionnent moins bien, voire plus du tout. On a notamment observé qu’il y a des modificateurs de style. Quand il dit par exemple je vais avoir une image dans les styles d’un certain artiste qui fonctionne plus parce qu’on a enlevé des images produites par ces artistes en forme de censure déjà, qui s’est mis en place avant la version 2, quoi et normalement de censure. Bah je pense que ça a été une très bonne décision parce qu’il y a bah quand tu as évoqué très rapidement au début y a vraiment il y a un push-back vraiment très très très très fort d’un point de vue éthique sur ces algorithmes, notamment par les artistes qui considèrent que l’intelligence artificielle qui s’entraîne sur des données. Qui sont disponibles dans le domaine public, hein, évidemment. Des images qui sont disponibles dans le même public dans la plupart du cas. Mais en fait, on considère parfois que c’est quand même du vol parce qu’y a les images de photos d’artistes, et cetera qui n’ont pas donné leur consentement pour que leurs œuvres soient utilisées pour entraîner un modèle d’i à. Et bah bien, même s’il est très difficile de reproduire. Leurs images, leurs œuvres. On peut s’en servir pour créer des images dans le même style et du coup, bah beaucoup de gens. Ils sont vraiment très très mécontents en ce moment et il y a énormément de push back et des gens qui disent que Bah c’est éthiquement injustifiable et cetera. Et en fait c’était I donc c’est la société qui produit stable diffusion donc le modèle open source que j’utilise. Moi aussi on décidait que leur modèle doit être le modèle de référence en open source. Qui va donner naissance à toute une communauté, nos modèles spécialisée et donc du coup ils veulent s’assurer qu’il y a pas trop de problèmes, ni de Copyright, ni de contenu non souhaitables, ni de problèmes potentiellement éthiques, et cetera autour de leur modèle de base. Parce que si leur modèle de base est trop remis en question, alors ça pourrait remettre en question tout le mouvement du général TV Et en fait. 

 

– Marc — 21:03 :

 Pour ce qui est du problème éthique lui, même si on pourra revenir dessus, mais là réaction de d’une communauté internet. Bon, on la connaît. Puis on nous censure le modèle version 2. On va rester sur l’un quoi ton avis, pourquoi est-ce que les les gens passeraient à ce? À ce 2ème modèle si finalement tout ce que ça soit tout ce que ça apporte, c’est de de la censure? 

 

– Nikolaj — 21:25 :

 Pas ça apporte d’autres choses, hein? Ça apporte aussi une augmentation en qualité et à des promesses d’améliorer des problèmes qui sont liés au modèle génératif d’avant. Donc par exemple, c’est très difficile de générer des visages ou des yeux ou des mains ou des des membres. Tu vois par exemple. Un modèle sait pas que Marc n’a pas 3 mois ou qui n’a pas 12 doigts, tu vois donc ça crée des vrais problèmes. Parfois ça crée des images un peu bizarres, donc le modèle de base va continuer à s’améliorer et donc du coup les gens vont passer dessus hein, même si ça demande aussi. De s’adapter par rapport à ce qu’on a dit tout à l’heure sur le pont Engineering et en courbe d’adaptation qu’on dit un nouveau modèle qui sort, on redécouvrir les produits qui marchent et pour savoir comment manipuler le modèle, la phase différente, on va dire pour sortir des images qu’on souhaite avoir à la fin. 

 

– Marc — 22:20 :

 Quoi oui oui, y a des gens qui se sont formés, qui vont devoir réapprendre encore ce qu’ils ont, ce qu’ont fait. T’as parlé de de problèmes qui ressortent. Voilà les 3 bras et les mains avec trop de doigts ou pas assez de doigts, les visages marchaient pas très bien aussi. Je me souviens sur sur c’est que j’ai fait, tu peux nous parler un peu de tout ce qui marche? Pas sûr. 

 

– Nikolaj — 22:40 :

 Y a plein de choses qui marchent pas, hein? Pourquoi est ce que ça marche pas? Commençons par ça. Bah on sait pas vraiment. Enfin on n’a pas un très bon maîtrise où compréhension du problème. On voit qu’il y a des problèmes autour de tout ce qui est corrélation qui pour nous est assez naturel. Tu vois par exemple, on peut avoir des yeux de différentes couleurs dans les images assez facilement, donc il y a un localisation. Dans la génération qui n’est pas forcément propice à que ce soit cohérent à un niveau global quoi y a parce que je mentionnais tout à l’heure les mains. C’est très très difficile. On parfois les les les doigts. Bah se fusionnent. Par exemple, on a les bah, des bouts de chairs au lieu de main ou de doigt. C’est vraiment très très bizarre. Donc la solution à Assad, c’est le surentrainer. Par exemple, certains modèles sur certains partis où certains types de représentations qu’on souhaite avoir. Donc il y a des gens qui font ça, qui font des modèles qui sont hyper spécialisés. Sur des yeux, par exemple, hyper-spécialisés sur les mains et qui, en combinant plusieurs modèles. Réussissent à créer des choses vraiment pas mal du tout, donc c’est assez difficile à avoir. Une image complément libre, on peut dire, OK on sans aucun défaut, sans sans aucun artefact quoi. Mais je suis assez convaincu que ça va s’améliorer. Ça c’est déjà dans les 3 mois que parce que c’est sorti depuis 3 mois hein, ça s’est énormément amélioré. On a vraiment l’impression qu’on est dans une espèce d’amélioration presque exponentielle en fait. 

 

– Marc — 24:08 :

 Ouais ouais, j’avais des problèmes avec le texte, j’avais fait des pompes où je demandais à ce que du texte figure dans incapable d’écrire. 

 

– Nikolaj — 24:16 :

 Quoi des textes? C’est complètement impossible. Presque pour l’instant. Oui, absolument. 

 

– Marc — 24:22 :

 Et alors, comment tu travailles? Parce que quand on fait un prompt et qu’on a une première image, si on le modifie un tout petit peu et qu’on régénère, on a une image qui aura rien à voir comment est-ce qu’on fait pour tâtonner avec cet outil? 

 

– Nikolaj — 24:35 :

 Ben c’est compliqué, hein? Parce que ça dépend de plusieurs choses. Ça dépend du point, ça dépend des paramètres. C’est à dire? Ça dépend des images à l’entrée et le modèle qui sort du surentraînement avec les photos qu’on a utilisées, donc par exemple ce qui fonctionne bien sûr, moi, de fonctions peut-être pas sur toi à la fois, parce qu’on n’a pas utilisé les mêmes types d’une année ou le la même quantité de variétés dans les représentations de nous-mêmes, ou juste tout simplement parce qu’on n’a pas la même morphologie. Tu vois, il y a des choses qui fonctionnent peut-être très bien avec ma tête à moi, mais pas avec la tienne, quoi. Et donc du coup il peut y avoir des projets qui fonctionnent. Bien sûr, on va dire à 80 % des personnes et pas sur les 20 % restants. Donc en réalité c’est assez compliqué. Très, très compliqué même de trouver des pompes qui fonctionnent bien sur la plupart des gens. Donc c’est vraiment oui, c’est, il faut expérimenter, il faut itérer, faut modifier, faut essayer de ce qui marche, retenir ce qui marche le mieux et essayer d’améliorer au fur et à mesure qu’il y a des nouveaux utilisateurs et essayer de mettre en place des bah, des outils qui vont essayer d’identifier des choses qui vont pas, c’est être d’artefacts par exemple dans les impôts et qui te signalent bah là y a potentiellement un problème avec sa Ponta. Ça vaut le coup de le regarder à nouveau, de le modifier légèrement pour l’améliorer. 

 

– Marc — 25:54 :

 Artefacts c’est des bugs, des petits, des clichés dans l’image. 

 

– Nikolaj — 25:56 :

 Ça peut être des clichés, ça peut des déformations, ça peut aussi être parfois. Par exemple, on a un bon rendu, mais ça nous ressemble pas assez parce que mine de rien, on fait des mélanges hein, de ce qui nous rend unique nous et de ce qui est présent dans dans les représentations qui ont été appris par le modèle. Donc parfois il y a des très belles images mais y a un truc qui va pas c’est c’est pas moi, c’est pas mes yeux et c’est pas mon nez. C’est pas voilà. Et donc en fonction du type de problème ça peut être assez difficile à identifier. 

 

– Marc — 26:28 :

 Pour quelqu’un qui veut jouer avec ce genre de choses, découvrir un petit peu, qu’est-ce que tu conseilles pour démarrer? 

 

– Nikolaj — 26:35 :

 Allez sur Dali, vous tapez Dali dans Google et vous arrivez, vous allez arriver sur le laps open AI on mettra le lien dans la description du podcast. 

 

– Nikolaj — 26:44 :

 Voilà, on a des crédits, donc on peut essayer gratuitement. C’est vraiment assez bluffant. Et si on les prend en goût, Ben y a plein de solutions à à essayer. Y a évidemment les fusion en open source qui est disponible sur logging. Face aussi y a des espaces sur hugging face qui est un grand hub de partage. 

 

– Marc — 27:01 :

 Entre le lien également dans l’algorithme open source où on peut jouer avec y a pour les gens qui ont envie d’essayer quelque chose d’un peu face. Il le prise en main par rapport au rendu, j’ai envie de dire y a même journée qui, en termes d’interface, peut-être un peu moins facile parce que c’est pas sûr des scores, mais qui créent des images vraiment bluffantes, ça vaut le coup de l’explorer aussi, qui est également proposé des crédits pour commencer à essayer. Donc on peut essayer gratuitement. 

 

– Marc — 27:30 :

 Ok et un Conseil pour quelqu’un qui a fait tout ça s’est rendu compte des limites et maintenant on voudrait faire des pompes un peu plus efficacement. 

 

– Nikolaj — 27:38 :

 Y a plein de sites qui existent. Ouais Ben je cite notamment prothero qui est très intéressant parce qu’y a des gens qui effectivement qui partagent leurs potes et du coup on voit leur rendu. C’est tous les modèles confondus quoi, c’est stable, diffusion d’aller immédiat, et cetera. Il y a aussi des outils qui existent pour construire des pontes donc j’ai pas lu Real en tête, je crois que ça s’appelle bon, y en a plein qui existent, je vais te trouver une URL pour que pour que les gens peuvent essayer mais qui vont te permettre en cliquant sur les boutons et cetera, de sélectionner un style. Et de l’intégrer dans un projet que t’es en train d’écrire, donc ça peut être assez utile, donc y a tout un univers en fait d’outils et d’y a tout communauté qui a émergé et qui est vraiment très, très vivante et qui enfin ça sort des choses incroyables. Vraiment tous les jours, donc c’est vraiment très intéressant à regarder. 

 

– Marc — 28:27 :

 Ce travail que tu fais donc de prendre des images de quelqu’un, des selfies? Le fine tuner un modèle générer des nouvelles images avec des bons prompts. Est-ce que c’est automatisable? 

 

– Nikolaj — 28:38 :

 Alors on peut automatiser plein de choses. Le début, pour l’instant, n’est pas automatisable parce qu’il y a y a un petit côté petit travail un peu artistique pour essayer de trouver des styles qui vont bien, et cetera. Après, on pourra le faire hein? On pourra aller choper des promos sur des sites qu’on protège. Ouais et cetera, et juste les mettre dans l’algorithme et parce qu’ils sortent donc ce qu’on pourra le faire. Oui, on pourra tout automatiser d’A à Z est-ce que c’est très intéressant de le faire? Je pense pas. 

 

– Marc — 29:06 :

 Perdre la qualité. 

 

– Nikolaj — 29:07 :

 Oui, on perd le côté créatif, le côté un peu plus performant aussi. Enfin c’est, on va perdre en qualité quoi. Clairement pour l’instant. 

 

– Marc — 29:16 :

 Ouais, donc on revient vraiment sur ce qu’on disait, sur la, le côté créatif et le débat de savoir bah si voilà, les artistes se font voler leur travail ou non, c’est un peu comme si on avait une nouvelle technologie. Comme à chaque fois dans le milieu artistique, une nouvelle technologie qui apporte une, une, qui réinvente une nouvelle façon de de faire de l’art. 

 

– Marc — 29:35 :

 Exactement. 

 

– Nikolaj — 29:36 :

 La photographie par rapport au au dessin, voilà le technique de peinture qui ont évolué au fil des siècles. En tout cas, c’est ce que je pense. Moi, moi j’ai vraiment de toute façon, je suis toujours assez Hurley, adaptor pour tout ce qui est techno et cetera. Moi je pense que c’est une technologie qui va accélérer la créativité des artistes. 

 

– Marc — 29:55 :

 Un nouveau pinceau? 

 

– Nikolaj — 29:56 :

 Quoi ouais ouais vraiment, et qui va même? À donner l’opportunité d’être créatif à des gens qui, avant nous dépassent, lancer, qui se croyaient pas créatifs, qui n’avaient peut-être pas les compétences techniques entre guillemets pour se lancer dans la peinture, et cetera, et qu’ils ont un accès plus facile à l’expression créative grâce à ce genre d’outil. Maintenant, c’est une opinion qui, pour l’instant, semble pas être universellement partagée. Hein, je je le dis clairement, même par exemple par rapport à ce que je fais moi avec Evry. Il y a vraiment un bâclage gigantesque qui passe a eu lieu cette semaine ou les gens disent en fait en ligne, il faut pas utiliser ce genre de service parce que les algorithmes qui sont utilisés par les produits sont basés sur du vol. Moi évidemment je suis enfin je suis pas du tout d’accord avec ça. Ben bon je pense que c’est c’est un débat public qui est en train d’avoir lieu à ce moment même et on saura d’ici quelques mois et quelle direction ça va prendre. Moi j’espère quand même on va rester suffisamment ouvert d’esprit pour pas bloquer tous ces nouvelles développements de techno parce que ça sera vraiment très dommage si on sera obligé d’arrêter des nover à cause des considérations éthiques et en plus ont pas forcément très fondé de point de vue technique. Si tu vois ce que je veux dire c’est pas, on n’est pas en train de voler en un œuvre d’un artiste. On est en train de l’utiliser comment input mais dans des milliards d’inputs qui vont influencer légèrement les styles qui sont sortis quoi. Même si techniquement, c’est peut-être possible de reproduire quelque chose à l’identique, mais ce sera un tel hasard. Enfin, je suis même pas comment faire en fait. Donc ouais moi j’espère que le public débat va prendre des directions plutôt en favori. La, l’innovation. Mais on sait jamais, hein. 

 

– Marc — 31:49 :

 Ouais, parce que sur le fond éthique, il y a d’autres enjeux, notamment qu’est ce qu’on va générer? Il y a tout ce qui est usurpations d’identité, éventuellement fait le le Deep fake qu’est ce qu’on pourrait faire comme représentation de quelqu’un d’autre, qui fait des choses? On va aussi avoir tout ce qui concerne les gens décédés, qu’est-ce qu’on fait revivre les gens décédés et cetera? Tout ça, je pense que ça fait des réactions assez opposées. Je pense qu’il y a qui sont très très favorables à ce genre de de choses. Qui pensent que ça peut faire partie du deuil, d’autres qui voilà, est-ce qu’est-ce que tu peux nous partager ton opinion, toi, sur tous ces sujets? 



– Nikolaj — 32:28 :

 Pour parler des images qu’on pourrait générer, des personnes qui sont pas nous-mêmes, quoi des tiers?  C’est vrai qu’aujourd’hui bah si on est quelqu’un de connu, si on a Kanye West, Ouais franchement c’est pas cool, c’est techno un fauteuil de Kanye West en train de faire des choses horribles qui vont réunir sa carrière bien sûr. Bah aujourd’hui, même s’il n’y a pas forcément besoin de beaucoup d’aide sur ce point là, mais aujourd’hui c’est encore une image qui est reconnaissable comme étant fake. Demain, ça ne sera carrément plus le cas. Ouais et en vrai enjeu autour de la vérité. En fait, qu’est-ce qui est vrai, qu’est-ce qui n’est pas vrai? Est ce qu’on peut faire confiance à ce qu’on voit? 



– Marc — 33:06 :

 On commence à avoir beaucoup de de choses sur les réseaux sociaux, de Deep fake sur les réseaux sociaux. Je pense notamment à Elon Musk que j’ai vu un certain nombre de fois en train de de dire des des des des discours managérial ls bien plus hardcore que ceux qui lui-même appliquent et bon bah c’est peut être un peu gros donc on le comprend et cetera. Mais aujourd’hui le Deep fake il est vastement utilisé. Mais peut-être pas encore exposé à tout le monde, ce genre de de de techno va peut-être le le démocratiser un peu plus quoi. 

 

– Nikolaj — 33:34 :

 Absolument et malheureusement, je pense qu’il y aura que 2 et après je vais finir sur ça hein, mais je pense qu’il y a 2 futurs possibles et à un futur ou du coup, à quoi c’est ce genre de problème? Absolument légitime hein? Vraiment sont vraiment des enjeux très très importants. On va peut-être se diriger vers un mode de fonctionnement où on va imposer. On va centraliser l’espèce de censure éthique, où on va imposer en fait de ce qu’on peut faire, ce qu’on ne peut pas faire en utilisant ces technologies, et en 2ème possibilité qui est qu’on va juste. Blesser cette Communauté créative, se développer librement avec tous les dérivés qui vont avec et où ça obligé de passer par une phase de remise en question de la vérité, de ce qu’on lit sur internet, hein? Ce qui est déjà un danger aujourd’hui, mais dont on se rend pas suffisamment compte, je pense, mais ça va se passer sur un échelle tellement massive que ça va être un vrai enjeu sociétal, en fait. Je sais pas sur ce qui se passera mais en tout cas j’espère qu’on va émerger de cette phase, de ces growing pains. Je le vois un peu comme ça en étant, on peut peut-être, je l’espère un peu plus. Résistant à la désinformation, et cetera. 

 

– Marc — 34:49 :

 On devrait s’adapter normalement. 

 

– Nikolaj — 34:50 :

 Si on réellement et si on veut survivre, on devrait s’adapter facilement, ça veut peut match tourner, mais juste pour revenir sur un point que tu as mentionné tout à l’heure de ce qu’on pourrait tellement faire avec des photos de personnes qui sont plus là, de proches qui sont décédés, et cetera. Je suis en ce moment même, je suis en train d’expérimenter avec services un peu plus premium, qui fait exactement ça d’accord, donc, qui te propose de voir ce que tu as en termes de photo de cette personne qui te manque parce qu’il t’a quitté et qui va t’accompagner pour essayer de recréer de nouvelles photos de cette personne pour un peu. Ouais, voilà pour la revoir différemment mais peut être en meilleure qualité. J’ai essayé moi même, j’ai essayé avec des photos des personnes dans ma famille et dans dans la famille de ma  . Et c’est un lieu case qui est à la fois bluffant parce que même si on sait comment ça marche et même si c’est nous qui ont fait le service, c’est bluffant de voir le résultat et je trouve que c’est très touchant quoi. Enfin, moi j’ai été vraiment, j’étais ravi de pouvoir créer des centaines de nouvelles photos de cette personne qui n’est plus là. Enfin, ça m’a vraiment bouleversé. 

 

– Marc — 35:57 :

 Quelque chose? 

 

– Nikolaj — 35:58 :

 Et ça m’a vraiment fait quelque chose et je suis en train d’essayer de voir comment ce que je pourrais lancer ça. Bah forcément, sur un produit un peu plus premium parce que c’est un peu délicat, tu peux pas tout automatiser, donc faut trouver un moyen de de l’automatiser en moitié de scaler tant que faire se peut. Et je suis en train de je suis en trio là-dessus et c’est bah si il part touchant d’avoir des retours des premiers clients qui me disent ouais enfin c’est bluffant, on arrive tu vois, j’avais quelqu’un qui me disait qu’il avait fait pour avec des photos. C’est ma grand-mère qui qui m’a écrit un mail vraiment qui m’a presque fait pleurer quoi. Ça m’a vraiment touché en fait de dire que tu as un tel impact sur la vie de quelqu’un et grâce à ces technos, Bah tu lui as donné quelque chose qui est hyper pression en fait. 

 

– Marc — 36:41 :

 Ouais. Et pour terminer, ce que tu aurais une anecdote ou une ou plusieurs anecdotes à nous partager. 

 

– Nikolaj — 36:48 :

 Ouais enfin, il y en a plusieurs. Je pense que ce qu’on disait tout à l’heure, hein, y a plein de rendus un peu entendus, et cetera, soit à cause des erreurs du modèle, et cetera, soit parce que ça te génère des trucs complément bien entendu là par exemple, la semaine dernière j’étais en train de travailler sur des sites de Noël parce que pour Noël c’est cool d’avoir des avatars un peu dans le thème et j’étais en train d’écrire des trucs et là ça me sort un espèce de bonhomme de neige avec juste la tête de la personne dessus. Avec à côté, à ses pieds un espèce de truc poilu marron, vaguement dit un caca de Noël quoi. Je l’ai pas envoyé au client. C’est un nouveau style que j’étais en train de développer, mais tu dis, mais vraiment, mais c’est surtout quoi enfin, qu’est-ce que le modèle a vu? Je vais même pas savoir après moi. Moi, je développe propre sur ma propre photo ouais donc je pense que j’ai dû créer bah sans sans exagérer plusieurs milliers de photos de moi même dans des styles divers et variés tu vois et en fait ça te fait un effet hyper bizarre presque des sciatiques parce qu à un moment donné tu vas tellement de variations toi-même tellement de représentations de toi-même. Mais non, par exemple, j’ai plus de photos dans mon iPhone de moi-même qui sont complètement fake, qui sont générées par l’i a que des vraies photos de moi même. À un moment donné, tu sais plus vraiment à quoi tu ressembles. En fait, ça te fait un effet super bizarre. Tu vois? Parfois, je vois des photos et je sais pas si c’est un vrai ou un faux. Ouais. 

 

– Marc — 38:13 :

 Quand je passe devant le miroir. 

 

– Nikolaj — 38:14 :

 Ouais c’est Ben, c’est toujours assez décevant, je dois dire mais bon, bref faut peut-être changer de miroir du coup. 

 

– Marc — 38:20 :

 Ça marche, merci Nicolas. 

 

– Nikolaj — 38:22 :

 Merci Marc. 

 

– Nikolaj — 38:22 :

 Vous venez d’entendre Nicolas et gros Nevers sur data-driven One One, merci d’avoir écouté si vous avez aimé que vous voulez nous soutenir, n’hésitez pas à vous abonner à la chaîne, à liker et à partager.