Assistant personnel basé sur l’Intelligence artificielle

Stanislas Polu est notre invité de l’épisode 38 de Data Driven 101. Après avoir revendu sa start-up à Stripe et passé 3 ans chez OpenAI, il fonde Dust, un outil qui permet aux entreprises de déployer un assistant personnel basé sur de l’intelligence artificielle au sein de leurs équipes avec des intégrations simples.

Il partage avec nous sa vision concernant les défis et les opportunités liés à l’adoption de la technologie LLM au sein des entreprises.

Assistant personnel IA, Stanislas polu

 

– Marc — 00:00 :

 Aujourd’hui, je reçois Nataniel Ruiz, PHd de Boston University, chercheur en générative IA chez Google Research dans le département créative Camera, il est le premier auteur du papier Dream Booth qui permet d’adapter un modèle génératif à un sujet en particulier, Bonjour Nataniel. 

 

– Nataniel — 00:17 :

 Bonjour Marc et merci de pour l’invitation. 

 

– Marc — 00:20 :

 Merci à toi. Alors est-ce que tu peux nous parler de ce que vous faites dans ton équipe chez Google Research, en particulier des travaux sur Dream Booth? 

 

– Nataniel — 00:28 :

 Oui, absolument donc du coup c’est un peu une équipe hybride créative camera. Qui est entré au sein de Google Research et en fait, on fait beaucoup de recherches en tant que genre nouvelle technique qui puisse être appliquée à des images, des vidéos, et cetera, qui peuvent donner genre un peu de créativité à l’utilisateur en tant que édition d’image ou création de nouvelles images et en fait au sein de cette équipe, moi je fais plutôt de la recherche pour ce ces nouvelles techniques, mais dans l’équipe on fait aussi de l’application et des produits pour Google photos. Ou pour pixel Gun. 

 

– Marc — 01:06 :

 Ok, et alors donc bah tu es le premier auteur de Dream book qui est utilisé partout aujourd’hui et qui a fait énormément de bruit. Est ce que tu peux nous dire? Bah qu’est-ce que c’est vos travaux sur ce papier et en quoi ça consiste? 

 

– Nataniel — 01:20 :

 Donc l’année dernière, j’ai fait un stage chez Google quand j’étais dans ma dernière année de PHD et en fait, on avait un peu cette idée de personnaliser un modèle pour générer un sujet en particulier dans différentes circonstances, peut-être en changeant le viewpoint et cetera. Et ça vous tient sur Dream Booth et avec beaucoup plus de capabilité qu’on imaginait grâce aux nouvel modèles de diffusion générative. Et en fait, ça consiste en genre. La technique principale c’est de fin toon, un modèle de texture image Generic model. Et pour le nouveau, la nouvelle tâche qu’on avait créée de subject driving génération qu’on appelle, c’est en fait générer en sujet d’un nouveau contexte, et cetera. Mais après, on a réussi à faire de nouveaux styles. De différents styles et beaucoup d’autres choses aussi. 

 

– Marc — 02:14 :

 D’accord, donc un modèle en général ça va être stable diffusion ou un un de ces modèles déjà existants et déjà open source. Et donc quand tu dis un sujet c’est une personne en particulier, c’est à dire que moi j’arrive avec 20 photos de moi et grâce à Dream Booth on va pouvoir apprendre au modèle qui je suis et peut-être l’utiliser dans d’autres générations, c’est ça oui, 

 

– Nataniel — 02:38 :

 Et c’est assez marrant parce qu’en fait on a commencé à penser à l’idée. Genre au début du projet, un l’idée de par exemple de produit par exemple je sais pas, une casquette ou des baskets, et cetera, et essayer de représenter ça dans de nouveaux contextes. Du coup bah on s’était focus sur des objets au début, mais après les gens ont vraiment aimé cette technique pour personnaliser les modèles pour des personnes différentes, pour des visages différents, et cetera. Et ça devenu une application très grande. Ouais bah du coup ça peut être n’importe quoi. Le sujet peut être n’importe quoi, ça c’est un des un des une des la particularité de Dream of. 

 

– Marc — 03:15 :

 D’accord, et est ce qu‘on va dire tu peux nous vulgariser la, l’idée qui est derrière? Comment est-ce que vous arrivez à donc ce modèle extrêmement complexe à partir d’une poignée d’images hein, puisque c’est des modèles qui sont entraînés sur des milliards d’images et là vous arrivez avec une poignée d’images à faire apprendre un sujet. Est-ce que tu pourrais nous donner les clés de lecture de cette méthode? 

 

– Nataniel — 03:38 :

 Absolument ouais, du coup je veux faire un point aussi je pense. T’avais dit, tu utilises table, diffusion ou un modèle open source? À l’époque y avait pas de modèle open source. Quand on a commencé ce projet, il y avait que 2, litres 2 et imagine à l’intérieur de Google et c’est aussi pour ça qu’on a pu genre imagine était un être est un très bon modèle. L’époque était un très beau modèle donc on a pu utiliser cette technologie très tôt par rapport à d’autres personnes donc ça a aidé beaucoup pour la technique. En fait c’est assez simple, c’est genre l’idée derrière Dream book c’est assez simple mais je pense que la conceptual keep pourra arriver à drink boot c’était pas si évident, c’est ça ce qui était genre un peu la l’enjeu, là, dans nos projets et en fait on fait du find tuning de tous les watts du modèle, c’est ça c’est le du train boot original. Maintenant on peut faire du find tuning de certains paramètres ou de certains layers et on fait enfin tuning tous les paramètres du modèle, surtout du net, du modèle de diffusion avec un 7 d’images qui est assez réduit en fait comparé à d’autres activités. Enfin avec des Gan on pouvait faire du fun tuning pour des personnes. Sur des centaines d’images. Du coup, ça prenait vraiment beaucoup de temps et on détruisait complètement le prier de du Gan ailleurs que pour le visage particulier dont on personnalisait. Et là on a vu que bah des fois on avait besoin que d’une image et maintenant avec des techniques nouvelles, Masters et cetera, t’as besoin que d’une image avec Dream Booth pour personnaliser sûr pour certains sujets, mais on peut aller jusqu’à 5. C’était le. La norme à l’époque est maintenant si tu peux aller jusqu’à 10. Enfin et après si t’as des concepts un peu plus larges, genre le style, les gens sont rendus compte que tu peux utiliser Dropbox. Faut pour faire fin tuning pour des centaines d’exemplaires et c’est là que tu apprends des choses plus compliquées comme le style et du coup bah l’idée c’est juste faire fin tuning avec la le diffusion Lost, la diffusion de Noisy Lost en fait comme entraîner un modèle de diffusion de from scratch mais en fait je suis en train de find to this modèle. Et une des clés, c’est régler les paramètres pour pas over feat très vite et pour avoir un peu d’early Stopping, genre du early Stopping pour garder le prier du mode modèle pour pouvoir genre générer de nouvelles View de l’objet et cetera. Nouveau style, l’objet dans des nouveaux styles, mais aussi avoir réussi à prendre le l’objet ou le sujet et le mettre dans le nord domain du modèle peut être le modèle à vraiment genre dans 99 % des cas il a jamais vu un objet au sujet exactement comme le celui que tu lui donnes donc c’est ça en fait en fait la capacité qu’on donne au modèle. 

 

– Marc — 06:26 :

 Mais alors comment est ce qu’on fait justement pour ne pas toucher aux prieurs si on prend une image et qu’on fait un entraînement classique, une pas de propagation classique, on va a priori supprimer tout ce toutes ces connaissances acquises parce qu’on aura touché au poids dans la mauvaise direction, comment on fait pour Ben contraindre cet entraînement à ne toucher qu’au poids qu’il faut toucher et que dans les proportions. Qu’il faut toucher. 

 

– Nataniel — 06:54 :

 Je pense que ça c’est un problème qui a pas de solution exacte, même maintenant une année après Dream Booth et en fait il y a 2 façons de le voir il y a une façon où tu fais un truc, quelque chose de très genre un processus un peu artistique quoi. Ou tu choisis l’hyper paramètre bien et tu peux avoir quelque chose ou le modèle a pas oublié son prier et il a appris le nouveau sujet. En fait tu fais ça avec du early Stopping et en train de. Right de façon appropriée, maintenant tu peux faire des trucs un peu plus avancés, genre avec Laura Dream bus, genre c’est juste Dream boot avec Laurence et tu fumes une que les surfactants cross tension layers. Tu peux ajouter une régularisation L 2 sur les layers et ça aide beaucoup à pas que la norme n’explose pas. En fait c’est quand la norme explose pour les updates que tu oublies le prier ça c’est une façon de voir une autre façon de voir c’est aussi on a une partie dans notre papier original. Qui s’appelle prière, préservation loss et c’était une façon de pas avoir le phénomène qu’on appelait language drift. C’est qu’en fait le modèle vu que tu lui donnes une phrase spécifique, ça j’ai pas mentionné mais en fait comment tu finis tôt le modèle parce que c’est un modèle de texto image. Il a besoin d’un prompt d’un texte donc il va avec l’image en fait ça c’est aussi une partie que était pas évidente à trouver pour notre projet et en fait on a réussi à trouver une recette en fait qui marche très bien. C’est d’utiliser le texte a et vie et après le class name de ton sujet ça peut être evy Dog, where is en fait un where I tarifier c’est juste un string qui a pas un prieur très fort pour le modèle de diffusion et du coup C’est ça qu’on a trouvé ça c’est une des un novelties ou innovation de notre projet en fait et. 

 

– Marc — 08:49 :

 Qu’est-ce que tu appelles et vie? 

 

– Nataniel — 08:51 :

 Donc c’est une VA genre un 1V visage en quelque chose comme ça et en fait V ça correspond par identifier et le redensifier c’est un peu comme donner un nom à ton sujet en spécifique et c’est le nom de du sujet. Il doit pas être très reconnaissable par le modèle de fusion avant que tu commences entraîner comme ça tu mélanges pas de concepts en fait et ça c’est une des innovations qu’on a à proposer en fait. 

 

– Marc — 09:19 :

 D’accord. Donc, dans le texte utilisé, utilisé un mot qui a jamais été vu par le modèle pour être sûr que ça soit confondu avec rien d’autre. 

 

– Nataniel — 09:29 :

 Exactement et du coup je reviens sur le concept de language juste en fait c’est que quand tu entraînes le modèle de cette façon, par exemple tu essayes d’Insert ton chien? Non le domaine du modèle en fait tu commences à oublier la le concept de chien en fait parce que chien ça fait partie de la phrase que tu utilises là et du coup ça s’appelle Language drift et en fait, des fois on veut que le modèle puisse générer ton chien, mais aussi à notre chien dans la même photo, et cetera, dans la même image. Et du coup bah pour ça on a créé le processus qui s’appelle préservation avec le prix Préservation Lost. Et en fait on génère plein de photos d’autres chiens et on mélange ça dans le training avec un texte approprié sans le redensifier. En fait, ça marche assez bien pour pas perdre ce prier et pour avoir plus de diversité dans les images à la fin en termes de pose et là living et cetera, mais tu perds un tout petit peu de subjectif Fidelity, donc c’est un peu moins consistant en termes de retrouver exactement les détails de ton sujet. Donc il y a un peu un give and take et ça dépend de l’application ou des fois ça marche très bien et des fois ça marche moins bien et il y a des gens qui l’utilisent dans des domaines et après y a des gens qui l’utilisent pas. Mais on considère ça en fait dans notre talk de suivi PA et dans notre Paper, on considère ça comme un addon pour l’algorithme en général en cet algorithme central, c’est ce que je venais d’expliquer. Préservation assez quelque chose d’impuissant en fait. 

 

– Marc — 11:03 :

 D’accord, et dans une seule photo quand tu donnes une seule photo, comment est-ce que tu fais pour être sûr que le sujet est bien celui que tu veux d’une part, mais aussi que les caractéristiques qui font que c’est un sujet. Soit bien comprise par le modèle. Par exemple, tu parlais de pause ici mois j’apparais avec une certaine tenue et dans une certaine pause sur une photo. Comment est-ce qu’on fait pour que le modèle n’aille pas toujours me mettre dans la même tenue, toujours mettre dans la même pose? Comment est-ce qu’on fait pour lui faire comprendre que ce qu’il faut c’est le visage? Ce qu’il faut c’est Ben quand tu parlais de basket, tu parlais de produit tout à l’heure, voilà comment on fait pour identifier le sujet proprement. 

 

– Nataniel — 11:48 :

 Bah déjà si t’as qu’une image en fait. La façon de vraiment faire marcher ça de façon consistante, en fait, c’est avec du Masking, soit dans l’image Space ou tu masques l’objet ou le sujet ou dans le Lost Space pour les. Pour ouais soit le Pixel Palacete de fusion Molo ce soit. 

 

– Marc — 12:09 :

 Caché, oui, caché ce qui n’est pas ce qui nous intéresse. 

 

– Nataniel — 12:12 :

 Voilà, c’est ça et ça marche très bien. Mais ouais, en fait, le défi je ne mal sont assez bons à si tu fais du Hall Stopping pour Dream boot comprendre. Ah aussi il y a une 2ème chose que je veux le dire en fait c’est le the class dans notre prompt qu’on utilise et vie Dog le mot dogue en fait ça aide le modèle à localiser le sujet dans l’espace en fait, et à apprendre ce sujet-là en fait c’est il y a de l’attention qui va sur le Dog Hereos parce qu’en fait maintenant on sait, on savait pas. À l’époque on avait un peu une intuition, mais maintenant on sait que le diffusion peuvent faire de la segmentation ce moment et segmentation avec des mots genre si tu lui donnes la phrase et il Dog et tu lui donnes une image de Dog et tu fin toon. Tu peux voir des activations sur les sauveteurs cross attention spatiales sur le chien, donc ils savent où le chien est et du coup bah ils arrivent à prendre mieux le concept de chien c’est pour ça que ça marchait comme ça maintenant avec le masking y a moins besoin de ça apparemment. Voilà c’est une méthode nouvelle. 

 

– Marc — 13:22 :

 Ouais est important, c’est à dire que le caption qu’on donne avec l’image, si on a une seule image, on va quand même faire attention à donner un caption dans lequel on va fournir. Donc utiliser 1ID entre guillemets une référence à cette à ce à ce nouvel ce nouveau sujet. Qui n’a jamais été vu avant? Et puis on va quand même le qualifier de ce qu’il est donc par exemple, si c’était moi, on dirait. 

 

– Nataniel — 13:45 :

 Une personne face. 

 

– Marc — 13:47 :

 Ouais, une personne marque, c’est ça, d’accord ouais mais je pense que c’est moins utile maintenant qu’on a du masking. Peut-être le masking, c’est déjà une très bonne solution. Problème, et on a pas besoin de class name maintenant il y a beaucoup de gens qui utilisent pas de class name maintenant et apparemment ça continue à marcher. 

 

– Marc — 14:09 :

 D’accord, et donc tu nous parlais des améliorations, notamment de l’aura, donc ce qui permet de faire des modifications, donc de le de faible rang, c’est-à-dire des petites modifications sur le modèle quand on fait un fin tuning sur James bout, ça a eu un gros impact, c’est l’arrivée de Laura. 

 

– Nataniel — 14:27 :

 Oui bah en fait Laura c’est une méthode qui avait été créée pour les large language models où ils avaient déjà des galères. À fin tune, le modèle et du coup bah l’idée est assez simple, c’est que tu décomposes Ben en fait t’as des layers qui sont linéaires, beaucoup de layers qui sont linéaires dans les Transformers et du coup Tu prends liner Layers de Cross extension self. Attention d’habitude c’est les projections layers de qui équivalent et en fait tu décomposes ce layers en 2 matrices et les matrices sont de low rank sont rectangulaires et sont de l’orange et du coup tu diminue la proportion de paramètres d’en fait, tu conserves la le la matrice initiale pour les watts du Liner Layer, mais après ton update va être Lawrence en fait et tu contrains ton update to be low rank et du coup Bah tu peux avoir très peu de paramètres comparés à toute la grosse matrice en fait, mais ça réduit le la complexité ou la l’espace dont tu peux jouer pour faire l’update materi c’est mon hypothèse, c’est qu’y a tellement de linéaire layers. Dans ces modèles là et que bah déjà ça marche très bien avec ça, même avec du Laurenc Update et ça marche très bien pour le language models et c’était assez connu. Je pense que ça commençait à devenir assez connu pour le Language models mais on a un peu cette coévolution entre l’engagement et de fonctionnement, ce qui est super intéressante en fait. Bah on a dans certains diffuseurs on a des langage moll, genre imagine qui a le taf avec sexuelle model pour Prom conditioning, mais aussi genre tous les 2 sont des modèles assez gros en général. Et du coup Bah t’as des techniques que tu inventes bah en fait notre technique aussi inspirée sur ce qui se passe avec les Language models. Moi j’étais assez inspiré par ce qui se passe sur le langage malls, mais en revenant à la question en fait bah c’est une technique qui était appliquée au langage MLS et y avait un Paper y a genre un an et demi ou 2 ans peut-être maintenant et mais après Dream book qui était la première façon de vraiment insérer un sujet dans le modèle de diffusion. Ah bah les gens ont commencé à utiliser ça beaucoup, mais une des faiblesses de la méthode c’était qu’on tous les watts après c’est aussi une surprise parce que Bah mê me sans régularisation, juste avec Girly Stopping, on arrivait à find all weights et on arrivait à des très bons résultats. Mais après y a un report spécifiquement online qui a mixé les 2 idées. En fait pour le diffusion morose, Laura est Dream Booth et du coup bah je pense que toujours le cas c’est on en fait Dream Booth mais avec des lawrens adaptations et c’est juste en fait contraindre les layers que tu updates à sauf attention cross. Attention alors qu’avant updater toutes les attentions, layers et les convolutions layers et maintenant juste ces layers là et tu fais un low rank update pour ces layers et en fait la surprise d’y a une autre surprise c’est que ça marche très bien pour Yvan. Very low rank genre un 32 genre des chiffres assez bas en fait et du coup bah le modèle il va de pour se diffusion et t’es genre chaque fois il fallait. Enregistrer un modèle d’un point 2, Gigabyte, Gigabyte c’est maintenant le modèle est genre tens of mégabytes ce qui est vraiment beaucoup plus pratique ça peut avoir genre. Il y a pas une bonne étude de quelle méthode est plus puissante hein? J’imagine que toujours genre Dream boot bien fait, peut-être plus puissant et apparemment maintenant avec ce démo diffusion Excel on voit que les premières repository en fait ils font du full fin tuning Dream Booth et mais maintenant ils essaient d’appliquer Laura et voir si ça marche. Donc du coup je pense toujours que drink boot bah c’est la chose à essayer en premier et après si tu peux faire du Laura Dream boot ça peut marcher aussi très bien et mais ça dépend beaucoup du modèle j’envoie. Beaucoup de différence entre des modèles et il faut réapprendre beaucoup de leçons quand on change de modèle d’un modèle à un autre. 

 

– Marc — 18:32 :

 Alors on va y revenir, mais peut-être si on prend un peu de recul, est-ce que tu peux nous parler de à quoi ça ressemble? Bah tes journées chez Google Research comment ce projet est arrivé à toi? Quelle est la vie d’un chercheur chez Google? 

 

– Nataniel — 18:49 :

 Seven am, je prends une Call shower now. Non je, ça change tout le temps en fait. Pendant que j’étais un stagiaire, je faisais qu’un projet de recherche en fait. J’étais focus sur ça, maintenant, j’ai plein de projets de recherche ou je peux faire un supporting roll. Je peux en donner des idées. Je peux faire du riding et moi j’ai toujours aimé faire plein de trucs différents donc bah c’est pour ça que j’aime bien la recherche en fait tu es la personne qui est à l’idée. Après t’es la personne qui crée la collaboration, t’es la personne aussi qui fait le Coding experiment. C’est après qui écrit le Paper, et cetera, et donc moi je suis très passionné par toutes les étapes de la recherche et Bastien un peu comme ça déjà genre pour la recherche, ça continue à être très similaire à faire un doctorat pour moi on a une idée, on forme une équipe et si c’est moi qui lead le projet, Ben en fait moi je vais faire le la plupart de l’implémentation les experiments mais ouais mais ça peut être aussi moi en tant que genre advisor pour un projet ou genre collaboration. Ça, c’est pour la recherche, c’est la partie qui me passionne le plus et maintenant je commence à faire un peu plus de produits, donc implémenter ces nouvelles techniques pour des produits Google c’est un skill set assez différent que j’avais pas mais qui est super important je pense parce qu’en fait c’est nouvelles technologies, ils vont sont déjà en train de changer le monde et on veut vraiment mettre cette technologie dans les mains de beaucoup d’utilisateurs pour qu’elles changent vraiment le monde. Parce qu’en fait je pense que chez google Research on a beaucoup, on est en fait pour diffusion Morel, j’ai l’impression qu’on est vraiment dans un très bon endroit en fait. Genre on a beaucoup de meilleurs papers qui sont sortis la l’année dernière. Sont de personnes qui sont chez Google full time ou sont affiliées à Google genre String Boosté drop et après aussi genre plug and play et genre prompt to prompt no texte en version genre beaucoup de personnes que je connais à l’intérieur de Google qui ont changé le landscape de diffusion Mans donc ouais et maintenant Google veut appliquer ces techniques ces produits. Et Bah ouais, une journée en général c’est juste ça dépend. Bah c’est des fois c’est des meetings pour a commencé à impulser tout ça, des fois c’est beaucoup de coding et en train de faire des experiments et y a des phases en fait où ça dépend de la phase de ton projet. Mais c’est sûr que cette différent que le doctorat, parce que j’ai l’impression que j’ai beaucoup plus de trucs en même temps qui sont dans des phases différentes, alors que dans le doctorat, je sentais vraiment que mon année était marquée par les étapes de mon projet alors que là, bah j’ai plusieurs projets qui sont dans des étapes différentes. Oui. 

 

– Marc — 21:42 :

 D’accord. Alors est-ce que tu peux nous parler un petit peu de ce que vous avez tenté? Qui aurait pas fonctionné dans les recherches? Dans ce domaine. 

 

– Nataniel — 21:50 :

 Oui bah y a plein de choses qui en fait. On avait une très bonne intuition. Je pense que ça allait marcher pour une raison ou une autre. Moi je voyais beaucoup les lodge Language models qui marchait très bien avec du printing à l’époque. Je pense que c’était du petit, c’était pas toujours chat GPT donc c’était GPT three et les gens étaient très. Et pas think et les gens étaient très intéressés à comment ça marchait et avec les printing, tu pouvais avoir de nouveaux résultats donc tu pouvais lui faire road play in the Scientist, ça donnait des meilleures réponses comme ça et du coup bah il y avait du in context learning et moi je me suis dit bah si y a du in context learning pour les large language models on va pas pouvoir exactement faire ça avec le défi je ne m’en mais de prompt is going to be important. Et du coup bah l’idée c’était de construire un print pour identifier ton sujet spécifiquement après l’idée de fin tuning, il y a eu des travaux de fin tuning pour les gans. Avant le diffusion morose et en fait ça marche. Le problème avec le Gan c’est que tu as du mal collapse très vite avec très peu d’image. Du coup il y avait besoin de beaucoup d’images. 

 

– Marc — 23:06 :

 Est-ce que tu peux, est-ce que tu peux expliquer? 

 

– Nataniel — 23:08 :

 En fait, dans ce cas-là je réfère à ça comme du over feeling pour les 3 4 images que tu as et du coup tu perds tout le Prieur et après tu peux pas créer des variations de ces images et mais je m’étais dit peut-être avec le défi je mal, c’est un peu différent, genre le Training et en fait c’est comme pour diffusion model, c’est un peu comme apprendre beaucoup de tasks différents en même temps tu peux considérer toutes les Dino easing steps commettre un Task différent. Donc du coup pour moi de Lost is like weaker and Simpson doesn promo over feeding as much. C’est pour ça que tu as un peu de diversité aussi je pense. Et du coup bah ces 2 idées là ont abouti à essayer de faire ça. En fait on a essayé de choses comme. Qui était plus compliquée, genre heavy Dog at the Beach bla bla, genre d’écrire toute la scène pour que le modèle il comprenne toute la scène et genre fasse une abstraction de tout ce qui est pas le Dog en fait parce qu’en fait tu lui donnes une scène Dog the Beach et tu lui donnes une scène Dog at the Park et Ben pour que le modèle puisse faire une abstraction de des 2 environnements en fait et en fait je me suis rendu compte très vite que ça on n’avait pas besoin de faire ça. On avait que besoin de faire un truc très simple comme ça. Et Evy Dog. Après, j’ai eu des choses pour le l’identifier, je sais plein de trucs et. Des mots qui existaient, marchaient pas bien. J’ai essayé de Random String of caracter, ça marchait pas très bien parce qu’en fait le modèle qu’on utilisait ça dépend beaucoup du token izé et du modèle de langage et le modèle qu’on utilisait imagine avec un modèle de langage qui avait des Strong prier pour ces strings of tokens. Du coup on a enfin fallait trouver des mots qui avaient pas un Strong priori, ça a aidé. Et ouais à un moment on essayait de faire quelque chose comme apprendre. Bah ça c’est une technique très classique pour les. Qui est ce genre tune à part of the prompt, donc learn the binding of the initial part of the prompt pour mieux répondre à ce qui vient après et ça marche super bien. Les résultats étaient très bons en fait, ça c’est la technique qui m’a inspiré à faire tout ça. Mais au lieu de faire le tuning sur le print, on a fait le tuning sur les paramètres du modèle et en fait Prom tuning c’est bah presque exactement ce qui est textuel version et du coup bah. 

 

– Marc — 25:36 :

 Est-ce que tu peux expliquer ce que c’est oui, 

 

– Nataniel — 25:39 :

 Donc section version, c’est un apprendre l’embedding pour un mot qui va décrire ton sujet et du coup bah pour essayer de répliquer ces sujets dans de nouvelles formes et de nouveaux contextes, et cetera. Donc c’est une idée assez similaire à Dream of qui a été parue genre 2 semaines avant notre Paper, mais en fait une limitation très grande c’est que Bah tu fais de l’optimisation que sur un token sur le building d’un token au lieu de faire de l’optimisation sur tous les paramètres du modèle du coup Bah tu peux pas modifier l’output domain of the model. Bah en fait si le modèle il arrive pas à reproduire cette image, il arrivera jamais en fait mais texture version c’est très similaire à Prom tuning pour Language models et on voulait faire ça mais après genre on avait appris que ce travail allait sortir bientôt. On a fait un peu un pivot dans l’autre idée qu’on pensait qu’il allait marcher. Ça a marché très vite et après bah Ouais end of Story mais c’était super. C’était un une sensation incroyable en fait, parce qu’un Dream Blue marchait très bien dès le début et pouvait faire des choses que j’imaginais jamais qu’on arriverait à faire. Et c’est pas que grâce à drink food, c’est grâce au modèle de diffusion. C’est en fait tout a changé le moment où genre ces 2 équipes open Day et Google. On commence à faire de la recherche sur les modèles de diffusion large et le jour où d’altitude et imagine on était un release, ça a tout changé parce que maintenant on pouvait faire. On avait des modèles qui pouvaient générer des images qui étaient pcl photorealistic et parce que c’est là qu’on s’est rendu compte qu’il fallait faire du modèle de diffusion au lieu de faire des gains. Et c’était le bon choix. Au lieu de faire transformer Best Generic of Models qui était en train de devenir aussi populaire. 

 

– Marc — 27:30 :

 Donc, pour utiliser efficacement Dream Booth, on sait quand même qu’entre. Bah les grandes avancées et reproduire ces grandes avancées, y a toujours un petit peu un gap est ce qu’il y a des astuces à connaître sur les bonnes pratiques? Comment est ce qu’on fait? C’est vrai qu’aujourd’hui y a finalement assez peu d’outils sur étagères qui permettent de mettre son propre visage dans une image générative qui soit vraiment très propre, et cetera. Ce que t’aurais comme conseil à nous donner si on voulait utiliser de film Booth pour faire ça. 

 

– Nataniel — 28:02 :

 Bah du coup le premier conseil c’est d’aller chez Google cloud et on a déjà un produit qui permet de faire Dream boot et style drop. Il est appelé Imagine Fine-tuning for subject style et Ben si on n’est pas une personne qui a beaucoup d’expérience avec ces technologies, bah c’est très facile de le faire là-bas et d’avoir ton propre modèle et de générer de nouvelles images. Donc pas Dream foot and style drop sont des produits. Oui stand up c’est notre travaux qu’on avait fait, c’est faire de tu en fait du fin tuning pour des styles et ça marche très bien avec très peu d’images et tu peux générer de nouvelles objets ou des phrases, et cetera avec le style spécifique que tu cherches. L’idée est très similaire aussi à dreamz. Mais du coup bah ça c’est la première astuce aller Google cloud on a déjà le produit qui est launched. 

 

– Marc — 28:55 :

 Et il y a déjà un produit sur GCP qui permet de faire ça de façon shameless, c’est ça. 

 

– Nataniel — 29:01 :

 Et l’autre, mais si on si on a besoin de faire ça d’une manière open source ou genre modifier le la technique, et cetera, je pense y a des très bons repository online, surtout des repository qui font Dream with Laura. Il y a aussi des repository qui font cet album mais je sais pas s’ils sont déjà finis. Et pour cette diffusion One point five, je pense que les gens ont vraiment réussi à trouver de très bons hyper paramètres qui marchent très bien pour l’instant c’est diffusion Excel, c’est toujours en course. Mais oui en fait tuning les hyper paramètres c’est important et surtout moi je dirais bah il faut tout ne learning rate et il faut pour le Boot the Unit in Texting coder différemment ils doivent être de learning différent de d’habitude le texting coder en lease 10 fois moins puissant que l’unit. Après on tourne les le nombre de d’itérations. Et le batch size des fois batch size un ça marche très bien aussi, mais juste ajuster le nombre d’itérations pas beaucoup. Genre 1400 à 1000 quelque chose comme ça marche très bien 1200 et après? Bah juste bah on a la seule façon maintenant de vraiment évaluer des résultats de façon genre constante, c’est qualitativement pour moi donc faire ça pour beaucoup de sujets et beaucoup de styles ou quoi que ce soit et commencer à voir si ça marche très bien pour ton projet spécifique. 

 

– Marc — 30:26 :

 C’est pas la première personne à me dire que c’était rediffusion. Ouais, One point five et meilleur que pour utiliser Dream Booth, que ça marche mieux sur l’un point 5 que sur ceux d’après. Comment tu expliques ça laisse-moi clarifier, en fait ces gens, un style de fusion One point five marchait très bien, mais stylo de fusion two point Oh marchait pas très bien. C’est pas parce que le modèle est différent ou quoi que ce soit. C’est juste qu’en fait on avait perdu plein de styles, que les personnes vraiment aimaient utilisaient pour cette diffusion Bruno, et c’était pas nécessairement un meilleur modèle, c’est juste. Ils étaient en train de partir. Dans un nouveau data SET avec un nouveau clip model donc il y a beaucoup de choses qui ont changé. Les personnes utilisées pas très bien ce modèle et c’était un peu plus dur à utiliser j’ai l’impression, mais c’est bon de fumer Excel à pas ces problèmes là, mais maintenant c’est peut-être des problèmes algorithmiques ou de hyper paramètres qui doivent résoudre. Mais j’ai vu des résultats exceptionnels déjà avec cette diffusion Excel c’est juste il y a besoin d’un tout petit peu plus de temps pour maturer la technique, mais pour cette diffusion en preuve ça marche très bien parce que bah les gens ont trouvé les hyper bah mètres mais aussi les styles étaient genre c’était très facile de steal the model into where you want to ouais et ouais, des dernières techniques pour les non-initiés qui marchent très bien. C’est le masking en fait. Masking je pense, c’est maintenant, c’est. Une des choses les plus importantes et surtout si t’as très peu d’images. 

 

– Marc — 31:52 :

 Alors quelle est l’application de Dream Bruce que tu préfères de toutes celles que t’as vue depuis la sortie du papier, qu’est-ce qui t’a le plus? 

 

– Nataniel — 32:00 :

 Plu moi je pense que c’est dur de pas préférer le. Art styles, parce qu’en fait, avant de reboot, on pouvait faire du style Transfer donc on pouvait prendre une photo et on pouvait transférer un du style un nouveau style sur la photo. J’en veux un, gog et cetera, mais on pouvait jamais faire de nouvelles photos ou images d’une personne avec un style spécifique. Et ça c’est un truc qui est complètement nouveau et qui a commencé avec Dream Booth et on peut faire ça avec des sujets aussi. J’ai un chat, un chien ou genre un objet et ça c’est assez incroyable. Parce qu’en fait, on a rajouté une façon de contrôler le modèle pour avoir ce que tu veux un peu, mais toujours avoir cette liberté de style. Pour moi, c’était un des moments où j’en je pouvais pas croire ce qu’on faisait en fait quand on faisait ça en internement à Google, il y avait un petit chien de la directrice de notre projet et avait plein de photos de ce petit chien. Et elle m’a dit, si je pouvais essayer de faire dingo sur le chien, et bah je l’ai fait et j’ai fait un vango stylo impression style pour le chien et bah c’était en fait. Pas du tout, ça ressemblait pas du tout à aucune des photos du chien exactement. Genre pas le même pose, même le zoom était complètement différent, et cetera. Et c’était dans un style genre c’était pas 20 Go, c’était mené en fait et on dirait genre waterlilies de monnaie avec le petit chien là et c’était mais c’était le même chien parce qu’il avait le même color et tout et ça m’a vraiment genre ému ça genre ça m’a c’était la première fois que j’ai senti que de l’art d’IA pouvait genre Move émotion et a person. Et bah c’était juste un Random quoi. Genre j’ai même pas fait un truc de fou, j’ai pas passé des journées des journées à essayer de trouver quelque chose qui était vraiment bon et du coup bah là j’ai reconnu qu’I art peut-être genre une des nouvelles façons de faire de l’art et je suis devenu assez passionné pour ça. Et du coup bah je pense que ça c’est un une des applications mais plus largement je pense qu’inspirer aux gens dans cette direction de personnaliser des modèles pour faire des certaines choses je pense. C’est gigantesque en fait. C’est ça que Dream boot le pouvoir vraiment dans le domaine de la recherche l’application c’est ça que DRH a fait, c’est d’inspirer les gens à essayer de personnaliser le modèle de façon très différente et même ça affecté je pense les langages moral ce que maintenant il y a beaucoup de personnalisation de modèles en tant que Laura et cetera. Parce que bah c’est un peu le Zeitgeist, genre tu vois quelque chose qui marche bien quelque part et après tout le monde a des idées qui découlent de ça en fait. Et ça c’est ma chose préférée de trimbale? 

 

– Marc — 34:42 :

 Est-ce que t’as une anecdote à partager avec? 

 

– Nataniel — 34:44 :

 Nous je pense que je peux partager une anecdote de quand on faisait l’entre commençait à faire dring Booth pendant mon stage qui était super cool. C’est le moment où genre Dream foot a commencé à marcher avec des low résolution images genre le modèle d’imagine avait 3 modèles en fait un modèle qui allait de texte à soixante-quatre fois soixante-quatre pixels après un qui allait à 256 et après un modèle qui allait à TEN Ten twenty four et du coup Bah j’ai essayé de find toune. Le modèle de texte à 64 avec de l’art de ma mère, en fait, elle fait des mandalas avec du pointillisme et j’avais une et j’avais pris plein de photos de la mandala et en fait, j’ai réussi à genre reproduire cette bande là dans l’at the Beach Mandala, the Beach et ça marchait très bien et je me suis dit genre C’est impossible, j’en on voit la même le même objet et à la plage et après j’ai commencé à faire des trucs plus fous quoi, genre je sais pas genre. Sur une Red Velvet clash ça marchait et après j’ai fait sur un bâtiment et ça a fait une mandala gigantesque sur un bâtiment et j’ai fait non ça c’est fou genre et j’ai envoyé des photos genre à mes parents. J’ai dit wow OK de ça va être un exo quoi. 

 

– Marc — 36:05 :

 Est-ce que tu as une opinion à nous partager? 

 

– Nataniel — 36:08 :

 Je pense que je peux partager une opinion sur la recherche de modèles de génératifs de d’images. C’est que maintenant je pense que diffusion Malo sont super forts et ça nous a donné. J’en ai aperçu de ce qu’on peut faire avec ces modèles, mais je pense qu’il y a probablement des modèles qui sont meilleurs que des fusionnement halals, soit des nouveaux modèles qui peuvent être créés bientôt ou soit des modèles qui existent déjà mais qu’on n’a pas réussi à Harnes. À 100 % et du coup bah en fait pas, peut-être pas plus puissant mais en fait meilleur dans d’autres caractéristiques, par exemple du fusionnement lançon assez difficile à contrôler de beaucoup de façons en fait, et aussi tant d’inférence et assez lent, même si tu fais un distillat Morel, tu fais beaucoup de Ford pass chaque fois pour générer des images et du coup BAH le fin tuning aussi est lourd, et cetera. Du coup je pense qu’il y a une chance de voir si les autres modèles peuvent être aussi bons que difficilement. C’est intéressant pour moi je pense. 

 

– Marc — 37:11 :

 Legan, par exemple. 

 

– Nataniel — 37:12 :

 Vous voyez peut-être legan, en fait legan ont des propriétés qui sont très intéressantes. C’est inférence est très rapide et le latin Space est très facile à naviguer, mais peut-être les choses intéressantes aussi font qu’ils soient pas aussi bons que le diffusion balance pour l’instant. 

 

– Marc — 37:32 :

 Parce que la diffusion modèle, on a cette capacité en qui sont un peu incontrôlables, c’est vrai. Comment faire des petites modifications? C’est très compliqué, mais on les contrôle un peu avec le prompt avec le texte. Mégane, on a jamais vraiment réussi à les contrôler. Non je. Ouais. 

 

– Nataniel — 37:50 :

 Je pense que maintenant il y a des textes Mégane qui marchent donc c’est possible je pense intéressant. 

 

– Marc — 37:56 :

 Est-ce que t’as des travaux en cours ou depuis Dream book, des travaux dont tu voudrais nous parler? 

 

– Nataniel — 38:01 :

 Ouais bah je peux faire un plug à toutes les choses qu’on a fait depuis bringolf bah Dream book c’était l’idée principale. C’était autour de subject driving génération. C’est de générer un sujet dans différents contextes, différents styles et ça marchait très bien. Mais il y a certaines choses. Après j’avais dit qu’après le prochain projet qu’on a fait dont j’ai participé, c’était pour le 3D En fait, faire un œuf, un style Dream fusion en fait. Avec Dream Booth. Genre mélanger ces 2 projets là et on a fait ça avec l’équipe de 9 de Google et en fait on a réussi à faire genre le premier travaux qui arrivaient à générer un sujet dont on avait genre très peu de photos de du sujet en 3D avec un nurse et c’était super cool. Ça va être présenté à ici Sylvie et puis après gringo 3D il y a un travail sous Tea qui est basic fast, objectivement génération et. Ça, c’est aussi. J’ai collaboré sur ce projet là et maintenant on utilise pas mal et c’est en fait pour générer ce faire Dream boot mais dans un Ford pass du modèle et ça a besoin de beaucoup de training. Mais après tout le training ça marche très bien. Après il y a d’autres 2 projets qui sont super cool, un style drop en fait j’avais dit que pour un Dream boot c’est un peu plus dur de retrouver le style et des fois on a besoin de plus de genre centaines d’images et d’un training très précis. Mais pour style Drop, c’est en fait une idée très similaire à Dream boot de fin tuning des adapters mais on fin toon pas en diffusion model mais en transformer base Generic model. Et en fait il capture le style d’une façon incroyable, même avec une image, donc on peut générer des objets, des sujets, des lettres, et cetera. On peut générer un peu ce qu’on veut avec le style, avec le nouveau style qu’on veut en fait, qui est inspiré d’une image, ça c’est super cool. Et finalement mon dernier travail, c’est hyper Dream Booth et en fait c’est mélanger un hyper Network avec Dr Booth avec une image uniquement. On arrive à générer des watts qui vont des paramètres qui vont dans le modèle de diffusion pour le personnaliser. Et après un Quick find tuning en fait ce qui dure 20 secondes total. On a un personnage model qui marche très bien, du coup ça passe de faire 5 minutes de Dream boot training à 20 secondes et le modèle est beaucoup plus petit. Genre il a 1000 fois plus petit. Je pense qu’un modèle de Dream Booth, un général et les gens de l’ordre de 100 kilobytes. 

 

– Marc — 40:37 :

 D’accord, et donc ça, c’est parce que vous êtes focalisé sur certains points seulement. 

 

– Nataniel — 40:42 :

 Ça, c’est parce qu’en fait, on a proposé une méthode qui s’appelle Highway Dream boot de réduire des poids, genre d’ou de paramètres de dans des fusionnements HALO. On commence à réduire par juste low rank un jusqu’à rank One mais après on peut faire une réduction encore de ça en fait ouais. 

 

– Marc — 41:04 :

 C’est une compression en fait. 

 

– Nataniel — 41:06 :

 Ouais, c’est un peu une compression qu’on fait d’une façon assez intéressante et on arrive à personnaliser des modèles même avec genre 30000 paramètres du coup genre 100 kilobits et ça ce dernier travail du coup BAH on voit un peu genre un trend et c’est beaucoup de personnalisation, de modèles de diffusion en fait là. 

 

– Marc — 41:23 :

 D’accord, et donc là en ce moment, je travaille là-dessus. 

 

– Nataniel — 41:27 :

 Oui, je suis super passionné. Je pense que toujours dans le monde de des images, on a beaucoup de choses à explorer, donc j’aime beaucoup. 

 

– Marc — 41:36 :

 À quoi on doit s’attendre quand on n’est pas dans le domaine? Si tu devais faire un pronostic de là, elle est tellement vite là ces dernières années pour toi c’est le début. Est ce que les choses avancent toujours à toute vitesse ou est ce qu’on est en train de stabiliser, diffuser des progrès qui ont eu lieu? Un grand, un grand incrément. Est-ce que tu pourrais faire un pronostic là-dessus? 

 

– Nataniel — 41:58 :

 Mais je pense qu’on sait pas exactement où ça va aboutir, mais je pense que c’est le tout début parce que. On a déjà réussi à faire des applications qu’on pensait pas possible il y a 2 ans, mais je pense que des nouvelles applications vont être unlock. Je pense qu’il y a toujours des choses que des personnes, ça c’est un truc que je trouve assez passionnant. C’est une année après Dream book, c’est la diffusion. Il y a toujours des applications que des personnes ont pas vu qu’on peut faire avec le modèle de maintenant. Et Ben ça c’est un peu. Mon travail, c’est de trouver ses applications en fait et de créer des algorithmes pour les résoudre. Et du coup, on a des travaux qui sortent qui vont être un peu comme ça, genre j’espère qu’ils vont être un peu une surprise. Genre j’aime bien quand on a quelque chose que les gens se disent Ah c’est super facile en fait c’est super of US. Comment est-ce que j’ai pas eu cette idée avant? Et en fait bah c’est parce qu’il faut chercher quoi un peu. Donc je pense qu’on a un projet qui sort qui va être un peu comme ça dans les prochaines semaines mais ouais c’est le l’univers de possibilités, il commence à se réduire avec le modèle de maintenant et je pense que le la nouvelle vague. Page, il peut avoir une nouvelle vague maintenant avec le modèle courant, mais je pense que la nouvelle grosse vague ça va être avec des nouveaux modèles qui sont beaucoup plus puissants de nouveaux basement lorsqu’ils sont beaucoup plus puissants. Du coup je pense pas de multimodal models, on peut penser le modèle plus gros. Ça dépend aussi beaucoup avec quelle data ils sont entraînés et. Voilà, je pense que la prochaine vague, ça va être peut-être dans un an quand de nouveaux modèles ont été réalistes et on va pouvoir faire des choses qu’on pense même maintenant qui sont pas possibles. Donc ça va être cool. J’ai bien aimé par contre un mois à peu près où genre quelques semaines où on avait pas beaucoup de papiers qui genre on avait des papiers qui sont sortis et tout le temps mais c’est un peu de repos après genre une année de super intense. Il y avait quelque chose de nouveau toutes les semaines. 

 

– Marc — 43:59 :

 Super et Ben c’est excitant en tout cas. Bon courage pour la suite alors et merci beaucoup nathaniel. 

 

– Marc — 44:03 :

 Oui, merci Marc.