L'IA et le cloud : Comment AWS révolutionne l'innovation en entreprise ( Stephan Hadinger directeur des technologies @AWS) #79
Stephan Hadinger, directeur des technologies chez AWS est l’invité de l’épisode 79 du podcast Data Driven 101.
Dans cet épisode, Stephan Hadinger nous partage :
🌐 Les avancées d’AWS dans l’IA générative avec Amazon Bedrock et les modèles Nova.
💡 Des exemples concrets d’innovation comme Fox Intelligence et Veolia.
🛠️ Comment réduire les coûts tout en accélérant l’innovation grâce au cloud et à l’IA.
🔑 MOTS CLÉS
GPU (Graphics Processing Unit) : Composant informatique spécialisé dans le traitement parallèle, essentiel pour l’entraînement et l’exécution des modèles d’IA.
Tranium : Puce développée par AWS pour optimiser les performances et réduire les coûts liés à l’apprentissage et l’inférence de modèles IA.
Cloud Computing : Fourniture de ressources informatiques (serveurs, stockage, bases de données) via Internet, avec une facturation à l’usage.
SecureGPT : Solution développée par Veolia avec AWS pour créer une plateforme d’IA générative sécurisée et adaptée à l’entreprise.
HDS (Hébergeur de Données de Santé) : Certification française garantissant la sécurité et la conformité des hébergements pour les données de santé.

Marc Sanselme 00:00:00 – 00:00:27 : Bonjour et bienvenue sur Data Driven 101. Je suis Marc Saint-Selm, l’hôte de ce podcast qui s’intéresse aux applications concrètes et variées de l’intelligence artificielle et de la data. Dans Data Driven 101, je reçois chaque semaine des professionnels pour qu’ils nous partagent leurs expressions et leurs visions sans filtre. Aujourd’hui, je reçois Stéphane Haddinger, directeur des technologies chez AWS, Amazon Web Services, qui est une plateforme cloud complète et évolutive offrant une large gamme de services pour aider les entreprises à innover et à se développer. Bonjour Stéphane.
Stephan Hadinger 00:00:27 – 00:00:28 : Bonjour Marc.
Marc Sanselme 00:00:29 – 00:00:37 : Alors Stéphane, est-ce que tu peux nous donner, avec tes mots, un petit peu plus une vision sur les activités d’AWS ?
Stephan Hadinger 00:00:37 – 00:01:19 : Oui, alors effectivement, AWS, c’est la division cloud computing du groupe Amazon. Ça a été créé il y a 18 ans déjà. Et en fait, la principale valeur que viennent chercher nos clients sur AWS, c’est une capacité à innover plus vite, à gagner en agilité, mais en même temps, à réduire leurs coûts, en même temps, à accroître leur sécurité, accroître leur performance et accroître leur résilience. Donc 18 ans d’existence, nous sommes présents en France depuis 2011 et pour ma part j’ai ce privilège, ça fait maintenant plus de 12 ans que je fais partie des équipes AWS en France pour accompagner les entreprises de toutes tailles. Ça va bien sûr des startups qui étaient historiquement les premiers clients à adopter AWS, les TPE, PME jusqu’aux grandes entreprises du CAC 40.
Marc Sanselme 00:01:19 – 00:01:41 : Alors, vous avez une vision particulièrement fine du marché, on va dire, de ce qui est demandé. Et au niveau de l’IA, vous m’avez partagé la vision des grandes thématiques par année. Est-ce que vous pouvez nous en parler un petit peu, 2023, 2024, 2025 ?
Stephan Hadinger 00:01:41 – 00:02:58 : Oui, alors déjà, quand on aborde l’IA, c’est amusant parce qu’il y a un certain nombre de clients. Quand il y a vraiment eu l’avènement de l’IA générative, découverte par le grand public il y a deux ans, il y a beaucoup de clients qui me disaient « Ah bon, Amazon, vous faites de l’IA ? ». Et ça me faisait un petit peu mal au cœur parce qu’en fait, au sein du groupe Amazon, on fait de l’IA depuis plus de 20 ans. Et parmi les auditeurs, si vous êtes client d’Amazon.fr ou d’Alexa ou autre, il y a de l’IA du sol au plafond. Et en fait, je me suis dit finalement, c’est peut-être plutôt aussi un compliment parce que finalement, c’est de l’IA, mais qui ne se voit pas parce qu’elle est vraiment bien intégrée dans l’expérience utilisateur. Alors, pour les entreprises, ça fait plus de six ans maintenant que nous avons une plateforme d’IA qui s’appelle SageMaker pour les entreprises, avec plus de 100 000 entreprises qui l’utilisent dans le monde. Toujours pareil, les très grands et les entreprises de taille plus modeste. Et nous avons lancé il y a un ou deux ans Amazon Bedrock, qui est vraiment le moteur pour l’IA générative, avec un maximum de choix. Alors des choix comme l’AMA de Meta sur des modèles open source, Mistral bien sûr, cette magnifique startup française, mais également des modèles d’Amazon et surtout des modèles d’Anthropic, qui s’appellent Cloud, Cloud 2, Cloud 3, Cloud 3.5, qui aujourd’hui sont assez plébiscités sur le marché.
Marc Sanselme 00:03:02 – 00:03:17 : Sur cette offre que vous avez, on a les appels classiques via API. C’est quoi les façons de consommer l’IA que vous proposez ? Est-ce qu’il y a plusieurs niveaux ? leurs façons de consommer différentes.
Stephan Hadinger 00:03:17 – 00:05:04 : Oui, exactement. L’apport d’Amazon Bedrock, c’est qu’en fait, il n’y a rien à installer. Il n’y a pas à lancer des machines avec des GPU, à installer les frameworks, quoi que ce soit. C’est disponible juste en appel d’API. Et en fait, vous ne payez qu’au nombre de tokens en entrée et au nombre de tokens en sortie. Alors, si vous ne savez pas ce que c’est les tokens, en gros, les tokens, c’est des mots ou des groupes de 3 ou 4 lettres. Ça permet finalement d’avoir une vision sur combien va coûter une requête et en fonction de la réponse justement. Et on est très heureux puisque la semaine dernière, nous avions notre grand événement à Las Vegas, Reinvent. C’est notre événement mondial avec plus de 60 000 personnes. Et c’est l’occasion d’annonce justement sur Bedrock. Alors la première grande annonce, c’était des nouveaux modèles d’Amazon qui s’appellent Amazon Nova. qui ont la caractéristique d’être sur un niveau similaire aux grands dont on parle, comme Meta, Mistral ou Anthropic, mais quatre fois moins cher. Et on y voit quelque part la patte d’Amazon.com, la partie e-commerce, où les marges sont, on va dire, faibles dans le retail en général. Autre grande annonce également, c’était le support de Poolside. Alors, vous ne connaissez peut-être pas encore ce nom-là, mais Poolside, c’est une merveilleuse startup française qui a levé, je crois, 500 millions de dollars, quelque chose comme ça, et qui fait des modèles pour les développeurs. Et comme ils le disent, en fait, les modèles habituels que vous connaissez sont des modèles à qui on a montré du code et qui ensuite reproduisent le code qu’ils ont vu. L’objectif de Poolside, c’est d’apprendre au modèle à coder. Donc c’est d’aller de manière beaucoup plus profonde, non pas juste à répéter du code déjà vu, mais à avoir cette démarche que pourrait avoir un développeur.
Marc Sanselme 00:05:05 – 00:05:19 : D’accord. Ok, oui. Et donc, Poolside, ce qu’ils offrent, le lien avec AWS, c’est que globalement, ils travaillent sur AWS pour développer leurs produits, c’est ça ?
Stephan Hadinger 00:05:19 – 00:06:00 : Alors, effectivement, il y a à la fois la partie apprentissage, puisqu’ils ont annoncé qu’ils utilisent 10 000 GPU. Je crois que c’est des H100 de Nvidia, donc on est dans le haut du panier. Oui. Ce qui les met dans le top 10 des plus grosses plateformes en nombre de GPU. Ces GPU fournies par AWS et par ailleurs également la commercialisation. Ils ont différents modèles de commercialisation sur le marché, mais c’est le fait d’être bientôt disponible au premier trimestre 2025 dans Amazon Bedrock qui permettra à tout un chacun d’utiliser du poolside en quelques secondes et avec un paiement à l’usage.
Marc Sanselme 00:06:02 – 00:06:17 : Pour revenir sur les grandes thématiques des différentes années, qu’est-ce que vous voyez chez les clients comme demande principale ?
Stephan Hadinger 00:06:17 – 00:09:29 : Si je zoome un petit peu sur l’IA générative, les clients et les DSI me posent en gros trois grandes questions. La première question, c’est comment s’assurer que les modèles répondent des choses qui ont de la valeur pour le métier et qui soient cohérentes. Ce que je veux dire par là, c’est que pour ceux qui ont essayé de l’IA générative, les modèles ont un mal fou à dire qu’ils ne savent pas. Et dans le cas où ils n’ont pas l’information, ils ont une tendance à inventer des réponses, ce qu’on appelle des hallucinations. Et vous imaginez bien que si vous avez un chatbot pour vos salariés ou pour vos clients, que le modèle se met à halluciner, à inventer des réponses, c’est très embêtant. Donc comment justement lutter contre les hallucinations ? Il y a beaucoup de méthodes. Il y en a une qui s’appelle le RAG, le Retrieval Augmented Generation. qui consiste en fait à indexer l’ensemble des documents de l’entreprise et ensuite à alimenter le modèle avec de la connaissance qui vient de l’entreprise. Ce sont des choses qu’on a intégrées dans les services. La deuxième, donc première question, c’est vraiment l’acuité des réponses. Deuxième grande question, c’est la sécurité, bien sûr, parce qu’il s’agit d’alimenter les modèles avec les informations les plus sensibles de l’entreprise. Donc là-dessus, nous apportons bien sûr toutes les réponses, comme d’habitude au sein d’AWS. La sécurité est la première priorité chez AWS et ça prime absolument sur tout. Et l’IA générative ne change pas ça, c’est-à-dire que les modèles sont privatisés, sont chiffrés, sont isolés et les données, les promptes, tout ce que font les clients sur la plateforme reste leur propriété, ne sont partagées ni avec les salariés d’AWS ni avec les fournisseurs de modèles. Et le troisième grand thème, c’est combien ça coûte ? J’ai vu beaucoup de clients qui avaient démarré avec d’autres plateformes des tests dits à générative. Ils ont fait des POC, des Proof of Concept. Les résultats étaient plus ou moins satisfaisants, mais ils ont commencé à les déployer à l’échelle. Et on va dire là, souvent, quand la facture mensuelle a dépassé les 50 000 dollars, vous avez le directeur financier qui est arrivé en disant qu’est-ce qui se passe ? On ne va pas pouvoir déployer ça à plus grande échelle. Donc le combien ça coûte est évidemment une question absolument centrale. Il y a aussi l’autre question corollaire qui est combien ça consomme d’électricité et de ressources, bien sûr, pour la décarbonation ? Et là, c’était l’occasion pour nous d’annoncer également des puces, des chips, des GPU fabriqués par AWS qui s’appellent Tranium. Alors, on est à la génération 2, Tranium 2. Et donc, c’est une alternative à Nvidia. AWS continue à proposer du Nvidia, bien sûr. Mais ce que j’ai noté sur Tranium 2, ça permettait par exemple à Anthropique ou à Lama d’être 60% plus rapide que sur des plateformes Nvidia. Donc déjà, en termes de vitesse, c’est appréciable. Et aussi d’être entre 30 et 40% moins cher. sur de l’apprentissage. Et j’insiste là-dessus parce que quand on est… leur coût d’apprentissage est probablement proche des centaines de millions d’euros, faire moins 30 ou moins 40%, ce n’est pas une erreur d’arrondi.
Marc Sanselme 00:09:29 – 00:09:47 : C’est absolument massif. Je m’arrête un peu sur l’alternative à Nvidia. Déjà, vous les vendez ou c’est simplement des puces que vous utilisez pour servir ? Est-ce qu’il y a un modèle de vente ? Est-ce que c’est ça l’objectif ?
Stephan Hadinger 00:09:47 – 00:09:57 : Non, non, c’est vraiment un service. Donc, c’est uniquement des… Justement, nous fournissons des machines virtuelles, des serveurs qui contiennent ces puces et qui sont vraiment complètement intégrées à l’ensemble.
Marc Sanselme 00:09:57 – 00:10:29 : Ok. Et d’un point de vue software, donc si… Pareil, je me mets un peu dans le cas pratique. demain, j’ai envie de tester… Tranium, est-ce que pour moi c’est transparent parce qu’en fait j’utilise l’API? ou bien est-ce qu’on est dans des cas d’usage où par exemple j’aurais envie de faire tourner mes propres modèles sur une carte graphique et je peux utiliser votre puce Tranium qui me coûtera moins cher que la version avec une carte Nvidia? et du coup c’est transparent pour moi au niveau des installations parce que c’est toujours ce qui fait peur avec l’infra ?
Stephan Hadinger 00:10:29 – 00:11:15 : Alors transparent, peut-être pas complètement, j’aimerais bien, mais après ça dépend à la fois aussi des frameworks. On a des frameworks comme Neuron ou d’autres qui rendent la chose la plus simple possible. Il se trouve que Nvidia est aussi bien sûr très présent dans les environnements de développement. Donc il y a un travail effectivement de portage, mais qui, je pense, envoie la chandelle puisqu’on a vu justement de… Être 60% plus rapide et 30% moins cher, c’est un effort qui se vaut. Et les architectures sont un petit peu différentes aussi. Il y a toute une keynote pour nos auditeurs de Peter De Santis qui montre aussi que l’architecture interne de Trenium est différente et plus adaptée à la fois à l’apprentissage et à l’exécution de ces très très larges modèles.
Marc Sanselme 00:11:15 – 00:12:00 : D’accord. Oui, il y a une tendance qui ressort beaucoup chez tous les gens qui ne sont pas OpenAI et veulent servir des modèles, qui est d’utiliser la même API qu’OpenAI, ce qui permet ensuite d’utiliser la librairie d’appels d’OpenAI et de… Juste changer le endpoint. Et notamment, pour faire tourner des modèles en local avec VLLM, ce genre de choses, on peut faire ce genre d’artifice. Est-ce que c’est des choses qui seraient possibles avec une puce Tranium ? Si on veut s’interfacer à cet endroit-là, on ne change pas le reste du code. On change juste le endpoint NVIDIA.
Stephan Hadinger 00:12:01 – 00:14:20 : Oui, alors pour le coup, oui. En fait, ça fait partie justement des offres, comme j’ai cité. Ce portage sur Tranium 2 en inférence, ce qui est déjà disponible, c’est sur Lama 3.2 et sur Cloud 3.5 Haïku. Et en fait, c’est une option. C’est quand on utilise l’API sur Bedrock, on prend l’option standard ou l’option accélérée, donc avec une tarification qui va avec. Pour le moment, c’est via ColAPI que c’est intégré. Bien sûr, il y a des travaux un peu plus globaux pour uniformiser les API entre les différents modèles. Ce qui est intéressant, c’est qu’on a eu un témoignage en France de Veolia, qui a créé sa propre plateforme, il y a déjà 18 mois, qui s’appelle SecureGPT, qui était justement pour éviter d’avoir un déploiement incontrôlé de modèles sur Internet. Et ce qui est intéressant, c’est qu’ils laissent le choix à l’utilisateur d’utiliser OpenAI, d’utiliser Anthropic Cloud ou d’autres. Et ils se sont rendus compte finalement au bout d’un moment que c’était Cloud d’Anthropic qui était finalement le choix du public. Ils ont mis ça par défaut. Aujourd’hui, plus de 80% des requêtes qui sont faites sur cette plateforme-là sont faites avec Cloud Anthropic. Et ce qui est aussi intéressant, c’est que là, on est sur un cas d’usage de productivité individuelle. Donc, vous l’avez tous essayé, c’est résumer du texte, faire de la traduction et une aide à la rédaction des e-mails. Et quand je parle avec les clients, les directeurs financiers sont très dubitatifs sur le fait d’aller payer par exemple des licences à 35 euros par mois par utilisateur pour avoir justement cet assistant qui permet d’écrire des mails ou de faire des contenus de réunion. Dit autrement, si le système vous permet de faire un compte-rendu de réunion en 30 secondes au lieu de 8 minutes, est-ce que ça rend votre entreprise meilleure ? Ce n’est pas évident. Dans le cas de Veolia avec SecureGPT, en maîtrisant les coûts, la plateforme, ils sont arrivés aujourd’hui à un niveau où ils sont à moins de 2 euros par utilisateur par mois. Et là, on parle déjà de 50 000 utilisateurs. Ce n’est pas un POC, c’est en production, c’est plébiscité. Et là, en moins de 2 euros par utilisateur par mois, on est bien sûr dans une zone qui est quand même beaucoup plus simple pour les directions financières.
Marc Sanselme 00:14:20 – 00:14:58 : C’est vrai que chaque usage va avoir un peu son vainqueur et à la fin c’est 30 euros par licence, par logiciel. Il peut y avoir un certain nombre de logiciels à la fin. BLANC A COUPER Alors, concernant Nova, je ne me suis pas trop arrêté dessus. BLANC A COUPER Il y a un seul modèle, il y a plusieurs modèles. C’est quoi un peu la famille Nova ? Comment elle se présente ?
Stephan Hadinger 00:14:58 – 00:15:16 : Très bonne question. Déjà, notre conviction en termes de technologie, c’est qu’il n’y a pas un modèle qui permet de répondre à tous les besoins. Et même sur Nova, c’est la même chose. Nova, sur la partie LLM, il y a quatre modèles, du tout petit, du micro, light, pro et premier.
Marc Sanselme 00:15:16 – 00:15:21 : Vous communiquez sur les nombres de paramètres ?
Stephan Hadinger 00:15:21 – 00:15:54 : Nous ne communiquons pas sur le nombre de paramètres, mais on est sur des modèles qu’on appelle des modèles frontières, qui avoisinent, je pense, le trillion de paramètres. Je fais juste une parenthèse. Quand on parle de trillion en anglais… Pour les Américains, le trillion, c’est 1 000 milliards. En français, le trillion, c’est 1 million d’un million d’un million. Bref, c’est différent. Je vais éviter le terme de trillion que vous pouvez voir dans la presse pour dire 1 000 milliards de paramètres. C’est l’ordre de grandeur.
Marc Sanselme 00:15:54 – 00:15:55 : 1 000 milliards, d’accord.
Stephan Hadinger 00:15:55 – 00:17:12 : Mais en réalité, ce qu’on voit, c’est que… Alors ça, c’est les LLM. Il y a aussi deux modèles, Canva et Reel, pour faire des images ou pour faire de la vidéo. Et quand on voit la taille de modèle, là encore, notre conviction, c’est d’utiliser le meilleur modèle pour un usage particulier. Et des fois, je vois des clients qui me disent, quel est le meilleur modèle sur le marché ? On peut avoir des opinions, mais en réalité, ce n’est pas la bonne question. Je vais faire un parallèle. Si vous êtes dans l’informatique, vous ne demandez pas à un fournisseur de bases de données « Donnez-moi la meilleure base de données du monde ». Il va vous le faire, mais le tarif, le prix, le coût sera juste prohibitif. Dans les LLM, c’est pareil. Donc, démarrer et itérer sur des très larges modèles, c’est intéressant pour démarrer un projet, mais très vite. ensuite, les clients vont repartir sur des modèles plus petits. Donc l’idée d’Amazon Nova, c’est en fait pas forcément d’utiliser le modèle premier qui est le plus gros en production, mais d’utiliser ce qu’on appelle de la distillation. C’est-à-dire en gros, c’est de dire on prend un petit modèle et on va le surentraîner, basé sur ce grand modèle, avec des questions qu’on a préparées. Donc on fait une sorte de transfert de connaissances sur un domaine précis entre le très gros modèle et le petit modèle. Et c’est là où on arrive à des choses qui sont absolument fabuleuses.
Marc Sanselme 00:17:12 – 00:17:39 : Alors ça, c’est un très bon sujet, justement. Qu’est-ce qu’on peut faire, qu’est-ce qu’on ne peut pas faire avec AWS ? Aujourd’hui, j’ai une tâche identifiée, je la résous avec un gros modèle, je collecte des données d’entraînement de cette tâche et je veux maintenant réduire mes coûts, réduire la latence, garder la perf en distillant dans un petit modèle. Est-ce que je peux faire ça avec AWS ? Comment je les prends ?
Stephan Hadinger 00:17:39 – 00:19:07 : Je vais donner un exemple concret. On l’a fait avec Fox Intelligence, qui est une société française qui fait de l’analyse de panels de consommateurs. Ils se basent sur les e-mails. Bien sûr, ce sont des consommateurs qui adhèrent au service. Fox Intelligence va lire les e-mails pour aller extraire des informations. Par exemple, un client a fait une commande sur Amazon.fr, l’email de confirmation de commande va être lu par Fox Intelligence pour extraire les produits, les tendances, des informations de ciblage marketing. Jusqu’à présent, il le faisait avec ce qu’on appelle des filtres. qui étaient fabriqués manuellement. Il y en avait plus d’un millier qui vont aller extraire les différents champs, ce qui est très coûteux à maintenir parce que les emails changent régulièrement de format. Donc leur idée, c’était d’utiliser un LLM pour extraire automatiquement ces différents champs. Ils ont démarré et en fait, ils avaient deux approches. Soit de faire du fine tuning. En fait, on va affiner le modèle justement pour lui apprendre des choses basées sur des données. Soit faire du prompt engineering. Là, au contraire, on va faire un prompt plus sophistiqué. Donc, ils ont fait fine tuning avec Mistral et prompt engineering avec Claude Dantropique. Ils l’ont fait avec nos équipes. Et finalement, ils sont aperçus que le fine tuning avec Mistral et Mistral 7B avait de très bons résultats et était finalement beaucoup moins coûteux. Et entre le démarrage de leur premier projet et ce qui est en production, ils ont divisé par quatre les coûts, justement avec cette approche itérative.
Marc Sanselme 00:19:07 – 00:19:16 : Vous savez combien ils avaient d’exemples pour que ça marche ? C’est un peu la question qui vient tout le temps avec le finituming. Combien il nous faut de data points ? Combien d’exemples il faut pour que ça commence à marcher ?
Stephan Hadinger 00:19:16 – 00:19:34 : Pas forcément tant que ça. Il faut déjà une bonne dizaine. Une dizaine, c’est peut-être un petit peu limite, mais ça commence déjà à donner des résultats. Des centaines ou des milliers. Mais là où on est très loin, des dizaines ou centaines de milliers qui sont nécessaires pour entraîner un modèle from scratch. Le ticket d’entrée est beaucoup plus léger.
Marc Sanselme 00:19:34 – 00:19:35 : Oui.
Stephan Hadinger 00:19:35 – 00:19:52 : Mais quand on regarde le cas de Fox Intelligence, ça leur permet aussi de traiter 10 fois plus d’emails par jour et surtout d’adresser des nouveaux pays, donc des langues qu’ils n’avaient pas adressées jusqu’à présent parce que ça aurait été trop coûteux de refaire tous les filtres dans des langues différentes.
Marc Sanselme 00:19:55 – 00:20:27 : Et alors, si maintenant, on se remet dans la situation, je veux faire ça avec AWS, avec les outils disponibles, la partie fine tuning, c’est possible de le faire avec vous ? Quel est le niveau de prémachage du travail que vous faites ? Est-ce que je pars d’une C2 avec un GPU et je fais mon framing dessus ? Est-ce qu’il y a des outils un peu plus plug and play pour faire ça ?
Stephan Hadinger 00:20:27 – 00:21:16 : Oui, ce serait dommage. C’est possible de partir d’une EC2, mais ce serait dommage. J’irais même en amont. Ce qui est intéressant, je pense, c’est de s’entourer de partenaires. Alors, on a une petite équipe prototyping chez AWS et on a justement accompagné Fox Intelligence avec cette équipe-là. Mais on a aussi des partenaires, alors bien sûr, comme des exemples, et ce n’est pas exclusif, mais comme Capgemini qui a tout un savoir-faire, mais aussi SIA Partners qui est ultra spécialisé dans l’IA ou Devoteam Revolve, il y en a beaucoup. Et ça permet d’être un accélérateur justement sur cette démarche. Maintenant, sur le fine tuning, c’est intégré dans Amazon Bedrock. Donc, en fait, vous choisissez votre modèle. Je vais reprendre en anthropique Claude Aïkou, par exemple, et vous avez la fonction fine tuning. Donc, vous uploadez vos données, vous faites le fine tuning et ensuite, vous avez votre modèle prêt à l’emploi.
Marc Sanselme 00:21:16 – 00:21:20 : Ok, on peut même finituner des modèles propriétaires, c’est intéressant.
Stephan Hadinger 00:21:20 – 00:21:21 : Ah oui, tout à fait.
Marc Sanselme 00:21:21 – 00:21:25 : On ne verra jamais la couleur des poids, mais ils sont là et ils sont déjà…
Stephan Hadinger 00:21:25 – 00:21:25 : Exactement.
Marc Sanselme 00:21:26 – 00:21:40 : Ok, super. Et alors, question, vous servez via Bedrock mon modèle personnalisé. Ça, comment ça fonctionne ? C’est toujours une facturation à l’usage, au token ?
Stephan Hadinger 00:21:40 – 00:22:21 : Oui, c’est vraiment le but. Ensuite, il y a des systèmes de réservation. Si vous connaissez votre cas d’usage et vous savez que vous avez un matelas d’appel que vous allez faire de manière très régulière… Donc, il y a moyen déjà de pré-réserver de la capacité sur Amazon Bedrock pour éviter toute mauvaise surprise de problèmes de capacité et aussi d’avoir des réductions tarifaires qui sont liées à un engagement au volume. Mais ça, ce qui est une constante qui est vraie sur l’ensemble de nos services, ça reste à l’usage. Mais si vous savez vous engager sur un volume sur une certaine période, on est capable de vous faire un discount sur le prix.
Marc Sanselme 00:22:22 – 00:22:41 : Mais alors du coup, sur une facturation à l’usage pour un modèle perso, forcément derrière, il y a tout un jeu d’allumer le serveur, éteindre le serveur, etc. Globalement, comment ça se traduit ? Est-ce que sur le premier appel, il y a une latence plus forte ?
Stephan Hadinger 00:22:41 – 00:23:02 : Je n’ai pas essayé, je ne crois pas, parce qu’en fait, le fait juste de charger la partie fine tuning est quand même une quantité de données assez négligeable par rapport à la taille du modèle et par rapport aussi au temps d’inférence. Donc, c’est une question. Je n’ai pas eu l’occasion d’essayer, mais je pense que c’est assez négligeable en termes de latence.
Marc Sanselme 00:23:02 – 00:23:10 : Ok, d’accord. Donc, ça serait juste le delta de fine tuning. Si vous ne fine tunez pas toutes les couches, potentiellement, c’est plus petit.
Stephan Hadinger 00:23:11 – 00:23:24 : C’est le but du fine tuning. Il y a beaucoup de techniques dessus, mais en fait, on ne touche pas au poids du modèle central. On rajoute des couches en entrée et en sortie qui permettent d’affiner, de changer certains éléments.
Marc Sanselme 00:23:24 – 00:23:37 : Ok. C’est effectivement hyper intéressant. Le prix d’un modèle fine-tuné, il est plus élevé qu’un modèle non fine-tuné ?
Stephan Hadinger 00:23:37 – 00:23:43 : Là, c’est une colle. Je crois qu’il est légèrement plus élevé, mais il faut que je vérifie.
Marc Sanselme 00:23:44 – 00:24:21 : Ok, super. Je continue ma liste au Père Noël. Est-ce qu’on peut avoir des… Quand on a l’occasion de faire le même appel, beaucoup de fois avec un gros prompt, et on a envie du coup de ne pas repayer le calcul du début du texte, est-ce qu’on a cette possibilité avec Bedrock de pré-cacher le modèle en cours de calcul ? jusqu’à là où ça commence à diverger entre plusieurs appels.
Stephan Hadinger 00:24:22 – 00:25:25 : En tout cas, merci de la question, parce que c’est justement ce que nous avons aussi annoncé. C’est une des nombreuses fonctionnalités que nous avons annoncées à Reinvent, qui est justement Bedrock Prompt Caching, qui sert à ça. Et qui a ce double avantage, effectivement, c’est à la fois de réduire les coûts, puisque ces tokens d’entrée ne sont plus comptabilisés, et d’améliorer les performances aussi, puisqu’effectivement, le prompt a déjà été pré-traité par le modèle. Et on voit ça assez souvent. En fait, ce qui est intéressant, c’est que, comme je le citais sur Fox Intelligence, on a vraiment ces deux approches, fine tuning et prompt engineering. Je dirais que de manière générale, nous conseillons à nos clients de démarrer par le prompt engineering et ensuite de faire du fine tuning si le prompt devient un peu trop gros et hors de contrôle. je dis ça parce que des fois les data scientists ont peut-être un peu trop tendance à se précipiter sur le fine tuning. c’est pas forcément toujours l’approche la moins coûteuse et la plus rapide. et voilà effectivement avec du prompt engineering un peu costaud le caching devient intéressant.
Marc Sanselme 00:25:27 – 00:25:42 : Est-ce que c’est quelque chose de manuel ? Parce que je sais que selon les providers d’IA, il y a des philosophies différentes. Il me semble qu’OpenAI le fait sans le montrer. D’autres le font avec une option dans l’appel.
Stephan Hadinger 00:25:42 – 00:25:48 : Là, c’est une option. On ne fait rien sans le montrer. Justement, le but, c’est que les clients gardent le contrôle.
Marc Sanselme 00:25:49 – 00:26:12 : Ok, super intéressant. Et alors, pour revenir sur les tendances, parce que du coup on n’a pas fait cette description encore, on a eu plein d’autres sujets, qu’est-ce que vous avez vu se dégager comme tendance? des grandes thématiques développées par les clients au fil des années ?
Stephan Hadinger 00:26:12 – 00:27:41 : Sur l’IA ou non de manière générale ? Comme je disais, le ROI n’est pas forcément simple à trouver, ou en tout cas, il faut que le coût soit le plus petit possible. Il y a un peu une exception quand même, c’est sur les outils de codage. On a sorti Amazon Q Developer à cette occasion. On a parlé de Poolside également, où là, les gains sont quand même très significatifs. Donc 2023, les agents conversationnels. 2024, on a vu vraiment les premiers, de manière massive, les utilisations en production. J’ai cité Fox Intelligence, Veolia. Il y a aussi Iseop dans la pharma. Il y a aussi Bureau Veritas. Il y en a toute une série. Mais là, on est plutôt sur de l’usage de productivité business. Dit autrement, comment l’IA génératif permet de faire mieux, plus vite, moins cher, avec du RAG, avec différents éléments. Et 2025, moi, je m’attends à ce qu’on voit plus de l’innovation. Des services innovants basés ou rendus permis par l’IA. Dit autrement, et j’exhorte vraiment mes clients à réfléchir dans ce sens-là, en quoi l’IA générative vous permet de faire des services que vous n’étiez pas capables de faire avant. Et donc, ça veut dire des revenus supplémentaires, ça veut dire des services pour vos clients finaux ou vos utilisateurs.
Marc Sanselme 00:27:42 – 00:27:52 : Vous avez des exemples de services rendus possibles par l’IA qu’on pourrait voir arriver en 2025 chez les clients d’Amazon ?
Stephan Hadinger 00:27:52 – 00:29:24 : Alors, en fait, c’est tout le propre de l’innovation, c’est que c’est un petit peu difficile à prédire. Mais en réalité, il y a une frontière entre si on est capable d’optimiser un process business d’un ordre de grandeur, en fait, ça ouvre des voies sur des nouveaux revenus. Je reprends le cas, on va reciter Fox Intelligence. Ils sont capables, grâce à l’IA générative, le but premier, c’était d’abord de réduire les coûts, OK ? Mais comme ils sont capables de traiter 10 fois plus d’emails et d’ouvrir une dizaine ou une quinzaine de pays supplémentaires, ça se traduit en revenus supplémentaires en fait. Donc on n’est pas juste à optimiser un process interne, mais également à faire des revenus supplémentaires. Le cas d’Iseop, alors Iseop c’est pas très connu, mais c’est une start-up française qui aide les entreprises pharmaceutiques à rédiger les documents de mise sur le marché, les documents de conformité. Et donc ils ont une offre qui est complètement intégrée avec les outils bureautiques. Et il faut comprendre que dans l’industrie pharmaceutique, la fenêtre de tir entre la mise sur le marché et une molécule qui est domaine public est assez courte. Donc tout l’enjeu, c’est de réduire les temps d’obtention de la mise sur le marché. Aujourd’hui, je crois qu’Iseop, sur un processus d’une grosse vingtaine de semaines, permet déjà de gagner deux ou trois semaines, ce qui est énorme. Et leur objectif, c’est de diviser par deux le nombre de semaines qui sert à ça. Et donc là aussi, on est dans cette frontière entre. ça permet d’aller plus vite, mais en réalité, du coup, ça permet d’avoir un impact de revenus qui est significatif.
Marc Sanselme 00:29:26 – 00:29:28 : Oui, ça change le champ des possibles.
Stephan Hadinger 00:29:28 – 00:29:29 : Exactement.
Marc Sanselme 00:29:30 – 00:29:57 : Et alors sur les années passées, 2023, donc les ChatGPT-like, si je comprends bien, c’est quoi la taille minimale, on va dire, pour une boîte pour pouvoir mettre en place son propre ChatGPT-like, c’est-à-dire en fait son interface qui est cloisonnée en termes de données où tout se passe vraiment sur des serveurs propres à la boîte, même s’ils sont chez Amazon ?
Stephan Hadinger 00:29:57 – 00:30:41 : Il n’y a pas de taille minimale. C’est ça la beauté du cloud. C’est ça notre approche, qui est toujours une approche de démocratisation de la technologie, pour faire en sorte qu’une société, même unipersonnelle, ait accès aux mêmes technologies. Donc pour ça, vraiment en outils complètement packagés, nous avons Amazon Q, notamment Amazon Q Business, qui est exactement ça, qui est un agent conversationnel, un chatbot, qu’ensuite vous pouvez facilement intégrer à l’ensemble de vos données d’entreprise. à du Salesforce, à toute la bureautique Microsoft, à du Box et ainsi de suite. Donc en fait, vous alimentez cet agent, ce Amazon Q avec votre source de données et vous avez instantanément un chatbot qui connaît votre entreprise et qui connaît vos process.
Marc Sanselme 00:30:44 – 00:31:33 : D’un point de vue de la contrainte légale sur ces données, sur ces histoires de données, de sécurisation, etc. D’un côté, les données personnelles, le RGPD. De l’autre côté, les données, par exemple, de santé. Il y a des normes, il y a plein de choses. Est-ce que si on met en place un cas d’usage IA qui fait des appels à Bedrock, sur n’importe quel modèle de AWS, est-ce que je suis en règle, si c’est des données personnelles, est-ce que je suis en règle vis-à-vis du RGPD ? Moyennant le fait que j’ai le droit de faire cet appel, bien sûr. Mais je veux dire, si j’ai le droit de le faire, est-ce que l’envoi est en règle ? Et si jamais c’est des données de santé, est-ce que je suis en règle ?
Stephan Hadinger 00:31:33 – 00:32:40 : Alors, moi, je ne peux pas vous dire si vous, vous êtes en règle. Ce que je peux vous dire, c’est qu’il n’y a pas de problème à utiliser les services AWS pour ça. Nous sommes conformes avec l’ensemble des exigences du RGPD depuis avril 2018, depuis même un mois avant la mise effective du RGPD. Pareil sur les données de santé. Nous sommes certifiés HDS, donc hébergeurs de données de santé, depuis 2019, si je me souviens bien. Donc déjà, ça pose un cadre. Par contre, il faut bien comprendre que nous utilisons ce qu’on appelle un modèle de responsabilité partagée qui fait qu’au final, nous ne savons pas ce que font nos clients. Donc nous appliquons les règles du RGPD, de HDS, mais également de paiement de données bancaires. Il y a 130 et quelques certifications et framework que nous appliquons. Mais au final, si vous utilisez Amazon Bedrock sur des données de santé ou des données personnelles, nous ne le savons pas. Donc en fait, nous sécurisons tous les services comme si vous utilisiez en permanence des données de santé, des données personnelles, des données bancaires et ainsi de suite. Mais pour nous, c’est juste des 1 et des 0 et on ne veut pas savoir.
Marc Sanselme 00:32:40 – 00:32:51 : Oui, bien sûr. Mais donc du coup, de mon point de vue, si j’avais le droit de le faire en local sur mon ordinateur, j’ai aussi le droit de le faire chez vous sur ces deux questions.
Stephan Hadinger 00:32:51 – 00:32:53 : RGPD. Il n’y a pas de contre-indication, effectivement.
Marc Sanselme 00:32:53 – 00:32:59 : Il n’y a pas de cloisonnement, par exemple, de la certification ? données de santé, elle n’est pas cloisonnée à certains services ?
Stephan Hadinger 00:32:59 – 00:33:18 : Alors, elle est applicable. Moi, j’invite vraiment les clients à chaque fois à regarder le périmètre de certification. Et alors, le périmètre de certification de HDS, il est le même que le périmètre ISO 27001. De mémoire, c’est plus de 120 ou 130 services. Et puis, c’est tous les services classiques, on va dire, que nos clients utilisent.
Marc Sanselme 00:33:18 – 00:33:19 : Dont Bedrock ?
Stephan Hadinger 00:33:19 – 00:33:19 : Dont Bedrock, oui.
Marc Sanselme 00:33:20 – 00:33:41 : Ok. Intéressant. Est-ce que dans les relations avec les clients, dans les échanges que vous avez, vous pouvez nous dire un peu quel est le truc que vous répétez le plus ? L’élément d’évangélisation? peut-être que vous avez le plus souvent l’occasion de…
Stephan Hadinger 00:33:43 – 00:35:25 : Alors, moi, je traite vraiment un projet cloud comme un projet de transformation. Et le piège, quelque part, on le voit moins aujourd’hui, mais pendant quelques années, il y a eu ce piège qui est de dire, les DSI se disaient, je vais aller dans le cloud juste pour baisser mes coûts. Et en fait, il y a un paradoxe qui est que ça permet effectivement de baisser un peu les coûts, même s’il y a beaucoup de débats des fois sur des méthodes de calcul, parce que comparer des coûts on-prem de data center et des coûts cloud, c’est très compliqué parce qu’il y a très souvent des coûts cachés qu’on ne voit pas. Mais en réalité, la principale valeur, comme on l’a dit tout à l’heure, c’est de gagner en agilité. Donc ça permet aussi de réduire les coûts, mais en fait, c’est un projet de transformation. Donc il faut traiter la valeur métier, il faut traiter les coûts, il faut traiter la sécurité. Et surtout, il faut accompagner les équipes. Ce que je dis là sont des classiques du change management, de la conduite du changement. Mais ces quatre piliers, il faut vraiment les traiter en parallèle. Donc, valeur métier, sécurité, coût et équipe. Et le message que je passe à chaque fois, c’est formez, formez, formez vos équipes. La formation est absolument importante. à l’ensemble des équipes. Je me souviens, quand Veolia avait démarré son projet cloud, ils avaient formé l’intégralité de leur personnel. Quand je dis l’intégralité, c’est y compris la comptabilité, les ressources humaines et ainsi de suite. C’est une formation légère, c’est-à-dire que c’était un format de trois heures. On est un peu à la frontière peut-être entre la communication et la formation. Mais c’était pour avoir un vocabulaire commun au sein de l’entreprise. Et que ce soit clair pour l’ensemble des salariés de quelle était l’ambition et la stratégie liée au cloud.
Marc Sanselme 00:35:31 – 00:35:40 : Quels sont selon vous les obstacles en termes d’adoption de l’IA que vous voyez le plus ?
Stephan Hadinger 00:35:40 – 00:36:15 : Les ressources, les équipes. Je pense que vous pouvez interroger n’importe quel client. Déjà, c’est compliqué d’avoir accès à des personnes qui soient opérationnelles sur les technologies cloud en général. Sur la data science et sur l’IA générative, c’est pareil. Donc les ressources sont rares. C’est d’autant plus une raison justement pour former des personnes. On a pris cet engagement d’ailleurs auprès d’AWS France de former 600 000 personnes sur les technologies du cloud et les technologies de l’IA parce qu’aujourd’hui, il y a un manque en tout cas de ressources.
Marc Sanselme 00:36:18 – 00:36:27 : Alors, quelles erreurs classiques vous pouvez nous partager avec le cloud en général, l’IA en particulier ?
Stephan Hadinger 00:36:27 – 00:37:55 : Alors, l’erreur classique sur les projets d’IA, je vais dire, c’est de démarrer sur un projet difficile qui apporte peu de valeur. C’est peut-être un peu compliqué de le dire comme ça, mais… Chaque fois qu’il y a un projet, on peut prendre une matrice toute simple, de dire quelle est sa difficulté de faisabilité, on mettait ça sur un axe, et quel est son impact métier sur un autre axe. Et des fois, on a vu des projets qui voulaient se lancer sur, par exemple, un chatbot pour accélérer l’accueil des nouveaux recrutés dans l’entreprise, avec des questions RH, avec des questions informatiques, et ainsi de suite. Alors, un, c’est un projet qui est en fait très difficile parce qu’on mixe des questions RH. Alors, comme on l’a vu tout à l’heure, halluciner sur des questions RH, ce n’est pas une bonne idée. Si on se met à raconter n’importe quoi, ce n’est pas bien. Et deux, on n’est peut-être pas au cœur de la valeur métier de l’entreprise. C’est-à-dire que si effectivement on rend l’expérience des nouveaux arrivés plus efficace, ce n’est pas quelque chose que vous n’allez pas passer en comité exécutif pour présenter ce projet-là. Donc je titille un petit peu mes clients à chaque fois pour dire, est-ce que votre premier projet a un impact suffisant pour passer en comité directeur ou en comité exécutif et pouvoir dire à l’ensemble des directeurs, voilà, on a fait ce projet et ça apporte ça comme valeur à l’entreprise ? C’est un peu cette notion de quick win. C’est qu’il faut que les premiers projets soient suffisamment positifs en termes de valeur pour enclencher justement cette démarche de transformation.
Marc Sanselme 00:37:56 – 00:38:04 : Est-ce que vous avez une anecdote à partager?
Stephan Hadinger 00:38:04 – 00:38:08 : ? Une anecdote à partager ? Ça, c’est compliqué. Oui.
Marc Sanselme 00:38:11 – 00:38:21 : Faut que j’y réfléchisse. Là, on arrive dans les questions de la fin. Il y a anecdotes, opinions. Quel invité est-ce que vous aimeriez entendre dans un prochain épisode ?
Stephan Hadinger 00:38:21 – 00:38:24 : Si je peux prendre un peu de temps ?
Marc Sanselme 00:38:24 – 00:38:25 : Hum…
Stephan Hadinger 00:38:45 – 00:38:46 : C’est quoi du coup ? Anecdote ?
Marc Sanselme 00:38:46 – 00:39:06 : Anecdote, opinion et question d’invité. Oui, on peut en sauter une. S’il n’y a rien qui vient, il n’y a rien qui vient. Ça fait partie des…
Stephan Hadinger 00:39:08 – 00:39:09 : J’ai pas trop d’anecdotes, en fait.
Marc Sanselme 00:39:09 – 00:39:18 : Opinion, c’est… Opinion, oui, ça va. On va partir là-dessus, alors. Est-ce que vous avez une opinion à partager ?
Stephan Hadinger 00:39:18 – 00:39:34 : Mon opinion, c’est qu’il faut y aller maintenant. C’est que vraiment, toute cette vague de data d’IA, d’IA générative, il est absolument crucial que les clients, s’ils n’ont pas déjà démarré, qu’ils démarrent parce que c’est vraiment au cœur de la compétitivité de demain.
Marc Sanselme 00:39:34 – 00:39:42 : Et pour terminer, est-ce que vous auriez une recommandation de personnes à inviter dans un prochain épisode de Data Driven 101 ?
Stephan Hadinger 00:39:42 – 00:39:59 : Alors, on a beaucoup parlé de poolside. Je pense que ce serait intéressant de les inviter, justement, parce qu’avoir un modèle qui est dédié aux développeurs, ceux qui créent du code et qui maintiennent du code. Et je pense que ce serait intéressant qu’ils puissent un peu lever le voile sur ce que ça signifie en termes d’apprentissage.
Marc Sanselme 00:40:00 – 00:40:01 : Merci Stéphane.
Stephan Hadinger 00:40:01 – 00:40:02 : Merci Marc.
Marc Sanselme 00:40:03 – 00:40:29 : Alors, j’ai une petite outro à faire également au prompteur. Je vais… Vous venez d’entendre Stéphane Haddinger, directeur des technologies chez Amazon Web Services. Dans le prochain épisode, je recevrai Stéphane Haddinger, directeur des technologies chez Amazon Web Services pour nous parler d’IA et de… Ça ne va pas là ? Je coupe, j’ai besoin de la fin.
Stephan Hadinger 00:40:29 – 00:40:30 : Dans le prochain épisode.
Marc Sanselme 00:40:31 – 00:40:31 : Oui.
Stephan Hadinger 00:40:31 – 00:40:33 : Mais ce n’est pas moi dans le prochain épisode.
Marc Sanselme 00:40:33 – 00:40:57 : Non, mais ce morceau-là, il y aura dans la fin de l’épisode précédent. Oui, je n’ai pas fait de pause. Parler d’IA et de cloud. Très bien, je vais me dire ça. Dans le prochain épisode, je recevrai Stéphane Adinger, directeur des technologies chez Amazon Web Services pour nous parler d’IA et de cloud. À très vite. Très bien. Super. Merci beaucoup. Très intéressant.