WEB SCRAPING

David El-kaïm, sales Director France Benelux chez Bright Data est l’invité de l’épisode 24 de Data Driven 101 : il nous parle de web scraping.

Il nous parle aussi de la collecte et de la vente de données en ligne et des défis qui y sont liés notamment la légalité du scraping ou encore les limites des données personnelles.

David El-Khaïm : Web scraping

  Marc — 00:00 :

 Aujourd’hui je reçois David El Kaïm, sales Director France Benelux chez Bright Data, après une école de Commerce, David créé sa première entreprise de génération de leads B to B en Australie. Puis il a une carrière dans la publicité en ligne dont 7 ans en tant que fondateur, une régie publicitaire en Israël depuis 2019 il essaie Director France, Bénélux chez BRI Data par Data. C’est une entreprise qui a été créée en 2014 et qui est spécialisée dans la collecte de données sur Internet. Bonjour David. 

– David — 00:24 :

 Bonjour Marc. 

– Marc — 00:26 :

 Alors, David, est-ce que tu peux nous en dire un peu plus sur Brive? Data, qu’est ce que vous faites? 

– David — 00:30 :

 Ouais bien sûr. Alors Bay Data, c’est une société qui a environ 10 ans, qui a son siège en Israël. Qui aujourd’hui a plus de 450 employés avec des bureaux aux États-Unis, des gros bureaux aux États-Unis et en Inde. Bientôt, j’espère des bureaux aussi en Europe, notamment en France. Qui a plus de 20000 clients et qui en fait le leader mondial de la collecte de données web à grande échelle à dire qu’en gros, on aide les entreprises à collecter des informations de sites Internet, à les structurer, mais à grande échelle, c’est à dire qu’on collecte des millions et des millions de pages pour eux, alors on offre plein de produits différents en différentes couches en fait de produits. On a commencé il y a 10 ans avec une infrastructure de proxy. On en parlera peut-être un petit peu plus après, si tu veux qui en fait la base de tout la collecte de données sur le web qui donne en fait la possibilité de collecter les informations. Sans se faire bloquer de façon précise, et cetera. Ça c’est un le cœur du business et c’est l’infrastructure qui est brevetée et qui nous permet en fait aujourd’hui d’être leader mondial parce qu’elle a plus de 3000 demandes de brevets, et cetera. Et puis au-dessus de ça on a rajouté des couches de services de collecte de données, donc on crée des scrapers pour les entreprises, on crée des jeux de données qu’on vend, on rajoute aussi des insights, et cetera. Et puis au-dessus de Brie Data tu as aussi la Bright initiative qui en fait un organisme qui fait partie de Big data, qui a pour objectif et pour mission d’aider les organismes du type. L’o NG Université, l’ONU des gouvernements entre avec le ministère de la Recherche. En France, on travaille avec Sciences Po et cetera, mais en fait, on les aide, on les accompagne dans des projets qui sont des projets souvent qui ont pour mission et pour but de de rajouter des choses. Tu vois de faire de la recherche par exemple avec Sciences Po, on a fait, ils avaient une mission de monitorer et de vérifier les réseaux sociaux et de regarder s’il y avait de la discrimination en fonction des profils et ce genre de choses. Donc ça, c’est aussi quelque chose qui est important, qu’on rajoute aussi à à Bry data qui est pas un produit à part entière. C’est un service qu’on rend et qu’on en fait. On aide ces entreprises à à collecter ces données de façon gratuite et du coup complètement pro Bono et on participe en fait à ce type de mission. 

– Marc — 02:32 :

 Alors la collecte sur Internet ou le le scraping corrige moi si le vocabulaire est pas bon, justement, en quoi ça consiste, ce qu’on peut placer le vocabulaire là-dessus? 

– David — 02:41 :

 Ouais bien sûr, hein, le scraping, c’est en gros une technique de collecte de données sur le web de façon automatisée, en utilisant en fait un logiciel informatique logiciel informatique. En général. C’est un ce qu’on appelle un crawler scraping en fait, c’est uniquement la partie extraction de données. Puis t’as le crawler qui en fait le code, qui automatise en fait une action humaine. C’est imagine que tu vas y collecter des données de pas d’une page web, mais en fait de millions de pages web tous les jours, je peux pas le faire à la main et donc pour ça en fait, tu dois automatiser. En fait ce process, donc ouvrir des navigateurs, rentrer sur la page, prendre les informations, les structurer, et cetera. Donc ça c’est ça le scraping. 

– Marc — 03:16 :

 Et alors, qu’est-ce qu’on peut scraper? 

– David — 03:17 :

 On peut scrapper en fait tout ce qui est disponible sur une page web, et pas uniquement. C’est à dire que quand tu rentres sur une page n’importe quel site. E-commerce, moteur de recherche, n’importe quelle page web en fait, tu as les données qui sont visibles, donc celles que n’importe quel utilisateur peut voir aussi toutes les données qui sont derrière sur la page HTML donc avec les les codes et cetera. Et puis aussi plein de données très souvent qui chargent en fait pendant le processus. En fait pour pouvoir donner accès aux informations qui sont visibles sur la page mais qui sont en fait beaucoup d’informations qui rentrent aussi et qui sont totalement libres d’accès. Donc en fait on peut collecter énormément de données qui sont sur les pages web et c’est ouvert en fait. Donc on collecte uniquement les données qui sont publiques, toutes celles qui sont visibles à l’œil nu. Ou pas, mais qui sont accessibles à tous. Et tu peux collecter en fait n’importe quoi. 

– Marc — 04:01 :

 Je suis curieux. C’est quoi le genre de données qui sont pas visibles sur le site web et qui sont pas le code de la page, 

– David — 04:06 :

 J’ai un exemple, tu as des sites de réservation de trains ou de bus, d’accord ces sites là? Donc quand tu fais une recherche, tu rentres sur la page, tu fais une recherche, tu dis que tu veux partir à à Lille et prendre un train demain. D’accord, tu fais une recherche et en fait là tu vas voir une des lignes avec tous les tickets qui existent, et cetera. Sauf qu’en réalité, chaque ticket qui est qui est disponible. Il a plein d’informations en fait, qui sont des informations qui sont nécessaires pour pouvoir rendre l’information visible du style, savoir si le train est complet ou pas, mais en fait c’est pas quelque chose qui est forcément affiché donc le train il peut être pas complet s’il est s’il est complet il va pas être affiché du tout et s’il est pas complet il peut l’être ou alors s’il est complet, il va être affiché d’une certaine manière. Sauf que tu vas le voir toi d’une certaine manière en tant qu utilisateur, mais l’information complet tu la vois pas forcément en tant qu utilisateur par contre c’est une information qui est très importante parce que si tu veux collecter les données d’un site de réservation de train et que tu veux à la fin avoir un Excel avant, sachant si les trains sont complets ou pas complets, Bah t’as besoin de prendre cette information. Depuis à part je sais. Si tu vois de quoi je parle, mais quand tu vas sur un site Web, t’as toujours une partie développeur comme ça sur le navigateur ou tu peux voir en fait toutes les lignes qui chargent et toutes les API et cetera. Et derrière en fait t’as plein d’informations comme ça avec ces API et c’est des informations disponibles. 

– Marc — 05:16 :

 D’accord oui donc des fois il y a des sites qui vont envoyer toute l’information, c’est dans le navigateur que le filtre se fait. À partir du moment où ça se fait dans le Navigateur, vous pouvez y accéder quoi exactement? Alors est-ce que c’est légal et si oui, dans quelle borne? Ça doit s’inscrire, le scalping,

David

 le Scalping, c’est légal à 100 % Tout le monde a le droit de scraper n’importe quel site internet et les gens qui se créent leur propre site parce qu’ils arrivent pas parce qu’ils le font à grande échelle, ils peuvent pas forcément appeler leurs API tout le temps, et cetera, ou alors ils font partie de grandes entreprises qui ont beaucoup de sites internet et pas toutes les départements donnent accès et communiquent, et cetera. Et puis après en fait, si tu veux, il y a effectivement une limite légale. C’est que à partir du moment où les données sont publiques, c’est-à-dire qu’elles sont visibles en fait à n’importe qui sans avoir besoin d’avoir un accès en fait privé comme un username et un password, et cetera, c’est tout à fait légal. En fait, l’idée est simple, c’est qu’un site internet. Qui décide s’il veut livrer les données s’il veut montrer les données en fait à tout le monde ou pas, s’il veut pas les montrer à tout le monde en général. Il a une souscription, il demande un username, un password et sinon il les rend public. Toutes les données qui sont publiques, qui sont rendues publiques, c’est absolument légal de les connecter. C’est exactement la même chose que si tel est sur un site internet que tu le faisais, toi à la main. Sauf qu’en fait, au lieu de faire à la main, tu automatise le process quoi. 

– Marc — 06:26 :

 Et si jamais il y a un user et un password, c’est le site qui va l’avoir écrit quelque part dans ces conditions d’utilisation. 

– David — 06:33 :

 Il aura pas forcément écrit dans ces conditions d’utilisation d’abord, oui, très souvent, il l’écrit. Mais le fait même qu’il donne pas accès à tout le monde à ces données là, de notre point de vue et du point de vue de tous les gens qui scrappent les données, c’est si tu veux, c’est une ligne rouge si tu veux. 

– Marc — 06:47 :

 Sur de là dire que ça. 

– David — 06:48 :

 Suffit à dire que c’est pas public. Exactement en fait, t’as les données publiques et les données qui sont pas publiques, les données qui sont publiques, qui sont accessibles à tout le monde et donc là pas de problème, et les données qui sont pas publiques, c’est une rouge. Personne scrap ces données là, sauf si c’est ton propre compte et que tu veux automatiser ce process et en général, t’as souvent un accès direct et un site internet te donne lui-même l’accès à ces données facilement avec une API Ce genre de choses. Mais à partir du moment, tu as besoin d’avoir un une action en général quand t’as un mot de passe et un user name et que le site te donne pas accès en fait aux données très souvent, c’est parce que ces données en fait sont payantes et qu’il veut pas les donner à tout le monde. Tu vois à ce moment-là, mais y a pas de raison qu’en fait tu viennes les scrapper de façon gratuite et qui donne accès que tu les utilises. 

– Marc — 07:28 :

 D’accord, donc, cette barrière du user password, et c’est ce qui rend pas interdit, mais en tout cas on a besoin de la l’accord de la reprise, qui qui sera scrapée pour? 

– David — 07:38 :

 Exactement exactement. D’ailleurs, si une entreprise vient chez nous et nous demande de collecter des données qui sont pas publiques, généralement, c’est d’abord l’en général, on va pas le faire du tout et si on doit le faire, c’est parce qu’on a le consentement écrit du site internet et évidemment du client, mais qu’on a un consentement écrit, tous en général, c’est pas le cas en général, le site internet qui bloque ces données et les gens qui viennent pour scraper des données. En général, ils veulent scraper des données de sites qui sont complètement publics. 

– Marc — 08:04 :

 Ouais, et alors il peut y avoir des données publiques parce que le site a tout intérêt à les mettre. Pas derrière une barrière user password mais pour autant, ce site a peut-être pas forcément envie qu’on le scrap, donc par exemple avec Ben voilà la veille de prix concurrentiel, tout ce qui concerne la concurrence en général, certain nombre de sites ont peut-être pas envie de se faire scrapper ce qu’ils ont comme moyens pour mettre des bâtons dans les roues, on va dire. 

– David — 08:29 :

 La plupart du temps, les sites veulent pas qu’on les scrappe pas parce qu’ils veulent pas donner accès à leurs informations. La plupart du temps, ils veulent pas qu’on les scrappe parce qu’ils veulent protéger leur site de problèmes techniques. Si tu veux. D’accord, parce que le scraping y a du scraping sauvage et y a du scraping qui est bien fait. Le Scraping, qui est bien fait, c’est un strapping qui est fait en sans envoyer trop de requêtes sur un site pour le protéger, pour faire attention et et et de le faire enfin si tu veux, c’est de faire du scraping de façon éthique. T’as des gens aussi qui viennent hacker des sites si tu veux pour faire tomber le site, un concurrent qui viendrait sur un site pour envoyer beaucoup de requêtes et faire tomber, faire ce qu’on appelle du DDOS. Tu veux? C’est des choses qui sont possibles, et cetera. Donc c’est en général pour ça qu’ils protègent leurs données, enfin qui protègent leur site de ce genre d’en fait de visites qui sont pas des visites humaines sur eux sur leur site. D’accord, sinon il y a pas vraiment de raison de protéger tes données. Imagine que tu sois Ben distributeur alimentaire, t’as des magasins et que tu mettes un vigile à l’entrée et que tu vérifies si les gens sont vraiment acheter un produit ou pas et s’ils vont pas acheter un produit, tu vérifies s’ils vont pas venir relever des prix, c’est pas quelque chose que tu peux vraiment protéger et tu veux pas le protéger. Au final, la plupart du temps c’est très bien de savoir que ses concurrents viennent chez toi pour prendre tes prix et c’est le marché qui fait ça et c’est une bonne chose donc c’est pas la raison en fait pour laquelle il protège tellement Cela dit ils le font. De façon alors, ils ont plusieurs moyens de le faire. Notamment des solutions qui sont des ce qu’on appelle des bottes détection des solutions de détection en fait de robots, et cetera, qui eux savent, avec des outils, savent détecter en fait s’ils le visiteur qui vient sur le site, c’est une visite qui vient d’une vraie personne, donc une visite humaine ou pas, comment ils le font? Ils ont plein de moyens, c’est marche avec beaucoup de machine learning et cetera. Donc ils regardent les fingerprint des gens, ils regardent le navigateur qui arrive sur le site, ils regardent quels sont les headers qui sont dans le navigateur du site, ils regardent si la personne est de quel IP elle arrive, de quel pays elle arrive, et cetera et en fonction il décide. De savoir si il donne accès en fait, au contenu ou pas. Donc ça c’est les moyens techniques. En fait pour éviter si tu veux le scraping. Mais encore une fois, généralement, la raison d’utilisation de ces bottes c’est pas tellement pour protéger les et du scraping, mais c’est plus pour protéger le site en lui même et d’ailleurs on le voit parfois en collecte des données pour nos clients et d’un coup une un point de données qui était essentiel pour nos clients et plus accessible est accessible qu’après un login, c’est-à-dire que le site a compris qu’il avait des concurrents qui scrapent ces données et qui a certains points donnés qui décident en fait. Les plus affichés et d’afficher uniquement qu’on utilise data à un login, donc de demander en fait une inscription avant de donc c’est leur moyen si tu veux. C’est le vrai moyen en fait de protéger tes données plus que d’utiliser des détections de bottes et cetera et détection de bottes, elles sont vraiment faites généralement pour éviter en fait de faire du tort. En fait si tu veux aussi au niveau technique, au serveur et cetera. 

– Marc — 11:08 :

 D’accord donc, le meilleur moyen, c’est le login. 

– David — 11:11 :

 Clairement maintenant un site e-commerce, retail, évidemment il va pas faire un login pour protéger ses données pour les données d’accès, mais de la même façon qu’un magasin a fermé ses portes et pas que les gens viennent récupérer les prises des données. 

– Marc — 11:21 :

 Du du coup, qu’est ce qu’il y a par exemple, comme on va dire, méthode d’anti scraping, qui ou anti Bot hein? D’une façon générale, qu’est-ce? 

– David — 11:28 :

 Qu’alors les méthodes, donc c’est d’abord les logiciels, donc de détection de bottes data, DOM et cetera, donc d’abord des logiciels, en fait que tu intègres en fait à tes codes et qui permettent en fait de détecter chaque fois qu’il y a une visite, de regarder en fait d’identifier. Comment ça se passe quand t’as une personne vient visiter ton site internet, tu peux le faire toi même, en général tu vas le faire avec un logiciel tiers. La première chose en fait, c’est que tu regardes quand une visite, elle arrive à une requête qui se fait sur ton serveur et tu essayes d’identifier cette requête. Je vais savoir d’où elle vient, d’accord donc tu vas avoir des cookies, tu vas avoir l’i p tu vas regarder si une IP c’est une IP d’un centre de données ou c’est une IP qui appartient à une vraie personne, tu vas regarder si le le type de navigateur qui l’utilise qui a son navigateur est-ce qu’il a donc des cookies, mais ce qu’il a aussi une langue particulière, est-ce que la langue dans son navigateur? C’est l’anglais, mais en réalité, il y a une épée française, peut être c’est pas normal, et cetera. Et ensuite si tu veux le site il décide. Grâce à ces logiciels de servir ou pas le contenu et donc ça c’est une manière de faire donc après il peut décider de bloquer complètement l’accès à la page en disant en fait ça c’est un robot qui est arrivé sur mon site, je je bloque la page, il peut dire aussi je suis pas sûr que ce soit un robot ou pas, je vais lui mettre un captcha, t’as une autre solution, c’est un captcha, il peut aussi décider de servir les données mais en fait de pas servir forcément les bonnes données, par exemple si il voit qu’il y a trop de requêtes qui arrivent d’un coup sûr. Face à à j’en parlais hier avec un client, il disait qu’il scrappait donc très souvent ce qui les donnait en fait d’un concurrent et qu’un jour, ce concurrent a priori a réalisé que à certaines heures il le faisait en fait tous les jours à la même heure pendant la nuit et un jour, ils ont réalisé en fait que les prix avaient complètement changé et qu’ils avaient pas de sens. Et ils ont réalisé qu’en fait ils avaient changé les prix en fait à une certaine heure de la nuit parce qu’ils avaient compris en fait, il y avait du monde qui venait su que c’était pas normal. Tu vois donc si tu veux, il y a cette idée de protection, c’est quand tu vois un concurrent qui vient scrapper tes données à grande échelle d’un coup ou si tu veux t’as pas envie de les donner accès à tes données trop facilement tu vois? Donc, c’est aussi ce type de moyens là, et puis un autre moyen, et c’est le moyen le plus difficile à à contourner. En fait, c’est de changer en fait régulièrement la structure de la page parce qu’un un scrapeur en fait, c’est un code. Finalement c’est un code qui est pas très intelligent, qui devient intelligent. Maintenant avec l’intelligence artificielle et cetera, mais que maintenant ça reste un code donc tu lui dis quoi faire et quand tu lui dis quoi faire, tu le dis surtout en fait, quelles données à aller parser? Et pour lui dire en fait qu’elle donnait aller parser, il faut lui dire en fait, voilà, il y a tel élément sur cette page qui s’appelle prix et il faut que t’ailles me connecter à se donner prix. Sauf que si le site en fait, il enlève, il change le nom prix, mais à la place de prix. Mais price crawler, il sait plus aller collecter les données du prix si tu veux et donc ça il y a des sites en fait qui savent très bien en fait modifier leur structure et modifier leur leur HTML tout le temps pour éviter en fait le scraping sauvage

– Marc — 14:04 :

 Combien ça coûte de scrapper? Est-ce qu’y a un prix simple à comprendre parce qu’on va dire y a un marché, un prix de marché? 

– David — 14:10 :

 Non non. En gros le prix du Scraping, il dépend du volume de scraping, du volume de pages que tu vas scrapper. D’accord, en plus ou moins du volume de données que tu vas scrapper. D’accord Ensuite t’as beaucoup de postes en fait dans le scraping et selon que tu veuilles gérer toute la partie scraping dans ton entreprise et faire confiance juste à une infrastructure comme celle de Brahim Data, donc des proxys et cetera ou que tu demandes en fait à Bray data de collecter toutes les données. Ça aussi, c’est une différence, tu veux de prix? Évidemment, puisque les ressources sont se passent d’un côté, d’un côté ou de l’autre, ça peut coûter 2$ si tu veux scrapper de temps en temps une page. Et il y a des clientes chez nous qui dépensent des millions de dollars pour scraper des millions de pages tous les jours. Si tu veux et les modèles de prix en fait, ils varient aussi en fonction des produits. Par exemple, si tu utilises uniquement des des IP des Proxies, tu vas payer en fait en fonction de la bande passante, donc ça va dépendre aussi du site si tu collectes une page avec juste une API et du texte, il y a pas beaucoup de bande passante et donc ça coûte pas très cher. Mais si tu collectes. Des données avec des images, des fichiers médias, et cetera. Mais ça va coûter beaucoup en bande passante, ça coûte plus cher. 

– Marc — 15:12 :

 D’accord et t’as une idée de la taille du marché du scraping aujourd’hui? 

– David — 15:16 :

 Mais en fait, c’est très difficile de de savoir parce que d’abord y a pas de société scraping public, donc pas de données publiques. D’accord, je pense qu’il est seul chiffre public en termes de quand je parle de société qui fournissent des proxys, des infrastructures, c’est Bright data qui a publié ces chiffres l’année dernière. Qui a dit qu’il avait dépassé 100000000 de dollars par an? Mais à part ça, pas plus. Entre-temps on a encore grandi, énormément. Et voilà. Après le marché du Scraping, c’est les infrastructures comme celles dont je parle maintenant, mais c’est aussi, ça va beaucoup plus loin que ça. T’as des sociétés qui collectent les données, qui te fournissent des Insights, t’as des sociétés qui vont collecter des données, qui te fournissent des outils de pricing, et cetera. Et à la fin du compte, de plus en plus d’entreprises collectent des données via le scraping. Quand je parle de plus en plus d’entreprises, c’est les plus grandes entreprises que tu peux imaginer au monde. Les plus grandes marques de retail que tu peux imaginer au monde, qui passent par des sociétés comme brigata ou comme d’autres sociétés pour collecter des données. Et c’est en croissance exponentielle. Je crois que j’avais envoyé un graphe un jour où tu vois en fait le nombre de données qui sont échangées sur internet et tu vois l’évolution depuis 2005 je crois. Enfin, sur les 20 dernières années, le nombre de données échangées à a été multiplié par 100 ou par 200 En quelques années, ce qui fait qu’en fait plus t’as donné Ben, plus tu scrappes et plus le scraping devient une facile à utiliser et plus les entreprises le font. Jusqu’il y a pas longtemps, les entreprises savaient même pas qu’elles pouvaient scraper il y a 10 ans, on est venu nous voir pour nous demander en fait si il pouvait utiliser notre infrastructure pour scrapper. Désolé, les sociétés étaient pas bloquées par les sites internet et cetera, donc plus la technologie avance, plus ta difficulté à scraper et plus t’as besoin en fait si tu veux de dépenser de l’énergie et des ressources pour scraper les données et donc voilà je pense qu’on parle de milliards de dollars sur au niveau du marché et c’est en croissance exponentielle. 

– Marc — 17:04 :

 Ok quand tu dis y a pas d’entreprise publique, c’est au sens américain du terme. J’imagine public au sens en bourse ouais ouais. 

ENLEVE LE BLANC STP

– David — 17:12 :

 Qui publie leurs chiffres. En tout cas, si tu veux leur attends qui publie un chiffre. 

Alors on va dire sur le plan concret, la data, vous la livrez. Comment est-ce que quand on fait le scraping pour les clients, 

c’est très simple. On la Livre, t’as plusieurs modèles de livraison quoi, donc tu décides mode de livraison, donc tu décides en fait comment tu veux, quand tu tes données. D’abord le livre structurés, donc tu reçois un Jason CV ou un Excel, donc tes données sont structurées, on détermine un schéma au départ d’output avec les exactement les les éléments que tu veux sur la page, donc on te livre pas juste tout l’a HTML avec plein de données, il faut que tu partes et cetera. On le fait, nous. Et ensuite, on le livre en fait, où tu veux donc tu nous donnes l’accès à ton serveur et on te livre sur ton serveur, tu nous donnes accès à ton Google cloud ou ou ton Amazon S 3 ou Azure, et cetera. Tu nous donnes simplement ton accès, on te les envoie directement et chaque fois que le crawler on a des API aussi pour le faire tu peux télécharger tes données depuis notre interface et cetera. Et chaque fois que tu actives en fait le Crawler, donc qui va aller collecter les informations à chaque fois que le Job est terminé? En fait, les données sont livrées directement. 

– Marc — 18:16 :

 Les principaux secteurs intéressés par ce camping de données, c’est quoi c’est hyper varié, mais les principaux c’est le retail et e-commerce, donc ça c’est le le plus gros cas d’usage utilisé tout à l’heure, mais les plus grandes entreprises du ritaine que tu peux imaginer les plus grandes places de marché e-commerce utilisent nos nos outils pour collecter les données. C’est aussi ça qui prouve à quel point un c’est légal et 2 c’est les sociétés, en fait, protègent pas leurs données contre le scraping, mais plus contre le hacking, et cetera. Parce qu’en fait tout le monde scrappe les données de tout le monde et c’est et c’est pas un problème. Tu vois donc le retail beaucoup notamment pour le pricing, donc en général les business units dans les entreprises c’est principalement le pricing, c’est souvent le marketing parce que tu peux collecter des données de réseaux sociaux et essayer de voir les tendances parce que les gens disent sur les profils et cetera et la stratégie les grandes entreprises qui définissent 5 ans à l’avance, quel type de produit elles vont développer pendant les 5 prochaines années? Pour ça, en fait, elles ont besoin de data. Il faut savoir que la data en fait, c’est hyper stratégique. C’est-à-dire qu’avant t’avais pas de données, tu savais pas comment? Enfin il y avait des données, mais on savait pas comment il collectait aujourd’hui avec ces données. Là tu peux prendre des décisions si tu veux stratégiques super important donc dans le retail en fait déjà t’as plein de départements qui ont besoin de ces données, c’est souvent le pricing principalement pour faire de l’analyse de pricing, et cetera. Après t’as des entreprises par les investisseurs les le capital Ventures et cetera, les VC et cetera, les hedge funds et tout qui utilisent les données à grand volume aussi. Parce que quand tu veux investir dans une entreprise, t’as envie de savoir si cette entreprise elle marche en ligne, tu vas investir dans un retailer, dans une société e-commerce, mais tu veux vérifier en fait ce que les gens disent sur eux, comment ces produits sont vus sur Internet? Aller voir sur les places de marché si ils ont des bonnes reviews et cetera. Tu veux aussi savoir dans quel type d’entreprise investir. Donc tu vas aller sur les réseaux sociaux professionnels pour voir combien d’employés? Non est-ce que le nombre d’employés a évolué dans les derniers mois, est-ce qu’ils ont des nouveaux employés, et cetera? Donc ça c’est aussi un cas. Donc, à de l’intéressant, le travel aussi. C’est un cas d’usage très courant et c’est assez évident en fait, parce que c’est beaucoup de pricing qui dynamique a besoin de prix exactement. Pas que de prix aussi de route, c’est de de destinations. Est-ce que la destination Paris Lille, elle est assez évidente? Mais est ce qu’elle est ce que c’est une destination qui a beaucoup de demandes ou pas. Est-ce que les prix varient beaucoup ou pas, et cetera? Tu vois ce qui varient souvent et ce qu’il faudrait mieux qu’on adapte en fait, plus notre stratégie aussi, et cetera. Et puis t’as aussi comme en fait le l’infrastructure, je suis pas rentré tellement dans les détails parce qu’on parle beaucoup de scraping plus que d’infrastructures de proxy, mais notre infrastructure, elle, comprend 100000000 d’i P. Résidentiels ces I PS, qui appartiennent à des particuliers qui donnent leur consentement pour qu’on utilise leur IP et ces IP là, ces IP qui sont vues comme des des IP appartenant à des vraies personnes parce qu’elles appartiennent des vraies personnes. Ce qui fait qu’en fait par exemple t’as des régies publicitaires et c’est de là que je viens qui utilisent nos IP en a dans le monde entier donc on peut cibler en fait on peut envoyer une requête depuis n’importe quel pays, n’importe quelle ville du monde entier, donc tu peux par exemple une régie publicitaire. Elle va vouloir vérifier si ces publicités elles sont affichées comme il faut depuis des villes différentes, tu vois donc elles vont utiliser aussi nos outils pour ça. 

– Marc — 21:22 :

 Puis vérifiait que la pub qu’on vous a vendu a été correctement diffusé, ce qui a été diffusée correctement, ça peut être par exemple, pour monitorer et montrer à tes clients, en tant que régime, montrer à tes clients que leur publicité sont bien affichées comme il faut et imagine que t’es une un client qui soit un concessionnaire auto et qui fasse de la pub très ciblée à Chicago ou dans un quartier de Chicago, et que toi en fait ta régie. Elle est basée à Paris, tu vois? Bah pour pouvoir en fait vérifier que les publicités à Chicago c’est les bonnes publicités qui arrivent. Le client, il a envie de voir ça, il a envie de pouvoir prouver que c’est fait comme il faut si tu veux. Il faut qu’en fait tu puisses envoyer une requête via une IP de Chicago ou dans le quartier de Chicago pour lui montrer en fait le screenshot de la page et lui montrer que la page elle a vraiment était affichée. Tu vois d’accord ouais. 

– Marc — 22:05 :

 Oui, parce que sur la publicité on fait un peu confiance aveuglément à ce que nous dit ensuite celui qui nous vend. 

– David — 22:11 :

 L’espace, ouais exactement exactement les, donc souvent en fait les régimes ils ont des outils qui permettent en fait de prouver en fait aux clients que c’est bien fait. Et ça c’est obligé de passer par un réseau de proxy. Et si tu utilises des IP lambda qui proviennent de centres de données. Type Amazon, VH et cetera, ces IP sont détectées en fait en tant qu’IP Centre de données et donc le, le site peut bloquer la publicité. C’est ce qui se passe très souvent d’ailleurs parce qu’y a pas de raison en fait qu’un site mette affiche une publicité qui est payante. Enfin, qui paye si je le mets, sociétés payent. Pour l’encart publicitaire, il y a pas de raison qu’il affiche une publicité quand en fait c’est un robot qui vient voir son site. 

– Marc — 22:48 :

 Alors avec toute cette data qui circule chez vous entre vos mains, est-ce que vous la consommez un peu et en particulier ce que vous faites du machine learning? 

– David — 22:56 :

 Alors, le machine learning chez nous, c’est la base des produits qui sont là pour débloquer en fait les sites. Donc quand on voit une requête sur un site en utilisant un scrapeur, n’importe quelle entreprise qui sont propres scrappeurs et qui envoie une requête en utilisant une IP très souvent elle va être bloquée parce qu’elle va pas savoir utiliser les bons fingerprint, les bons navigateurs et cetera. Donc on a des outils en fait qui permettent de le faire automatiquement et pour ça on utilise du machine learning, on a du learning tout le temps sur les types de navigation qu’il faut utiliser, type d’ip et cetera. Et donc quand on voit une requête en utilisant ces outils là l’outil, il sait. En fait, il a des millions et des millions de profils et il sait en fait décider quel profil il faut utiliser au moment où on voit ta requête pour pas être bloqué, pour être sûr d’avoir des données qui sont précises, et cetera. Donc c’est à ce niveau-là oui on a du machine learning, on utilise pas les données qu’on collecte pour apprendre. Par contre on a beaucoup de clients, c’est un autre cas d’usage. Beaucoup de clients qui achètent des données chez nous pour entraîner leurs leurs outils de machine learning. 

– Marc — 23:55 :

 Et côté IA Côté, 

– David — 23:56 :

 Il y a c’est un avec l’i a, générative et Chadi Pti et les autres L et cetera. Ça devient si tu veux un poste essentiel. Maintenant ça veut dire qu’on commence en fait à rajouter de l’i a à tous les niveaux. En fait, du scalping, le Scalping ça commence d’abord par déterminer les éléments que tu veux collecter sur une page. D’accord parce que quand tu vas collecter je j’en j’en parle tous les jours avec les clients, des fois ils ils ont une idée ils disent on va collecter maintenant des prix. Donc qui viennent nous voir, ils disent, voilà, on a besoin de les collecter. Les prix de tels sites et tel site, connectez moi les prix. Donc alors collecter les prix et puis après un jour ils réalisent qu’en fait ils aimeraient bien aussi avoir la description des trucs et donc ils recommencent cetera. Tu vois donc l’idée en fait c’est de déterminer bien à l’avance ce que tu veux et pour déterminer ce que tu veux en général. C’est une personne qui vient sur le site et qui regarde sur la page ce qu’elle veut, et cetera avec l’intelligence artificielle aujourd’hui tu peux mettre une page et demander à chat dupety qui te détermine tous les points qui existent sur la page et te faire en fait un schéma. Output automatique si tu veux donc ça, c’est une première chose. Après t’as la partie Scrapeur, t’as du code avec la partie parking ou t’as des éléments sur les pages, ces éléments ils changent souvent justement comme moyen d’éviter si tu veux le scraping sauvage et Ben avec l’IA Générative tu peux automatiquement quand tu vois que t’as pas réussi à collecter une donnée automatiquement modifier le code en fonction de la page et regarder en fait les éléments qui ont changé. Tu vois donc il y a plein de choses qui sont faites en utilisant l’i a. À plein de niveaux et surtout au niveau de la validation des données. Parce que ça, c’est vraiment l’essentiel de tout. En fait, les entreprises qui collectent des données ont besoin de vérifier que leurs données sont bonnes. Et comme je dis tout à l’heure, en fait, tu peux collecter les données, mais en fait pas avoir les bonnes informations. Parce que si t’as décidé de pas te donner la bonne information et pour ça, bah jusqu’à aujourd’hui les données étaient validées à la main et elles sont toujours d’ailleurs les entreprises qui ont des équipes entières, qui vérifient les données qu’ils reçoivent, c’est-à-dire qu’en fait, ils reçoivent des Excel et puis ensuite ils rentrent sur les pages et vérifient si ça correspond. Ils le font de façon Random parce que tu peux pas faire ça sur toutes les données, et cetera. Avec le Tchad, Piti et l’IA Génératif, tu peux automatiquement vérifier. J’ai un exemple concret, t’as un site pour lesquels on collecte des données de prix et un jour on a reçu des prix qui en fait qui étaient des prix qui étaient complètement aberrants. Sauf que techniquement parlant, si tu veux c’était un nombre et c’est ce qu’on avait déterminé donc dans le scraper il fallait recevoir un nombre et donc en fait bah le nombre si tu veux c’était un nombre donc ça marchait si tu veux pour nous c’était un succès avec Léa Génératif qu’on rajoute chat dipity. Lui il sait dire en fait non. Non, c’est pas possible, c’est pas possible que ce prix-là est, ce soit le même prix donc il nous envoie des alertes et automatiquement c’est changer tu vois d’accord, et puis encore. 

– David — 26:32 :

 D’autres niveaux si tu veux des niveaux, des insights par exemple pour prendre des décisions, c’est ça aussi. Si tu veux, tu vas lui rajouter toutes les données et utiliser en fait et et professer en fait toutes ces données pour pouvoir prendre des décisions et pouvoir montrer des dashboard, des historiques et venir avec des suggestions de décisions stratégiques à prendre en fonction des données, et cetera. 

– Marc — 26:49 :

 Il y a des choses qui sont en production dans ce que tu dis. Avec le GPT les usages. 

– David — 26:53 :

 Ouais c’est pas en production. En bêta on a rajouté en fait par exemple la classification des données, on vend des jeux de données complets et aujourd’hui un des gros challenges pour les entreprises qui collectent des données différentes sources de pouvoir en fait matcher les données entre plusieurs sources comme tu vas collecter les données produits sur 3 sites différents. Alors parfois t’as un identifiant unique, c’est parfait, tu vois c’est très bien, c’est facile à faire, parfois t’as pas ça et donc t’as besoin de collecter les entreprises qui font ça, qui sont spécialisées dedans dans le Product Matching, avec des algorithmes super poussés qu’ils font, et cetera. Et on rajoute en fait. Donc ça c’est vraiment, c’est embêtant, mais c’est une pratiquement une production. On rajoute en fait des outils qui te permettent. Quand tu achètes nos données avant de les acheter, de rajouter en fait de la classification ou de rajouter d’autres types en fait de questions que tu peux poser en fait à chat GTA pour enrichir en fait les données qu’on a tu vois donc ça c’est clairement pratiquement production, le reste c’est dans la roadmap mais c’est une question de semaine si tu veux. À tous ces niveaux là, on on rajoute déjà et on on étudie après, y a des challenges parce que Bah Léa génératif, pour faire de la classification c’est lent, c’est pas encore rapide. La question c’est savoir comment on va pouvoir améliorer et améliorer et optimiser ce qu’on va utiliser. Un chat GPT ou un autre chat dépister juste un exemple parce qu’on parle beaucoup mais lequel on va utiliser combien ça coûte? Il y a un coût aussi qui est lié à ça, et cetera. 

– Marc — 28:10 :

 Parmi toutes les données que vous collectez. Alors déjà de la donnée que vous avez collectées pour un client, ce que vous pouvez la vendre à un autre client, c’est possible ça ouais, 

– David — 28:19 :

 Si on collecte les données qu’on va en fait des jeux de données, c’est le but en fait, c’est-à-dire mutualise donc on les collecte et en fait on les revend ensuite. Tu peux venir et acheter en fait une base de données, donc tu viens et tu as tu sur notre plateforme et t’achètes là-bas donc je peux l’acheter toi et n’importe qui d’autre peut l’acheter. 

– Marc — 28:33 :

 Et alors du coup est ce que Ben vrai question c’était est-ce que du coup y a des catalogues de données déjà scrappées disponibles qu’il y a des endroits où on peut bah consulter et s’inspirer? Bah si on a pas d’idée. 

– David — 28:44 :

 Exactement. T’as une librairie, tu crées un compte sur un boy de taille et puis t’as une librairie en fait avec toutes les données qu’on a collectées, qu’on propose un jeu de données. Alors, nous, on travaille surtout dans l’autre sens, c’est à dire qu’on a un client qui vient nous voir ils disent, voilà, moi, j’ai vu votre libri. J’ai y a pas le site qui m’intéresse mais j’aimerais bien arrêter ce site là et on le fait. Tu vois donc au fur et à mesure on rajoute en fait des sites l’idée à terme c’est d’avoir en fait si tu veux plus ou moins tout le web accessible et de pouvoir rentrer, d’avoir un annuaire avec tous les sites possibles et imaginables en fait qui soient accessibles mais c’est bien sûr Ouais t’es une interface en fait qui te permet de chercher en fait quel site tu veux et ce qui est disponible tu peux le voir et l’acheter tu peux voir et et déterminer aussi filtrer tu peux dire moi je veux pas tout un site parce que j’ai pas besoin de tout mais j’ai besoin d’une catégorie de produits sur ce site là. Donc tu vas créer ton sous jeu de données puis ensuite l’acheter et cetera. 

– Marc — 29:29 :

 Et alors selon toi? Parmi toutes ces données là, quelles seraient les jeux de données qui gagnent le plus à être connus de certaines entreprises? Où y a un vrai besoin d’évangélisation aujourd’hui. 

– David — 29:40 :

 Alors, le pressing c’est connu, donc tout le monde utilise enfin tout le monde utilise des données pour ça. Quand je dis tout le monde sait pas encore toutes les entreprises parce que le scraping c’est encore parfois mal vu et parfois ça pose des problèmes. Tu poses la question de l’égalité. On a des entreprises qui viennent nous voir parce qu’on travaille avec des tu sais, c’est souvent des data scientists qui viennent nous voir et qui disent Voilà, on a besoin de collecter des données pour tel et tel projet et puis qu’on rentre dans les discussions. Au bout d’un moment t’as légal qui vient, qui dit en fait non, on a décidé de pas scraper pour l’instant parce qu’on est pas sûr donc ça ça arrive euh. En fait, t’as très souvent à part le, le département pricing qui comprend qu’il faut qu’il aille collecter les données concurrentielles. Tout le reste en fait les autres business unit, elles savent pas en fait qu’elles peuvent utiliser les données et qu’elles peuvent avoir accès en fait à n’importe quel type de données pour en décision parce qu’en fait des décisions stratégiques tu peux en prendre tous les jours en discutant avec tes collègues en regardant ce qui se passe un peu sur le web et cetera. Mais tu prends bien meilleure décision si t’as beaucoup de données et souvent en fait les gens ils savent pas, les employés savent pas, les dans les entreprises, même au niveau stratégique, si tu veux ils savent pas qui a cette capacité en fait à collecter les données. Et donc en fait, t’as toute la partie pricing qui est importante à connaître mais t’as aussi comme je te disais tout à l’heure, les entreprises qui ont besoin de collecter des données financières par exemple qui sont publiques, ça c’est des données qui sont hyper importantes. Toutes les données dont je t’ai parlé tout à l’heure qui sont pas forcément visibles sur une page qui sont derrière ça aussi c’est important si tu veux de savoir que ça existe et cetera, voilà. 

– Marc — 31:04 :

 Alors, qu’est-ce que tu préfères dans ce métier? 

– David — 31:06 :

 En fait les données web, c’est énorme, c’est le nerf de la guerre. C’est un vrai Game. Changer en fait, tu peux vraiment prendre des décisions stratégiques qui changent. En fait, la face des choses, tu es dans ton business. Et on a besoin. Aujourd’hui, tu peux plus en fait, faire sans ces données et moi Ce que j’aime en fait là-dedans. Si tu veux, c’est qu’on a vraiment le sentiment d’avoir un réel impact. On voit tous les jours des entreprises qui viennent nous voir en disant mais en fait, on a pris des décisions qu’on aurait jamais pris à l’avance avant. Par exemple, on avait fait un test, on fait un truc, on utilise souvent de présentation, on avait pris un produit, un micro-ondes et on avait fait, on a vérifié sur plusieurs plateformes, toutes les heures, la même page si tu veux de ce même produit en fait sur les 3 ou 4 différentes places de marché, allez collecter des données pour voir en fait ce qui se passait. Donc c’était aperçu en fait que sur une place de marché, le prix était resté le même toute la journée sur une autre place de marché. Le prix de ce même micro-ondes? Il avait changé 3 fois à des heures précises et sur l’autre, il avait changé 9 fois. Tu vois ça, c’est des données en fait, si tu veux, quand tu sais pas qu’elles existent, tu sais même pas que tu peux prendre des décisions qui sont liées à ça. Tu sais pas qu’en fait toi tu dois aussi peut-être adapter tes produits, et cetera. Donc on a vraiment un impact en fait tu veux, quand on évoque les données pour les clients, quand on leur donne des idées tu vois et puis c’est une entreprise aussi qui est en croissance exponentielle. On a démarré en mode start-up, on met en place aujourd’hui des process qui ont rien à envie, aux grandes entreprises notamment dans le métier de sales où avant on travaillait avec des Excel et aujourd’hui on a des process, de vraies entreprises avec des territoires chacun avec des niveaux différents, et cetera. 

– Marc — 32:37 :

 Et et quels sont les points les plus pénibles de ce métier? S’il y en a? 

– David — 32:41 :

 Ouais, y en a parce que le scraping, c’est encore mal vu comme je te le disais, t’as des sociétés qui viennent nous voir parce qu’ils ont des besoins. Mais d’un autre côté, elles sont encore réticentes à utiliser ces données. Jusqu’à il y a pas longtemps, c’était, on voyait vraiment ça comme une zone grise. Aujourd’hui, c’est une zone 100 % blanche, tout va très bien et puis ça fait partie aussi de l’impact d’ailleurs, que brigata en fait d’évangélisation, c’est-à-dire qu’en fait on vient en fait montrer à tout le monde que c’est très possible de scrapper des données et que tout va bien et que c’est possible de faire. C’est facile de le faire, et cetera, mais ça reste encore un vrai challenge. Il y a aussi un challenge d’éducation, comme je le vois encore tous les jours. Donc à part les équipes qui ont l’habitude de scrapper, donner y a encore beaucoup en fait d’équipes qui comprennent pas comment ça fonctionne, et cetera, donc ça c’est la difficulté. Et puis pour moi. Particulièrement dans une société qui est basée en Israël mais qui a surtout un focus sur les États-Unis depuis longtemps. Donc maintenant qu’on rentre si tu veux beaucoup en Europe, on a des clients historiques en Europe, avec des gros clients en Europe. Mais maintenant qu’on rentre, tu vois bien en Europe et en France, et cetera. Il y a des difficultés évidemment, et les gens ne connaissent pas forcément, et cetera. Et ça, ça fait partie des des challenges. 

– Marc — 33:40 :

 Alors tu disais que le scraping est légal tant que c’est public. Je me demandais par rapport au RGPD des données qui sont publiques mais personnelles peut être LinkedIn par exemple hein? Je les réseaux sociaux, est-ce qu’on a le droit de scrapper des données personnelles? Comment ça se mélange? On va dire les 2? 

– David — 33:58 :

 Contraintes alors d’abord, alors GP c’est en Europe, aux États-Unis, d’autres conformités, le RGPD c’est pas un problème en soi, c’est une très bonne chose protège des données personnelles, c’est très bien. La question c’est que ce que les entreprises elles font pour être conformes en fait RGPD et CPA aux États-Unis, et cetera pour ça. Ben un tu peux pas garder des données personnelles, tu peux pas les utiliser, et cetera et donc on met des choses en place en fait. Pour ça alors par exemple, on a en tant qu utilisateur personnel, tu peux venir sur notre site internet et vérifier si tes données ont été collectées à un moment donné ou un autre et demander à les retirer si on collecte des données personnelles de type Email et Ben on va envoyer un mail à la personne pour lui dire on a collecté vos données, vous pouvez les retirer alors souvent si on collecte des données comme un email par exemple. Ces données sont publiques, il y a des réseaux sociaux par exemple sur lesquels t’as des données où tu vois en fait la personne à la maison, mais c’est très très rare mais ça peut arriver et donc on a des process en fait pour vérifier ces choses là. Pour être 100 % conforme à GPD Ouais mais en soit RGPD c’est une très bonne chose et ça va pas à l’encontre du scraping mais évidemment t’as des entreprises qui scrappent des données qui sont pas publiques, qui sont derrière des logins et ça c’est 100 % ni conforme à GPD parce qu’ils utilisent les données personnelles. Évidemment ils en font ils utilisent pour du SPA par ce genre de choses enfin voilà donc ça évidemment c’est pas le mais ça en fait pas. 

– Marc — 35:14 :

 Ce que t’as eu une anecdote à nous partager. 

– David — 35:16 :

 Il y a plein d’anecdotes et je pense que le plus intéressant, c’est. Bride data. Ça a commencé avec 3 fondateurs il y a 10 ans, qui avaient 1VPN une application VPN en pe to be. L’idée, c’était d’ils avaient fait un test, ils avaient dit on va créer, on va prendre des IP de personnes, on va leur demander s’ils sont d’accord de partager leur IP et s’ils partagent leur IP on leur donne accès à l’i p des autres et on fait un réseau comme ça. L’idée en fait, c’était de pouvoir donner accès. Tu sais j’en. Ils ont besoin d’avoir un accès avec 1VPN avec un d’un autre pays, et cetera, mais en général c’est payant. Et en fait là ils avaient un accès gratuit avec un réseau B to B et c’était une dizaine d’années donc les sociétés ont commencé à utiliser des systèmes Anti Bot pour éviter le scraping et cetera. Et donc les entreprises sont venues nous voir en disant une entreprise en fait, qui nous voir en disant, en fait, voilà, on collecte des données pour nos clients, mais on commence à être bloqué. Et si on pouvait avoir accès à des IP qui appartiennent à des vraies personnes, ça serait top. Et vous, vous avez ça, est-ce que vous pouvez nous donner accès à ces IP Et on a dit Bon, Ben enfin c’était encore une, ça existait même pas en fait, bref data donc c’était encore une petite start-up y a une application qui marchait très bien mais ça s’arrêtait là et on a dit Bah Ouais pourquoi pas testons on va voir ce qui se passe, tu vois on a fait un petit test et en fait ils sont aperçus qu’ils arrivaient d’un coup à collecter les informations sans se faire bloquer. Et puis c’est le départ en fait de Big data si tu veux aujourd’hui, c’est une société qui a 15000 clients et chez Big data on a 1ADN un peu particulier comme ça qui fait qu’en fait on commence tout un peu comme ça. À sûr que chaque produit et chaque feature qu’on développe, ça serait un peu en fait comme ça par exactement par un besoin client. Ça arrive en fait parce qu’on a une demande par hasard. Pas forcément un truc qu’on avait pensé et ça c’est vraiment le départ de Big data. 

– Marc — 36:51 :

 Le futur de Big data, c’est quoi

  alors Bright Data, ça a commencé avec une infrastructure breveté et tout ça un peu, on a rajouté des services de collecte de données, donc des scrapeurs. Des interfaces de scraping puis après un service complet de scraping, puis après on a commencé à collecter des données, on a commencé à à rajouter des insights aussi ensuite, donc c’est tu veux une comme une sorte de pyramide où on fait, on rajoute des couches à chaque fois, tout le temps en utilisant l’infrastructure de base et le futur. En fait, c’est Ben un l’intelligence artificielle, donc intégrer l’intelligence artificielle dans ces services là pour valider les données et pour les enrichir, et cetera, c’est des partenariats et ça ça existe déjà avec des fournisseurs de données qui sont pas forcément des données web mais de réaliser en fait une marketplace, une vraie place de marché en fait, où tu peux venir brigata ça devient un One stop shop où tu peux venir acheter des données web et des données qui sont pas forcément des données web. Et puis c’est via des acquisitions notamment. C’est rajouté en fait des outils qui sont complémentaires de la data comme des outils de pricing, des outils de Product Matching, des outils Insight et cetera. 

– Marc — 37:53 :

 Ben bon courage pour tout ça alors merci David, Ben merci à toi Marc. 

– David — 37:57 :

 Vous venez d’entendre David Elkaïm, 16 Director chez Big Data, dans data driven One One, si vous avez aimé et que vous voulez nous soutenir, n’hésitez pas à liker et partager le podcast. Pas très vite.