DATA, MUSIQUE ET STREAMING AUDIO
L’épisode bonus de l’été : Valentin Geffrier nous parle de la data, de musique , de streaming audio et du Machine Learning chez Spotify.
-Marc — 00:00 :
Cette semaine, je reçois Valentin Geffrier, Seigneur Data Scientist chez Spotify. Après 4 ans sur des sujets de marketing digital chez Amberly, il a rejoint Spotify il y a 2 ans pour travailler sur des sujets de growth. Spotify, leader du streaming audio, est une société suédoise créée en 2006 qui compte aujourd’hui 450000000 d’utilisateurs actifs. Bonjour.
– Valentin — 00:18 :
Valentin, salut Marc, merci de me recevoir.
– Marc — 00:20 :
Avec grand plaisir alors, est-ce que tu peux nous parler un peu plus de Spotify en général? Ce que fait cette boîte?
– Valentin — 00:25 :
Si une boîte qui, comme tu l’as dit, est le leader du streaming audio qui est a commencé par la musique pour la rentrée. Les cibles le plus facilement possible à bas prix dans tous les pays et qui, petit à petit, s’est rendu disponible sur de plus en plus de d’appareils différents dans les voitures, sur l’ordinateur, sur les portables, mais en donnant accès à des nouveaux contenus donc qui se sont beaucoup focalisés sur les podcasts ces dernières années. Ils commencent avec les audiobooks dans certains pays et en fait ils veulent aussi permettre à beaucoup de créateurs de vivre de leur métier, de leur création et donc ils vont leur permettre de mettre leur concert sur la plateforme ou de vendre un peu des objets dérivés des goodies. Sur l’application.
– Marc — 01:06 :
Alors, la data, c’est Spotify à quoi et à qui ça sert? Comment c’est géré exactement?
– Valentin — 01:10 :
Ça sert partout, ouais, c’est une boîte qu’on collecte beaucoup de données sur tous nos utilisateurs, sur beaucoup d’utilisateurs et ça va être utile à plein d’endroits différents. Donc le premier use case qu’on voit qui est un peu évident, c’est la recommandation de musique donc on a on a plein d’algorithmes qui permettent aux utilisateurs de découvrir d’autres musiques qui pourraient leur plaire, de nouveaux genres musicaux et donc on est obligé de de collecter toutes ces données, même d’un point de vue bah pour des fonctions support, que ce soit le marketing, la finance, on est une entreprise publique, donc on se doit d’avoir des bases de données très claires. Sur quel revenu on a combien d’utilisateurs? On à gérer des problèmes de fraude. Il y a aussi bien sur des sujets très importants de modération avec les podcasts justement, qui peuvent être uploades sur la plateforme par un peu n’importe qui ben on se doit de s’assurer qu’on n’a pas de contenu qui ne respectent pas nos règles. Donc voilà, c’est un peu partout.
– Marc — 02:03 :
Alors toi? Dans le cadre de ton travail et tu as plutôt sur la partie grosse, tu me le disais. En quoi consiste cette sous-partie de la data?
– Valentin — 02:11 :
C’est des sujets assez larges, donc par exemple, dans mon équipe, on a des, on a des personnes qui travaillent sur des sujets de de campagne, de marketing. On a beaucoup de campagnes sur Facebook, Snapchat, Tik Tok, dans plein de pays, plein de stratégies différentes. Et du coup, on va travailler sur des données de ces plateformes publicitaires mais aussi de partenaires qui vont nous aider à faire une attribution marketing plus précise, donc on appelle ça des MP mobile Management Partner et le but, c’est vraiment d’allouer le budget de la manière la plus optimale possible, parce que c’est vraiment des montants très importants et du coup ça va vraiment. Enfin, on va avoir assez de données pour prendre des décisions très régulières sur la meilleure utilisation de notre budget et qui vont tenir compte des changements de performance en fonction. Bah je sais pas d’un pays ou potentiellement la compétition en termes d’annonceurs va être plus forte et donc il va falloir qu’on réagisse rapidement. Y a des sujets de SO comment on est référencé sur Google? Et pour s’assurer qu’on peut avoir éventuellement des nouveaux utilisateurs qui vont arriver sur Spotify en cherchant des informations sur du contenu audio, sur des moteurs de recherche.
– Marc — 03:15 :
C’est quoi les segments qui restent à prendre de Spotify? Parce que nous, on connaît notre génération en France, et cetera. Quelle est aujourd’hui sur quoi vous misez, entre guillemets, sur les pubs?
– Valentin — 03:26 :
Alors on a plusieurs segments. Bah déjà on a on a bien sûr des nouveaux pays, l’Inde, qui est devenu un marché énorme, donc faut qu’on arrive à être pertinent pour des marchés différents mais aussi qu’on sache que bah dans ces pays-là c’est des utilisateurs qui peut nous ramener moins d’argent pour l’instant. Donc il faut toujours qu’on arrive à comparer le coût de d’acquisition d’utilisateurs dans ce marché par rapport à la Life time value qu’on peut espérer de ces utilisateurs là. Donc ouais y a un segment vraiment d’expansion géographique, on a aussi jazik. Qui est un vrai focus pour l’entreprise de manière globale, mais du coup, pour le marketing également, donc ça va sur des sujets de Targeting sur des sujets de créa, on va tester différentes bannières publicitaires mais différents formats, donc sur stick sur Snapchat avec des contenus plus authentiques, plus vidéos qui plus pour ces audiences.
– Marc — 04:19 :
Là parce que tu peux nous partager des décisions ou une décision business qui aurait été prise grâce à la data grâce à tes Analytics.
– Valentin — 04:26 :
Alors Ben j’ai 2 exemples en tête, un premier qui est sur des campagnes de marketing par exemple, on a tout un système qui permet d’automatiser la création de bannières dans chaque pays en fonction des performances de des publicités et du contenu qui peut être populaire à un moment donné dans ces pays-là Donc on utilisait ces ce système pour de l’acquisition, mais moi mon but était un peu de montrer qu’on pouvait l’utiliser pour de la réactivation, donc de montrer que si on mettait en avant des nouvelles sorties d’album, on pouvait réactiver des utilisateurs parce qu’en marketing c’est toujours très intéressant de réactiver des utilisateurs. C’est beaucoup moins cher. Des gens qui connaissent déjà la plateforme plutôt que d’aller rechercher, surtout dans des pays où c’est complètement saturé. Donc ça, c’est un premier exemple. Ou justement on a pu prouver que ça marchait, qu’on avait un impact significatif sur ces populations là et à un coût intéressant. Le 2ème, c’est sur la rétrospective, donc pendant le mois de décembre, Spotify donne à tous ses utilisateurs une vision un peu des stats de l’année et c’est une grosse campagne virale qui fonctionne très bien parce que les utilisateurs vont beaucoup partager ces stats là, à d’autres gens, et c’est très intéressant pour nous de pouvoir comparer heure par heure. Par rapport à l’année d’avant, les performances pour être capable de réagir et donc là notamment, on a vu que pendant la 2ème semaine on avait supprimé un peu un point d’entrée de l’expérience et on était passé complètement de nos performances de l’année d’avant et du coup ça nous a permis de réagir et de lancer d’autres campagnes ou de réouvrir des moyens d’accéder à cette expérience
Marc
des gens qui auraient loupé le coche de ce Flash INFO des Stats de l’Année qui vient de s’écouler?
– Valentin — 05:58 :
Ouais exactement. Moi, ça m’a un peu surpris aussi parce qu’on avait l’impression que d’être presque trop présent sur l’application et potentiellement de cannibaliser ou de perdre de l’attention des gens parce qu’ils allaient voir que ça, mais en fait, il y avait les gens se mettent pas à jour l’application, ils allaient pouvoir à l’expérience et potentiellement en fait ils le voient une fois et ils réagissent pas. Et du coup en fait j’ai des amis qui de semaine après l’avait toujours pas et donc c’est moi qui Allais manuellement leur montrer et donc c’est un peu la recherche utilisateur de voir pourquoi les gens ont pas accédé.
– Marc — 06:28 :
À ça et est ce que vous observez un pic des mises à jour ou ce genre de choses? Après avoir, ils ont diffusé ces stats, est-ce que vous voyez les gens mettre à jour leur appli un peu plus? Parce que leurs potes leur disent, si tu mets à jour ton application, tu vas voir tes stats.
– Valentin — 06:42 :
C’est une bonne question, je sais pas si ça a eu lieu après, si on pouvait savoir exactement pourquoi les gens ont fait ce qui est sûr, c’est qu’on a fait des campagnes de Messaging, Inap PUSH et Email en amont pour être sûr que Ben les gens allaient mettre à jour leur application pour justement accéder à cette campagne et on leur disait parce qu’on sait que les gens attendent un peu ça, donc on peut leur dire bah ça arrive bientôt si vous voulez y accéder, vous devez mettre à jour votre application.
– Valentin — 07:10 :
D’accord.
– Marc — 07:11 :
Et après? Le sujet de mise à jour est un sujet qui est de plus en plus important parce que se rend compte que l’adoption des nouvelles releases, par exemple chez Android ou chez Apple, va dépendre beaucoup d’un marché à l’autre. Parce qu’y a des pays où en fait, les gens n’ont pas du tout les mêmes marques de portable, ils ont des portables plus vieux, ils ont pas un accès à un réseau internet aussi efficace, ou alors ils ont une donnée limitée et c’est quelque chose qu’on doit prendre de plus en plus en compte pour que l’expérience utilisateur soit la même, quelque chose qui est très important au début de Spotify, que les gens ont accès à la musique quasiment instantanément alors qu’y avait pas de 4G à ce moment-là, c’est quelque chose qu’on doit garder en tête pour démarcher où y a pas de 5G quoi.
Marc
Et est-ce que vous observez des modifications de comportement suite à l’apparition de ce genre de choses de stat ? Je pense que la, la musique, c’est un peu quelque chose sur lesquels les gens peuvent être fiers de certaines choses peu fiers de d’autres, et cetera. Est ce que dans la mesure où tout le monde se montre un peu les
Valentin
bah ce qui est sympa, c’est qu’y a pas que les utilisateurs qui reçoivent cette expérience il y a aussi les artistes, les créateurs de podcasts et même maintenant les les, les gens qui écrivent des chansons et donc ça leur permet de montrer un peu leur succès. Et le nombre de personnes qui arrivent à atteindre année après année du côté utilisateur. Ouais, y en a qui sont assez fiers. Toujours bien d’être dans le top, je sais pas à 0 point 00 zéro cinq pour cent % même si parfois bah ça peut sembler un peu ridicule mais justement ils aiment bien quand même le mettre en avant.
– Marc — 08:41 :
Alors l’usage, on va dire roi de chez Spotify? On va dire. Côté machine learning, c’est plutôt la, la recommandation de la chanson d’après hein c’est c’est, je crois, ce qui est le plus central en tout cas, est-ce que tu peux nous parler un petit peu de ça comment ça fonctionne?
– Valentin — 08:56 :
Bah ça se base sur ouais. Toutes les données d’utilisateur, donc en fonction des similarités, des coûts entre différents utilisateurs. On va pouvoir recommander un nouveau contenu à une personne à si bah une personne B qui a écouté à peu près la musique à aussi écouté cet autre musique. Donc c’est des gros systèmes de recommandation qui sont optimisés, vraiment énormément maintenant et qui sont dérivés un peu dans plein d’utilisations différentes pour que ça soit par exemple. Vous écoutez un titre et vous allez avoir la radio donc juste plein de musiques recommandées par rapport à cette radio. Ou alors vous allez avoir des découvertes de la semaine ou alors les sorties de la semaine par rapport à des utilisateurs que vous suivez donc c’est vraiment et dérivé sous plein de formes et ça fonctionne assez bien, mais après finalement ça représente beaucoup d’algorithmes qui tournent tous les jours. Pour une majorité de nos utilisateurs, donc c’est aussi un gros coup serveur.
– Marc — 09:51 :
Et la donnée d’entrée pour ces algorithmes, c’est vraiment les gens qui ont vu, dirais la séquence, des chansons écoutées elles-mêmes y a pas d’analyse faite sur la musique elle-même, par exemple sur le le rythme, le tempo.
– Valentin — 10:05 :
C’est des features qu’on essaye de rajouter dans dans ces algos moi c’est pas mon mon cœur de métier donc je pourrais pas en parler beaucoup plus. Je sais qu’à la base, comme beaucoup de systèmes de recommandation, la machine a même pas vraiment besoin de savoir. Ce qu’elle recommandé, elle se met juste sur des écoutes de chaque utilisateur. Ouais et et de voir des intersections et de recommander en fonction de ça.
– Marc — 10:28 :
D’accord et face aux problèmes du cold START, comme on l’appelle, c’est à dire le nouvel United, utilisateur qui n’a pas d’historique d’écoute, ou bien le, je dirais la nouvelle chanson, le nouvel artiste qui n’a pas d’historique d’écoute. Comment est-ce que vous faites les recommandations pour éviter que Ben, cette chanson ne tombe pas dans l’oubli ou bien que que cet utilisateur soit pas confronté à trop de titres? Qui n’a pas envie d’écouter?
– Valentin — 10:51 :
C’est une question quand un utilisateur arrive, il a un test, on boarding. Donc en fait, il va de toute façon choisir lui-même quelques artistes et déjà en fait, dans ce système là, quand un utilisateur choisit un artiste, ça va faire pop up. Des artistes similaires autour de cet artiste et donc en fait, ça va permettre dès le début d’avoir un peu des seeds enfin des une première interprétation des goûts musicaux de la personne et en fait très vite une personne. Après je sais pas, elle disait, écoute, on va pouvoir raffiner un peu les recommandations, on va avoir potentiellement si les personnes choisies un peu des playlists. Éditorial donc quelque chose qui a quand même encore beaucoup de poids chez Spotify, qui représente beaucoup d’écoute. C’est des playlists qui sont faites à la main par des gens dans chaque pays, en fonction des artistes connus, des professionnels par des professionnels du métier.
– Marc — 11:36 :
Ouais d’accord et donc au niveau des artistes, c’est un peu similaire, c’est à dire qu’un nouvel artiste on va essayer de le rattacher à quelques artistes à la main avant de l’intégrer aux algorithmes.
– Valentin — 11:44 :
C’est une bonne question, peut-être pas parce qu’y a quand même maintenant des centaines de milliers, voire des millions d’artistes sur la plateforme. Je pense qu’eux vont réussir à obtenir quelques écoutes de leurs premiers fans, de leurs proches. D’accord et en fonction de ça, l’algorithme va pouvoir peut-être comprendre la similarité de ce nouveau contenu par rapport à du contenu existant, et après bah le jackpot c’est toujours pour un artiste d’être placé dans des playlists Spotify, que ça soit à la main par justement, des personnes qui travaillent la musique ou parfois par des algos. En fait, on a des playlists complètement algorithmiques, des playlists et éditoriales qui sont faites à la main. Ouais et on a un peu un mix entre les 2 qui sont des playlists algo Rials où il va y avoir un peu d’intervention humaine. Pour me dire qu’on a plusieurs musiques qui sont un peu la base d’une playlist. Et après l’algo va en trouver d’autres, similaires ou même va réordonner cette playlist pour chaque utilisateur en fonction de la connaissance qu’on a des goûts de cette utilisateur.
– Marc — 12:43 :
Les styles, les modes, les, les, je dirais les recommandations qui sont liées à autre chose que les goûts de l’utilisateur, mais plus à un moment spécifique ça, comment est-ce que ça marche, comment est-ce qu’on arrive à segmenter? On va dire les moments d’écoute?
– Valentin — 12:57 :
C’est un gros sujet, c’est assez compliqué de classifier la musique. Des classifications assez simplistes avec 20 genres, mais qui souvent s’applique à la musique occidentale. Et en fait, on se rend compte qu’on n’est pas du tout pertinent quand on arrive dans un nouveau marché et qu’on y a beaucoup de travail pour comprendre les styles musicaux et les habitudes d’écoute de ces personnes là après bah, on a justement des playlists qui sont faites un peu pour un moment donné. Je sais pas une playlist road Trip ou Noël ou petit déj où ça c’est les gens qui vont aller cette playlist ou alors on a des playlists qui justement basées sur de la recommandation mais basés sur la recommandation. Par heure de la journée par jour de la semaine où on va comprendre que les gens ont des habitudes qui changent. Ouais, d’un moment à l’autre.
– Marc — 13:38 :
D’accord, alors, il y a une question qui me qui me taraude quand j’utilise ce genre d’application de streaming, c’est quelle information je donne quand je clique suivant parce que j’ai pas envie d’écouter une musique tout de suite? Voilà y a des fois je me demande, je me dis, est-ce que je suis pas en train de dire à l’algorithme de plus jamais me montrer cette chanson là? Quel est le réel impact, comment on fait la différence entre il aime pas cette musique et il a pas envie de l’écouter tout de suite.
– Valentin — 14:03 :
C’est un bon point. C’est effectivement un signal qui va être pris en compte. Il y a même des moyens de plus fort, je crois au moins sur l’application ordinateur, mais cette méthode est pas aussi potentiellement sur l’application mobile de donner le choix aux utilisateurs de dire que là recommandation qu’on leur fait est pas est pas la bonne recommandation et que du coup par exemple ils aiment pas cette musique. Là où cet artiste là et après c’est à nous de se dire Bah est-ce que c’est quelque chose qui nous a dit une fois si c’est volontaire effectivement c’est un signal fort. Si la personne AA passé à musique, il faudrait qu’on le traite différemment et potentiellement qu’on se dise bah. Effectivement, peut-être que c’était un signal pour ce moment-là de la journée et ça veut pas forcément dire que la personne ne l’aime pas. En fait, on va tous utiliser les playlists personnelles dans lequel parfois on va passer une musique. Mais si on l’a mis dans une playlist, c’est quand même que c’est une musique qu’on écoute enfin. Donc après, c’est des signaux qu’on peut soit décider de traiter différemment de manière un peu hard coded. On va se dire Bah ce cette action là a plus de pas que l’autre. Après avec des systèmes de machine learning très puissants, je pense que l’algo va être capable d’attribuer un poids différent, différentes actions et donc potentiellement juste. Skipper, une musique va pas avoir autant de poids qu’un utilisateur qui dit bah me faites plus cette recommandation.
– Marc — 15:17 :
Alors ça donc c’est l’usage, on va dire le plus évident du machine learning, est-ce que t’en connais d’autres chez Spotify? Usage du machine learning.
– Valentin — 15:24 :
Ben y a des gros sujets de quel contenu on met sur l’application. Sur la page d’accueil par exemple, autant les recommandations, c’est quelque chose qu’on voit moins. C’est juste souvent une une liste de musique qui nous est proposée, mais c’est très important sur l’application d’être pertinent et de ranker un peu tous les contenus qu’on a proposé à une personne. Surtout parce qu’on a qu’une seule application et qu’on a de plus en plus de contenu et de types de contenus différents, donc faut savoir jauger un peu quel contenu il faut mettre en avant, explorer un peu certains contenus, parfois par recommander toujours la même chose. Et ouais, c’est on a un peu une limite en termes d’attention pour les utilisateurs donc on va tester différents rankings, différents scores sur cette surface là.
– Marc — 16:09 :
Côté growth et côté, on va dire marketing digital. Quelles vont être les données d’input sur lesquelles tu vas travailler au quotidien?
– Valentin — 16:17 :
Alors, personnellement, vu que c’est surtout des plateformes publicitaires comme Facebook ou autres, on a peu d’accès à la donnée parce que c’est des plateformes qui vont nous donner de moins en moins de granularité et c’est très bien parce que Ben y a des moments où justement, du côté de la tech, y avait trop de données qui étaient partagées. Peu de respect de la confidence. Qualité des utilisateurs des dérivés, notamment avec des données de géolocalisation. Et voilà, maintenant on a accès que à des données agrégées qui sont forcément plus dures et utilisées nous en plus on essaye de construire des algos on top of l’algo de biding et de Targeting de Facebook et du coup c’est très dur de comprendre ce qui se passe dans cette boîte noire, surtout quand on n’a pas des données très granulaires au niveau utilisateur, là où j’ai des collègues data scientiste qui seront plus du côté. Email push où message inap ou en fait ils ont des données très granulaires et on sait beaucoup plus qu’elle utilisateur va voir quel message va cliquer dessus et ça nous permet d’affiner Notre targeting, potentiellement le réduire aussi de changer, de changer message.IL Y A UN BLANC ICI Pour revenir sur le sujet du machine learning. Y a plein d’utilisations maintenant qui se basent plus sur le contenu de la musique, là où potentiellement c’était quelque chose qui était moins utilisé pour de la recommandation ou moins se baser sur des features liés à la musique parce que c’est assez dur de les utiliser, mais on a des équipes de chercheurs, notamment une basée à Paris, qui sont vraiment à la pointe de la recherche appliquée à l’audio et du machine learning appliqué à l’audio, du traitement du signal, qui savent maintenant décomposer la musique et donc ça va être très utile pour créer des logiciels. L’assistance à la composition musicale potentiellement à la création de podcasts aussi, ou même récemment, il y avait un peu des tests de karaoké où justement, bah en sachant des composés, la musique, on peut prendre une musique initiale, enlever les paroles et donner ça à des utilisateurs pour qu’ils dessus d’accord, donc vous vous fournissez aux artistes un peu des éléments qui leur permettraient d’aider à la création.
– Valentin — 18:25 :
Alors, il y a 2 plateformes déjà. Enfin, y a une plateforme s’appelle Spotify for Artists, qui est plus une suite d’Analytics de dashboard qui leur permet de suivre leurs performances. Dans le monde entier ouais de voir le succès que peuvent avoir bah le dernier album il y a une autre plateforme qui avait été rachetée par Spotify il y a quelques années, qui est suédoise. Je crois qui s’appelle Sound trap et qui est vraiment un un logiciel séparé qui est accessible gratuitement mais avec des addons payants qui permet justement de composer à des artistes plus ou moins débutants, d’essayer des mélodies avec différents instruments ou même de voir comment certaines paroles pourraient aller avec mélodie qu’ils ont en tête.
– Marc — 19:06 :
D’accord, donc c’est de la suggestion carrément de mélodies, de de choses comme ça.
– Valentin — 19:09 :
Je pense que ça va être jusqu’à la suggestion.
– Marc — 19:11 :
Ouais, d’accord, OK et sinon ça cherche à prédire, entre guillemets, l’Appétence, Cora, le public pour des essais qui peuvent faire.
– Valentin — 19:18 :
Ça, je pense pas. Je pense que ça encore c’est pareil. Je pense que c’est un peu sensible aussi d’essayer de promettre des succès à des artistes ou d’utiliser le succès des uns pour l’appliquer ou le donner à d’autres. Je pense que ça serait plus compliqué et c’est quelque chose enfin. C’est pas nous une forcément de de partager ça, non plus ouais
Marc
mais alors du coup c’est trop. Il fait quoi exactement pour?
– Valentin — 19:40 :
L’artiste, ça va être un logiciel de composition de musique, de rajouter certains instruments, de mieux comprendre. Bah voilà de quelle mélodie partent et de construire ou de produire un premier son avec très peu de moyens, très peu de moyens hardwares qui peuvent être très, très chers pour un artiste qui commence
Marc
d’accord, donc c’est bon. Logiciel de mixage, carrément, ouais, OK qu’est-ce que tu aurais voulu faire autrement si c’était à refaire?
– Valentin — 20:07 :
En fait, on a accès à beaucoup de données et parfois même un peu trop. Et je pense que parfois des choses très simples, juste au milieu de de regarder certaines performances parfois, mais vraiment de mettre des alertes en place, du monitoring mais même juste sur la qualité de la donnée. Parfois en fait on arrive dans une équipe avec des dataset qui nous paraissent un peu données et qu’on considère comme propre. Et en fait c’est très important de réévaluer la qualité de cette donnée. Et maintenant il y a plein de technologies qui permettent de mettre en place ce genre de test de check sur des pipelines de données. Qui serait un peu des premières choses à mettre en place avant en fait d’essayer de prendre des décisions business qui, potentiellement, sont basées sur des sets de données.
– Marc — 20:51 :
Banco, t’as un exemple en tête de chèque qui aurait pu être utile s’il avait été implémenté plus tôt?
– Valentin — 20:56 :
Ouais bah par exemple, je vais donner de marketing, ça c’est compliqué parce qu’on a des données fragmentées, qui proviennent de différents partenaires. Donc ça peut être assez dur de les mâcher et de s’assurer que Ben je sais pas. Par exemple, pour une publicité Facebook, on a effectivement les données qui nous vient de Facebook, des données qui viennent de l’autre partenaire, que ça colle bien sûr, la même clé sur la même clé, qui nous permet de matcher ces données et en fait sur ces sujets là, c’est assez compliqué. Et si on a pas de chèque en place, en fait, on peut filtrer toute une partie de la donnée et manquer toute une partie des événements qu’on voulait traquer à la base.
– Marc — 21:33 :
Côté modération, est-ce qu’il y a une partie qui est faite? Je dirais algorithmiquement le le contenu, notamment de podcast dont tu nous parlais, est-ce que vous avez une modération automatique? On va dire.
– Valentin — 21:45 :
Ouais, je pense qu’on a de plus en plus de systèmes et des d’équipes qui travaillent sur ça, notamment sur bah les mots qui vont être plus utilisés dans dans un podcast donné, on avait eu sur notamment les sujets de COVID, un peu comme d’autres plateformes l’ont fait, mais des messages d’avertissements. Quand un podcast parle. C’est un sujet de COVID et de données, accès aux ressources nécessaires pour les utilisateurs pour vraiment savoir faire la différence entre le vrai et le faux.
– Marc — 22:14 :
Oui oui. Vous traquer un peu la la fake news, les sujets un peu viraux qui pourraient se répandre sans que je dirais la donnée sérieuse soit accessible.
– Valentin — 22:24 :
Oui, en fait, on a un certain nombre de règles mises en place sur la plateforme et en fonction de ce qui est pas respecté, on va pouvoir agir pour supprimer ces contenus là et on utilise beaucoup de machine learning pour la détection de fraude aussi. Des comportements un peu suspicieux en fait, ça, c’est quelque chose qu’on traque depuis longtemps, mais il faut toujours être à jour sur des des techniques que les gens vont pouvoir utiliser.
– Marc — 22:46 :
Quel genre de fraude?
– Valentin — 22:47 :
Ben par exemple de créer soit des faux comptes et de les faire streamer en boucle. Un certain artiste pour gonfler artificiellement ces crimes et du coup son classement sur la plateforme ou même les les royalties qui sont revenus tirés et donc c’est quelque chose sur lequel on a agi très vite et on a des équipes, des grosses équipes de R et D qui travaillent sur ça. En permanence pour que, justement qu’on puisse s’assurer que ça influence pas nos classements, nos playlists et que bah on va pas payer un artiste plus si c’est Stream sont frauduleux donc on a ouais soit des faux comptes soit même des comptes qui peuvent être hackés pour justement s’exprimer en boucle quelqu’un mais en fait du coup on a plein d’algues qui vont pouvoir détecter ça et en fait c’est important pour même pour nos résultats publics de donner un nombre d’utilisateurs qui est réel et ça avait été un sujet. Par exemple chez Twitter, quand Elon Musk. Arriver, qui est annoncé qu’y avait un énorme pourcentage de la plateforme qui était des bottes et effectivement bah en fait ça pourrait changer un peu la valeur de la boîte si on se rend pas compte qu’y a beaucoup de comportements qui sont juste pas du tout réels.
– Marc — 23:52 :
Vous communiquez auprès des artistes, sur les je dirais, les critères qui font, qui vont être mis en avant, qui vont être rauques, plus haut ou plus bas dans une liste. Est-ce que c’est quelque chose sur lequel il y a une sorte de boucle avec eux, où est-ce que vous restez un peu boîte noire? Et puis Moins on en dit, moins on sera contourné.
– Valentin — 24:11 :
J’ai moins de vision sur ça, ce que je sais, c’est que, par exemple, en en France ou dans chaque marche un peu local. Y a des équipes de musique mais y a des équipes éditoriales qui vont travailler les playlists et des équipes qui vont gérer les partenariats avec les artistes et labels. Et il doit y avoir un peu une frontière entre les 2 justement pour qu’il y ait pas de conflits d’intérêts et qu’une personne qui va choisir de mettre une musique dans une playlist, ça va être basé sur juste un goût musical et une croyance de cette personne que c’est effectivement une musique qui est à sa place dessus et qui mérite un certain succès.
– Marc — 24:46 :
Quel avantage compétitif? Est-ce que la data offre à Spotify aujourd’hui?
– Valentin — 24:51 :
Un énorme avantage même par rapport à d’autres applications de musique qui débutent où qui ont débuté plus tard. En fait, on avait quand même quelques années d’avance et des millions d’utilisateurs, donc en fait ça permettait d’avoir des algos déjà bien entraînés, d’avoir pu tester et d’avoir pu tirer sur quel modèle on voulait choisir le fait d’avoir ces données sur plein de contenus différents dans différents pays. Ces définitivement un avantage très compétitif.
– Marc — 25:17 :
C’est important d’avoir une plus grosse base d’utilisateurs pour avoir des meilleurs algos ou euh ? À partir d’une certaine masse critique, on peut dire qu’un algo envoie un autre.
– Valentin — 25:26 :
En fait, je pense qu’y a toujours le problème. De plus, on a donné plus, ça peut être coûteux à stocker ou de faire tourner des algos de dessus, nous par exemple en fait les coûts de nos serveurs c’est un coût très très important et même c’est une partie de notre empreinte carbone très importante aussi donc c’est quelque chose auquel on fait très attention et qu’on essaie de réduire le plus possible. Après, effectivement pour les algos on pourrait se dire que pour certains on a pas besoin. Après je sais pas 10000000 d’utilisateurs en avoir 100000000 ça va pas changer grand chose. Et en même temps en fait vu qu’on va essayer de servir chaque utilisateur qui peut avoir des goûts. Très niché dans un marché peut-être, où on vient de commencer sur un genre musical très précis et Ben en fait. Pour ce type de musique là pour cet utilisateur là on a peut-être moins de signaux et donc en fait ça serait peut être toujours utile d’avoir plus de personnes comme cette personne sinon on a un peu le problème d’avoir une feedback loop potentiellement où on va servir un peu tout en la même chose aux gens ou en fait ils vont écouter de personnalisation et du coup on va se dire que c’est ça qu’ils aiment et donc on va juste continuer à faire ça. Plus on a contenu différent et plus on est d’utilisateurs différents, plus on peut observer des comportements différents et justement sortir un peu de ces boucles et proposer quelque chose de toujours un peu nouveau.
– Marc — 26:43 :
Oui, vous pourriez-vous enfermer avec vos compétiteurs, chacun sur son segment de marché, avec l’incapacité de faire des algues qui plaisent à l’autre segment de marché parce que vous manquez de d’utilisateur quelque part. Être chacun un peu spécialisé. Finalement, c’est ça que tu dis.
– Valentin — 26:58 :
Ouais, quelque chose qui peut, qui peut revenir d’ailleurs chez certains utilisateurs. En fait à l’algo il va pas toujours forcément réussir à donner de bonnes recommandations des personnes et donc j’ai vraiment des échos hyper différents de gens qui adorent les nouvelles recommandations et d’autres qui au contraire bah trouvent pas ça encore assez pertinent. Donc on sait que l’algo doit donner des bonnes recommandations. Mais c’est des objectifs qu’on mesure plus que à court terme. On va pas juste voir si la personne écoute parce que tellement la personne écoute, mais c’est pas ce qu’elle préfère. Mais bon, elle va pas chercher ailleurs, on va chercher à optimiser d’équipe IA vraiment à long terme sur la satisfaction et la rétention des utilisateurs.
– Marc — 27:36 :
Y a une communication en interne entre Ben, les équipes gros qui vont chercher les nouveaux utilisateurs et puis ceux qui entraînent les algos sur les utilisateurs actuels sur l’orientation par exemple des efforts pour améliorer la qualité par rapport à la cible.
– Valentin — 27:51 :
Côté Gross, ça va dépendre. On a par exemple, on a des équipes musique qui enfin des équipes Inside donc à la fois d’être scientist et user researcher qui peuvent vraiment identifier des des trends, deviner un peu prédire quelle nouvel album où quel nouvel artiste va pouvoir monter et du coup c’est clairement quelque chose qu’on peut utiliser en marketing pour mettre en avant tel ou tel artiste et faire venir soit des nouveaux utilisateurs, soit des utilisateurs qui étaient inactifs.
– Marc — 28:23 :
C’est quoi les limites dans ton métier avec la data? Alors avec les limites, les points de douleur et éventuellement les obstacles rencontrés?
– Valentin — 28:30 :
Bah je pense que du coup c’est un peu un problème de riche, de data riche où on est des entreprises où on a énormément de données sur plein d’utilisateurs. Ouais et on est beaucoup de personnes dans la même boîte qui travaillent sur des sujets parfois similaires. Donc en fait bah parfois en fait, si on fait tourner les algos ou des études ça peut prendre déjà beaucoup de temps, ça peut coûter assez cher. Donc faut savoir un peu ce qu’on fait et après en fait, il y a tout un sujet d’organisation de la donnée. On a plein de manières d’agréger à donner plein de sources de données différentes et parfois des personnes qui vont juste créer les mêmes bases de données en pensant qu’ils vont juste l’utiliser une fois ou 2 pour un algo et en fait autant on a presque un moteur de recherche pour accéder à ces bases de données là, autant en fait, souvent elles vont pas être assez annotées, décrites, on va manquer de documentation, c’est pas forcément quelle qualité ça à quel check ils sont appliqués. À ces pipelines, à ces bases de données et donc en fait si y a un gros sujet, de d’organisation de l’information avec des équipes qui vont justement essayer de supprimer les doublons et de rendre la donnée plus propre, plus accessible, faire un peu d’éducation pour les les data, user les data practitioner pour bien utiliser cette donnée ou même parfois justement Ben on a ce rôle de d’analytique ingénieur, donc des personnes dont le rôle va être de créer des bases de données. Aussi propre que possible pour des personnes qui vont créer des études ou des des algues dessus et qui ont pas toujours le temps pour vraiment refaire des chèques. Surtout, cette base de données, donc on crée ce rôle un peu intermédiaire qui est un peu entre data engineer et Data Scientist et qui crée des bases de données vraiment pour des personnes humaines pas forcément pour les algos et du coup on a une communauté qui se crée des technologies qui sont de plus en plus adaptées, des technologies open source. Comme des BT et effectivement, en fait, ça va nous permettre de créer des bases de données utilisées par plus de personnes dans l’entreprise, mais sur lesquelles on va pouvoir accorder plus de temps pour améliorer leur qualité.
– Marc — 30:41 :
Le RGPD le règlement général sur la protection des données impose beaucoup de contraintes dans une entreprise comme Spotify. Qu’est-ce que ça veut dire, comment ça se traduit, à quel point ça vous entrave au quotidien, on va dire.
– Valentin — 30:54 :
Bah on peut voir ça comme une entrave, mais effectivement c’est comme je disais tout à l’heure. En fait, c’est vraiment quelque chose de nécessaire pour éviter que les données soient pas assez protégées, soit garder trop longtemps qu’on accordé trop peu d’importance à des données très personnelles et donc on le voit bah y a encore toujours des sujets de boîte tech comme Deezer qui potentiellement vont avoir. Et des fuites de données. Et on n’est jamais. On n’est jamais à l’abri de ça, mais c’est notre responsabilité aussi de s’assurer que, suivant le type de données, on va le, on va le garder un temps précis et le rendre accessible que certaines personnes là qui vont vraiment avoir besoin et donc nous, je sais qu’en interne on a des labels sur chaque type de données pour savoir combien de temps on va pouvoir les garder. Et en tant que Data Scientist on doit même toujours demander l’autorisation pour avoir accès à un certain type de données et de justifier pourquoi on a besoin d’accéder à ces données, qu’est-ce qu’on va en faire avec qui on va le partager? Actuellement, donc c’est un c’est pour ce que c’est sain, effectivement ça rajoute peut-être ça une complexité dans notre manière de gérer la donnée. Oui mais c’est quelque chose qui, je pense, était même pas. Enfin c’est pas c’est pas un problème mais c’est quelque chose qu’on a accepté et et Spotify même à la base c’est une boîte suédoise donc en fait c’est une boîte européenne qui s’y est pliée. De toute façon oui.
– Marc — 32:12 :
Sur les données d’écoute, est-ce que c’est de la donnée personnelle que c’est possible? Par exemple quand on est utilisateur, de demander à ne pas partager ces données d’écoute?
– Valentin — 32:21 :
Il faut voir exactement ce qu’on entend par partager. Je sais que, par exemple, les utilisateurs où peuvent demander les données que Spotify à stocker sur eux pour personnel, voilà savoir ce qu’on fait avec leurs données, ce qu’on garde à un instant t pour des données personnelles d’écoute, c’est des données, souvent qu’on va partager avec d’autres boîtes de toute façon.
– Marc — 32:42 :
Donc vous anonymiser, probablement.
– Valentin — 32:44 :
Oui, on anonymisé le plus possible en interne, donc par exemple tout ce qui est adresse, mail, nom, prénom. En fait, c’est des données. Pour moi, par exemple, au quotidien, j’en ai pas besoin, donc c’est très rare que j’y ai accès.
– Marc — 32:57 :
Est-ce que tu as une opinion à nous partager sur la data en général?
– Valentin — 33:00 :
Je pense que d’après mon expérience dans dans mon entreprise actuelle où précédemment et d’après ce que j’ai pu voir, en fait, il y a souvent pas mal de choses à faire avec la donnée avant de faire du machine learning par exemple. Donc, en terme d’analytique en fait rendre la donnée accessible à beaucoup de monde, s’assurer qu’elle est de qualité, c’est déjà un énorme travail qui peut demander beaucoup de temps, mais parfois, en fait, je pense qu’il y a des équipes ou des entreprises qui vont trop vite du côté du machine learning, sur des données qui sont pas assez solides. Et je pense que c’est un, c’est un peu un risque et même c’est quand même un des skills très différentes, des complexités différentes et donc je pense que même nous, en tant qu ingénieurs. Quand on sort d’école d’ingénieur, on a parfois beaucoup appris. La data Science, c’est des algos très compliqués mais il faut parfois plutôt revenir sur des bases et commencer par faire du nettoyage et s’assurer qu’on se base sur des données saines.
– Marc — 34:00 :
Du côté des outils, tu nous as parlé de BT est-ce que tu peux nous parler un peu des outils que t’aimes bien utiliser?
– Valentin — 34:06 :
Alors nous on utilise Bakary donc de chez Google et c’est vrai que c’est quand même extrêmement bien fait, très rapide donc ça rend le travail d’exploration de données hyper simple donc c’est très confortable.
– Marc — 34:19 :
Concernant Big Quéry, il n’y a aucun sujet de coût en interne. Gestion des coûts par rapport à besoin de solutions.
– Valentin — 34:25 :
Si c’est un très gros sujet, nous ça représente un des plus gros postes de dépenses et je crois qu’on est peut-être un des plus gros clients de Google sur ça. C’est qu’en fait, bah faire tourner des algos sur des centaines de millions d’utilisateurs avec je sais pas combien de data points par utilisateur. Pour créer des dizaines de playlists personnalisées c’est a un coût gigantesque et en fait pendant longtemps, je pense qu’on favorisait la création de ces nouvelles playlists avant de de regarder potentiellement le prix que ça pouvait avoir, ou comment vous pouvez optimiser des requêtes des algos. Là c’est un sujet qui est de plus en plus important pour nous parce que bah ça a un impact en coût, c’est un impact carbone et du coup en fait on a des équipes qui vont se charger. Elle est un peu à la chasse au gâchis. Les saveurs comme ça.
– Marc — 35:11 :
Ok et des autres outils que t’aimes bien.
– Valentin — 35:14 :
Et les autres outils, donc ça c’est un public visé. Je vais faire la pub de Spotify, mais c’est un outil qui a été développé en interne, qui s’appelle Backstage, qui est open source et qui a doté par pas mal de boîtes maintenant, et c’est un peu un portail de développeurs. Donc en fait. Que ce soit, je sais pas du back end engineer aux Data Scientist en fait y a plein d’outils différents, de la documentation, du suivi du job qui sont automatisés d’algorithmes, d’accéder à des datasets, de voir les dépendances entre les Dataset. Justement, parler de RGPD combien de temps on va garder chaque donnée et donc c’est un outil hyper utile pour nous dès qu’on a une question sur la donnée d’aller dessus et en fait c’est un outil sur lequel il y a de plus en plus de plugin qui sont rajoutés, des addons et donc en fait ça devient un peu un Go to pour un développeur. Ou un data Scientist?
– Marc — 36:01 :
C’est une grosse culture, ça le partage open source des outils internes Spotify je pense à Hanoï, notamment pour la approximate need snowboard, donc la recherche dans une base de données Vectorielles, donc de de plus proche voisin. Ce genre de choses y a des choses qui ont été pas mal diffusées, qui viennent de Spotify à la base. Est ce qu’en interne vous avez une culture qui vous pousse à ça oui,
– Valentin — 36:25 :
Bien sûr. Backstage est un exemple et je parlais tout à l’heure de l’équipe de recherche en machine learning. Appliquer à la musique y a beaucoup d’outils, d’algorithmes, de recherche qui ont été partagés avec la communauté scientifique ou même bah du coup avec les autres entreprises finalement et parfois en fait on voit que potentiellement ces outils qui vont être utilisés par d’autres boîtes mais c’est un peu un trade-off entre bah tout garder pour nous mais en fait du coup savoir que si toutes les boîtes on va moins profiter des avancées d’autres personnes, d’autres chercheurs, d’autres entreprises et donc c’est un peu un pari sur l’avenir un peu un pari collaboratif et donc je pense qu’on y croit assez pour se dire que bah on peut partager ça et après ça dépend aussi de ce qu’on va en faire de notre côté et on peut quand même tirer notre épingle du jeu même si on partage parfois le niveau de connaissance avec d’autres entreprises.
– Marc — 37:16 :
Oui, c’est des entreprises qui pour la plupart ne sont pas des concurrents. De toute façon, on est en train de plus de donner, on va dire un usage général à tout un tas d’entreprises, de tous les secteurs qui pourront utiliser votre code alors.
– Valentin — 37:29 :
Oui et non. Enfin, quand c’est des outils. C’est agnostique en termes de secteur donc par exemple Backstage oui, en fait, avant que ça nous impacte directement, je pense que c’est assez loin quand c’est quelque chose s’applique à la musique spécifiquement. Ça peut peut-être être plus sensible. Je pense qu’effectivement c’est des décisions qui sont peut-être plus difficiles à prendre quand ça devient pour la spécifique. Ouais.
– Marc — 37:54 :
Ouais, c’est quoi les avantages de rendre open source les clés de votre technologie?
– Valentin — 37:59 :
Ben, c’est de se dire qu’en fait, ça va peut-être permettre à d’autres chercheurs de construire dessus. Et de construire des choses encore plus puissantes ou un peu différentes et dont on pourra profiter plus tard et en fait,
– Marc — 38:11 :
Il a intégré, peut être si construisent sur vos outils, ce sera facile pour vous de les intégrer.
– Valentin — 38:16 :
En plus, ouais ouais, effectivement y a tout un sujet d’avoir des outils communs, des paradigmes un peu en commun qui rendront ça plus simple et après je pense qu’y a toute la partie recherche, mais après y a toute la partie implémentation et ajout aux plateformes et ça en fait du coup c’est quelque chose qui va différer beaucoup d’une entreprise à l’autre. Et si on pense qu’on a des meilleurs ingénieurs ou qu’on est plus rapide pour implémenter quelque chose et Ben peut-être qu’on aura moins peur de partager ces technologies là.
– Marc — 38:45 :
C’est quoi le futur de la data chez Spotify?
– Valentin — 38:47 :
Le futur de la data on a des sujets d’expansion géographique et des sujets d’expansion en termes de de vertical et donc ça va être justement de savoir recommander 2 types de contenus pour ces nouveaux contenus à nos utilisateurs de mieux cerner les différences culturelles dans différents pays. Par exemple, on avait fait une expérience particulière pour diwali en Inde récemment. On sait que dans des pays où il y a eu plus de populations musulmanes, on va voir comment les comportements changent pendant ramadan et voir si justement on peut proposer un contenu différent, donc vraiment être toujours plus pertinent et après moi je pense justement qu’en termes de baisse practice, c’est de rationaliser un peu comment on utilise ces données pour réduire nos coûts, mais réduire un peu aussi les doublons qu’on peut avoir et s’assurer que l’utilisation qu’on fait de la donnée est toujours de plus en plus optimale efficace?
– Valentin — 39:46 :
Super merci Valentin, merci. Vous venez d’entendre Valentin Geffrier, Seigneur Data Scientist chez Spotify dans Data driven One One. Merci d’avoir écouté.