Je ne suis pas désolé de laisser vos programmes examiner mes données personnelles si en retour j'obtiens quelque chose d'utile. Mais cela ne se produit généralement pas.
Mon ex-collègue m'a dit: «Tout le monde aime collecter des données, mais personne n'aime les analyser plus tard.» Cette déclaration peut être choquante, mais les personnes impliquées dans la collecte et l'analyse des données sont tombées sur cela. Tout commence par une idée géniale: nous collecterons des informations sur chaque clic qu'une personne fait sur chaque page de l'application! Nous garderons une trace de combien de temps ils réfléchissent sur un choix particulier! Combien de fois utilisent-ils le bouton de retour! Combien de secondes ils regardent notre vidéo d'introduction avant de se déconnecter! Combien de fois partagent-ils notre publication sur les réseaux sociaux!
Et ils gardent une trace de tout cela. Le suivi est facile. Ajoutez les journaux, videz-les dans la base de données et c'est parti.
Et puis quoi? Eh bien, alors tout cela devra être analysé. Et en tant que personne qui a analysé de
nombreux ensembles de données liés à diverses choses, je peux dire: le travail d'un analyste est difficile et pour la plupart ingrat (sauf pour le salaire).
Le problème est qu'il n'y a pratiquement aucun moyen de confirmer que vous avez raison (et la définition de la justesse elle-même n'est pas très claire, à propos de laquelle ci-dessous). Il n'est presque jamais possible de tirer des conclusions simples, seulement des conclusions complexes - et les conclusions complexes sont sujettes aux erreurs. Ce dont les analystes ne parlent pas, c'est du nombre de mauvais horaires (et, par conséquent, de conclusions) qui sont tirés vers les bons. Ou à ceux que nous pensons avoir raison. Un bon horaire est si convaincant qu'il n'a pas vraiment d'importance s'il est le bon ou pas, si vous avez juste besoin de convaincre quelqu'un. C'est peut-être pour cela que les journaux, les magazines et les lobbyistes publient tant de programmes trompeurs.
Cependant, nous reportons l'erreur pendant un certain temps. Nous faisons l'hypothèse très irréaliste que nous sommes très bons pour analyser toutes sortes de choses différentes. Et ensuite?
Eh bien, enrichissons-nous de la publicité ciblée et des algorithmes de recommandation personnelle. Après tout, c'est exactement ce que tout le monde fait!
Ou pas?
Avec des recommandations personnelles, tout est étonnamment mauvais. Aujourd'hui, la toute première recommandation sera un article avec un titre attrayant et très émouvant sur les stars de cinéma ou sur ce que Trump a fait ou n'a pas fait au cours des 6 dernières heures. Ou pas un article, mais une vidéo ou un documentaire. Je ne veux pas le lire ou le regarder, mais parfois ça m'aspire de toute façon - et alors bienvenue dans l'apocalypse des recommandations, maintenant l'algorithme considère que j'aime lire sur Trump, et maintenant Trump sera partout. Ne donnez jamais de commentaires positifs à l'IA.
Soit dit en passant, c'est un terrible secret des partisans de l'apprentissage automatique: presque tout ce que le MO donne peut être obtenu beaucoup moins cher à l'aide d'heuristiques stupides programmées manuellement, car le MO s'entraîne principalement sur les exemples de ce que les gens ont fait après l'enfer d'une heuristique stupide. Il n'y a pas de magie ici. Si vous formez un ordinateur avec l'aide de MO pour sélectionner un CV, il vous recommandera d'interroger des hommes portant le nom de personnes blanches, comme le
fait déjà votre service RH. Si vous demandez à un ordinateur quel type de vidéo une personne veut regarder, il recommandera une sorte de poubelle politique de propagande, car dans 50% des cas, 90% des gens la regardent réellement, ne pouvant pas se contrôler - et c'est un assez bon pourcentage de succès.
Je note qu'il existe plusieurs exemples de l'excellente utilisation de MO pour ce que les algorithmes traditionnels font mal - le traitement d'image ou la victoire dans les jeux stratégiques. C'est génial, mais il y a toutes les chances que votre application MO préférée devienne un substitut coûteux à une heuristique stupide.
Une personne travaillant avec la recherche sur le Web m'a dit qu'elle avait déjà un algorithme qui garantit le rapport maximum de clics sur les vues pour toute recherche: il suffit de donner une page avec des liens vers du porno. Et quelqu'un a dit que cette situation peut être résorbée et a fait un détecteur de pornographie: tout lien avec une forte cliquabilité, quelle que soit la demande, mène très probablement à la pornographie.
Le problème est que les entreprises d'apparence décente ne peuvent pas constamment vous donner des liens vers du porno, c'est "dangereux pour la visualisation au travail", donc le travail des algorithmes de recommandation les plus modernes est de renvoyer quelque chose qui est aussi proche du porno que possible, mais avec c'est "sûr à voir au travail". En d'autres termes, des stars (idéalement belles ou du moins controversées), des politiciens ou les deux. Ils arrivent à cette frontière le plus près possible, car c'est le maximum local de leur rentabilité. Parfois, ils franchissent cette ligne, ils doivent s'excuser ou payer une amende symbolique, puis tout revient à la case départ.
Cela me dérange, mais les figues avec lui, c'est juste des maths. Et peut-être la nature humaine. Et le capitalisme. Oui les figues avec lui, je ne l'aime peut-être pas, mais je peux le comprendre.
Je me plains qu'aucun des éléments ci-dessus n'est lié à la collecte de mes informations personnelles.
Les meilleures recommandations n'ont rien à voir avec moi
Soyons honnêtes: la meilleure annonce ciblée sera celle que je reçois d'un moteur de recherche qui me donne exactement ce que je cherchais. Et tout est en plus: je trouve ce que je cherchais, le vendeur m'aide à acheter ses biens, le moteur de recherche obtient de l'argent pour la médiation. Je ne connais personne qui se plaindrait d'une telle publicité. Ceci est une bonne publicité.
Et elle aussi n'a rien à voir avec mes informations personnelles!
Google propose des publicités contextuelles basées sur la recherche depuis plus d'une décennie, avant même de commencer à me demander de me connecter. Aujourd'hui encore, une personne peut utiliser n'importe quel moteur de recherche sans se connecter à son compte. Et ils diffusent toujours des annonces basées sur des requêtes de recherche. Excellentes affaires.
Dans mon cas, une autre annonce fonctionne bien. Parfois, je joue à des jeux, j'utilise Steam et parfois je regarde des jeux sur Steam et je marque ceux que j'ai l'intention d'acheter. Lorsqu'une vente commence sur ces jeux, Steam m'envoie un e-mail de notification, et parfois après cela, je les achète. Tout y est en plus: j'obtiens le jeu souhaité (avec une remise!), Le producteur du jeu reçoit de l'argent, Steam reçoit le paiement de la médiation. Et aussi, si je veux, je peux interdire de m'envoyer ces lettres - mais je ne veux pas, car c'est une bonne publicité.
Mais personne n'a dû créer mon profil pour cela? Steam a mon compte, j'ai dit quels jeux je veux et le service me les a vendus. Ce n'est pas construire un profil, c'est juste me souvenir de la liste que j'ai moi-même fournie.
Amazon me montre un avis suggérant que je pourrais vouloir acheter à nouveau certains des consommables que j'ai achetés par le passé. Ceci est également utile et ne nécessite pas non plus la création d'un profil, sauf pour se souvenir des transactions qu'ils effectuent déjà. Et encore une fois, tout le monde gagne.
Amazon recommande également des produits similaires à ceux que j'ai achetés ou des produits que j'ai étudiés. C'est environ 20% utile. Si je viens d'acheter un moniteur pour l'ordinateur, et vous savez que je l'ai fait, parce que je vous l'ai acheté, vous pouvez arrêter d'essayer de me vendre des moniteurs. Mais quelques jours après l'achat de l'électronique, ils me proposent également d'acheter des câbles USB, ce qui est très probablement correct. Alors d'accord, 20% des avantages du ciblage sont meilleurs que 0% des avantages. Amazon doit être félicité pour avoir créé mon profil utile, bien qu'il ne s'agisse que d'un profil de ce que j'ai fait sur le site et qu'ils ne le partagent avec personne. Cela ne semble pas être une atteinte à la vie privée. Personne ne sera surpris qu'Amazon se souvienne de ce que j'ai acheté chez eux ou de ce que j'ai regardé.
Cela devient pire lorsque les vendeurs décident que je pourrais vouloir quelque chose. Et ils décident cela parce que je suis allé sur leur site et j'ai regardé quelque chose. Ensuite, leurs partenaires publicitaires me poursuivent partout sur le Web, essayant de me le vendre. Et ils le font, même si je l'ai déjà acheté. L'ironie est que tout cela est dû à des tentatives incertaines de protéger ma vie privée. Le vendeur ne distribue pas d'informations sur moi et mes transactions à ses partenaires publicitaires (car sinon, il y a toutes les chances que, d'un point de vue juridique, ils aient des ennuis), le partenaire publicitaire ne sait pas que j'ai acheté les marchandises. Il sait seulement (à cause du traqueur d'un partenaire installé sur le site Web du vendeur) que j'ai regardé l'article, alors ils continuent de m'en faire la publicité au cas où.
OK, nous arrivons maintenant à un sujet intéressant. L'annonceur dispose d'un tracker qu'il place sur différents sites afin de me suivre. Il ne sait pas ce que j'ai acheté, mais il sait ce que je regardais, peut-être même depuis longtemps et sur de nombreux sites.
À l'aide de ces informations, son IA soigneusement formée tire des conclusions sur ce que je pourrais envisager d'autre sur la base de ...
Et sur la base de quoi? Des gens comme moi? Les choses que mes amis Facebook regardent? Une sorte de formule matricielle complexe que les gens ne peuvent pas comprendre, mais qui fonctionne 10% mieux?
Probablement pas. Il devine probablement mon sexe, mon âge, mon niveau de revenu et mon état civil. Et puis, si je suis un gars, il me vend des voitures et des gadgets, et si c'est une fille, ce sont des choses à la mode. Non pas parce que tous les gars aiment les voitures et les gadgets, mais parce qu'une personne complètement non créative s'est lancée dans ce processus et a dit "vendez ma voiture principalement aux hommes" et "vendez mes vêtements principalement aux femmes". Peut-être que l'IA tire des conclusions sur la base de données démographiques incorrectes (je sais que Google se trompe sur mon compte), mais cela n'a pas d'importance, car en général, il s'avère être généralement juste, ce qui est mieux que d'avoir 0% raison, et les annonceurs obtiennent pour la plupart des annonces démographiques ciblées, ce qui est mieux que le ciblage avec une efficacité de 0%.
Tu comprends que tout fonctionne comme ça? Bien sûr. Cela peut être confirmé en fonction du mauvais fonctionnement de l'annonce. Chaque personne en quelques secondes est capable de se souvenir d'une telle chose qu'elle voulait acheter, mais l'algorithme ne pouvait pas la leur proposer, tandis que la plateforme publicitaire
Outbrain fait des sacs d'argent en vendant des liens vers l'assurance automobile à des personnes qui n'ont pas de voiture. Il pourrait aussi bien s'agir d'une publicité télévisée des années 90, diffusée tard dans la nuit, lorsque vous pouviez être sûr de mon profil démographique étant donné que je n'avais pas encore dormi.
Vous me suivez partout, notez à jamais toutes mes actions dans vos journaux, substituez quelqu'un pour voler votre base de données, craignez désespérément qu'une nouvelle loi européenne ne détruise votre entreprise ... Et tout cela pour le plaisir?
Astrologie statistique
Bien sûr, tout n'est pas aussi simple que décrit. Sur chacun des sites que je visite, plus d'une entreprise me suit. Ces entreprises ont une voiture, et elles me suivent toutes sur chaque site Web visité. Certains d'entre eux ne font même pas de publicité, ils font simplement le suivi, puis vendent ces informations de suivi à des annonceurs qui semblent les utiliser pour améliorer le ciblage.
Écosystème génial. Jetons un coup d'œil aux sites d'actualités. Pourquoi chargent-ils si lentement? À cause des trackers. Pas à cause des publicités - à cause des trackers. Il n'y a que quelques publicités qui ne prennent généralement pas autant de temps à charger. Mais il y a un tas de trackers, car chacun d'eux les paie un peu pour qu'ils soient autorisés à suivre les vues de chaque page. Si vous êtes un éditeur géant en équilibre au bord de la faillite, et que vous avez déjà 25 trackers sur votre site, et que la 26ème société de tracking vous appelle et promet de payer 50 000 $ par an pour leur ajouter un autre tracker, vous les refuserez ? Votre page est déjà à peine en train de tourner et de tourner, donc ralentir le téléchargement d'un autre 1/25 ne changera rien, mais 50 000 $ le peuvent.
(Les «bloqueurs de publicités» suppriment les publicités gênantes, mais ils accélèrent également le Web, principalement en supprimant les trackers. Putain de honte - les trackers eux-mêmes ne sont pas tenus de ralentir le téléchargement, mais ils le ralentissent, car leurs développeurs sont nécessairement des idiots, chacun devant télécharger des milliers de lignes Code JavaScript pour ce qui peut être fait en deux lignes. Mais c'est une autre histoire).
Et puis, les vendeurs d'annonces et de réseaux publicitaires achètent des données de suivi auprès des trackers. Plus ils disposent de données de suivi, mieux ils peuvent gérer les annonces, non? Eh bien, probablement.
Et le plus drôle, c'est que chaque tracker a des données sur vous, mais pas toutes les données, car chaque tracker n'est pas sur tous les sites Web. En revanche, il est assez difficile de comparer l'activité des gens entre différents trackers, car aucun d'eux ne veut vous donner son ingrédient secret. Par conséquent, chaque vendeur de publicité s'efforce de comparer toutes les données de tous les trackers qu'il achète, mais cela ne fonctionne pas. Disons que nous avons 25 trackers, dont chacun suit un million d'utilisateurs, et peut-être que beaucoup de données s'y chevauchent. Dans un monde rationnel, on aurait pu deviner que ces données sont décrites par plusieurs millions d'utilisateurs individuels. Mais dans un monde fou où il est impossible de prouver le chevauchement, il peut y avoir 25 millions d'utilisateurs! Plus votre régie publicitaire achète de trackers de données, plus vous obtenez d'informations! Je suppose! Cela signifie que le ciblage s'améliore! Peut-être! Et donc vous devriez acheter des publicités sur notre réseau, pas sur un autre réseau qui a moins de données! Eh bien, apparemment!
Mais tout cela ne fonctionne pas. Ils essaient toujours de me vendre une assurance automobile pour le métro.
Et ce n'est pas seulement une question de publicité
De nombreuses choses liées à la publicité ciblée, évidemment, ne fonctionnent pas - si quelqu'un s'est arrêté au moins une fois et a soigneusement examiné tout cela. Mais trop de gens sont incités à penser le contraire. Mais si vous vous souciez de votre vie personnelle, cela revient au fait qu'ils continuent de collecter vos informations personnelles, que cette méthode fonctionne ou non.
Qu'en est-il des algorithmes de recommandation de contenu? Fonctionnent-ils?
Evidemment non. Les avez-vous déjà essayés? Non, vraiment.
D'accord, ce n'est pas tout à fait juste. Certaines choses fonctionnent. Les recommandations musicales du service Pandora fonctionnent de
manière inattendue , mais elles le font d'une manière complètement non évidente. La manière la plus évidente est de prendre la liste des chansons que vos utilisateurs écoutent, de la télécharger dans le jeu de formation pour le MO et d'utiliser le résultat pour compiler une liste de chansons pour les nouveaux utilisateurs en fonction de ... euh ... leur profil? Eh bien, ils n'ont pas de profil, ils viennent de se joindre. Peut-être sur la base de quelques-unes des premières chansons qu'ils sélectionnent manuellement? Peut-être, mais ils ont probablement commencé soit par une chanson très populaire qui ne dit rien, soit par une chanson très rare pour vérifier l'immensité de votre base de données, qui vous en dit encore moins.
Je suis sûr que
Mixcloud fonctionne de cette façon. Après chaque mix, le service essaie de trouver le mix «le plus similaire» à partir duquel continuer. Habituellement, c'est quelqu'un d'autre qui a téléchargé exactement le même mixage. Le premier mix se révèle être le plus similaire à ce mix, c'est pourquoi il le produit. Génial, apprentissage automatique, continuez votre bon travail.
Cela nous amène au système de «chanson aléatoire, doigt haut / doigt bas» que tout le monde utilise. Mais tout le monde sauf Pandora se porte mal. Pourquoi? Apparemment, parce que Pandora code manuellement un tas de temps la voiture des caractéristiques de la musique et écrit de «vrais algorithmes» (pas des MO) qui essaient de produire des listes de chansons basées sur la combinaison correcte de ces caractéristiques.
En ce sens, Pandora ne peut pas être appelé pur mo. Il produit souvent une liste de chansons que vous aimez après un ou deux doigts vers le haut / bas, lorsque vous voyagez à travers un réseau cohérent multidimensionnel de chansons que les gens ont construit avec un travail acharné, et non à travers une matrice massive de listes médiocres de chansons prises par des gens moyens qui ne le font pas. essayez de générer ces listes de chansons. Pandora échoue à beaucoup de choses (en particulier «l'accès au Canada»), mais leurs recommandations musicales fonctionnent très bien.
Il n'y a qu'une seule prise. Si le service Pandora est en mesure de vous donner une bonne liste de chansons en fonction de la première et de quelques notes, alors il me semble qu'il ne construit pas votre profil. Et il n'a pas besoin de vos informations personnelles.
Netflix
Et, pour ne pas me lever deux fois, je vais revenir un peu sur Netflix - un cas étrange de développement qui a commencé avec un très bon algorithme de recommandation, qui a ensuite été spécialement aggravé.
Il était une fois
un prix Netflix de 1 million de dollars promis à la meilleure équipe capable de prédire les cotes des films rédigées par une personne sur la base des cotes déjà attribuées, et avec une meilleure précision que sur Netflix lui-même. Et cela, de manière non inattendue, a conduit à un
fiasco de la confidentialité lorsqu'il s'est avéré que les ensembles de données publiés pouvaient être désanonymisés. Oui, c'est ce qui conduit au stockage à long terme des informations personnelles des personnes dans la base de données.
Netflix pensait que leur entreprise dépendait d'un bon algorithme de recommandation. C'était déjà assez bien: je me souviens d'avoir utilisé Netflix il y a 10 ans, et j'ai reçu des recommandations pour des films que je n'aurais jamais trouvés moi-même, mais en même temps je les ai aimés. Mais cela ne m'est pas arrivé sur Netflix depuis très, très longtemps.
L'histoire est la suivante: Netflix était autrefois un service d'envoi de DVD. L'envoi de DVD par la poste est lent, il était donc absolument nécessaire qu'au moins un film sur CD qui vienne une fois par semaine soit suffisamment intéressant pour vous divertir le vendredi soir.
Après avoir passé trop de vendredis d'affilée avec de mauvais films, vous vous désabonneriez sûrement. Un bon système de recommandations était la clé du succès. Je pense que des mathématiques très intéressantes ont également été utilisées dans cette affaire, ce qui garantissait que le service serait en mesure de louer le plus grand pourcentage possible de disques disponibles à l'entrepôt, car il était inopportun d'avoir un chariot de copies du tout dernier blockbuster, qui sera populaire pendant un mois, mais pas le mois prochain. sera nécessaire à tous.Mais à la fin, Netflix a déménagé en ligne et le coût des mauvaises recommandations a chuté de façon spectaculaire: arrêtez simplement de regarder et passez à un nouveau film. De plus, il était parfaitement normal que de nombreuses personnes regardent un blockbuster. Et encore mieux, car ils peuvent ensuite le mettre en cache auprès du fournisseur, et le cache fonctionne mieux lorsque les gens sont tous ennuyeux et moyennés.Pire encore, Netflix a remarqué un schéma: plus les gens regardent des films par heures, moins ils sont susceptibles de refuser le service. Et cela a du sens: plus vous passez de temps sur Netflix, plus vous en avez «besoin». Et lorsque de nouveaux utilisateurs testent le service moyennant des frais presque fixes, un taux de rétention élevé entraîne une croissance plus rapide.J'ai appris cela en même temps quand j'ai rencontré le mot satisfaisant[hybride de mots anglais satisfaisant (suffisant) et suffisant (suffisant) / env. transl.] - c'est à ce moment-là que nous plongons dans la boue à la recherche non pas de la meilleure option, mais assez bonne. Aujourd'hui, Netflix ne recherche pas le meilleur film, il le trouve juste assez bon. S'il a le choix entre un film qui a gagné beaucoup de prix, qui avec une probabilité de 80% l'aimera ou avec une probabilité de 20% vous le détesterez, et un film grand public qui est spécial à 0%, mais à partir duquel vous ne cracherez pas avec une probabilité de 99%, puis il en recommandera un deuxième à chaque fois. Les valeurs étrangères nuisent aux entreprises.L'essentiel est que vous n'avez pas besoin de créer un profil risqué qui viole la vie privée de l'utilisateur afin de recommander un film grand public. Ces films sont spécialement conçus pour être inoffensifs pour presque tout le monde. Mon écran de recommandations Netflix n'est plus "recommandé pour vous", il s'agit de "nouvelles versions", puis "maintenant dans la tendance" et "revoir".Netflix, comme promis, a payé 1 million de dollars pour l'algorithme de recommandation gagnant, ce qui était encore mieux qu'avant. Mais au lieu de l'utiliser, ils l'ont jeté.Certains chers experts en tests A / B ont déterminé que c'est ce qui me fait regarder des émissions de télévision stupides pendant le plus d'heures par jour. Leurs profits augmentent. Et pour cela, ils n'ont même pas besoin d'envahir ma vie personnelle.Et qui suis-je pour dire qu'ils ont tort?