L'informateur Christopher Wiley explique la science derrière la mission de Cambridge Analytica de transformer les sondages et données Facebook en armes politiques

Comment 87 millions de publications générées sur Facebook sont-elles devenues une campagne publicitaire qui pourrait changer le résultat des élections? Qu'est-ce qui est inclus dans la procédure de collecte de tant de données? Que nous disent ces données sur nous-mêmes?
Le scandale avec Cambridge Analytica a soulevé de nombreuses questions, mais pour beaucoup, la proposition de vente unique de l'entreprise, qui a annoncé la semaine dernière sa fermeture, reste un mystère.
Surtout pour les 87 millions de personnes qui s'intéressent à ce qui est exactement arrivé à leurs données, je suis allé demander des éclaircissements à Christopher Wiley, un ancien employé de la société, qui a parlé à tout le monde d'Observer de ses actions problématiques. Selon Wiley, pour un tel travail, vous avez besoin de très peu d'informations sur la science de l'informatique, les femmes riches ennuyées et la psychologie humaine.
La première étape, a-t-il expliqué au téléphone, en essayant de rattraper le train: "Lors de la création de l'algorithme, vous devez d'abord collecter un ensemble de données de test." C'est-à-dire, peu importe la façon dont les technologies sophistiquées seront utilisées pour collecter les données - vous devez d'abord les collecter à l'ancienne et dans le bon sens. Avant de commencer à utiliser Facebook pour prédire le profil psychologique d'une personne, vous devez demander à plusieurs centaines de milliers de personnes de passer par une enquête psychologique de 120 questions.
L'ensemble de tests comprendra toutes les données à la fois: les goûts de Facebook, les tests psychologiques et tout le reste, sur la base desquels vous souhaitez apprendre. Plus important encore, il devrait contenir un «ensemble de caractéristiques»: «Des données de base sur la base desquelles vous souhaitez faire des prévisions», explique Wiley. «Dans notre cas, il s'agit de données Facebook, mais il peut s'agir de textes en langage naturel ou de données de clic», est un enregistrement complet de votre activité en ligne. "Tout cela, ce sont des données qui peuvent être utilisées pour des prévisions."
D'un autre côté, vous aurez besoin de vos «variables cibles», explique Wiley, «ce que vous essayez de prédire. Dans ce cas, les caractéristiques personnelles, l'orientation politique et tout ça. »

Si vous utilisez une chose pour prédire autre chose, un examen de ces deux choses peut vous aider. «Si vous avez besoin de connaître la relation entre les likes Facebook dans votre ensemble de fonctionnalités et les qualités personnelles en tant que variables cibles, vous devez les voir en même temps», explique Wiley.
Les données Facebook qui sous-tendent l'histoire avec
Cambridge Analytica sont une ressource assez abondante en termes de science du traitement des données - et plus encore c'était en 2014 lorsque Wiley a commencé à travailler dans ce domaine. La collecte des qualités personnelles est beaucoup plus difficile: malgré les conclusions qui peuvent être tirées de la popularité des questionnaires sur
BuzzFeed , il est assez difficile d'amener une personne à compléter un test de 120 questions (c'est la longueur d'une version courte de l'une des enquêtes psychologiques standard,
IPIP-NEO ).
Mais «assez difficile» est un concept relatif. «Pour certaines personnes, la motivation à participer à l'enquête était d'ordre financier. Si vous êtes étudiant, que vous cherchez du travail ou que vous voulez simplement gagner 5 $, c'est la motivation. » Vraiment pour l'enquête, selon Wiley, ils ont distribué de 2 $ à 4 $. Une valeur accrue était attendue pour «les groupes les plus difficiles à atteindre». La plus faible probabilité de réussir le sondage, et par conséquent, la plus grande récompense était accordée aux Noirs américains. «D'autres personnes sont interrogées parce qu'elles sont intéressées ou par ennui. Par conséquent, nous avions une énumération de données sur les femmes blanches riches. Si vous habitez dans les Hamptons [zone de logement élite de
Long Island / env. transl.] et vous n'avez rien à faire pendant la journée, vous remplissez des enquêtes de recherche auprès des consommateurs. »
Les questionnaires personnels utilisent 120 questions pour construire un profil de personnalité sur cinq axes différents - c'est le modèle des «cinq facteurs», qui est appelé «OCEAN» dans le jargon, une abréviation pour «ouverture à une nouvelle expérience, conscience, extraversion, désir d'aimer et névrosisme» [ouverture à l'expérience , conscience, extraversion, agrément, névrosisme].
Le modèle divise les qualités personnelles en groupes qui, apparemment, sont préservés dans différentes cultures et à différents moments. Ainsi, par exemple, les personnes qui se décrivent comme «bruyantes» sont susceptibles de se décrire comme «communicatives». S'ils sont d'accord avec une telle description aujourd'hui, alors ils seront d'accord avec lui dans un an. Ces groupes sont plus susceptibles de se manifester dans n'importe quelle langue. Et si une personne réagit négativement à quelque chose, alors elle aura des différences évidentes et perceptibles avec les personnes qui réagissent positivement.
Ces propriétés du modèle le rendent utile pour construire un profil de personnes, dit Wiley - contrairement à d'autres profils psychologiques populaires, tels que la
typologie Myers-Briggs . Dans la phase de vérification de l'étude, Facebook n'a pratiquement pas été affecté. Des sondages ont été proposés sur des sites commerciaux d'exploration de données - d'abord sur la plate-forme Amazon Mechanical Turk, puis via l'opérateur Qualtrics (les opérateurs, selon Wiley, ont été modifiés parce qu'Amazon a un problème avec les utilisateurs qui sont très désireux de remplir des questionnaires - en conséquence, les résultats des sondages sont déformés )
«Pas seulement la loi - la responsabilité / défendre le deuxième amendement »
Annonces de campagne Cambridge Analytica en vedetteFacebook n'est connecté qu'à la toute fin. Pour recevoir le paiement pour avoir rempli le questionnaire, les utilisateurs devaient se connecter au site et autoriser l'accès aux données de l'application d'enquête, créées par Alexander Kogan, un scientifique de l'Université de Cambridge. Ses recherches sur le développement de la personnalité sur Facebook ont donné à Cambridge Analytica, parrainé par
Robert Mercer , la chance parfaite d'entrer rapidement sur le marché. Kogan affirme que Cambridge Analytica l'a assuré de la bonne utilisation des données et dit qu'il a été utilisé "comme le bouc émissaire de Facebook et de Cambridge Analytica".
Pour l'utilisateur dont les données ont été collectées, le processus a été rapide: «Cliquez sur l'application, obtenez le code de l'argent». Mais en quelques secondes, beaucoup de choses importantes se sont produites. Premièrement, l'application a collecté toutes les données possibles sur l'utilisateur. Le profil psychologique est les variables cibles, et les données de Facebook sont un «ensemble de caractéristiques»: des informations collectées par l'informaticien pour tous les utilisateurs, qu'il utilisera pour prédire avec précision les fonctionnalités qui l'intéressent.
L'application a également collecté des informations personnalisées comme un vrai nom, un emplacement, des contacts - quelque chose qui ne pouvait pas être trouvé sur les sites d'enquête. "Cela signifie que les informations pourraient être comparées à une personne réelle, et ses informations pourraient être comparées avec le registre des électeurs."
Deuxièmement, l'application a fait de même pour tous les amis de l'utilisateur qui l'a installée. Et tout d'un coup, des centaines de milliers de personnes pour lesquelles vous avez payé quelques dollars pour remplir un questionnaire, et dont l'identité est un mystère, se sont transformées en millions de personnes dont les profils sur Facebook sont un livre ouvert.
C'est à ce moment que la dernière transformation a lieu. Comment transformer plusieurs centaines de milliers de profils personnels en plusieurs millions? Utilisation de grandes capacités informatiques et d'une énorme table d'opportunités. «Bien que votre échantillon comprenne 300 000 personnes, votre ensemble de fonctionnalités est déjà de 100 millions», explique Wiley. Chaque J'aime Facebook d'un ensemble de données devient une colonne distincte dans cette immense matrice. "Même s'il y a une occurrence pour l'ensemble entier, ce sera déjà une fonctionnalité."
«Ensuite, toutes les données sont collectées dans un modèle complexe», explique Wiley. - À ce stade, vous utilisez différentes familles ou approches de l'apprentissage automatique, car chacune a ses propres forces et faiblesses. Et puis ils votent en quelque sorte, et vous mélangez les résultats et donnez une conclusion. » À ce stade, la science de l'informatique est en train de devenir un art: l'ensemble exact de données d'entrée dans chacune des approches n'est pas gravé dans le granit, et il n'y a pas une «bonne» façon de les collecter. Dans le monde académique, on parle parfois de "formation postuniversitaire" - le moment après quoi il ne reste plus qu'à faire ce qu'il faut pour faire des essais et des erreurs. Et pourtant, cela a plutôt bien fonctionné, et au final, selon Wiley, «nous avons créé 253 algorithmes, c'est-à-dire que 253 prédictions existaient pour chaque enregistrement de profil». L'objectif a été atteint: un modèle qui, en fait, est capable de prendre des likes de Facebook et, en travaillant dans le sens opposé, de remplir toutes les colonnes du tableau, de deviner les qualités personnelles de la personne, ses prédilections politiques, etc.
Fin août 2014, Wiley avait obtenu les premiers résultats positifs: 2,1 millions d'enregistrements avec un profil recréé pour 11 États américains cibles. Le plan était d'utiliser les données pour créer et améliorer les messages publicitaires dans la campagne républicaine parrainée par Mercer et
Stephen Bannon et atteindre les
primaires de 2016 (Wiley a quitté l'entreprise avant eux). «Ce nombre indique non seulement toutes les personnes pour lesquelles nous avons collecté des données sur Facebook, des données de vote et des données de consommateurs, mais également construit 253 prédictions ajoutées à leur profil.»
Ces 253 prédictions étaient «l'ingrédient secret» que Cambridge Analytica a présenté comme une offre unique aux consommateurs. En utilisant uniquement les données de Facebook, les annonceurs sont confrontés à des échantillons démographiques trop larges et à plusieurs catégories plus étroites définies de manière algorithmique - aimez-vous, par exemple, le jazz ou votre équipe de football préférée. Mais avec 253 prédictions, Cambridge Analytica pourrait, selon Wiley, régler des publicités pas comme les autres: un vote extraverti névrosé et facilement d'accord pour les démocrates ne serait pas sensible à une telle publicité comme un introverti intellectuel émotionnellement stable, même si les mêmes les messages, s'ils étaient échangés, auraient l'effet inverse.
Wiley mentionne une telle déclaration politique apaisante du candidat comme le désir d'augmenter le nombre d'emplois. «Les emplois dans l'économie sont un bon exemple de déclaration dénuée de sens. En économie, tout le monde est favorable aux opportunités d'emploi. Par conséquent, l'utilisation de la simple déclaration «Je représente des postes vacants dans l'économie» ou «J'ai un plan pour régler la situation des postes vacants dans l'économie» ne vous permet pas d'être différent de votre adversaire.
"Mais nous avons constaté que si nous regardons ce que le concept de postes vacants signifie pour chaque personne, il s'avère que différentes personnes sont affectées par des conceptions différentes avec une motivation différente et un ensemble de valeurs."
En pratique, cela signifie que le même bavardage peut s'exprimer différemment pour différentes personnes, donnant l'impression qu'un candidat influence les électeurs sur le plan émotionnel. «Si vous parlez à une personne consciente - avec des notes élevées pour le paramètre C dans le modèle OCEAN [honnêteté, intégrité] - vous parlez des opportunités de réussite et de la responsabilité que le lieu de travail porte avec elle. S'il s'agit d'une personne ouverte, vous parlez de la possibilité de grandir en tant que personne. Avec un névrosé, vous comptez sur la sécurité que le lieu de travail offrira à la famille. »
En raison de la nature de réseau des campagnes modernes, théoriquement tous ces messages peuvent être livrés simultanément à différents publics. À la fin de la campagne, lorsque les messages ont déjà pris racine, ils peuvent même être automatisés à l'aide d'un algorithme peignant le dictionnaire à la recherche de la combinaison parfaite de mots pour chacun des sous-groupes.
"Regardez ce que signifie le mariage et revenez à moi / Parce que les traditions ne sont pas dépassées"
Annonces de campagne Cambridge Analytica en vedetteBien sûr, ce n'est pas du bavardage à 100%. Un message a été utilisé par la droite, attaquant le mariage homosexuel. «C'est drôle que le message se soit avéré si offensant et homophobe, malgré le fait qu'il ait été créé par une équipe d'homosexuels», dit Wiley. - Il était destiné aux personnes conscientes. Il y avait une image d'un dictionnaire et l'inscription "Regardez ce que signifie le mariage et revenez à moi". Pour une personne consciente, le message semble convaincant: le dictionnaire est la source de l'ordre, et une telle personne respecte la structure. "
À un moment donné, le ciblage
psychométrique entre dans le domaine
de la politique du sifflet canin . Par exemple, les images murales se sont révélées efficaces dans les campagnes d'immigration. «Les personnes conscientes aiment la structure, donc, de leur point de vue, la solution au problème de l'immigration devrait être rationalisée, comme l'illustre le mur. Vous pouvez créer un message qui n'a pas de sens pour certaines personnes, mais pour d'autres est plein de sens. En démontrant cette image, certaines personnes ne comprendront pas que nous parlons d'immigration, tandis que d'autres la reconnaîtront immédiatement. » Du point de vue de Wiley, le vrai problème était le «sandwich sans rien» politique, en attendant qu'on y mette quelque chose. "Personne n'aime un sandwich sans rien." Il dit que les données devraient «déterminer une saveur ou un assaisonnement particulier» qui rendront le sandwich attrayant.
Et même s'il s'agissait certainement d'une machine de ciblage très difficile, des questions demeurent sur le modèle psychométrique Cambridge Analytica - auquel Wiley ne répondrait probablement pas mieux. Lorsque Kogan a présenté des preuves au Parlement en avril, il a fait valoir qu'il était peu probable que le résultat soit meilleur que l'attribution aléatoire de notes OCEAN. Peut-être, bien sûr, cette petite différence suffit, ou peut-être que Cambridge Analytica a simplement échangé une autre «
huile de serpent ». Et même si les individus étaient correctement étiquetés avec ces cinq facteurs, la sélection de publicités spécialisées était-elle vraiment si simple pour eux comme un appel à l'amour de l'ordre, à la peur ou à autre chose?
Mais, compte tenu de tout cela, il y a encore quelque chose en elle. Faites attention au brevet de 2012 pour «déterminer les caractéristiques personnelles d'un utilisateur à partir de la messagerie sur les réseaux sociaux». "Le stockage des caractéristiques de la personnalité peut être utilisé comme critère cible pour la publicité, afin d'augmenter la probabilité d'une interaction positive de l'utilisateur avec la publicité", comme indiqué dans le brevet. L'auteur du brevet est Facebook lui-même.