Wie Cambridge Analytica Klicks in Stimmen verwandelt

Der Informant Christopher Wiley erklärt die Wissenschaft hinter der Mission von Cambridge Analytica, Facebook-Umfragen und -Daten in politische Waffen umzuwandeln




Wie wurden aus 87 Millionen von Facebook generierten Posts eine Werbekampagne, die das Wahlergebnis verändern könnte? Was beinhaltet das Verfahren zum Sammeln so vieler Daten? Was sagen uns diese Daten über uns selbst?

Der Skandal mit Cambridge Analytica warf viele Fragen auf, aber für viele bleibt das Alleinstellungsmerkmal des Unternehmens, das letzte Woche seine Schließung bekannt gab, ein Rätsel.

Speziell für die 87 Millionen Menschen, die daran interessiert sind, was genau mit ihren Daten passiert ist, habe ich Christopher Wiley, einen ehemaligen Mitarbeiter des Unternehmens, um Klarstellung gebeten, der allen von Observer über ihre problematischen Handlungen erzählte. Laut Wiley benötigen Sie für einen solchen Job nur sehr wenige Informationen über die Wissenschaft der Datenverarbeitung, gelangweilte reiche Frauen und die menschliche Psychologie.

Der erste Schritt, erklärte er am Telefon und versuchte, den Zug zu erreichen: "Wenn Sie den Algorithmus erstellen, müssen Sie zuerst einen Testdatensatz sammeln." Das heißt, egal wie hochentwickelte Technologien zum Sammeln von Daten verwendet werden - zuerst müssen Sie sie auf die alte, gute Weise sammeln. Bevor Sie Facebook nutzen, um das psychologische Profil einer Person vorherzusagen, müssen Sie mehrere hunderttausend Menschen dazu bringen, eine psychologische Umfrage mit 120 Fragen durchzuführen.

Das Test-Set enthält alle Daten auf einmal: Facebook-Likes, psychologische Tests und alles andere, anhand dessen Sie lernen möchten. Am wichtigsten ist, dass es eine Reihe von charakteristischen Merkmalen enthält: „Grunddaten, auf deren Grundlage Sie Vorhersagen treffen möchten“, sagt Wiley. "In unserem Fall handelt es sich um Facebook-Daten, es können jedoch auch Texte in natürlicher Sprache oder Klickdaten sein", ist eine vollständige Aufzeichnung Ihrer Online-Aktivitäten. "All dies sind Daten, die für Vorhersagen verwendet werden können."

Auf der anderen Seite benötigen Sie Ihre „Zielvariablen“, sagt Wiley, „was Sie vorhersagen wollen. In diesem Fall persönliche Merkmale, politische Orientierung und all das. “



Wenn Sie eine Sache verwenden, um etwas anderes vorherzusagen, kann Ihnen eine Überprüfung dieser beiden Dinge helfen. „Wenn Sie die Beziehung zwischen Facebook-Likes in Ihrem Funktionsumfang und persönlichen Eigenschaften als Zielvariablen kennen müssen, müssen Sie sie gleichzeitig sehen“, sagt Wiley.

Die Facebook-Daten, die der Geschichte von Cambridge Analytica zugrunde liegen, sind eine ziemlich reichhaltige Ressource in Bezug auf die Wissenschaft der Datenverarbeitung - und noch mehr war es 2014, als Wiley anfing, in diesem Bereich zu arbeiten. Das Sammeln persönlicher Qualitäten ist viel schwieriger: Trotz der Schlussfolgerungen, die aus der Beliebtheit von Fragebögen auf BuzzFeed gezogen werden können , ist es ziemlich schwierig, eine Person dazu zu bringen, einen Test mit 120 Fragen abzuschließen (dies ist die Länge einer Kurzversion einer der psychologischen Standardumfragen, IPIP-NEO ).

Aber "ziemlich schwierig" ist ein relatives Konzept. „Für einige Menschen war die Motivation, an der Umfrage teilzunehmen, finanziell. Wenn Sie Student sind oder Arbeit suchen oder nur 5 US-Dollar verdienen möchten, ist dies eine Motivation. “ Wirklich für die Umfrage, laut Wiley, verteilten sie von 2 bis 4 Dollar. Für "schwer erreichbare Gruppen" wurde ein höherer Wert erwartet. Die geringste Wahrscheinlichkeit, die Umfrage zu bestehen, und daher die größte Belohnung, wurde von schwarzen Amerikanern getragen. „Andere Leute werden interviewt, weil sie interessiert sind oder aus Langeweile. Daher hatten wir eine Aufzählung von Daten über wohlhabende weiße Frauen. Wenn Sie in den Hamptons wohnen [ Long Island Elite Housing Area / ca. transl.] und Sie haben tagsüber nichts zu tun, Sie füllen Umfragen zur Verbraucherforschung aus. “

Persönliche Fragebögen verwenden 120 Fragen, um ein Persönlichkeitsprofil in fünf verschiedenen Achsen zu erstellen - dies ist das Modell der „fünf Faktoren“, das im Jargon als „OCEAN“ bezeichnet wird, eine Abkürzung für „Offenheit für neue Erfahrungen, Bewusstsein, Extraversion, Wunsch zu mögen und Neurotizismus“ [Offenheit für Erfahrungen “ , Gewissenhaftigkeit, Extraversion, Verträglichkeit, Neurotizismus.

Das Modell unterteilt persönliche Qualitäten in Gruppen, die offenbar in verschiedenen Kulturen und zu verschiedenen Zeiten erhalten bleiben. So bezeichnen sich beispielsweise diejenigen, die sich als „laut“ bezeichnen, wahrscheinlich als „kommunikativ“. Wenn sie heute einer solchen Beschreibung zustimmen, werden sie ihm in einem Jahr zustimmen. Diese Gruppen manifestieren sich am wahrscheinlichsten in jeder Sprache. Und wenn eine Person negativ auf etwas reagiert, hat sie offensichtliche und spürbare Unterschiede zu Menschen, die positiv reagieren.

Diese Eigenschaften des Modells machen es nützlich, um ein Profil von Menschen zu erstellen, sagt Wiley - im Gegensatz zu anderen populären psychologischen Profilen wie der Myers-Briggs-Typologie . In der Verifizierungsphase der Studie war Facebook praktisch nicht betroffen. Umfragen wurden auf kommerziellen Data-Mining-Websites angeboten - zuerst auf der Amazon Mechanical Turk-Plattform, dann über den Qualtrics-Betreiber (die Betreiber wurden laut Wiley geändert, weil Amazon ein Problem mit Benutzern hat, die sehr daran interessiert sind, Fragebögen auszufüllen). Infolgedessen sind die Ergebnisse der Umfragen verzerrt )


"Nicht nur Gesetz - Verantwortung / Verteidigung der zweiten Änderung "
Besondere Anzeigen für Cambridge Analytica-Kampagnen

Facebook hat sich erst ganz am Ende verbunden. Um die Zahlung für das Ausfüllen des Fragebogens zu erhalten, mussten sich Benutzer auf der Website anmelden und Zugriff auf die Umfrageanwendungsdaten gewähren, die von Alexander Kogan, einem Wissenschaftler der Universität Cambridge, erstellt wurden. Seine Forschungen zur Facebook-ähnlichen Persönlichkeitsbildung gaben Cambridge Analytica, gesponsert von Robert Mercer , die perfekte Chance, schnell in den Markt einzusteigen. Kogan behauptet, Cambridge Analytica habe ihm die ordnungsgemäße Verwendung der Daten zugesichert und sei "der Sündenbock von Facebook und Cambridge Analytica" gewesen.

Für den Benutzer, dessen Daten gesammelt wurden, war der Vorgang schnell: „Klicken Sie auf die Anwendung, um den Geldcode zu erhalten“. Aber in diesen wenigen Sekunden passierten viele wichtige Dinge. Zunächst sammelte die Anwendung alle möglichen Daten über den Benutzer. Das psychologische Profil ist die Zielvariable, und die Daten von Facebook sind eine „Reihe charakteristischer Merkmale“: Informationen, die vom Datenverarbeitungsspezialisten für alle Benutzer gesammelt werden, um die für ihn interessanten Merkmale genau vorherzusagen.

Die Anwendung sammelte auch personalisierte Informationen wie einen echten Namen, einen Ort und Kontakte - etwas, das auf Umfrageseiten nicht gefunden werden konnte. "Dies bedeutet, dass die Informationen mit einer realen Person verglichen werden können und seine Informationen mit dem Wählerregister verglichen werden können."

Zweitens hat die Anwendung für alle Freunde des Benutzers, der sie installiert hat, dasselbe getan. Und plötzlich verwandelten sich Hunderttausende von Menschen, für die Sie ein paar Dollar für das Ausfüllen eines Fragebogens bezahlt haben und deren Identität ein Rätsel ist, in Millionen von Menschen, deren Profile auf Facebook ein offenes Buch sind.

In diesem Moment findet die letzte Transformation statt. Wie kann man aus mehreren hunderttausend persönlichen Profilen mehrere Millionen machen? Nutzung großer Computerkapazitäten und einer riesigen Tabelle mit Möglichkeiten. „Obwohl Ihre Stichprobe 300.000 Personen umfasst, umfasst Ihr Funktionsumfang bereits 100 Millionen“, sagt Wiley. Jedes Facebook, das aus einem Datensatz gefällt, wird zu einer separaten Spalte in dieser riesigen Matrix. "Selbst wenn es ein Vorkommen für den gesamten Satz gibt, wird dies bereits eine Funktion sein."

"Dann werden alle Daten in einem komplexen Modell gesammelt", sagt Wiley. - Zu diesem Zeitpunkt verwenden Sie verschiedene Familien oder Ansätze für maschinelles Lernen, da jede von ihnen ihre eigenen Stärken und Schwächen hat. Und dann stimmen sie ab, und Sie mischen die Ergebnisse und geben eine Schlussfolgerung. “ An diesem Punkt wird die Wissenschaft der Datenverarbeitung zu einer Kunst: Der genaue Satz von Eingabedaten in jedem der Ansätze ist nicht in Granit geschnitzt, und es gibt keinen „richtigen“ Weg, sie zu sammeln. In der akademischen Welt wird dies manchmal als "postgraduale Ausbildung" bezeichnet - der Moment, nach dem nur noch zu tun ist, was durch Versuch und Irrtum weiterzumachen ist. Und doch hat es ziemlich gut funktioniert, und am Ende haben wir laut Wiley „253 Algorithmen erstellt, dh 253 Vorhersagen existierten für jeden Profildatensatz“. Das Ziel wurde erreicht: ein Modell, das tatsächlich in der Lage ist, Likes von Facebook zu übernehmen und in entgegengesetzter Richtung alle Spalten in der Tabelle auszufüllen, um die persönlichen Qualitäten der Person, ihre politischen Vorlieben usw. zu erraten.

Bis Ende August 2014 erhielt Wiley die ersten erfolgreichen Ergebnisse: 2,1 Millionen Datensätze mit einem neu erstellten Profil für 11 US-Zielstaaten. Der Plan war, die Daten zu verwenden, um Werbebotschaften in der von Mercer und Stephen Bannon gesponserten republikanischen Kampagne zu erstellen und zu verbessern und die Vorwahlen 2016 zu erreichen (Wiley verließ das Unternehmen vor ihnen). "Diese Zahl gibt nicht nur alle Personen an, für die wir Daten von Facebook, Abstimmungsdaten und Verbraucherdaten gesammelt haben, sondern erstellt auch 253 Vorhersagen, die ihrem Profil hinzugefügt wurden."

Diese 253 Vorhersagen waren die „geheime Zutat“, die Cambridge Analytica den Verbrauchern als einzigartiges Angebot präsentierte. Werbetreibende, die nur die Daten von Facebook verwenden, sehen sich mit zu großen demografischen Stichproben konfrontiert, und mehrere engere Kategorien werden algorithmisch definiert - mögen Sie beispielsweise Jazz oder Ihre Lieblingsfußballmannschaft? Mit 253 Vorhersagen könnte Cambridge Analytica laut Wiley Anzeigen wie keine andere optimieren: Eine neurotische, leicht zustimmende extrovertierte Abstimmung für Demokraten wäre für solche Werbung wie ein emotional stabiler intellektueller Introvertierter nicht anfällig, selbst wenn dieselben Nachrichten würden, wenn sie ausgetauscht würden, den gegenteiligen Effekt haben.

Wiley erwähnt eine so beruhigende politische Aussage des Kandidaten als den Wunsch, die Zahl der Arbeitsplätze zu erhöhen. „Arbeitsplätze in der Wirtschaft sind ein gutes Beispiel für eine bedeutungslose Aussage. In der Wirtschaft sind alle für Beschäftigungsmöglichkeiten. Wenn Sie also die einfache Aussage „Ich stehe für freie Stellen in der Wirtschaft“ oder „Ich habe einen Plan, um die Situation mit offenen Stellen in der Wirtschaft zu beheben“ verwenden, können Sie sich nicht von Ihrem Gegner unterscheiden. “

"Aber wir haben festgestellt, dass, wenn wir uns ansehen, was das Konzept der offenen Stellen für jede einzelne Person bedeutet, sich herausstellt, dass unterschiedliche Menschen von unterschiedlichen Designs mit unterschiedlicher Motivation und einer Reihe von Werten betroffen sind."

In der Praxis bedeutet dies, dass dasselbe Geschwätz für verschiedene Personen unterschiedlich ausgedrückt werden kann, was den Eindruck eines Kandidaten erweckt, der die Wähler auf emotionaler Ebene beeinflusst. „Wenn Sie mit einer bewussten Person sprechen - mit guten Noten für den Parameter C im OCEAN-Modell [Ehrlichkeit, Integrität] - sprechen Sie über Erfolgsmöglichkeiten und die Verantwortung, die der Arbeitsplatz mit sich bringt. Wenn dies eine offene Person ist, sprechen Sie über die Möglichkeit, als Person zu wachsen. Mit einem Neurotiker verlassen Sie sich auf die Sicherheit, die der Arbeitsplatz der Familie bietet. “

Aufgrund des Netzwerkcharakters moderner Kampagnen können theoretisch alle diese Nachrichten gleichzeitig an unterschiedliche Zielgruppen übermittelt werden. Am Ende der Kampagne, wenn die Nachrichten bereits Wurzeln geschlagen haben, können sie sogar mithilfe eines Algorithmus automatisiert werden, der das Wörterbuch auf der Suche nach der perfekten Wortkombination für jede der Untergruppen durchsucht.


"Schau dir an, was Ehe bedeutet und komm zurück zu mir / Weil Traditionen nicht veraltet sind"
Besondere Anzeigen für Cambridge Analytica-Kampagnen

Dies ist natürlich kein 100% iges Geschwätz. Eine Nachricht wurde von der Rechten verwendet, um die gleichgeschlechtliche Ehe anzugreifen. "Es ist lustig, dass sich die Botschaft als so beleidigend und homophob herausstellte, obwohl sie von einem Team von Homosexuellen erstellt wurde", sagt Wiley. - Es richtete sich an bewusste Menschen. Es gab ein Bild eines Wörterbuchs und die Aufschrift „Schau dir an, was Ehe bedeutet, und komm zurück zu mir.“ Für eine bewusste Person sieht die Botschaft überzeugend aus: Das Wörterbuch ist die Quelle der Ordnung, und eine solche Person respektiert die Strukturiertheit. “

Irgendwann rückt das psychometrische Targeting in den Bereich der Hundepfeifenpolitik vor . Beispielsweise haben sich Wandbilder in Einwanderungskampagnen als wirksam erwiesen. „Bewusste Menschen mögen Strukturiertheit, daher sollte aus ihrer Sicht die Lösung des Einwanderungsproblems gestrafft werden, wie die Mauer zeigt. Sie können eine Nachricht erstellen, die für einige Menschen keinen Sinn ergibt, für andere jedoch voller Bedeutung ist. Wenn einige Menschen dieses Bild demonstrieren, werden sie nicht verstehen, dass es sich um Einwanderung handelt, während andere es sofort erkennen werden. “ Aus Wileys Sicht war das eigentliche Problem das politische „Sandwich ohne irgendetwas“, das darauf wartete, dass etwas darauf gelegt wurde. "Niemand mag ein Sandwich ohne irgendetwas." Er sagt, die Daten sollten „einen bestimmten Geschmack oder eine bestimmte Würzung herausfinden“, die das Sandwich attraktiv machen.

Und obwohl es sicherlich eine sehr schwierige Zielmaschine war, bleiben Fragen zum psychometrischen Modell von Cambridge Analytica offen - die Wiley wahrscheinlich nicht besser beantworten würde. Als Kogan im April dem Parlament Beweise vorlegte, argumentierte er, dass das Ergebnis wahrscheinlich nicht besser sei als die zufällige Zuweisung von OCEAN-Ratings. Vielleicht reicht dieser kleine Unterschied natürlich aus, oder vielleicht hat Cambridge Analytica einfach ein anderes „ Schlangenöl “ gehandelt. Und selbst wenn Einzelpersonen mit diesen fünf Faktoren korrekt gekennzeichnet waren, war die Auswahl von Fachwerbung für sie wirklich so einfach, dass sie die Liebe zur Ordnung, die Angst oder etwas anderes ansprach?

Aber angesichts all dessen ist immer noch etwas drin. Beachten Sie das Patent von 2012 zur „Bestimmung der persönlichen Merkmale eines Benutzers anhand von Nachrichten in sozialen Netzwerken“. "Die Speicherung von Persönlichkeitsmerkmalen kann als Zielkriterium für Werbung verwendet werden, um die Wahrscheinlichkeit einer positiven Benutzerinteraktion mit Werbung zu erhöhen", wie im Patent angegeben. Der Autor des Patents ist Facebook selbst.

Source: https://habr.com/ru/post/de413903/


All Articles