Bagaimana Cambridge Analytica Mengubah Klik Menjadi Suara

Informan Christopher Wiley Menjelaskan Ilmu Pengetahuan di balik Misi Cambridge Analytica untuk Mengubah Survei dan Data Facebook menjadi Senjata Politik




Bagaimana 87 juta posting yang dihasilkan Facebook berubah menjadi kampanye iklan yang dapat mengubah hasil pemilihan? Apa yang termasuk dalam prosedur untuk mengumpulkan begitu banyak data? Apa yang dikatakan data ini tentang diri kita?

Skandal dengan Cambridge Analytica menimbulkan banyak pertanyaan, tetapi bagi banyak orang, proposisi penjualan unik perusahaan, yang pekan lalu mengumumkan penutupannya, tetap menjadi misteri.

Khusus untuk 87 juta orang yang tertarik dengan apa yang sebenarnya terjadi pada data mereka, saya meminta klarifikasi kepada Christopher Wiley, mantan karyawan perusahaan, yang memberi tahu semua orang tentang Observer tentang tindakan bermasalahnya. Menurut Wiley, untuk pekerjaan seperti itu Anda hanya membutuhkan sedikit informasi tentang ilmu pemrosesan data, wanita kaya yang bosan, dan psikologi manusia.

Langkah pertama, dia menjelaskan melalui telepon, mencoba menangkap kereta: "Saat membuat algoritma, Anda pertama-tama harus mengumpulkan kumpulan data uji." Artinya, tidak peduli seberapa canggih teknologi akan digunakan untuk mengumpulkan data - pertama-tama Anda harus mengumpulkannya dengan cara lama dan baik. Sebelum Anda mulai menggunakan suka Facebook untuk memprediksi profil psikologis seseorang, Anda perlu meminta beberapa ratus ribu orang untuk melakukan survei psikologis terhadap 120 pertanyaan.

Set tes akan menjadi semua data sekaligus: suka Facebook, tes psikologis, dan yang lainnya, berdasarkan yang ingin Anda pelajari. Yang paling penting, itu harus berisi "seperangkat fitur karakteristik": "Data dasar atas dasar yang ingin Anda prediksi," kata Wiley. "Dalam kasus kami, ini adalah data Facebook, tetapi bisa berupa teks dalam bahasa alami, atau data klik," adalah catatan lengkap aktivitas online Anda. "Semua ini adalah data yang dapat digunakan untuk prediksi."

Di sisi lain, Anda akan memerlukan "variabel target," kata Wiley, "apa yang Anda coba prediksi. Dalam hal ini, karakteristik pribadi, orientasi politik, dan semua itu. ”



Jika Anda menggunakan satu hal untuk memprediksi sesuatu yang lain, maka ulasan dua hal ini dapat membantu Anda. “Jika Anda perlu mengetahui hubungan antara suka Facebook di set fitur Anda dan kualitas pribadi sebagai variabel target, Anda perlu melihatnya pada saat yang sama,” kata Wiley.

Data Facebook yang mendasari cerita dengan Cambridge Analytica adalah sumber yang cukup melimpah dalam hal ilmu pengolahan data - dan terlebih lagi pada tahun 2014 ketika Wiley pertama kali mulai bekerja di bidang ini. Mengumpulkan kualitas pribadi jauh lebih sulit: terlepas dari kesimpulan yang dapat ditarik dari popularitas kuesioner di BuzzFeed , cukup sulit untuk membuat seseorang menyelesaikan tes 120 pertanyaan (ini adalah versi panjang dari salah satu survei psikologi standar, IPIP-NEO ).

Tetapi “cukup sulit” adalah konsep relatif. “Bagi sebagian orang, motivasi untuk mengikuti survei itu bersifat finansial. Jika Anda seorang pelajar atau sedang mencari pekerjaan, atau hanya ingin mendapatkan $ 5, maka ini adalah motivasi. " Sungguh untuk survei, menurut Wiley, mereka membagikan $ 2 hingga $ 4. Nilai yang meningkat diharapkan untuk "kelompok yang lebih sulit dijangkau." Kemungkinan terkecil untuk lulus survei, dan karena itu, hadiah terbesar bergantung pada orang kulit hitam Amerika. “Orang lain diwawancarai karena mereka tertarik, atau karena bosan. Oleh karena itu, kami memiliki penghitungan data tentang wanita kulit putih yang kaya. Jika Anda tinggal di Hamptons [ Long Island Elite Housing Area / approx. terjemahan.] dan Anda tidak perlu melakukan apa pun di siang hari, Anda mengisi survei riset konsumen. ”

Kuisioner pribadi menggunakan 120 pertanyaan untuk membangun profil kepribadian dalam lima sumbu yang berbeda - ini adalah model "lima faktor", yang disebut "OCEAN" dalam jargon, singkatan dari "keterbukaan terhadap pengalaman baru, kesadaran, ekstraversi, keinginan untuk menyukai dan neurotisme" [keterbukaan terhadap pengalaman , hati nurani, extraversion, agreeableness, neuroticism].

Model membagi kualitas pribadi menjadi kelompok-kelompok, yang, tampaknya, dipertahankan dalam budaya yang berbeda dan pada waktu yang berbeda. Jadi, misalnya, orang-orang yang menggambarkan diri mereka sebagai "keras" cenderung menggambarkan diri mereka sebagai "komunikatif". Jika mereka setuju dengan deskripsi seperti itu hari ini, maka mereka akan setuju dengannya dalam setahun. Kelompok-kelompok ini paling mungkin terwujud dalam bahasa apa pun. Dan jika satu orang bereaksi negatif terhadap sesuatu, maka dia akan memiliki perbedaan yang jelas dan nyata dari orang yang bereaksi positif.

Sifat-sifat model ini membuatnya berguna untuk membangun profil orang, kata Wiley - tidak seperti profil psikologis populer lainnya, seperti tipologi Myers-Briggs . Pada fase verifikasi penelitian, Facebook praktis tidak terpengaruh. Survei ditawarkan di situs penambangan data komersial - pertama di platform Amazon Mechanical Turk, kemudian melalui operator Qualtrics (operator, menurut Wiley, diubah karena Amazon memiliki masalah dengan pengguna yang sangat tertarik untuk mengisi kuesioner - akibatnya, hasil jajak pendapat terdistorsi. )


“Bukan Sekedar Hukum - Tanggung Jawab / Pertahankan Amandemen Kedua
Iklan kampanye Cambridge Analytica yang ditampilkan

Facebook hanya terhubung di bagian paling akhir. Untuk menerima pembayaran untuk mengisi kuesioner, pengguna harus masuk ke situs dan memungkinkan akses ke data aplikasi survei, yang dibuat oleh Alexander Kogan, seorang ilmuwan dari University of Cambridge. Penelitiannya pada bangunan kepribadian seperti Facebook memberi Cambridge Analytica, disponsori oleh Robert Mercer , peluang sempurna untuk memasuki pasar dengan cepat. Kogan mengklaim bahwa Cambridge Analytica meyakinkannya tentang penggunaan data yang benar, dan mengatakan dia digunakan "sebagai kambing hitam baik Facebook maupun Cambridge Analytica."

Untuk pengguna yang datanya dikumpulkan, prosesnya cepat: "Klik pada aplikasi, dapatkan kode uang". Tetapi dalam beberapa detik ini banyak hal penting terjadi. Pertama, aplikasi mengumpulkan semua data yang mungkin tentang pengguna. Profil psikologis adalah variabel target, dan data dari Facebook adalah "serangkaian fitur karakteristik": informasi yang dikumpulkan oleh spesialis pemrosesan data untuk semua pengguna, yang akan ia gunakan untuk memprediksi secara akurat fitur yang menarik baginya.

Aplikasi ini juga mengumpulkan informasi yang dipersonalisasi seperti nama asli, lokasi, kontak - sesuatu yang tidak dapat ditemukan di situs survei. "Ini berarti bahwa informasinya dapat dibandingkan dengan orang sungguhan, dan informasinya dapat dibandingkan dengan daftar pemilih."

Kedua, aplikasi melakukan hal yang sama untuk semua teman pengguna yang menginstalnya. Dan tiba-tiba, ratusan ribu orang yang Anda bayar beberapa dolar untuk mengisi kuesioner, dan yang identitasnya adalah misteri, berubah menjadi jutaan orang yang profilnya di Facebook adalah buku terbuka.

Pada saat inilah transformasi terakhir terjadi. Bagaimana mengubah beberapa ratus ribu profil pribadi menjadi beberapa juta? Menggunakan kapasitas komputer besar dan tabel peluang besar. "Meskipun sampel Anda mencakup 300.000 orang, rangkaian fitur Anda sudah 100 juta," kata Wiley. Setiap suka Facebook dari dataset menjadi kolom terpisah dalam matriks besar ini. "Bahkan jika ada satu kejadian untuk seluruh set, ini sudah akan menjadi fitur."

"Lalu semua data dikumpulkan dalam model yang kompleks," kata Wiley. - Pada titik ini, Anda menggunakan keluarga yang berbeda, atau pendekatan untuk pembelajaran mesin, karena masing-masing memiliki kekuatan dan kelemahannya sendiri. Dan kemudian mereka memilih, dan Anda mencampur hasilnya dan memberikan kesimpulan. " Pada titik ini, ilmu pengolahan data menjadi suatu seni: set data input yang tepat dalam setiap pendekatan tidak diukir dalam granit, dan tidak ada satu cara yang "benar" untuk mengumpulkannya. Dalam dunia akademik, ini kadang-kadang disebut "pelatihan pascasarjana" - saat setelah semua yang tersisa adalah melakukan apa yang harus dilakukan dengan coba-coba. Namun itu bekerja dengan cukup baik, dan pada akhirnya, menurut Wiley, "kami menciptakan 253 algoritma, yaitu, 253 prediksi ada untuk setiap catatan profil". Tujuannya tercapai: model yang, pada kenyataannya, dapat mengambil suka dari Facebook dan, bekerja di arah yang berlawanan, mengisi semua kolom di tabel, menebak tentang kualitas pribadi seseorang, kecenderungan politiknya, dll.

Pada akhir Agustus 2014, Wiley menerima hasil pertama yang berhasil: 2,1 juta catatan dengan profil yang dibuat ulang untuk 11 negara bagian AS target. Rencananya adalah menggunakan data untuk membuat dan meningkatkan pesan iklan dalam kampanye Republik yang disponsori oleh Mercer dan Stephen Bannon dan mencapai pendahuluan 2016 (Wiley meninggalkan perusahaan sebelum mereka). "Angka ini tidak hanya menunjukkan semua orang yang telah kami kumpulkan data dari Facebook, data pemungutan suara dan data konsumen, tetapi juga membangun 253 prediksi yang ditambahkan ke profil mereka."

253 prediksi ini adalah "bahan rahasia" yang disajikan Cambridge Analytica sebagai penawaran unik bagi konsumen. Hanya menggunakan data dari Facebook, pengiklan dihadapkan dengan sampel demografis yang terlalu luas, dan beberapa kategori lebih sempit didefinisikan secara algoritmik - apakah Anda suka, katakanlah, jazz, atau tim sepak bola favorit Anda. Tetapi dengan 253 prediksi, Cambridge Analytica dapat, menurut Wiley, menyetel iklan yang tidak seperti yang lain: seorang neurotik, yang dengan mudah menyetujui pemungutan suara secara terbuka untuk Demokrat tidak akan rentan terhadap iklan seperti introvert intelektual yang stabil secara emosional, bahkan jika yang sama pesan, jika dipertukarkan, akan memiliki efek sebaliknya.

Wiley menyebut pernyataan politik yang begitu menenangkan oleh kandidat sebagai keinginan untuk menambah jumlah pekerjaan. “Pekerjaan dalam ekonomi adalah contoh yang baik dari pernyataan yang tidak berarti. Di bidang ekonomi, semua orang mendukung peluang kerja. Oleh karena itu, dengan menggunakan pernyataan sederhana "Saya mendukung kekosongan dalam perekonomian," atau "Saya memiliki rencana untuk memperbaiki situasi dengan kekosongan dalam perekonomian," tidak memungkinkan Anda untuk berbeda dari lawan Anda. "

"Tapi kami menemukan bahwa jika kita melihat apa arti konsep lowongan untuk setiap orang, ternyata orang yang berbeda dipengaruhi oleh desain yang berbeda dengan motivasi yang berbeda dan serangkaian nilai."

Dalam praktiknya, ini berarti bahwa obrolan yang sama dapat diekspresikan secara berbeda untuk orang yang berbeda, memberikan kesan seorang kandidat mempengaruhi pemilih pada tingkat emosional. “Jika Anda berbicara dengan orang yang sadar - dengan nilai tinggi untuk parameter C dalam model OCEAN [kejujuran, integritas] - Anda berbicara tentang peluang untuk mencapai kesuksesan dan tanggung jawab yang diemban oleh tempat kerja. Jika ini orang yang terbuka, Anda berbicara tentang kemungkinan tumbuh sebagai pribadi. Dengan neurotik, Anda mengandalkan keamanan yang akan diberikan tempat kerja kepada keluarga. "

Karena sifat jaringan kampanye modern, secara teoritis semua pesan ini dapat dikirim secara bersamaan ke audiens yang berbeda. Pada akhir kampanye, ketika pesan sudah berakar, mereka bahkan dapat diotomatisasi menggunakan algoritma yang menyisir kamus untuk mencari kombinasi kata yang sempurna untuk setiap subkelompok.


“Lihatlah apa arti pernikahan dan kembalilah padaku / Karena tradisi tidak ketinggalan zaman”
Iklan kampanye Cambridge Analytica yang ditampilkan

Tentu saja, ini bukan obrolan 100%. Satu pesan digunakan oleh kanan, menyerang pernikahan sesama jenis. "Lucu bahwa pesan itu ternyata sangat ofensif dan homofobik, meskipun faktanya itu dibuat oleh tim homoseksual," kata Wiley. - Itu ditujukan untuk orang yang sadar. Ada gambar kamus dan tulisan "Lihatlah arti pernikahan, dan kembalilah kepadaku." Bagi orang yang sadar, pesannya tampak meyakinkan: kamus adalah sumber keteraturan, dan orang semacam itu menghargai struktur. "

Pada titik tertentu, penargetan psikometrik bergerak ke bidang politik peluit anjing . Misalnya, gambar dinding terbukti efektif dalam kampanye imigrasi. “Orang-orang yang sadar menyukai struktur, oleh karena itu, dari sudut pandang mereka, solusi untuk masalah imigrasi harus dirampingkan, seperti digambarkan oleh dinding. Anda dapat membuat pesan yang bagi sebagian orang tidak masuk akal, tetapi bagi yang lain penuh makna. Ketika menunjukkan gambar ini, beberapa orang tidak akan mengerti bahwa kita berbicara tentang imigrasi, sementara yang lain akan segera mengenalinya. " Dari sudut pandang Wiley, masalah sebenarnya adalah "sandwich tanpa apa pun," politik, menunggu sesuatu untuk diletakkan di atasnya. "Tidak ada yang suka sandwich tanpa apa pun." Dia mengatakan data harus "mencari rasa atau bumbu tertentu" yang akan membuat sandwich menarik.

Dan meskipun itu tentu mesin penargetan yang sangat sulit, pertanyaan tetap tentang model psikometri Cambridge Analytica - yang Wiley mungkin tidak akan menjawab lebih baik. Ketika Kogan menyampaikan bukti kepada Parlemen pada bulan April, ia berpendapat bahwa hasilnya tidak mungkin lebih baik daripada hanya secara acak memberikan peringkat OCEAN. Mungkin, tentu saja, perbedaan kecil ini sudah cukup, atau mungkin Cambridge Analytica hanya memperdagangkan " minyak ular " yang lain. Dan bahkan jika individu secara tepat dilabeli dengan lima faktor ini, apakah pemilihan iklan khusus benar-benar sangat sederhana bagi mereka sebagai daya tarik untuk cinta ketertiban, ketakutan, atau hal lain?

Tapi, mengingat semua ini, masih ada sesuatu di dalamnya. Perhatikan paten 2012 untuk "menentukan karakteristik pribadi pengguna berdasarkan pesan di jejaring sosial". "Penyimpanan karakteristik kepribadian dapat digunakan sebagai kriteria target untuk iklan, untuk meningkatkan kemungkinan interaksi pengguna yang positif dengan iklan," sebagaimana ditunjukkan dalam paten. Penulis patennya adalah Facebook itu sendiri.

Source: https://habr.com/ru/post/id413903/


All Articles