Saya tidak menyesal membiarkan program Anda memeriksa data pribadi saya jika sebagai imbalannya saya mendapatkan sesuatu yang bermanfaat. Tetapi ini biasanya tidak terjadi.
Mantan kolega saya memberi tahu saya, "Semua orang suka mengumpulkan data, tetapi tidak ada yang suka menganalisisnya nanti." Pernyataan ini mungkin mengejutkan, tetapi orang-orang yang terlibat dalam pengumpulan dan analisis data telah menemukan ini. Semuanya dimulai dengan ide cemerlang: kami akan mengumpulkan informasi tentang setiap klik yang dilakukan seseorang di setiap halaman aplikasi! Kami akan melacak berapa lama mereka merefleksikan pilihan tertentu! Seberapa sering mereka menggunakan tombol kembali! Berapa detik mereka menonton video pengantar kami sebelum memutuskan hubungan! Berapa kali mereka membagikan pos kami di jejaring sosial!
Dan mereka melacak semua ini. Pelacakan itu mudah. Tambahkan log, buang ke dalam database, dan pergi.
Lalu apa? Nah, semua ini harus dianalisis. Dan sebagai orang yang menganalisis
banyak set data yang terkait dengan berbagai hal, saya dapat mengatakan: pekerjaan analis itu sulit dan sebagian besar tidak tahu berterima kasih (kecuali untuk gaji).
Masalahnya adalah bahwa praktis tidak ada cara untuk mengkonfirmasi bahwa Anda benar (dan juga definisi kebenaran itu sendiri tidak terlalu jelas, tentang yang di bawah ini). Hampir tidak pernah mungkin untuk menarik kesimpulan sederhana, hanya kesimpulan yang kompleks - dan kesimpulan yang rumit cenderung rentan terhadap kesalahan. Yang tidak dibicarakan oleh para analis adalah berapa banyak jadwal yang salah (dan, karenanya, kesimpulan) dibuat dalam perjalanan ke jadwal yang tepat. Atau bagi mereka yang kami anggap benar. Jadwal yang baik sangat meyakinkan sehingga tidak masalah apakah itu benar atau tidak, jika Anda hanya perlu meyakinkan seseorang. Mungkin itu sebabnya surat kabar, majalah, dan pelobi menerbitkan begitu banyak jadwal yang menipu.
Namun, tunda kesalahan untuk sementara waktu. Kami membuat asumsi yang sangat tidak realistis bahwa kami sangat pandai menganalisis segala macam hal yang berbeda. Apa selanjutnya
Baiklah, mari kita kaya dengan iklan yang ditargetkan dan algoritma rekomendasi pribadi. Bagaimanapun, itulah yang dilakukan semua orang!
Atau tidak?
Dengan rekomendasi pribadi, semuanya sangat buruk. Hari ini, rekomendasi pertama adalah artikel dengan tajuk klik menarik dan sangat emosional tentang bintang film atau tentang apa yang telah dilakukan atau belum dilakukan Trump dalam 6 jam terakhir. Atau bukan artikel, tapi video atau dokumenter. Saya tidak ingin membacanya atau menontonnya, tetapi kadang-kadang itu menyebalkan saya - dan kemudian selamat datang di kiamat rekomendasi, sekarang algoritma menganggap bahwa saya suka membaca tentang Trump, dan sekarang Trump akan ada di mana-mana. Jangan pernah memberikan umpan balik positif AI.
Ngomong-ngomong, ini adalah rahasia yang mengerikan dari pendukung pembelajaran mesin: hampir semua yang diberikan MO dapat diperoleh jauh lebih murah dengan bantuan heuristik bodoh, diprogram secara manual, karena MO terutama melatih contoh-contoh apa yang dilakukan orang mengikuti heuristik bodoh. Tidak ada keajaiban di sini. Jika Anda melatih komputer dengan bantuan MO untuk memilih resume, ia akan merekomendasikan Anda untuk mewawancarai pria dengan nama orang kulit putih, seperti yang sudah
dilakukan departemen SDM Anda. Jika Anda bertanya pada komputer jenis video apa yang ingin ditonton seseorang, ia akan merekomendasikan semacam sampah politik propaganda, karena dalam 50% kasus, 90% orang benar-benar menontonnya, tidak dapat mengendalikan diri mereka sendiri - dan ini adalah persentase keberhasilan yang cukup bagus.
Saya perhatikan bahwa ada beberapa contoh penggunaan MO yang sangat baik untuk apa yang algoritma tradisional mengatasi dengan buruk - pemrosesan gambar atau menang dalam permainan strategis. Ini bagus, tetapi ada kemungkinan aplikasi MO favorit Anda akan menjadi pengganti yang mahal untuk heuristik bodoh.
Seseorang yang bekerja dengan pencarian web mengatakan kepada saya bahwa mereka sudah memiliki algoritma yang menjamin rasio maksimum klik untuk dilihat untuk setiap pencarian: Anda hanya perlu memberikan halaman dengan tautan ke porno. Dan seseorang mengatakan bahwa situasi ini dapat dibungkus dan dijadikan detektor pornografi: tautan apa pun dengan klik tinggi, apa pun permintaannya, kemungkinan besar mengarah pada pornografi.
Masalahnya adalah bahwa perusahaan yang tampak layak tidak dapat terus-menerus memberi Anda tautan ke porno, itu "tidak aman untuk ditonton di tempat kerja," sehingga karya sebagian besar algoritma rekomendasi modern adalah mengembalikan sesuatu yang sedekat mungkin dengan pornografi, tetapi dengan ini "aman untuk dilihat di tempat kerja." Dengan kata lain, bintang (idealnya cantik, atau paling tidak kontroversial), politisi, atau keduanya. Mereka datang ke perbatasan ini sedekat mungkin, karena ini adalah keuntungan maksimum lokal mereka. Kadang-kadang mereka melewati batas ini, mereka harus meminta maaf atau membayar denda simbolis, dan kemudian semuanya kembali ke titik awal.
Ini mengganggu saya, tetapi buah ara dengan dia, itu hanya matematika. Dan mungkin sifat manusia. Dan kapitalisme. Ya ara dengan dia, aku mungkin tidak suka, tapi aku bisa memahaminya.
Saya mengeluh bahwa tidak ada satu pun di atas yang terkait dengan pengumpulan informasi pribadi saya.
Rekomendasi terpanas tidak ada hubungannya dengan saya
Jujur saja: iklan bertarget terbaik adalah yang saya dapatkan dari mesin pencari yang memberikan apa yang saya cari. Dan semuanya ada dalam plus: Saya menemukan apa yang saya cari, penjual membantu saya membeli barang-barangnya, mesin pencari mendapat uang untuk mediasi. Saya tidak tahu siapa pun yang akan mengeluh tentang iklan seperti itu. Ini adalah iklan yang bagus.
Dan dia juga tidak ada hubungannya dengan informasi pribadi saya!
Google telah menyediakan iklan kontekstual berbasis pencarian selama lebih dari satu dekade, bahkan sebelum mereka mulai meminta saya untuk masuk. Bahkan hari ini, seseorang dapat menggunakan mesin pencari apa pun tanpa masuk ke akunnya. Dan mereka masih memberikan iklan berdasarkan permintaan pencarian. Bisnis yang bagus.
Dalam kasus saya, iklan lain berfungsi dengan baik. Saya kadang-kadang bermain game, menggunakan Steam, dan kadang-kadang saya menonton game di Steam dan menandai yang ingin saya beli. Ketika penjualan dimulai pada game-game ini, Steam mengirimi saya email pemberitahuan, dan kadang-kadang setelah itu saya membelinya. Semuanya ada di plus: Saya mendapatkan game yang diinginkan (dengan diskon!), Produser game menerima uang, Steam menerima pembayaran untuk mediasi. Dan juga, jika saya mau, saya bisa melarang mengirimi saya surat-surat ini - tetapi saya tidak mau, karena ini adalah iklan yang bagus.
Tetapi tidak ada yang harus membangun profil saya untuk ini? Steam memiliki akun saya, saya katakan game apa yang saya inginkan, dan layanan menjualnya kepada saya. Ini bukan membangun profil, hanya mengingat daftar yang saya sendiri berikan.
Amazon menunjukkan pemberitahuan kepada saya yang menunjukkan bahwa saya mungkin ingin membeli beberapa barang habis pakai yang saya beli di masa lalu lagi. Ini juga berguna, dan juga tidak memerlukan pembuatan profil, kecuali untuk mengingat transaksi yang sudah mereka lakukan. Dan lagi, semua orang menang.
Amazon juga merekomendasikan produk yang mirip dengan yang saya beli, atau produk yang saya pelajari. Ini kira-kira 20% berguna. Jika saya baru saja membeli monitor untuk komputer, dan Anda tahu saya melakukannya, karena saya membelinya dari Anda, Anda dapat berhenti mencoba menjual monitor kepada saya. Tetapi beberapa hari setelah membeli elektronik, mereka juga menawarkan saya untuk membeli kabel USB, yang kemungkinan besar benar. Jadi oke, 20% dari manfaat dalam penargetan lebih baik dari 0% dari manfaat. Amazon harus dipuji karena membuat profil bermanfaat saya, meskipun ini hanya profil dari apa yang saya lakukan di situs, dan mereka tidak membaginya dengan siapa pun. Ini sepertinya bukan pelanggaran privasi. Tidak ada yang akan terkejut bahwa Amazon ingat apa yang saya beli dari mereka atau apa yang saya tonton.
Ternyata lebih buruk ketika penjual memutuskan bahwa saya mungkin menginginkan sesuatu. Dan mereka memutuskan ini karena saya pergi ke situs mereka dan melihat sesuatu. Kemudian mitra iklan mereka mengejar saya di seluruh web, mencoba menjualnya kepada saya. Dan mereka melakukannya, bahkan jika saya sudah membelinya. Ironinya adalah semua ini disebabkan oleh upaya yang tidak pasti untuk melindungi privasi saya. Penjual tidak mendistribusikan informasi tentang saya dan transaksi saya ke mitra iklannya (karena jika tidak, setiap kesempatan bahwa, dari sudut pandang hukum, mereka akan mendapat masalah), sehingga mitra iklan tidak tahu bahwa saya membeli barang. Dia hanya tahu (karena pelacak dari mitra yang dipasang di situs penjual) bahwa saya melihat item tersebut, sehingga mereka terus mengiklankannya untuk berjaga-jaga.
Oke, sekarang kita menuju ke topik yang menarik. Pengiklan memiliki pelacak yang ia tempatkan di situs yang berbeda untuk melacak saya. Dia tidak tahu apa yang saya beli, tetapi dia tahu apa yang saya lihat, mungkin bahkan untuk waktu yang lama dan di banyak situs.
Dengan menggunakan informasi ini, AI-nya yang terlatih dengan hati-hati menarik kesimpulan tentang apa lagi yang ingin saya lihat berdasarkan ...
Dan atas dasar apa? Orang-orang seperti saya? Hal-hal yang dilihat teman-teman Facebook saya? Semacam rumus matriks kompleks yang tidak bisa dipahami orang, tetapi mana yang bekerja 10% lebih baik?
Mungkin tidak. Dia mungkin hanya menebak jenis kelamin, usia, tingkat pendapatan, dan status perkawinan saya. Dan kemudian, jika saya seorang lelaki, dia menjual saya mobil dan gadget, dan jika dia perempuan, itu adalah barang-barang yang modis. Bukan karena semua pria suka mobil dan gadget, tetapi karena orang yang benar-benar tidak kreatif terlibat dalam proses ini dan berkata "jual mobil saya terutama untuk pria" dan "jual pakaian saya terutama untuk wanita". AI dapat menarik kesimpulan berdasarkan demografi yang salah (saya tahu Google salah di akun saya), tetapi itu tidak masalah, karena biasanya ternyata sebagian besar benar, yang lebih baik daripada 0% benar, dan pengiklan mendapatkan untuk sebagian besar iklan bertarget demografis, yang lebih baik daripada menargetkan dengan efisiensi 0%.
Anda mengerti bahwa semuanya berjalan seperti itu? Ya tentu saja. Ini dapat dikonfirmasi berdasarkan seberapa buruk sebenarnya iklan itu bekerja. Setiap orang dalam beberapa detik dapat mengingat hal yang ingin mereka beli, tetapi Algoritma tidak dapat menawarkannya, sementara platform iklan
Outbrain menghasilkan kantong uang dengan menjual tautan ke asuransi mobil kepada orang-orang yang tidak memiliki mobil. Itu mungkin juga sebuah iklan televisi dari tahun 90-an, ditampilkan larut malam, ketika Anda bisa yakin tentang profil demografis saya berdasarkan fakta bahwa saya belum tidur.
Anda mengikuti saya di mana-mana, menuliskan semua tindakan saya di log Anda selamanya, menggantikan seseorang untuk mencuri database Anda, sangat takut bahwa beberapa undang-undang Uni Eropa baru dapat menghancurkan bisnis Anda ... Dan semua demi ini?
Astrologi statistik
Tentu saja, semuanya sebenarnya tidak sesederhana yang dijelaskan. Di setiap situs yang saya kunjungi, lebih dari satu perusahaan melacak saya. Perusahaan-perusahaan ini memiliki kereta, dan mereka semua melacak saya di setiap situs web yang dikunjungi. Beberapa dari mereka bahkan tidak terlibat dalam periklanan, mereka hanya melacak, dan kemudian menjual informasi pelacakan ini kepada pengiklan yang tampaknya menggunakannya untuk meningkatkan penargetan.
Ekosistem yang mengagumkan. Mari kita lihat situs berita. Mengapa mereka memuat begitu lambat? Karena pelacak. Bukan karena iklan - karena pelacak. Hanya ada beberapa iklan yang biasanya tidak butuh waktu lama untuk memuat. Tetapi ada banyak pelacak, karena masing-masing dari mereka membayar mereka sedikit sehingga mereka diizinkan untuk melacak tampilan setiap halaman. Jika Anda adalah penerbit raksasa yang menyeimbangkan di ambang kebangkrutan dan Anda sudah memiliki 25 pelacak di situs Anda, dan perusahaan pelacak ke 26 memanggil Anda dan berjanji untuk membayar $ 50K per tahun untuk menambahkan pelacak lain ke mereka, Anda akan menolak mereka ? Halaman Anda sudah hampir-hampir membolak-balik, jadi memperlambat unduhan oleh 1/25 lainnya tidak akan mengubah apa pun, tetapi $ 50K bisa.
("Pemblokir iklan" menghapus iklan yang menjengkelkan, tetapi mereka juga mempercepat web, sebagian besar dengan menghapus pelacak. Sayang sekali pelacak itu sendiri tidak diharuskan memperlambat unduhan, tetapi mereka memperlambatnya, karena pengembang mereka pasti idiot, masing-masing harus mengunduh ribuan baris) Kode JavaScript untuk apa yang bisa dilakukan dalam dua baris. Tapi itu cerita lain).
Dan kemudian, penjual iklan dan jaringan iklan membeli data pelacakan dari pelacak. Semakin banyak data pelacakan yang mereka miliki, semakin baik mereka dapat mengelola iklan, bukan? Yah, mungkin.
Dan yang paling lucu adalah bahwa setiap pelacak memiliki beberapa data tentang Anda, tetapi tidak semua data, karena setiap pelacak tidak ada di setiap situs web. Di sisi lain, sangat sulit untuk membandingkan aktivitas orang di antara pelacak yang berbeda, karena tidak ada dari mereka yang mau memberi Anda bahan rahasia mereka. Karena itu, setiap penjual iklan berupaya membandingkan semua data untuk semua pelacak yang mereka beli, tetapi pada dasarnya itu tidak berhasil. Katakanlah kita memiliki 25 pelacak, yang masing-masing melacak satu juta pengguna, dan mungkin banyak data yang tumpang tindih di sana. Dalam dunia yang rasional, orang akan menduga bahwa data ini dijelaskan oleh beberapa juta pengguna individu. Tetapi di dunia yang gila di mana tidak mungkin untuk membuktikan tumpang tindih, mungkin ada 25 juta pengguna! Semakin banyak pelacak data yang dibeli jaringan iklan Anda, semakin banyak informasi yang Anda dapatkan! Saya kira! Ini berarti penargetan meningkat! Mungkin Jadi Anda harus membeli iklan dari jaringan kami, bukan jaringan lain yang memiliki lebih sedikit data! Ya, rupanya!
Tetapi semua ini tidak berhasil. Mereka masih berusaha menjual saya asuransi mobil untuk kereta bawah tanah.
Dan ini bukan hanya tentang iklan
Banyak hal yang terkait dengan iklan bertarget, jelas, tidak berfungsi - jika seseorang setidaknya sekali berhenti, dan dengan cermat melihat semua ini. Tetapi terlalu banyak orang memiliki insentif untuk berpikir sebaliknya. Tetapi jika Anda peduli dengan kehidupan pribadi Anda, maka itu menjadi kenyataan bahwa mereka masih terus mengumpulkan informasi pribadi Anda, metode ini berhasil atau tidak.
Bagaimana dengan algoritma rekomendasi konten? Apakah mereka bekerja
Jelas tidak. Pernahkah Anda mencobanya? Tidak, sungguh
Oke, ini tidak sepenuhnya adil. Beberapa hal berhasil. Rekomendasi musikal dari layanan Pandora
tiba-tiba bekerja dengan baik , tetapi mereka melakukannya dengan cara yang sama sekali tidak jelas. Cara yang jelas adalah dengan mengambil daftar lagu yang didengarkan pengguna Anda, mengunggahnya ke set pelatihan untuk MO, dan menggunakan hasilnya untuk menyusun daftar lagu untuk pengguna baru berdasarkan ... eh ... profil mereka? Ya, mereka tidak punya profil, mereka baru saja bergabung. Mungkin berdasarkan beberapa lagu pertama yang mereka pilih secara manual? Mungkin, tetapi mereka mungkin mulai dengan lagu yang sangat populer yang tidak mengatakan apa-apa, atau lagu yang sangat langka untuk memeriksa luasnya basis data Anda, yang bahkan memberi tahu Anda lebih sedikit.
Saya yakin
Mixcloud bekerja seperti itu. Setelah setiap campuran, layanan mencoba menemukan campuran "paling mirip" dari mana untuk melanjutkan. Biasanya ini adalah orang lain yang telah mengunduh campuran yang sama persis. Campuran pertama ternyata paling mirip dengan campuran ini, karena itulah ia menghasilkannya. Luar biasa, pembelajaran mesin, terus bekerja dengan baik.
Ini membawa kita ke sistem “lagu acak, jari atas / jari ke bawah” yang digunakan semua orang. Tapi semua orang kecuali Pandora berkinerja buruk. Mengapa Rupanya, karena Pandora mengkodekan secara manual banyak waktu mobil dari karakteristik musik dan menulis "algoritma nyata" (bukan MO) yang mencoba untuk menghasilkan daftar lagu berdasarkan kombinasi yang benar dari karakteristik ini.
Dalam pengertian ini, Pandora tidak bisa disebut mo murni. Ini sering menghasilkan daftar lagu yang Anda sukai setelah satu atau dua jari naik / turun, saat Anda melakukan perjalanan melalui jaringan kohesif multidimensi dari lagu-lagu yang telah dibangun oleh orang-orang dengan kerja keras, dan tidak melalui matriks besar daftar lagu biasa-biasa saja yang diambil dari orang biasa yang tidak memiliki cobalah untuk membuat daftar lagu ini. Pandora gagal banyak hal (terutama "akses di Kanada"), tetapi rekomendasi musik mereka bekerja dengan baik.
Hanya ada satu tangkapan. Jika layanan Pandora dapat memberi Anda daftar lagu yang bagus berdasarkan peringkat pertama dan beberapa, maka bagi saya sepertinya tidak membangun profil Anda. Dan dia tidak membutuhkan informasi pribadi Anda.
Netflix
Dan, agar tidak bangun dua kali, saya akan berbalik sedikit tentang Netflix - kasus pengembangan aneh yang dimulai dengan algoritma rekomendasi yang sangat baik, yang kemudian secara khusus diperburuk.
Sekali waktu, ada
hadiah Netflix sebesar $ 1 juta yang dijanjikan kepada tim terbaik yang mampu memprediksi peringkat film yang dipasang oleh seseorang berdasarkan peringkat yang sudah dimasukkan, dan dengan akurasi yang lebih baik daripada yang mereka dapat di Netflix sendiri. Dan ini, tidak secara tak terduga, menyebabkan
kegagalan dengan privasi ketika ternyata dataset yang diterbitkan dapat dideanonimisasi. Ya, inilah yang mengarah pada penyimpanan informasi pribadi jangka panjang orang-orang dalam database.
Netflix percaya bahwa bisnis mereka bergantung pada algoritma rekomendasi yang baik. Itu sudah cukup baik: Saya ingat menggunakan Netflix sekitar 10 tahun yang lalu dan menerima beberapa rekomendasi untuk film yang tidak akan pernah saya temukan sendiri, tetapi pada saat yang sama saya menyukainya. Tapi ini belum terjadi pada saya di Netflix untuk waktu yang sangat, sangat lama.
Ceritanya begini: Netflix pernah menjadi layanan pengiriman DVD. Mengirim DVD melalui surat lambat, jadi itu mutlak diperlukan bahwa setidaknya satu film pada CD yang datang seminggu sekali cukup menarik untuk menghibur Anda pada Jumat malam.
Setelah menghabiskan terlalu banyak hari Jumat berturut-turut dengan film-film buruk, Anda pasti akan berhenti berlangganan. Sistem rekomendasi yang baik adalah kunci keberhasilan. Saya pikir matematika yang sangat menarik juga digunakan dalam hal ini, yang menjamin bahwa layanan tersebut akan dapat menyewa persentase disk yang paling besar yang tersedia di gudang, karena tidak layak untuk memiliki kereta salinan blockbuster terakhir, yang akan populer selama sebulan, tetapi tidak bulan depan. akan dibutuhkan oleh siapa saja.Tetapi pada akhirnya, Netflix pindah online, dan biaya rekomendasi yang buruk turun secara dramatis: hanya berhenti menonton dan beralih ke film baru. Selain itu, itu sangat normal ketika banyak orang menonton satu blockbuster. Dan bahkan lebih baik, karena dengan begitu mereka dapat men-cache-nya dari provider, dan cache berfungsi lebih baik ketika semua orang membosankan dan rata-rata.Lebih buruk lagi, Netflix memperhatikan sebuah pola: semakin banyak jam seminggu orang menonton film, semakin kecil kemungkinan mereka menolak layanan tersebut. Dan itu masuk akal: semakin banyak waktu yang Anda habiskan di Netflix, semakin Anda “membutuhkannya”. Dan ketika pengguna baru menguji layanan dengan biaya yang hampir tetap, tingkat retensi yang tinggi menyebabkan pertumbuhan yang lebih cepat.Saya belajar ini pada saat yang sama ketika saya bertemu kata memuaskan[gabungan dari kata-kata bahasa Inggris yang memuaskan (cukup) dan cukup (cukup) / kira-kira. terjemahan.] - ini adalah ketika kita menyelidiki lumpur untuk mencari bukan pilihan terbaik, tetapi cukup baik. Hari ini, Netflix tidak mencari film terbaik, itu hanya cukup bagus. Jika ia memiliki pilihan antara film yang memenangkan banyak hadiah, yang dengan probabilitas 80% akan menyukainya atau dengan probabilitas 20% Anda akan membencinya, dan film mainstream yang 0% spesial, tetapi dari mana Anda tidak akan meludah dengan probabilitas 99%, maka dia akan merekomendasikan yang kedua setiap kali. Nilai-nilai asing merusak bisnis.Intinya adalah bahwa Anda tidak perlu membuat profil berisiko yang melanggar privasi pengguna untuk merekomendasikan film mainstream. Film-film semacam itu dirancang khusus agar tidak berbahaya bagi hampir semua orang. Layar rekomendasi Netflix saya tidak lagi "direkomendasikan untuk Anda", ini adalah "rilis baru", dan kemudian "sekarang dalam tren" dan "tinjau lagi".Netflix, seperti yang dijanjikan, membayar $ 1 juta untuk algoritma rekomendasi pemenang, yang bahkan lebih baik dari sebelumnya. Tapi alih-alih menggunakannya, mereka membuangnya.Beberapa pakar pengujian A / B telah memutuskan bahwa inilah yang membuat saya menonton acara TV yang tidak ada artinya selama berjam-jam per hari. Keuntungan mereka tumbuh. Dan untuk ini mereka bahkan tidak perlu menyerbu kehidupan pribadi saya.Dan siapakah aku ini untuk mengatakan bahwa mereka salah?