Wawancara besar tentang Big Data: mengapa mereka mengikuti kami di jejaring sosial dan siapa yang menjual data kami?

Penafian . Spesialis Big Data, Arthur Khachuyan, memberi tahu bagaimana jejaring sosial dapat membaca pesan kami, bagaimana telepon kami menguping kami, dan siapa yang membutuhkan semuanya. Artikel ini adalah transkrip dari wawancara hebat. Ada orang yang menghemat waktu dan menyukai teks, ada yang tidak bisa menonton video di tempat kerja atau di jalan, tetapi dengan senang membaca Habr, ada orang yang tuna rungu yang suaranya tidak dapat diakses atau sulit dimengerti. Kami memutuskan untuk mereka semua dan Anda mendekripsi konten yang sangat baik. Siapa pun yang lebih suka video adalah tautan di bagian akhir.



Setiap hari kita menulis, mencari, dan memposting di Internet, dan setiap hari seseorang mengawasi kita di sisi lain layar. Program khusus memindai foto, suka, dan teks untuk menjual data kami ke perusahaan periklanan atau polisi. Anda bisa menyebutnya paranoia atau fiksi ilmiah, tetapi telepon, lingkaran sosial, korespondensi atau orientasi tidak lagi rahasia.

Mengapa aplikasi Facebook meminta akses ke kamera, mikrofon, dan kontak kami


Pewawancara: - Saya akan memberikan contoh kecil. Apa yang kami setujui ketika kami menempatkan aplikasi Facebook di smartphone. Jadi, ia memiliki akses ke data: tentang kontak, tentang menjalankan aplikasi, tentang file pada drive usb, memiliki akses tak terbatas ke Internet, dapat diluncurkan ketika smartphone dihidupkan, mengubah wallpaper, mengunduh file, melihat SMS atas permintaan, merekam video, membuat panggilan, rekam suara. Mengapa semua ini perlu?

Arthur Khachuyan: - Ya, pada kenyataannya, di bawah masing-masing fungsi ini ada fungsi Facebook yang sebenarnya, di bawah setiap permintaan ini. Dan Facebook akan mengatakan bahwa, tentu saja, semua ini diperlukan untuk meningkatkan interaksi dengan aplikasi. Tetapi kita semua mengerti bahwa ini dilakukan untuk mengumpulkan data.

Apakah aplikasi merekam percakapan kami


Bahkan, ada juga garis yang sangat bagus di sini - sekarang saya akan memberi Anda sebuah contoh: ada orang yang sangat "paranoid" karena fakta bahwa "Saya mengatakan sesuatu, navigator Yandex" mendengarnya, saya mulai mendapatkan iklan "Atau," Facebook "bersyarat (tidak masalah) -" Saya katakan di suatu tempat, aplikasi saya ada di atas meja "...

Ada tiga cara pengembangan, jadi ... dari kisah paranoid ini. Pertama, bagi orang-orang, mereka lupa bahwa beberapa konten dikonsumsi di suatu waktu, atau mereka hanya jatuh ke dalam sampel statistik, bahwa orang-orang di usia mereka, minat dan pola perilaku mereka harus tertarik pada kursus bahasa Inggris saat ini. Mereka mengatakan sesuatu di sana dan tampaknya seseorang memperhatikan mereka.

Apakah posting kami dibaca di jejaring sosial


Tapi sebenarnya ada cerita kedua, saya melakukan percobaan seperti itu berkali-kali: dua akun bersih dibuat di jejaring sosial, sebuah pesan ditulis dari satu ke yang lain, seperti "seorang teman pergi ke Syktyvkar" (Saya menceritakan semua ini dengan bercanda, saya tidak tahu dalam hidup, di mana Syktyvkar), tetapi setelah dua atau tiga hari Anda mulai menerima iklan tentang tur di sana. Artinya, jaringan sosial memindai pesan pribadi, yang tampaknya melanggar perjanjian dengannya, tetapi Anda tidak dapat membuktikannya. Dan aplikasi mobile yang diluncurkan sangat sering berkumpul untuk memahami sebenarnya penghasilan orang ini. Orang-orang melakukan banyak penelitian seperti: Anda tahu, memanggil taksi dari tempat yang sama dari "iPhone" dan "Android", dan label harga yang berbeda memberikan armada taksi karena mereka menentukan platform, menentukan aplikasi yang berjalan ... Oke, pertama menentukan platform dan memahami siapa yang butuh nilai apa untuk platform.

Bagaimana aplikasi dapat menceritakan segalanya tentang seseorang


Dan menjalankan aplikasi pada umumnya adalah fitur yang memungkinkan Anda untuk mengatakan banyak tentang seseorang. Bagaimana kita memahami siapa dia? Dengan konten yang dikonsumsinya. Menurut aplikasi yang diinstal, kita bisa memahami semuanya, hingga orientasi seksual. Aplikasi mana yang diinstal, sesuai, kepentingan nyata orang ini. Yaitu, jika ia memiliki semacam "lampiran" yang dipasang untuk menyewa pesawat pribadi - oke. Jika Anda telah menginstal semacam "Pemesanan", "Avita", aplikasi lain untuk dijual atau ada banyak aplikasi untuk beberapa pembelian dan diskon murah, cashback - secara umum, Anda sendiri mengerti. Jika Anda sendiri sekarang melihat aplikasi Anda ...

Bagaimana tidak memposting apa pun di Internet dan tetap ada di sana


Saya.: - Atau dia seorang gamer, misalkan ...
A. Kh .: - Ya, tentu saja, Anda bisa langsung mengerti. Dasar di mana ia memiliki akun.
I:: - Dengar, untuk awal mari kita buka rahasia untuk semua orang bahwa ketika seseorang menulis sesuatu di jejaring sosialnya atau menerbitkan foto, tidak hanya pelanggannya yang melihatnya.
A. Kh .: - Ya, itu benar. Saya selalu menunjukkan gambar sebesar itu, di mana ada potret rata-rata pengguna jejaring sosial Rusia. Di sana ia, teman-temannya, teman-teman teman, teman-teman teman hingga lutut ketiga. Ini adalah audiens yang sangat besar, sekitar delapan ratus ribu pengguna yang terkadang melihat konten orang ini secara acak (karena umpan terintegrasi modern di jejaring sosial), tetapi kesalahan terbesar pemula adalah bahwa seseorang mungkin tidak memiliki akun di jejaring sosial sama sekali tetapi dia pergi ke suatu acara di suatu tempat, mereka mengambil fotonya, dia melakukan sesuatu di sana, kemudian mereka mempostingnya, dan, dengan demikian, beberapa pengetahuan masuk ke dalam basis data besar sumber terbuka ini.
Saya.: - Yaitu, dia bisa duduk di restoran atau menghadiri rapat umum, berada di latar belakang semacam foto - sistem akan mengenalinya ...
A. Kh.: - Di depan, beberapa gadis muda akan mengambil selfie pada kamera depan 6 megapikselnya dan, pada kenyataannya, itu saja ...

Data apa yang dikumpulkan di foto saya di jejaring sosial


Artinya, kita, sekali lagi, dalam hal ini dengan foto, kita mengekstrak pengetahuan tentang orang ini, dan kemudian kita akan membandingkan pengetahuan ini dengan foto-foto lain yang diperoleh, yaitu, "mesin ini milikmu atau bukan milikmu", yaitu, jika Anda menerbitkannya selama satu setengah tahun setidaknya lima kali, ada satu dan nomor yang sama, merek, warna ... Dia tidak ada di "Avto.ru", "Drom.ru", tidak ada dia di antara teman-teman Anda - maka kami akan menugaskan mobil ini untuk Anda.

Saya.: - Dan Anda akan mengerti perkiraan kekayaan saya?
A. Kh .: - Ya. Atau nanti, ketika Anda pergi di sekitar Ring Road Moskow dan Anda akan disambut oleh “sisi super digital” (TV besar) yang sedemikian besar, di mana hampir setiap orang memiliki pengenalan nomor mobil. Untuk tiga ratus meter mereka akan mengenali jumlah mobil Anda, memberikannya kepada kami, dan kami akan memberi tahu Anda jenis iklan yang akan ditampilkan kepada Anda.
I.: - Apakah Anda menerima data dari setiap papan iklan tempat kamera dibangun?
A. Kh.: - Tidak, kami memiliki mitra, salah satu pemasok iklan luar ruang terbesar, kami memiliki API, mereka memberi kami nomor mobil - kami mengatakan konten apa yang diminati orang ini. Artinya, di sini, dari sudut pandang bisnis, solusi untuk dua masalah: agar tidak menampilkan iklan dari sesuatu yang telah ditemui seseorang; dan, karenanya, dalam arus, pilih 80–90 persen orang dengan minat yang sama dan perlihatkan kepada mereka beberapa konten spesifik.

Bagaimana dan mengapa perusahaan menghitung lokasi saya


Sekarang kisah yang paling hidup (bukan milik kita) - itu terkait dengan analisis "wi-fi." Di semua pusat perbelanjaan, ketika seseorang tiba, terhubung ke "wi-fi", masing-masing, alamat mac-nya dimonitor - kita bisa memahami bagaimana orang itu bergerak. Ini adalah masalah gelap yang sangat spesifik, karena sepertinya vendor perangkat keras telah memperkenalkan protokol baru yang mengganggu pelacakan tersebut, tetapi sepertinya Apple belum mengimplementasikan protokol ini dengan sangat baik, dan Anda benar-benar bisa mendapatkan alamat mac ini - masing-masing, melacak caranya orang itu bergerak.

Bagaimana saya bisa menghitung gaji saya berdasarkan lokasi saya


Dan kemudian, secara kondisional, pusat perbelanjaan Metropolis ini, tempat sistem ini berdiri, membagikan data dengan "inpo-analytics" bersyarat (syaratnya, operator semua data ini di metro). Dan kita bisa mengerti di stasiun mana Anda duduk, di mana Anda pergi. Dengan demikian, mengumpulkan data tentang Anda selama beberapa hari, Anda dapat memahami di mana Anda tinggal, di mana Anda bekerja - untuk hampir semua orang: apa yang lebih dekat adalah pekerjaan, apa yang berikutnya ada di rumah. Dengan demikian, Anda dapat memahami apakah Anda tinggal di dekat Metropolis atau tidak, seberapa sering Anda bergerak. Secara umum, pada saat seseorang masuk dan keluar dari metro, orang dapat memahami gaya perilakunya - seorang pekerja, seorang siswa, pengunjung, ibu dengan anak-anak ... Ya, memang ada ketergantungan statistik. Dan, dengan demikian, menyempurnakan sampel ini, kita dapat memahami di mana orang tersebut bekerja. Plus, tambahkan fotonya dari jejaring sosial di sana. Kemudian, segera setelah kami mengerti di mana dia bekerja, Anda dapat memahami kira-kira posisinya dengan beberapa parameter di sana; karenanya, lalu bandingkan dengan Headhunter, SuperJob, pahami gaji rata-rata untuk tempat ini, untuk posisi ini. Dengan demikian, sesuai, pengetahuan diperoleh.

I:: - Tawarkan dia pinjaman dengan syarat tertentu.
A. Kh .: - Ya, ya. Kemudian dia akan pergi ke suatu negara, check in di suatu tempat, mengambil gambar di Facebook yang sama - "Saya terbang dari Sheremetyevo ke Panama". Anda dapat melihat di Skyscanner, berapa harga tiket pada tanggal ini sesuai dengan jumlah permintaan orang ke tujuan mereka, berapa biaya hotel - dan, dengan demikian, untuk memahami berapa banyak orang yang menghabiskan waktu liburan, seberapa sering mereka bepergian, berapa dana gratis yang mereka miliki dan Sebenarnya, berdasarkan ini, buat prediksi dan sebagainya.
Saya.: - Menjual produk komersial, produk perbankan.
A. Kh .: - Ya. Baik produk bank, atau manajemen keuangan, atau pajak, karena pengusaha individu memiliki kartu yang melekat pada badan hukum, dan ia melewati pajak, katakanlah, untuk 100 ribu, dan kemudian ia membeli mobil baru. Di sini Ada satu juga.

Bagaimana kecerdasan buatan “membaca” foto kita di jejaring sosial dan kesimpulan apa yang dihasilkannya


Saya.: - Saya memposting foto di Instagram. Di atasnya saya, misalnya, digambarkan dengan latar belakang mobil, di dekat rumah, saya mengenakan pakaian tertentu. Bagaimana algoritma buatan ini mulai melihat saya dan apa yang mulai mereka pahami?
A. Kh .: - Oke, kami pergi ke halaman, mengumpulkan foto ini. Hal pertama yang dilakukan adalah bahwa wajah Anda menonjol untuk memahami apakah Anda itu milik Anda atau bukan, apakah itu akun Anda. Mungkin orang lain yang mengambil foto itu, atau Anda mengambil foto seseorang. Langkah selanjutnya adalah, pada kenyataannya, jaringan "convolutional" untuk pengenalan pola (visi komputer). Tugas kita adalah memahami apa yang ada di foto? Banyak hal yang tidak dapat dipahami. Kita perlu memahami mobil, warna, merek, dan, dengan demikian, mengenali nomornya. Anda bisa memahami warna pakaian luar; mungkin gaya; mungkin dengan akurasi gaya rambut 70-80%. Sesuatu seperti itu. Jika seseorang mengambil selfie ini, maka Anda dapat menentukan warna mata.
Saya.: - Dan bagaimana kita menggunakan gaya rambut?
A. Kh .: - Ya, panjangnya rambut ... Oh, Anda tahu, merek "kecantikan" tergila-gila dengan ini. Beberapa sampo dijual kepada wanita tertentu dengan warna rambut tertentu.
Saya.: - Dapatkah Anda menyebutkan merek sampanye di atas meja?
A. Kh .: - Ya. Anda tidak bisa hanya menentukan merek sampanye. Anda dapat menentukan jenis alkohol apa itu. Artinya, segelas anggur dapat diidentifikasi. Jika tidak ada botol, merek tidak dapat ditentukan. Tetapi untuk kebanyakan alkohol, botol-botolnya spesifik - di sana, Jack Daniels dengan bentuk tertentu ... dan seterusnya. Dari gambar Anda dapat memahami apa itu dan membuat sampel dari apa yang diminum orang. Ada begitu banyak klien komersial yang meminta untuk menemukan orang-orang yang suka mengadakan pesta di rumah bersama Coca-Cola dan Jack Daniels, misalnya; dan kemudian mereka melakukan sesuatu dengan mereka. Sesuatu seperti itu.

Artinya, sebuah merek memberikan hadiah kepada seseorang. Dia berpikir: “Oh, keren sekali! Mereka secara tidak sengaja memilih saya! ” Namun faktanya, semua ini bukan kebetulan. Potensinya diperkirakan menarik audiens baru, komunikasi, kecepatan distribusi konten, 50 metrik yang berbeda.

Apa yang dipikirkan oleh kecerdasan buatan tentang kemakmuran Timati dengan melihat fotonya dengan Lada Priora


I.: - Dengar, saya menawarkan Anda sedikit permainan. Saya akan menunjukkan kepada Anda foto-foto yang populer atau khas untuk Instagram, dan Anda akan memberi tahu saya apa yang bisa dilihat oleh kecerdasan buatan dan kesimpulan apa yang harus diambil. Mari kita mulai: pertama.



A. Kh .: - Saya pikir gaya pakaian, merek mobil, tempat dapat dipahami. Di sini, saya melihat, ada pemadam api. Anda dapat memahami 100% bahwa ini adalah parkir. Parkir supermarket, dilihat dari fotonya, dilihat dari paketnya. Saya akan berada di tempat kecerdasan buatan 100% akan dicatat dalam sopir taksi. Tapi, "pintar", katakanlah begitu, penampilannya (artinya pakaian), merek mobil dan tas biru, ia akan jatuh ke dalam kelas populasi tertentu dengan pendapatan 50-80 ribu ...
I.:: Kredit mikro, mobil murah ...
A. Kh .: - Ya, ya, ya.

Bagaimana saya bisa mengumpulkan data tentang seseorang yang belum dilahirkan


Saya.: - Salah satu foto paling populer di Instagram - itu adalah yang pertama hingga tahun lalu, ketika sesuatu yang lebih populer muncul.



A. Kh .: - Ya, semuanya jelas di sini. Di sini kesimpulan utama yang akan dibuat adalah kehamilan. Algoritma akan mengevaluasi bulan gadis ini baik dari foto, atau kemungkinan besar dari ... Wanita hamil setidaknya sekali membuat teks seperti "Guys, we are in the third month" atau "Kami sedang menunggu keajaiban". Tetapi hal yang sama dapat dilakukan dari fotografi.
I.: - Dengan teks atau volume perut, dapatkah saya menentukan bulan?
A. Kh .: - Ya, ya. Ya Ada sampel medis sangat kecil yang dibuat ... Untuk apa yang dilakukan: kami menentukan tanggal kelahiran yang diusulkan. Dengan demikian, kita akan tahu kapan anak itu akan enam bulan, delapan bulan, setahun, dua, tiga, lima ...
Saya.: - Dan dua puluh lima!
A. Kh .: - Ya, ya. Dan pada setiap momen ini, ibu akan ditawari materi tertentu: pakaian bayi, popok untuk anak berusia dua tahun, untuk anak berusia dua bulan, dan seterusnya, dan seterusnya. Tetapi yang paling penting, cadangan tertentu untuk masa depan, kita sudah akan tahu tanggal lahir anak. Pertama, plus atau minus, tetapi kemudian, jika mereka membuat klarifikasi publikasi tambahan, kami sudah mulai mengumpulkan data tentang anak ini. Dia belum lahir, dan kita sudah memiliki pengetahuan tentangnya. Ini sebenarnya, tentu saja, kisah yang menakutkan dalam hal, saya tidak tahu ... cermin hitam.

Data apa yang dikumpulkan dari foto Ramzan Kadyrov


Saya.: - Apa yang bisa dipahami dari foto ini?



A. Kh.: - Faktanya, di sini orang akan segera mendapatkan "bobot ekstremisme" dengan mengorbankan senjata. Pengakuan senjata dalam foto, pengenalan instan senjata dalam foto sangat sering digunakan dalam "cerita", dalam semua-semua-semua. Artinya, mereka akan segera memiliki tanda centang muncul bahwa mereka "mengambil gambar" dengan senjata. Dan jika orang ini memperoleh tingkat bahaya tertentu, maka sinyal-sinyal ini akan segera dikirim ke pihak berwenang yang mengendalikan peredaran senjata, karena ... Ini adalah "Kalashnikov," apakah saya mengerti dengan benar? Sepertinya senjata api dilarang di sini. Meskipun demikian baik. Ya, beberapa orang. Saya tidak tahu apakah pengguna memiliki avatar di sini, bukan?
I:: Pengguna sebenarnya Ramzan Kadyrov sendiri, tetapi ia menghapus profilnya.
A. Kh .: - Ya, oke. Nah, ini dalam sejarah, karenanya, semuanya akan tetap ada. Senapan mesin ini tidak dapat dikenali, tetapi "Kalashnikov" ini pasti memungkinkan.
Saya.: - Dan apakah itu mainan?
A. Kh .: - Ya, masih ada hal-hal spesifik. Dalam mainan, sebagai aturan, ikat pinggang tidak begitu hijau ... Saya bukan ahli dalam hal ini. Saya tahu bahwa kami memiliki pengakuan senjata yang cukup tajam. Di sini, bagi saya, semacam tanduk dimodifikasi, yaitu, ada sekitar sepuluh ribu parameter ada senjata yang berbeda untuk pengakuan ... Diiris, dimodifikasi - entah bagaimana ... Saya tidak istimewa di bidang ini.

Mengapa memotret dengan mobil orang lain itu buruk


Saya.: - Seorang gadis dengan mobil klasik mahal.



A. Kh .: - Dengan mobil klasik mahal yang tidak memiliki plat nomor. Kemungkinan besar, model mobil bisa dikenali. Tapi di sini jelas terlihat - ada algoritma yang mengenali cakrawala berdasarkan gender. Artinya, jelas terlihat di sini bahwa mobil itu jelas di atas lantai, yaitu, ia akan dipajang, ditambah tidak ada nomor, ditambah ini kemungkinan besar satu-satunya foto dengan mobil ini dan kemungkinan besar mobil yang sama ada di foto lain di geolokasi ini, jadi tidak akan diakui sebagai miliknya. Saya melihat bahwa di sini di latar belakang Anda dapat memahami seperti apa negara itu, karena itu adalah bahasa yang spesifik. Saya mengerti bahwa ini semacam Republik Ceko, bukan? Plaza de Skopice ... Ya, begitulah. Dari teks, dari linguistik, Anda dapat memahami seperti apa negara ini, jika tidak ada geografi di sana. Semuanya, lebih banyak yang tidak bisa dikatakan tentang seseorang, kecuali pakaian dan sebagainya. Tapi ini, sekali lagi, adalah jenis turis urban yang suka bepergian. Sesuatu seperti itu. Bahkan, orang yang difoto dengan cara ini dengan hadiah mahal, dengan mobil mahal, mereka selalu meremehkan tingkat kekayaan. Saya tidak tahu mengapa, tetapi secara statistik, sebagai aturan, inilah yang terjadi.
I.: - Selanjutnya. Instagram.

Apa kata Instagram Medvedev




A. Kh .: - Dua pria. Hal pertama yang perlu kita tentukan adalah akun siapa itu. Mereka adalah orang biasa. Karenanya, pengetahuan apa yang akan diperoleh? Bahwa orang-orang bersantai di alam adalah kategori yang sangat umum bagi orang-orang yang suka bersantai di alam. Dengan demikian, mereka dapat jatuh ke segmen yang sangat aneh - misalnya, penghuni musim panas. Mereka memiliki musim pondok musim panas - saya tidak tahu di sana, mereka menjual pengawasan video, layanan hukum. Nah, secara umum, penghuni musim panas memiliki pola perilaku tertentu.
I.: - Anda bilang: tentukan pemilik akun. Vladimir Putin tidak memiliki Instagram dan tidak ada data tersedia untuk umum.
A. Kh .: - Dan dia juga akan berada di penghuni musim panas. Nah, jika bukan Vladimir Putin, tetapi beberapa orang lain yang, misalnya, memotret temannya, maka pengetahuannya tentang dirinya juga akan muncul.

Apa yang bisa kita pelajari tentang Putin melalui jejaring sosial


Saya.: - Jika kita menganalisis informasi tentang dia, yang dikenal di jaringan, menggunakan semua kemungkinan algoritma, apa yang bisa kita dapatkan, apa yang akan kita pelajari tentang Vladimir Putin dari hasil penelitian ini?
A. Kh.: - Tampak bagi saya bahwa kita akan belajar terlalu banyak pada kenyataannya. Biaya (mengacu pada jam mesin) untuk memproses semua informasi yang berkaitan dengan Vladimir Putin akan melebihi efektivitas komersial dari permintaan ini.
I:: Tetapi jika kita mengambil dan menganalisis orang-orang yang ada dalam fotonya, beberapa objek dan sebagainya, kita dapat membandingkan data ini dan mendapatkan beberapa hasil yang menarik, bagaimana menurut Anda?
A. Kh.: - Ini hampir tidak menarik secara khusus untuk Vladimir Vladimirovich, tetapi kami melakukan penelitian seperti itu berkali-kali pada pejabat yang berbeda (saya kemudian dapat menunjukkan kepada Anda sebuah contoh penelitian) sebagai berikut: kami mengambil sepuluh ribu pengadaan publik terbesar di Rusia kami, orang-orang tempat pembelian ini menghasilkan; dan di sana mereka berusaha membangun peta dari foto dan komunikasi (saya punya proyek seperti itu - “Peta interaktif”) dari sepuluh ribu pembelian negara - sangat menarik di sana (saya akan tunjukkan nanti). Di sana, semua orang dikelompokkan dalam tumpukan, kelompok, dan sekarang mereka hanya berdagang di antara mereka sendiri. Untuk beberapa alasan, kehadiran mereka pada semua foto yang mungkin, kapal pesiar, komunikasi, dan sebagainya, bertepatan dengan cara mereka menempatkan pembelian pemerintah. Mengapa itu terjadi, kami tidak tahu.

Di mana kami menjual data kami dan mengapa


Saya.: - Kami mengetahui bahwa informasi ini dapat diambil dari jaringan. Bagaimana bisa digunakan?
A. Kh .: - Ada banyak kasus berbeda - baik, buruk dan sebagainya. Kebanyakan orang di tingkat pertama mencoba mengumpulkan beberapa informasi kontak, mengumpulkan basis data spam bersyarat, menjualnya kepada seseorang di sana, di suatu tempat di sana, dan seterusnya.Orang yang sedikit lebih jujur ​​dari level kedua - mereka mengumpulkan beberapa informasi, melakukan analitik, menjual analitik ini. Kami pindah ke level ketiga bersyarat - kami menjual pengetahuan. Artinya, kami tidak menjual setiap pengunggahan dari komentar publikasi apa pun di sana, kami tidak menjual rincian kontak orang-orang tertentu, kami mengumpulkan segala sesuatu di sekitar peristiwa tertentu, peristiwa, titik geografis dan mengekstrak pengetahuan darinya. Siapa orang-orang ini, seberapa sering mereka bepergian, pornografi macam apa yang mereka tonton, apakah mereka punya anjing, apartemen, mobil, istri, anak-anak, dan sebagainya. Dan sekarang kami menjual pengetahuan ini tanpa referensi ke orang tertentu.

Apakah mungkin untuk menetapkan orientasi seseorang berdasarkan data dari jejaring sosial


.: - . , , , , , , , ? .



. .: – , . , ( «» )… , , , , , . , .
.: – ? ?


. .: – , , – , . . , . , - , , . - – , «», - , , , ( «» – ). , , , .

«» , «» « », , « » (4400 )… - 600 – , . : - 70–75 , – - , - – «», - – . , .

, : , . , , – , , .

.: – , , , ? , , .

. .: – , , . : , , ? , : , , , . , , , , – . , , , , , , -, , «», , , – . , .


.: – , , , , , – , , , , .

. .: – . , : - – . : - : , «» , – «» , «» . , , - .
.: – «» – ?
. .: – , . , : , , . «» - ! , , . , , . , , , . , , , , , «».


( ). « . : « , ». : , - . - , : , . ( , «» , ), . , , , , – «» . , 5- « – , , », - …

, , . – , , , … , … . , «»? , , ? , - .



.: – , , , … - « »?
. .: – , «» : 30 , - , : , , ( - ). , , - 99,8% : , ? , : , , . , . , – , , - . – , .


.: – , , «», …
. .: – -.
.: – «», … , , ?
. .: – , , , , , «» «» . , , , . , , .


( , ). «» – -. . : — , , – , , -. , . , .

.: – , …
. .: – . - , , , . , «» . , .


.: – «» – .
. .: – , . – «» «» «», , , : , … - . , , , . , , , – . Sesuatu seperti itu. . … , .
.: – ?
. .: – , . . , . … , , . .


.: – – , ? .
. .: – , , .
.: – , – Big data?
. .: – , -. : , – , , , . , – , - , , . . , , – , , – , . - , , - . , - .


, , , : -, ; -, - . , 30-40% , .

.: – , ?
. .: – . «-» , - - , : . «», - «»… , . . : . , - - , , – , . , – , : , , - – , : , , () , – () .

, , - , , .


Saya.: - Katakan, tolong, bagaimana Anda mencari beberapa elemen antisosial - pedofil, maniak, pembunuh? Apakah mungkin untuk memprediksi bahwa ini akan terjadi, bahwa seseorang akan melakukan kejahatan, atau bagaimana cara mencegahnya secara efektif?

A. Kh .: - Topik pencegahan kejahatan sekarang menjadi salah satu yang paling aktif di dunia. Kami sangat aktif berinvestasi dalam cerita ini, mencoba mengubahnya. Kasus utama yang kami miliki adalah sistem penempatan fakultas. Ini adalah algoritme yang pada pagi hari "menghasilkan" informasi tempat meletakkan layanan patroli, tergantung pada tugasnya. Apakah kita ingin memanfaatkan penggemar, atau kita ingin mengurangi tingkat aktivitas kriminogenik (pencurian, kekerasan), atau apakah kita ingin menangkap pengedar narkoba. Yaitu, kami mengumpulkan serangkaian data tertentu, menarik kesimpulan dari ini, melihat statistik historis kami dan berkata: di sini, di sini, di sini, pada saat ini dan itu, mereka harus pergi dengan cara ini; dan kami mengurangi target kami.

Maksimal kami di pinggiran ... Berapa banyak yang kami lakukan? Nah, di suatu tempat sekitar 7-8% - kami mengurangi aktivitas kriminal di suatu tempat - ini adalah pencurian rumah, ini adalah perampokan jalanan. Ini adalah indikator maksimum yang sejauh ini kami berhasil capai.

Adapun para maniak dan semua lelaki lainnya, ketika kami masuk ke proses pengumpulan beberapa bukti tambahan - di sini kasus standarnya adalah ini: inilah penyelidik rata-rata, ia mendapat semacam pembunuhan; semua yang dia bisa minta dari operator seluler, ketika uji coba berlangsung satu setengah tahun setelah uji coba, dia akan menerimanya, saya tidak tahu ... 300 ribu nomor ponsel di sekitar titik geografis tertentu. Dia tidak bisa melakukan apa pun dengan mereka. Dia mengunggah angka-angka ini kepada kami, kami, dengan demikian, dapat meninggalkan 5-7 dari mereka orang yang entah bagaimana terhubung, ada di dekat mereka, Anda dapat berbicara dengan mereka dan sebagainya. Dan sisanya, mungkin mereka hanya melewati mobil.

Ada juga cerita yang berhubungan dengan penggemar, juga cerita yang sangat populer. Saat ini, sebelum kejuaraan, stadion membeli sistem identifikasi jarak jauh dari kami untuk: ketika penggemar yang dipukul mengunjungi situs - dan mereka memberitahunya - tidak ada tiket, atau dia datang ke stadion nanti, mereka mengenalinya di sana dan mereka tidak membiarkannya masuk, karena menulis di Instagram-nya bahwa "besok kita akan membasahi Rusia", di sana, di "Lokomotif" ... Itu kira-kira seperti itu.

Mengenai pedofil, kami sudah lama berada dalam topik ini, dan ada satu masalah yang sangat besar. Sekitar empat tahun yang lalu, kami mulai melakukan ini: kami membuat bot yang bepergian di Internet, berkomunikasi dengan pria yang lebih tua di forum tertentu dan mencoba entah bagaimana berkomunikasi dengan mereka dan beberapa faktor menyoroti perilaku, permintaan, dan sebagainya. Ini bekerja terlalu baik: terlalu banyak orang yang ditemukan - begitu banyak orang yang sistem penegakan hukum kita tidak bisa membiarkannya. Dan yang paling penting, menurut undang-undang saat ini, seseorang tidak dapat ditempatkan seperti di jejaring sosial, dan ini bagus, saya tekankan - bagus. Dan tidak peduli bagaimana Anda dapat menempatkan seseorang di balik niat untuk melakukan suatu tindakan. Artinya, dalam hal ini kami hanya dapat menghasilkan rekomendasi, dan kemudian petugas polisi distrik harus pergi dan menangkap tangan seseorang. Dan ini, Anda tahu, bekerja 100 ribu kali lebih lambat daripada algoritma bekerja.

Bisakah saya menghapus data saya secara permanen dari Internet?


Saya.: - Dapatkah saya menghapus sesuatu dari Internet atau benar-benar? ..
A. Kh .: - Ini hampir mustahil, karena akan perlu untuk berkomunikasi dengan masing-masing pemilik sumber daya masing-masing. Ada yang disebut hukum terlupakan, yang tampaknya mengharuskan setiap orang untuk melakukan ini, tetapi secara hukum itu hanya berlaku untuk mesin pencari. Kami secara pribadi memiliki formulir di situs untuk menghapus data tentang diri kami, tetapi kami tidak dapat terus melarang pengumpulan data ini tentang orang-orang di masa depan, karena undang-undang saat ini tidak berfungsi dengan baik.

Bagaimana jejaring sosial dapat membantu kata sandi saya bocor?


Statistik seperti itu masih menarik: pada awal tahun ini, Asosiasi Bank Internasional melakukan survei lain tentang keamanan informasi - mereka memiliki indikator yang menarik: pencurian dari rekening uang meningkat enam kali ketika kata sandi rahasia dibobol. Yaitu: sekarang Anda memikirkan kata sandi rahasia Anda ... Apa artinya - nama binatang itu adalah nama gadis ibu dan pikirkan apakah saya bisa mengetahui data ini dari sumber terbuka? Dapatkah saya mengenali nama panggilan hewan peliharaan, hidangan favorit, atau nama gadis ibu dari sumber terbuka. Dengan demikian, saya dapat pergi ke bank, memulihkan kata sandi dan memecahkan bank Anda. Di sini, Asosiasi Eropa - mereka telah 6 kali meningkatkan pencurian justru untuk artikel ini, karena orang menaruh jawaban "nama hewan peliharaan", dan kemudian menulis di Facebook nama hewan peliharaan itu. Sebenarnya, kira-kira seperti ini. Tampak bagi saya bahwa dalam lima tahun mimpi buruk akan terjadi sama sekali, karena generasi saat ini - mereka tidak mengerti bahwa jejaring sosial selamanya, bahwa itu terbuka, bahwa jika sekarang beberapa gadis menari mabuk di atas meja, dan setelah 20 tahun ia akan menjadi guru kelas , maka semua anak akan dapat menemukan video ini dari arsip dan kemudian mulai memeras.

Saya:: Anda tidak merasa begitu ... sedikit jenius jahat, karena Anda tidak memproses data orang untuk kepentingan diri mereka sendiri, tetapi “kakak” bersyarat seperti itu?

A. Kh .: - Ada hal seperti itu, ya, tapi saya punya alasan sehingga saya meyakinkan hati nurani saya sendiri: ambil, misalnya, sebuah kasus - seseorang dipecat karena pembengkakan (ini benar-benar sejarah nyata), orang itu dipecat (Yah, di sana dia memasukkan pemabuk itu ke dalam cerita dan membakar serta memecatnya) Konsep saya adalah sebagai berikut: jika majikan ingin mengikutinya, ia akan mengikutinya, sumber terbuka atau sumber tertutup; jika negara ingin memantau seseorang, ia dapat melakukannya dengan cara apa pun - negara dapat menyadapnya, atau dapat melihat foto publiknya. Dalam hal ini, saya adalah merek Kalashnikov - Anda dapat membunuh seribu orang dengan pensil, atau Anda dapat menembak mereka dari senapan mesin; buruk, sedih, tapi aku, sebagai insinyur, menganut konsep bahwa senjata tidak membunuh orang, tetapi manusia. Pertanyaannya adalah siapa yang akan menerima data ini dan bagaimana dia akan membuangnya.

Tapi, tentu saja, semua orang tidak setuju dengan konsep saya. Mereka percaya (saya kutip dari komentar di Facebook): "Hitler membenarkan dirinya dengan cara yang sama!" atau "Dengan cara yang sama, seperti, para Essess membuat alasan!" Data yang kami operasikan - orang-orang sendiri mengirimnya ke publik; kami baru belajar cara mengekstrak fakta dari ini.

Bagaimana aplikasi kencan akan menjadi lebih efektif


I.: - Tampak bagi saya bahwa Anda dapat memperoleh lebih banyak uang jika Anda hanya mencari pasangan untuk orang-orang yang sempurna di tingkat yang lebih curam daripada Tinder atau orang lain.
A. Kh .: - Ya, tunggu akhir tahun - kami sekarang sedang mengerjakan aplikasi kencan.
Saya.: - Artinya, orang akan tetap lebih bahagia, lebih bahagia? ..
A. Kh .: - Aplikasi ideal saya untuk berkencan bukanlah Tinder, bukan toko daging, aplikasi ideal saya adalah ketika Anda masuk, masuk dengan jejaring sosial (kami menerima informasi minimum) dan segera ditawari kandidat ideal. Masalah utama kita dalam kasus ini adalah menentukan tahap emosi dan mental seseorang saat ini untuk memahami siapa yang harus dipilih secara spesifik. Apa yang dia butuhkan sekarang: seks sekaligus, cinta seumur hidup, dan sebagainya. Kami telah menangani masalah ini selama beberapa waktu.

Hasil penelitian pelacur yang tidak terduga


I:: - Dengar, bagaimana Anda bisa mengidentifikasi orang yang membutuhkan seks sekaligus di jejaring sosialnya, di foto?
A. Kh .: - Foto ... Yah, sulit dikatakan. Ada rata-rata seperti itu, mungkin ide seseorang: foto-foto alkohol adalah seorang bujangan yang kesepian, menonton film porno ... Kami telah melakukan penelitian sejak lama: kami mengambil 20-30 ribu pelacur dari berbagai situs, mereka "cocok" di jejaring sosial dan melakukan penelitian, dari universitas mana mereka lulus. Jadi, kami mengamati bagaimana mereka berkomunikasi dengan orang-orang.
Saya.: - Jadi, Anda mencari hubungan antara pendidikan dan situasi mereka?
A. Kh - Ya. Tidak ada kecanduan kok. Umumnya. Seperti di MGIMO ada anak perempuan dan laki-laki seperti itu, jadi di beberapa universitas Uryupinsky. Tidak ada kecanduan.
I.: - Apakah ini profesi nasional?
A. Kh .: - Ya. Profesi rakyat tertua.


Serial TV dalam subjek


Setelah membaca wawancara, saya tanpa sadar mengingat seri - Person of Interest . Kami merekomendasikan ini kepada semua orang untuk melihatnya.



Mungkin masa depan telah datang dan kita semua dalam pandangan, tersangka.

Sedikit iklan :)


Terima kasih telah tinggal bersama kami. Apakah Anda suka artikel kami? Ingin melihat materi yang lebih menarik? Dukung kami dengan melakukan pemesanan atau merekomendasikan kepada teman Anda, cloud VPS untuk pengembang mulai dari $ 4,99 , diskon 30% untuk pengguna Habr pada analog unik dari server entry-level yang kami ciptakan untuk Anda: Seluruh kebenaran tentang VPS (KVM) E5-2650 v4 (6 Core) 10GB DDR4 240GB SSD 1Gbps dari $ 20 atau bagaimana cara berbagi server? (opsi tersedia dengan RAID1 dan RAID10, hingga 24 core dan hingga 40GB DDR4).

Dell R730xd 2 kali lebih murah? Hanya kami yang memiliki 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV dari $ 199 di Belanda! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - mulai dari $ 99! Baca tentang Cara Membangun Infrastruktur Bldg. kelas menggunakan server Dell R730xd E5-2650 v4 seharga 9.000 euro untuk satu sen?

Source: https://habr.com/ru/post/id475130/


All Articles