Algoritma untuk menentukan bot dan penawaran di Vkontakte

Tidak akan ada jaringan saraf dan formula kompleks di bawah kucing, hanya tanda-tanda di mana saya menangkap bot di lutut saya akan dijelaskan, perbandingan hasil penyaringan untuk tanda-tanda ini dengan penyaringan oleh satu layanan yang diiklankan dan tautan ke halaman dengan implementasi js, yang dengannya siapa pun dapat menguji filter sendiri. daftar sendiri atau uji yang terakhir yang bergabung dengan komunitas mereka.

Gambar untuk menarik perhatian:



Latar belakang


Baru-baru ini, saya perlu mengumpulkan statistik tentang jumlah pelanggan baru setiap minggu di komunitas pernikahan komersial. Untuk tugas ini, sebuah skrip ditulis yang mengumpulkan peserta baru di komunitas yang diperlukan dan menghasilkan angka yang cerah. Hanya saja mereka tidak lagi tampak cerah setelah memeriksa akun acak dari daftar yang dikumpulkan: beberapa dilarang oleh jejaring sosial pada hari pengumpulan, beberapa berubah menjadi bot atau tawaran terbuka (di masa depan saya akan memanggil kedua bot).

Untuk mendapatkan bilangan real, perlu mengetahui perkiraan pangsa bot di pelanggan yang dikumpulkan. Saya mencoba membersihkan pemirsa dari bot oleh pemburu target (layanan pertama yang menarik perhatian saya yang memungkinkan Anda untuk memfilter bot secara gratis), tetapi kualitas pembersihannya ternyata begitu-begitu (di antara yang tersisa, ada akun palsu, dan cukup banyak). Saya memutuskan untuk tidak menggunakan layanan seperti "bayar, dan kemudian kami akan menunjukkan kepada Anda apa yang kami bisa" - uang sangat disayangkan, dan akibatnya kotak hitam yang sama dan hasil yang meragukan. Saya memutuskan untuk mempelajari halaman bot dan menulis filter saya sendiri.

Siapa yang kami filter


Untuk mulai dengan, saya akan mengklarifikasi, tujuan saya adalah untuk menyaring akun yang saya lihat sebagai sampah dalam hal mengundang mereka ke komunitas pernikahan komersial. Definisi ini mencakup bot yang masuk pada mesin dan menawarkan bahwa seseorang menghasilkan masing-masing 100.500 dan kemudian menjualnya sebagai "pelanggan langsung". Jelas, tawaran yang ditangkap oleh siswa secara manual tidak akan membeli apa pun dengan cara yang sama seperti bot yang tertangkap dengan skrip. Apa yang dapat mereka lakukan dengan baik adalah menarik statistik iklan dengan pembayaran untuk 1.000 tayangan. Itu juga dapat menangkap orang yang sangat nyata, tetapi apa gunanya mereka di komunitas jika mereka tidak melihat posnya (dan juga tidak masuk akal untuk menampilkan iklan komunitas kepada mereka)?

Cara memfilter


Gagasan paling sederhana bagi saya adalah mengevaluasi setiap akun pada skala dari 0 hingga 100, yang menurutnya bot eksplisit mencetak 100 poin, dan orang awam tetap berada di wilayah 0 (idealnya. Dalam praktiknya, beberapa orang sungguhan dapat mencetak 50 poin). Teknik ini tidak sempurna (seperti semua yang ada dalam perisai terhadap perang pedang), tetapi seperti yang telah ditunjukkan oleh latihan, pembuat bot tidak terlalu repot ketika membuat palsu (bot yang sempurna akan harganya lebih mahal daripada klien yang tertarik dengan iklan), jadi pada saat ini berhasil. Untuk mengisi skala, beberapa tanda dipilih, yang masing-masing dapat menambah atau mengurangi sejumlah poin, dan akun yang mencetak sejumlah poin (70-100 dalam kasus saya) dianggap berkualitas rendah dan difilter. Saya tidak akan menulis berapa banyak poin yang diberikan ketika menemukan atribut tertentu, Anda dapat melihatnya dalam contoh yang akan ada di akhir artikel, di sana mereka dapat diubah, serta ambang, ketika terlampaui, akun dikreditkan ke bot. Dan sekarang mari kita melihat tanda-tanda yang dicentang:

Akun diblokir


Hal pertama yang saya filterkan pada pengguna. Saya tidak tahu mengapa layanan meninggalkan akun tersebut (dan layanan yang disebutkan di atas β€œtx” meninggalkannya). Orang yang hidup menggunakan jaringan sosial akan mendapatkan kembali akses. Lebih mudah bagi spammer atau driver bot dengan seribu akun untuk membuat akun baru setelah pelarangan. Dan masih tidak mungkin untuk memutar iklan pada pengguna langsung yang terlarang.

Tautan halaman tidak berubah


Vkontakte memungkinkan pengguna untuk memasukkan tautan unik ke halaman mereka alih-alih id12345678 yang tidak disebutkan namanya. Ini bukan tanda yang sangat signifikan, karena tidak semua orang yang hidup mengubahnya, dan kontak yang dicuri dapat memiliki tautan seperti itu, tetapi masih, untuk bot yang baru terdaftar, tautan seperti itu tetap tidak berubah.

Tidak ada avatar


Pada 2018, ini tidak lagi relevan untuk bot. Sebaliknya, kurangnya avatar adalah tipuan untuk orang-orang yang benar-benar malas, tetapi saya pikir audiens ini tidak terlalu berkualitas tinggi. Bagaimanapun, ini juga bukan tanda yang sangat signifikan.

Ada tautan ke jejaring sosial lainnya


Ini pertanda baik dari orang yang hidup. Saya tidak menemukan cara untuk mengatur tautan ke facebook / instagram via api. Mungkin dia terlihat buruk, atau mungkin tidak. Tetapi untuk memasang tautan untuk bot lebih sulit: Anda setidaknya harus membuat akun ini di jejaring sosial dan menautkannya ke antarmuka VKontakte. Oleh karena itu, keberadaan tautan seperti itu di profil akan mengatur ulang beberapa titik di penghitung pengidentifikasi bot.

Tidak online selama lebih dari 1-3 bulan


Dalam satu abad ketika setiap orang memiliki klien media sosial yang terpasang di ponsel mereka, aktivitas serendah itu tampaknya mencurigakan. Bahkan jika itu bukan bot yang dilupakan oleh pemiliknya, jauh lebih sulit untuk bekerja dengan orang seperti itu melalui iklan. Ketika Anda membutuhkan audiens yang panas, yang akan terlambat untuk menawarkan layanan dalam sebulan (mereka sudah akan menemukan penyedia lain), dan orang ini sedang offline dan Anda tidak dapat menghubunginya. Saya ulangi apa yang dikatakan di awal artikel - saya mempelajari audiens tentang topik pernikahan, karena kontak panasnya relevan. Jika Anda memutuskan untuk mempromosikan publik hiburan atau toko berdasarkan hobi orang-orang, gejala ini mungkin kurang penting bagi Anda.

Berlangganan ke 500-1500 dan lebih banyak komunitas


Tanda besar dan signifikan tentang akun sampah. Artikel utama untuk mendapatkan bot adalah bergabung dengan berbagai grup (well, ya, suka dan repost). Dan tidak mungkin pemilik botofarm akan dapat menyembunyikannya. Untuk alasan yang sama, ngomong-ngomong, Anda dapat mencoba menyaring orang-orang yang menyembunyikan kelompok mereka dari mata yang mengintip (paranoiac juga akan disaring dalam kasus ini, tetapi ada beberapa dari mereka di antara audiens VKontakte). Bahkan jika Anda memfilter orang yang hidup berdasarkan hal ini, tidak ada hal buruk yang akan terjadi, ia tidak mungkin melihat berita komunitas Anda di feed-nya, berlangganan 1000 orang lainnya.

Anggota Komunitas Promosi Bersama


Yang seperti itu harus dibiarkan hanya jika audiens target Anda adalah anak-anak sekolah dengan kurang perhatian, kurang minat, dan banyak waktu luang. Secara pribadi, saya menganggap audiens seperti itu tidak hanya sampah, tetapi sinyal yang cerah bahwa mereka tidak nyata.

Terdiri dari banyak komunitas tentang berbagai kota


Terus terang, saya tidak menemukan satu alasan mengapa orang biasa mungkin tertarik untuk mengikuti berita perbaikan mesin cuci Kazan, iklan luar ruang Omsk, kelompok desain interior Kaluga dan sepuluh komunitas komersial lainnya di berbagai kota pada waktu yang bersamaan. Terutama mengingat kualitas konten di 95% komunitas tersebut. Tetapi bot, penghasilan dari bergabung dengan komunitas sangat menguntungkan.

Anggota grup tanpa avatar


Saya tidak menganggap tanda ini penting, namun, selama pengujian, sebuah artikel muncul tentang deteksi bot atas dasar ini. Secara umum, komunitas seperti itu dapat digunakan sebagai tempat pelatihan teknis (oleh programmer untuk mengakses kunci komunitas), mereka bisa sangat muda. Tetapi ketika mendiskusikan tanda ini dengan teman-teman mereka, mereka mengatakan kepada saya bahwa mereka tidak akan bergabung dengan komunitas seperti itu. Secara umum, tanda ini tetap bagi saya yang paling ambigu, penuh dengan rahasia dan misteri (serta keberadaan komunitas tanpa avatar).

Tidak ada yang menonton posting pengguna


Gejala ini jauh lebih sederhana. Biasanya, jika pengguna memiliki banyak teman, tetapi pada saat yang sama ia hampir tidak memiliki pandangan di dinding, maka teman-temannya adalah tiruan. Dan mengapa Anda perlu meniru teman, untuk memberikan kenyataan ke akun palsu?

Ditandai di foto pengguna lain


Saat ini, bot tidak memiliki kebiasaan saling memberi tanda pada foto, tetapi orang-orang nyata benar-benar memperhatikan, terutama karena jejaring sosial menawarkan untuk melakukan hal ini dengan sangat intrusively (sedemikian rupa sehingga menawarkan saya untuk menandai dirinya sendiri pada gambar profil saya sendiri). Kehadiran tanda seperti itu biasanya menunjukkan akun yang dibajak atau pengguna langsung.

Pemeriksaan filter


Untuk memeriksa keefektifan pencarian bot berdasarkan parameter-parameter ini, sebuah layanan kecil ditulis yang memungkinkan Anda untuk memeriksa daftar kontak yang diunduh. Selain itu, agar penelitian bermanfaat bagi banyak orang, kemampuan untuk memeriksa komunitas Anda ditambahkan ke layanan - jika Anda memoderasi sebuah komunitas, Anda dapat secara otomatis mengunduh anggota terbaru dan memeriksanya. Ini berguna jika Anda telah merekrut seseorang untuk beriklan dan dia memberi Anda statistik tentang pertumbuhan pelanggan, tetapi pada saat yang sama Anda tidak melihat peningkatan nyata dalam pesanan / komentar / suka.

Algoritme menggunakan metode wall.get untuk memeriksa catatan dari dinding, ia memiliki batas 1000 panggilan per hari, jadi ketika menggunakan skrip ini Anda tidak dapat memeriksa lebih dari 1000 orang. Namun, ini cukup untuk menilai kualitas audiens. Selain itu, skrip memungkinkan Anda untuk mengatur nilai bobot Anda sendiri untuk setiap atribut dan ambang untuk menentukan bot, jadi jika Anda tidak setuju bahwa parameter ini atau itu menentukan bot, Anda dapat mengaturnya ke 0, atau sebaliknya, meningkatkan nilainya.

Pengujian dan perbandingan hasil


Berdasarkan hasil audit, seorang pemburu target menyaring 877 bot dari khalayak uji 2935 orang. Penyaringan dengan algoritma yang dijelaskan menghilangkan 1984 orang. Jika Anda memperketat filter dan mengidentifikasi hanya bot paling jahat (berlangganan 500-1000 komunitas, yang sebagian besar adalah komunitas kota yang berbeda, baik yang dicekal atau terdiri dari grup promosi), jumlah yang terdeteksi akan berkurang menjadi 1.215 orang, yang, bagaimanapun, juga melebihi hasilnya layanan di atas. Namun, saya melihat sekitar dua lusin halaman pengguna yang dianggap pemburu target sebagai pengguna normal, dan algoritma saya sebagai bot dan semua pengguna ini tampak meragukan bagi saya, banyak halaman berisi repost layanan meragukan (kasino, kencan dewasa, partisipasi dalam kompetisi, perkiraan olahraga), atau jumlah tampilan rekaman yang rendah. Saya juga menemukan akun yang mirip dengan yang komersial yang mempromosikan beberapa layanan, tetapi saya pribadi siap untuk mengabaikannya, terutama mengingat bahwa mereka, selain komunitas yang saya butuhkan, berlangganan lusinan lainnya dalam waktu singkat dan apakah mereka tertarik pada topik yang saya butuhkan. Meskipun filter yang lebih lembut dapat meninggalkan akun tersebut. Dan tentu saja, saya mengerti bahwa 20 halaman tidak cukup untuk menilai kualitas semua akun 1984.

Bagaimanapun, saya mendapatkan hasil yang memuaskan saya, meskipun jika ada waktu luang, mungkin untuk memperluas tanda-tanda untuk mencari bot secara signifikan. Tetapi yang dijelaskan di atas sudah cukup (saat ini) untuk mendapatkan hasil kualitatif. Dan sekali lagi tautan ke implementasi algoritma , agar tidak melewatkan artikel.

Source: https://habr.com/ru/post/id413855/


All Articles