Mencari titik optimal penerapan sumber daya manusia

Salah satu paradoks dari platform Internet modern adalah bahwa, meskipun mereka secara otomatis dan konten yang dilihat pengguna akhir ditampilkan tanpa moderasi manusia, namun, mereka sepenuhnya bergantung pada perilaku manusia, karena pada kenyataannya, mereka hanya mengamati, menerima informasi dan menarik kesimpulan berdasarkan tindakan ratusan juta atau milyaran orang.


Asal usul prinsip ini adalah PageRank. Alih-alih mengandalkan aturan yang dibuat secara manual yang akan memberikan pemahaman tentang makna setiap halaman individual, atau bekerja dengan teks asli, PageRank mengamati apa yang dilakukan atau dikatakan orang tentang halaman tersebut. Siapa yang terhubung dengan hal itu, teks apa yang mereka gunakan, dan siapa yang terhubung dengan orang-orang yang terkait dengan halaman ini? Pada saat yang sama, Google memberi setiap pengguna kemampuan untuk memberi peringkat (indeks, nilai) setiap set hasil pencarian secara manual: Anda diberi 10 tautan biru, dan Anda hanya memberi tahu Google mana yang cocok. Hal yang sama berlaku untuk Facebook: Facebook tidak benar-benar tahu siapa Anda atau apa yang Anda minati atau tentang apa konten ini atau itu. Tetapi dia tahu siapa yang Anda ikuti, apa yang Anda sukai, siapa lagi selain Anda suka ini dan apa lagi yang mereka sukai dan berlangganan apa mereka. Facebook adalah PageRank yang berorientasi pada manusia. Secara umum, hal yang sama berlaku untuk YouTube: ia tidak pernah tahu tentang apa video itu, tetapi hanya apa yang ditulis orang di bawahnya dan apa lagi yang mereka tonton dan sukai.


Pada intinya, sistem ini adalah "orang Turki mekanik" yang besar. Lagipula, mereka sama sekali tidak mengerti konten dari konten yang mereka gunakan, mereka hanya mencoba membuat, menangkap, dan menyampaikan sentimen manusiawi tentang konten ini. Mereka adalah sistem komputasi terdistribusi besar di mana orang bertindak sebagai prosesor, dan platform itu sendiri adalah kombinasi dari router dan interkoneksi. (Ini sedikit mengingatkan saya pada ide dari buku “Hitchhiker's Guide to the Galaxy” bahwa seluruh Bumi sebenarnya adalah komputer besar yang menjalankan fungsi tertentu, dan aktivitas harian kita adalah bagian dari perhitungan).


Ini berarti bahwa sebagian besar desain sistem terkait dengan menemukan titik optimal penerapan sumber daya manusia dalam bekerja dengan sistem otomatis. Apakah Anda menangkap apa yang sudah terjadi? Maka Google mulai menggunakan tautan yang sudah ada. Apakah Anda perlu merangsang aktivitas untuk mengungkapkan nilainya? Facebook harus membuat aktivitas sendiri sebelum mereka dapat memperoleh manfaat darinya. Mungkin Anda sangat mengandalkan sumber daya manusia? Pendekatan ini digunakan di Apple Music, dengan daftar putar yang dipilih secara manual, yang secara otomatis dikeluarkan untuk puluhan juta pengguna. Atau apakah Anda harus membayar orang untuk melakukan semuanya?


Pada awalnya, Direktori Sumber Daya Internet Yahoo merupakan upaya untuk mengambil pendekatan "orang-orang berbayar untuk melakukan segalanya" - Yahoo membayar orang untuk membuat katalog seluruh Internet. Pada awalnya itu tampak dapat dicapai, tetapi karena Internet tumbuh terlalu cepat, segera terbukti menjadi tantangan yang luar biasa, dan ketika Yahoo menyerah, ukuran katalog mereka sudah melebihi 3 juta halaman. PageRank memecahkan masalah ini. Sebaliknya, Google Maps menggunakan sejumlah besar mobil dengan kamera yang dikontrol oleh orang-orang (untuk saat ini) dan mengendarai hampir semua jalan di dunia dan lebih banyak orang melihat foto-foto ini, dan ini bukan tugas yang luar biasa - hanya membutuhkan banyak biaya. Google Maps adalah "Turk mekanik" pribadi. Sekarang kami sedang menyelidiki pertanyaan yang persis sama, berbicara tentang moderasi konten oleh orang-orang - berapa puluh ribu orang yang akan Anda perlukan untuk melihat setiap posting dan berapa banyak tugas ini dapat diotomatisasi? Apakah tugas ini luar biasa atau implementasinya sangat mahal?


Jika Anda melihat platform ini menggunakan miliaran orang untuk melakukan komputasi nyata, ini akan menimbulkan dua pertanyaan menarik: kerentanan apa yang ada di platform tersebut dan bagaimana pembelajaran mesin dapat mengubah area ini?


Di masa lalu, ketika kami berpikir tentang meretas sistem komputer, kami memiliki gagasan tentang berbagai kerentanan teknis - kata sandi yang dicuri atau lemah, kerentanan terbuka dalam sistem, bug, buffer overflows, injeksi SQL. Kami mewakili "peretas" yang mencari celah dalam perangkat lunak. Tetapi, jika Anda membayangkan bahwa YouTube atau Facebook adalah sistem komputer terdistribusi di mana perangkat lunak biasa bertindak sebagai router, tetapi orang-orang memainkan peran prosesor, maka penyerang akan segera berpikir tentang menemukan kerentanan tidak hanya dalam perangkat lunak, tetapi juga pada manusia. Bias kognitif tipikal mulai memainkan peran yang sama dengan cacat khas pada perangkat lunak.


Faktanya, ada dua cara untuk merampok bank - Anda dapat mem-bypass sistem alarm dan mengambil kunci utama untuk brankas, atau Anda dapat menyuap karyawan bank. Dalam setiap contoh ini, sistem gagal, tetapi sekarang salah satu sistem adalah Anda dan saya. Oleh karena itu, ketika saya menulis di artikel ini tentang perubahan baru-baru ini di Facebook terhadap privasi dan keamanan pengguna, moderasi konten oleh orang-orang yang hidup di platform semacam itu secara inheren mirip dengan karya antivirus, yang mulai berkembang pesat sebagai tanggapan terhadap munculnya malware di Windows dua dekade lalu. . Salah satu bagian dari komputer sedang menonton jika bagian lain melakukan sesuatu yang seharusnya tidak dilakukan.


Bahkan jika kita tidak berbicara tentang peretasan sistem yang disengaja, ada masalah lain yang muncul ketika mencoba menganalisis aktivitas satu orang dengan bantuan orang lain. Jadi, ketika Anda mulai menggunakan komputer untuk menganalisis komputer lain, Anda berisiko membuat loop umpan balik. Ini tercermin dalam konsep seperti "gelembung filter", "radikalisasi YouTube," atau spam pencarian. Pada saat yang sama, salah satu masalah yang dihadapi Facebook adalah bahwa terkadang ketersediaan dan produksi sejumlah besar data akan mengimbangi nilai data ini. Kami akan menyebutnya masalah kelebihan muatan umpan berita: misalnya, Anda memiliki 50 atau 150 teman dan Anda menerbitkan 5 atau 10 entri setiap hari, atau sesuatu seperti itu, tetapi semua teman Anda melakukan hal yang persis sama dan sekarang Anda memiliki 1.500 entri dalam umpan Anda setiap hari. Nomor Dunbar + Hukum Zuckerberg = kelebihan ... yang membawa kita ke Hukum Goodhart.


"Setiap pola statistik yang diamati rentan terhadap kerusakan segera setelah tekanan diberikan padanya untuk mengendalikannya." - Charles Goodhart

Namun bagaimana pembelajaran mesin bisa membuat perbedaan? Sebelumnya, saya sudah mengatakan bahwa kesulitan utama adalah bagaimana menggunakan sumber daya manusia dalam bekerja dengan perangkat lunak dengan cara yang paling optimal, meskipun ada opsi lain - biarkan komputer melakukan semua pekerjaan. Sampai baru-baru ini, kesulitan dan alasan mengapa sistem seperti itu ada, terutama terdiri dari kelas besar tugas yang tidak dapat diselesaikan oleh komputer, meskipun orang menyelesaikannya secara instan. Kami menyebutnya "tugas yang mudah bagi seseorang, tetapi sulit untuk komputer", tetapi pada kenyataannya itu adalah tugas yang mudah bagi seseorang, tetapi yang secara praktis seseorang tidak dapat dijelaskan ke komputer. Fitur terobosan pembelajaran mesin adalah bahwa hal itu memungkinkan komputer sendiri untuk mengembangkan deskripsi yang diperlukan.


Komik di bawah ini (langsung dari 2014, tepat ketika pembelajaran mesin dan sistem visi komputer mulai berkembang pesat) dengan sempurna menggambarkan perubahan ini. Tugas pertama mudah diselesaikan, tidak seperti yang kedua, setidaknya sampai munculnya pembelajaran mesin.



Cara lama untuk memecahkan masalah ini adalah menemukan orang yang akan mengklasifikasikan gambar - untuk menggunakan semacam crowdsourcing. Dengan kata lain, gunakan "Turk mekanis." Tetapi hari ini, kita mungkin tidak lagi membutuhkan siapa pun untuk melihat gambar ini, karena dengan bantuan pembelajaran mesin, kita dapat sangat sering mengotomatiskan solusi dari masalah khusus ini.


Jadi: berapa banyak masalah yang bisa Anda pecahkan sebelum menggunakan analisis tindakan jutaan atau ratusan juta orang yang sekarang dapat Anda selesaikan menggunakan pembelajaran mesin dan umumnya tanpa perlu melibatkan pengguna?


Tentu saja, ada beberapa kontradiksi dalam hal ini, karena dalam pembelajaran mesin Anda selalu membutuhkan sejumlah besar data. Jelas, dalam hal ini, seseorang dapat mengatakan bahwa jika Anda memiliki platform besar, Anda secara otomatis memiliki banyak data, oleh karena itu, proses pembelajaran mesin juga akan lebih mudah. Ini memang benar, paling tidak di awal, tapi saya pikir tidak ada salahnya untuk bertanya berapa banyak tugas yang bisa diselesaikan hanya dengan bantuan pengguna yang ada. Di masa lalu, jika Anda memiliki foto kucing, itu bisa ditandai sebagai "kucing" hanya jika Anda memiliki cukup banyak pengguna dan salah satu dari mereka akan melihat foto itu dan menandainya. Hari ini, Anda sama sekali tidak membutuhkan pengguna sungguhan untuk memproses gambar khusus kucing ini - Anda hanya perlu memiliki pengguna lain, di mana pun di dunia, di beberapa titik di masa lalu yang telah cukup mengklasifikasikan gambar lain dengan kucing untuk menghasilkan model pengenalan yang diperlukan.


Ini hanyalah cara lain untuk memanfaatkan sumber daya manusia dengan sebaik-baiknya: dalam hal apa pun, Anda memerlukan orang untuk mengklasifikasikan objek (dan untuk menulis aturan yang dengannya orang akan mengklasifikasikannya). Tapi di sini kita sudah menggeser tuas dan, mungkin, secara radikal mengubah jumlah orang yang dibutuhkan, dan dengan demikian, aturan permainan, sampai batas tertentu, berubah karena efek "pemenang mendapatkan segalanya." Pada akhirnya, semua jejaring sosial skala besar dari platform ini hanyalah kumpulan besar data yang diklasifikasikan secara manual, karena pada akhirnya ternyata gelas mereka setengah penuh atau setengah kosong? Di satu sisi, itu setengah penuh: mereka memiliki koleksi terbesar dari data rahasia secara manual (dalam bidang aktivitas spesifik mereka). Di sisi lain, gelas setengah kosong: data ini dipilih dan diklasifikasikan secara manual.


Bahkan di mana data dapat membentuk salah satu platform ini (yang, kemungkinan besar, ini tidak akan terjadi - tentu tidak akan terjadi - seperti yang saya tulis di sini ), mereka masih akan menjadi, yah, platform. Seperti halnya AWS, yang memungkinkan startup yang tidak lagi membutuhkan jutaan pengguna untuk memiliki skala ekonomis untuk infrastruktur mereka, membuat alat seperti itu berarti Anda tidak lagi membutuhkan jutaan atau milyaran pengguna untuk mengenali kucing. Anda dapat mengotomatiskan proses.


Terjemahan: Alexander Tregubov
Editing: Alexey Ivanov
Komunitas: @ponchiknews

Source: https://habr.com/ru/post/id452716/


All Articles