
"Jika Anda memiliki palu di tangan Anda, semuanya terlihat seperti paku"
Saat Ilmuwan mempraktikkan data, kami terlibat dalam analisis data, pengumpulan, pemurnian, pengayaan, kami membangun dan melatih model dunia di sekitar kita, berdasarkan data, kami menemukan hubungan internal dan kontradiksi antara data, kadang-kadang bahkan di mana tidak ada. Tentu saja, pencelupan seperti itu tidak bisa tidak memengaruhi visi dan pemahaman kita tentang dunia. Deformasi profesional hadir dalam profesi kita dengan cara yang sama seperti yang lain, tetapi apa sebenarnya yang dibawanya kepada kita dan bagaimana pengaruhnya terhadap hidup kita?
Penafian
Artikel ini tidak mengklaim sebagai ilmiah, tidak mengungkapkan satu sudut pandang komunitas ODS, dan merupakan pendapat pribadi penulis.
Pembukaan

Jika Anda tertarik pada cara otak kita bekerja, bagaimana kita memahami dunia di sekitar kita, dan memang apa yang kita lakukan di sini, maka banyak hal yang dijelaskan dalam artikel ini tidak akan menjadi sesuatu yang sama sekali baru bagi Anda. Dalam satu atau lain bentuk, semua ini telah dijelaskan lebih dari sekali dari sudut pandang yang sama sekali berbeda. Tugas saya adalah mencoba melihat semua ini dari sudut pandang seorang analis data, serta menggambar paralel antara alat dan pendekatan yang kami gunakan dalam pekerjaan kami dan kehidupan nyata di luar monitor.
Pendahuluan

Pertama, bayangkan pengaturan yang agak disederhanakan:
Di sekitar kita ada dunia di sekitar kita untuk bertahan hidup dan berfungsi dengan sukses di dalamnya, seseorang perlu memahami apa yang dia (dunia) wakili, bagaimana berinteraksi dengannya, dan hasil apa yang diperoleh dari berbagai interaksi. Dengan kata lain, seseorang membutuhkan model dunia di sekitarnya yang dapat menyelesaikan tugasnya saat ini . Kuncinya adalah " tugas saat ini ". Ketika tugas bertahan di tempat pertama, model dunia dibangun, pertama-tama, pada pengakuan cepat bahaya dan reaksi yang memadai untuk itu. Yaitu, mereka yang memiliki model yang lebih buruk - tidak dapat meneruskannya; mereka yang memiliki model yang lebih baik - diteruskan ke keturunan mereka. Dengan perbaikan kondisi kehidupan, penekanan dalam model mulai berubah dari kelangsungan hidup murni menjadi sesuatu yang lebih terorganisir, dan semakin aman lingkungan, semakin beragam "sesuatu" ini menjadi. Spektrum "sesuatu" sangat luas - dari Bitcoin dan DS hingga feminisme dan toleransi radikal.
Alam menciptakan otak kita untuk memecahkan masalah bertahan hidup dalam kondisi sumber daya yang terbatas - tidak ada cukup makanan, tidak ada cukup energi untuk sampah, oleh karena itu, untuk bertahan hidup, perlu untuk menyelesaikan dua tugas yang saling eksklusif:
- Temukan dunia, perbaiki model, tingkatkan peluang untuk bertahan hidup (tugas yang sangat menghabiskan energi)
- Jangan mati karena kekurangan energi
Alam memecahkan dilema ini dengan sangat elegan, memperkenalkan ke dalam otak kita kemampuan untuk men-cache aliran data dan reaksi, ketika energi secara praktis tidak terbuang untuk menyelesaikan masalah-masalah dasar (dalam kerangka model saat ini) interaksi dengan dunia luar.
Anda dapat membaca lebih lanjut tentang metode caching ini dan "teori sumber daya perhatian" dalam karya-karya bagus D. Kahneman " Berpikir perlahan, selesaikan dengan cepat " [1] dan " Perhatian dan upaya "
Menurut D. Kahneman:
Psikolog membedakan dua mode berpikir, yang kita sebut Sistem 1 dan Sistem 2.
Sistem 1 bekerja secara otomatis dan sangat cepat, tanpa perlu atau hampir tidak ada usaha dan tanpa memberikan rasa kontrol yang disengaja
Sistem 2 memberikan perhatian yang diperlukan untuk upaya mental sadar, termasuk untuk perhitungan yang kompleks. Tindakan Sistem 2 sering dikaitkan dengan perasaan subjektif tentang aktivitas, pilihan, dan konsentrasi.
Pola perilaku, reaksi dan respons diprogram dalam otak kita (membentuk dan mengubah model dunia) dari masa kanak-kanak hingga kematian. Dua faktor tergantung pada tahap di mana pembentukan model berada - tingkat di mana perubahan diterima dan jumlah energi yang diperlukan untuk berubah. Di masa kanak-kanak, ketika modelnya fleksibel dan fleksibel, kecepatannya tinggi dan biaya energinya minimal. Semakin padat model, semakin banyak energi yang dibutuhkan untuk mengubahnya. Bahkan lebih dari itu, energi juga diperlukan agar seseorang hanya ingin mengubah sesuatu dalam model . Dan setiap pemborosan energi dikendalikan oleh otak, dan ia sangat enggan membiarkannya dihabiskan.
Perintah untuk mengubah model akan ditolak oleh otak (tetap saja, itu menghabiskan energi, tetapi mengapa?, Karena semuanya baik-baik saja dengan kami) hingga berfungsi dalam kerangka model lama mengancam kelangsungan hidup. Baik, atau sampai energi diterima oleh ledakan spontan (kejutan dari sesuatu, pukulan psikologis, dll.)
TL / DR:
- Untuk bertahan hidup, seseorang membangun di kepalanya model dunia di sekitarnya, menyelesaikan tugasnya saat ini
- Ketika memecahkan masalah apa pun, otak mencoba meminimalkan konsumsi energi.
- Operasi paling hemat energi dalam kerangka Sistem-1 (Kahneman), kegagalan untuk membuat keputusan tentang perubahan
- Yang paling intensif energi berfungsi dalam kerangka kerja System-2, membuat keputusan untuk mengubah model dan mengubah model itu sendiri

Jadi, untuk berinteraksi dengan dunia luar, seseorang membangun model dunia di otaknya dan bertindak sesuai dengannya selama mungkin (ingat sekali lagi tentang meminimalkan biaya energi). Tetapi seseorang, sayangnya atau untungnya, adalah hewan sosial - kita tidak dapat berinteraksi dengan orang lain dan, sering kali interaksi seperti itu membingungkan kita.
Untuk berinteraksi secara efektif dengan orang lain, kita membangun di dalam kepala kita suatu model perilaku orang-orang ini , yaitu, sebuah model bagaimana mereka akan berperilaku dalam keadaan tertentu di hadapan data tertentu. Artinya, kita sedang membangun model model dunia di sekeliling orang tertentu ini.
Stop and think - model dunia dalam kepala seseorang tidak sempurna dan hanya memenuhi kriteria kecukupan dan kecukupannya sendiri , dan kami membangun model model (aneh) ini dan berinteraksi dengan orang ini sesuai dengan model kami. Ya, dan kami juga ingin orang-orang melakukan apa yang dikatakan "model modelnya" kepada kami . Optimis? Ya, lebih dari ....
Untuk membangun dan melatih model yang memadai, saya tidak perlu memberi tahu Anda, Anda membutuhkan banyak waktu, energi, dan data. Dan kita sering tidak memiliki satu atau yang lain, dan semakin banyak derajat kebebasan (parameter) model, semakin banyak data yang dibutuhkan - kutukan dimensi, ingat?
Dan hidup berlalu cepat, dan karena itu waktu singkat, (Sistem-1 berfungsi), bertemu seseorang, dan bahkan berkomunikasi dengannya dalam beberapa kondisi, kami memilih salah satu templat model pra-kompilasi yang sudah kami miliki ke kepala ("jalang", "anak normal", "molehill", "hanya" Tidak.; ak ", dll.), mungkin sedikit fintyunya untuk kasus tertentu.
Ya, tentu saja, ada pengecualian, ada orang-orang yang kami tidak minta maaf untuk waktu atau energi, dan yang kami kenal sepanjang hidup kami. Tetapi dalam hal ini, kita hanya tahu tentang orang yang ada dalam model orang ini.
Apa yang mengikuti dari sini? Beberapa hal yang jelas:
Yah, pertama , tanggal sang Ilmuwan tidak merasakan dendam terhadap orang lain .
Sepenuhnya dari kata sepenuhnya. Dalam perbendaharaan katanya, istilah "dendam" tidak ada. Mengapa Segalanya sederhana - di jantung segala penghinaan terletak kesalahpahaman kami:
- Bagaimana mungkin dia (katakanlah, lakukan, bertindak)?
- Atau TIDAK (katakan, lakukan, lakukan)?
Artinya, dalam model kami tentang orang ini, ia dalam keadaan tertentu dengan paket input informasi tertentu seharusnya bertindak seperti ini, tetapi ia tidak melakukannya. Bajingan itu, ya? Ya, dia bukan bajingan, tetapi model kita tentang orang ini salah. Kami melewatkan sesuatu di dalamnya, atau tidak mengipasi untuk keadaan tertentu sama sekali, tetapi hanya mengambil templat, atau data input dalam situasi saat ini berbeda dari yang kami latih model.
Apa yang harus dilakukan dalam kasus ini? Sama seperti biasa - kita melihat apa yang salah dalam data dan melatih model dengan informasi baru.
Kedua , tanggal Scientist tidak memiliki refleks " seseorang salah di Internet ".
Ia bekerja tidak hanya di Internet, tetapi juga di tempat kerja, di masyarakat, dll. Jika seseorang tidak memahami sesuatu (seperti yang terlihat bagi Anda), atau mengerti, tetapi tidak dengan cara Anda, mungkin dia hanya memiliki model yang sama sekali berbeda untuk bagian dunia ini . Dan untuk meyakinkan hal itu, mis. membuatnya untuk mengubah modelnya (terutama jika dia tidak mau) sangat sulit dan sangat intensif energi. Apakah kamu membutuhkannya?
Pilihan yang sama sekali berbeda, ketika seseorang siap untuk mengubah modelnya, ingin memperluas atau mengencangkannya, dan dia memiliki kekuatan dan energi untuk ini. Anda bisa membantu - membantu, tidak bisa - mengarahkan ke seseorang yang bisa. Anda tidak dapat membantu atau mengarahkan - jangan ikut campur .
Lain kali, jangan gelisah dengan seseorang jika, menurut Anda, dia βsalahβ atau βtidak mengerti sesuatuβ. Dalam modelnya tentang dunia, semuanya berbeda. Semakin kasar dan sederhana model, semakin besar energi yang dibutuhkan untuk setidaknya keluar dari titik keseimbangan , belum lagi mengubah sesuatu.
Dan ketiga , tanggal Ilmuwan mengingat prinsip " Segala sesuatu selalu tidak seperti yang terlihat ."
Memahami bagaimana sistem ini bekerja, ada kesempatan untuk meniru, beradaptasi dengan beberapa templat dasar, akrab dengan masyarakat di mana Anda saat ini berada, dan sampai Anda keluar dari itu, semuanya akan baik-baik saja. Ini bekerja dua arah, jadi jangan lupa - " Burung hantu tidak seperti yang terlihat ."
"Persepsi tali sebagai ular sama salahnya dengan persepsi tali sebagai tali" (C)
Pembangunan model dan pelatihan

Sebagai seorang ilmuwan, kami sangat memahami betapa sulitnya membangun, melatih, dan terus-menerus melatih kembali model yang kurang lebih memadai. Dan oleh karena itu, tanggal Scientist dengan tenang dan sabar mengacu pada ketidaksempurnaan model di kepala orang lain dan terus-menerus memperbaiki sendiri . Dan karena dia masih seorang profesional, dia dengan sempurna mengingat prinsip dasar pemodelan yang sukses:
Apa yang muncul di sekitar (Sampah masuk - sampah keluar.)
Keakuratan dan kecukupan model tergantung pada kemurnian data lebih dari pada hal lain. Kita semua tahu ini, kita menghabiskan banyak waktu membersihkan data, preprocessing, normalisasi, dan seterusnya dan seterusnya dan seterusnya. Beri makan model sampah - dan hasilnya dapat diprediksi. Beri makan data normalnya yang telah dibersihkan - dan wawasan di saku Anda. Model-model di kepala kita bekerja persis sama. Memahami hal ini, kami mencoba menggunakan data yang paling akurat dan bersih untuk pemrosesan dan pelatihan, kami terus menggunakan pandangan kritis untuk menganalisis kecukupan data, dan kami berusaha untuk mencegah informasi kotor dan berisik dalam model kami . Singkatnya - baca Habr dan jangan menonton saluran pertama.
Perbedaan antara Train dan Test (sakit kepala kami)
Ilmuwan memahami bahwa penerapan model secara langsung tergantung pada kesamaan distribusi di mana model tersebut dipelajari dan untuk mana itu diterapkan . Aturan perilaku di satu masyarakat tidak berfungsi di tempat lain, prinsip-prinsip kesuksesan di satu bidang tidak berlaku di tempat lain, βmodel perilaku yang khasβ dari lawan jenis, yang dibangun atas dasar cerita ibuku, tiba-tiba ternyata tidak benar, yah, dll.
Kami selalu memperhitungkan kemungkinan perbedaan set data pelatihan tempat kami melatih model dunia kami dan set data nyata tempat kami menerapkan model kami.
Singkatnya, kami memahami penyebab perbedaan dan siap untuk menghabiskan energi pada pra-pelatihan model agar lebih dekat dengan dunia nyata.
Pilihan fungsi obyektif dan pembelajaran multi-domain
Hampir semua tugas dapat ditransfer ke domain lain dengan mengubah fungsi tujuan. Masalahnya tidak diselesaikan sebagai regresi? Ulangi target untuk kelas dan selesaikan sebagai tugas klasifikasi. Lebih baik lagi, buat dua kepala dengan grid, biarkan satu memecahkan satu masalah, dan yang kedua dirumuskan ulang. Pada set data yang sama, dua model yang berbeda dapat dilatih, dipertajam pada hal-hal yang sama sekali berbeda. Ingat ini, opsi terbaik, seperti dalam hidup, adalah multidomain-learning, ketika fungsi tujuan akhir Anda mencakup beberapa domain sekaligus . Di tempat kerja, misalnya, Anda hanya dapat menghasilkan uang, Anda masih dapat mengunduh keterampilan profesional, Anda masih dapat meningkatkan keterampilan interaksi sosial. Seperti halnya model konvensional, pendekatan ini pada akhirnya memungkinkan untuk memperkaya dan meningkatkan semua tujuan multi-domain, seolah-olah kami mengunduhnya secara terpisah. Dan jangan lupa tentang waktu - tiga model untuk keperluan individu membutuhkan waktu tiga kali lebih banyak, dan dalam kehidupan nyata tidak sebanyak itu , dan sayangnya, Anda tidak akan dapat menyejajarkan pelatihan dengan selusin atau dua TPU-shek.
Pelatihan dalam blok (Batch-learning)
Pelatihan model dengan batch telah lama terbukti efektif. Jika Anda tidak mempertimbangkan area spesifik yang membutuhkan pelatihan online, maka tidak ada gunanya memperbarui bobot hanya setelah melewati seluruh era. Ya, pelatihan dalam batch menghasilkan noise frekuensi tinggi, tetapi ini diimbangi oleh tingkat konvergensi yang lebih tinggi dengan akurasi yang hampir sama.
Apa yang ini berikan pada kita? Memahami bahwa tidak masuk akal untuk menunggu lama sebelum sedikit mengubah model dunia Anda berdasarkan data baru. Tidak perlu menunggu seluruh era, yah, saya tidak tahu, setahun di pekerjaan baru, setahun hubungan dengan orang baru, berubah lebih sering - Anda akan mendapatkan gerakan lebih cepat ke tujuan akhir Anda , well, eksplorasi akan memberi lebih banyak peluang. Tidak ada gunanya berteriak bahwa "semuanya hilang" setelah satu insiden , mungkin itu hanya ledakan, mungkin bintang-bintang telah berkembang seperti ini, tunggu sampai akhir batch, kumpulkan kesalahan - dan kemudian ubah modelnya.
Metode Pencarian Parameter Hiper (Pencarian grid VS pencarian acak)
Ada banyak artikel ( contoh ) tentang topik yang ketika mencari hyperparameter terbaik, pengurutan acak lebih baik daripada pencarian kotak. Jadi dalam kasus kami, pilihan tindakan "acak" lebih baik untuk benar-benar melakukan "pseudo acak", dan tidak sepenuhnya sesuai dengan beberapa kisi yang telah ditentukan . Penggemar dan penganut pendekatan ketat akan menginjak-injak saya sekarang, tetapi secara serius, peluang menguasai dunia , dan penggunaan metode semacam itu, anehnya, dapat menjadi lebih rasional.
Lebih baik lagi, tentu saja, adalah menggunakan optimasi Bayesian . Tetapi di sini saya tidak mengerti bagaimana itu dapat diterapkan pada kehidupan nyata. Bukan pendekatan Bayesian untuk memahami informasi, tetapi optimisasi Bayesian ketika memilih hyperparameters.
Ansambel
Kita semua tahu tentang kekuatan ansambel, di mana setiap model melihat data dengan caranya sendiri, menarik beberapa sinyal dari mereka, dan hasil terbaik dicapai dengan menggunakan metamodel di atas model tingkat pertama. Dalam hidup, semuanya persis sama, Anda dapat membangun model dunia Anda sendiri tidak hanya berdasarkan pengalaman Anda sendiri, tetapi juga menyerap yang terbaik (atau sebaliknya, memahami dan memotong yang terburuk) dari model orang lain di dunia. Model-model ini dijelaskan dalam buku, film, dan hanya dengan mengamati perilaku orang lain, Anda dapat memahami model seperti apa yang mereka miliki, mengambil yang terbaik, dan membangun diri Anda sendiri.
Ingat βBanyak hal yang tidak dapat dipahami oleh kita, bukan karena konsep kita lemah, tetapi karena hal-hal ini tidak termasuk dalam lingkaran konsep kita.β Kozma Petrovich memahami masalah model yang terbatas, bahkan tanpa menjadi tanggal praktek Ilmuwan. :)
Orang yang berbeda, lingkungan yang berbeda, data yang berbeda - model yang berbeda, bahkan untuk hal-hal yang tampak jelas. Jika Anda bekerja di perusahaan besar, Anda mungkin ingat semua pelatihan tanpa akhir tentang perilaku, aturan komunikasi, pelecehan dan banyak lagi. Apa-apaan, pikirmu. Tapi tidak, bukan sampah. Di perusahaan-perusahaan internasional besar (karena perbedaan budaya, mentalitas dan nilai-nilai), penting untuk memperkenalkan lapisan prinsip-prinsip dasar ke dalam model setiap karyawan untuk memastikan interaksi dan pekerjaan yang normal.
TL / DR
- Apa yang terjadi pada Anda di dunia ini, hanya Anda dan model dunia Anda yang bisa disalahkan
- Model dunia orang lain tidak harus berkorelasi dengan milik Anda
- Model meta Anda dari model dunia orang lain kemungkinan besar tidak sesuai dengan kenyataan
- Sulit untuk membuat di kepala Anda model dunia yang terbuka, siap untuk berubah sesuai dengan prinsip Bayesian. Bahkan lebih sulit untuk mempertahankannya dalam keadaan terbuka ini sepanjang hidup. Sangat sulit untuk tetap menjadi seseorang
Yang tertinggal di balik layar

Teorema Batas Pusat
Seperti yang dikatakan CTC, jumlah kejadian acak yang disampel dari segala jenis distribusi yang lemah bergantung itu sendiri adalah variabel acak dan biasanya terdistribusi dalam batas.
Seluruh hidup kita terdiri dari peristiwa acak : waktu menunggu lift atau bus di halte, Anda melewatkan sudut atau tidak, dll. Anda dapat mengevaluasi secara kondisional hari itu sebagai berhasil atau tidak berhasil (variabel acak lain), tergantung di mana dalam distribusi akhir yang kami dapatkan - ke tengah atau ekor. Dalam sampel yang cukup besar (misalnya, satu tahun) dapat dilihat bahwa variabel acak kita ini didistribusikan secara normal, berpusat pada " baik, kurang lebih semuanya baik-baik saja "
Tanggal ilmuwan memahami semua hal di atas dan tidak dikukus jika jatuh ke dalam apa yang disebut Sebuah "garis hitam" ketika semuanya buruk - dan bus tertinggal di bawah hidung, dan menuangkan kopi, dan tidak menyimpan kode, dll. Dia mengerti bahwa hari ini kita memiliki ekor distribusi, kita hanya perlu bertahan hari ini , dan besok, mungkin, dunia akan mencicipi peristiwa kepada kita dengan cara yang sedikit berbeda.
Omong-omong, transisi ke titik referensi baru peristiwa (set sampel baru) adalah mimpi . Bukan hari kalender, bukan tengah malam, tapi hari baru yang subyektif setelah Anda bangun. Nenek moyang kita memahami ini secara intuisi (walaupun mereka tidak tahu tentang xgboost dan keras), dari sinilah perkataan " pagi malam lebih bijaksana " dan " jika Anda ingin bekerja, tidur, dan semuanya akan berlalu ".
β β β ( p-value ββ), , - ( , ), .
, β β. . [1].
, - , . , , , - )
, β , β.
(Exploitation vs Exploration)
, , . , , , β β β ! β. , , , , - , , , - .
β¦ . - , . ( ), , , - . , β , β. , , . . , - , .
β β RL( Reinforcement learning ). , , , , , , . , , , , - , , . RL . , ( ) , , , - .
, , , , exploration , .
, , , , - , . , β β β β β β.
, ββ . , , , β β, .
, - (, , ..) ββ, , , .
- , , -1. , , , , .., .. . , -2. . , , -2 , , .
β β
, , , -1 , .
, β , β (). . , , - , , , . , , , , , , , .
TL/DR
- ,
- . ,
- (exploration)
- , . , - , 1
Kesimpulan

, - , , , , , .
- . β¦ . β .: , 2013. β 625 .
- Kaneman D., Slovik P., Tversky A. Pengambilan keputusan dalam ketidakpastian: Aturan dan prasangka., Kharkov: Pusat Kemanusiaan, 2005. - 632 p. - [ISBN 966-8324-14-5]
- Kahneman D. Perhatian dan upaya / trans. dari bahasa inggris I. S. Utochkina. - M.: Sense, 2006 .-- 288 hal.
- Frith K. , "Otak dan jiwa: betapa gugupnya aktivitas membentuk dunia batin kita"