Saat ini, hampir setiap bisnis merasakan perlunya penambangan data. Ilmu data tidak dianggap sebagai sesuatu yang baru. Namun, tidak jelas bagi semua orang apa yang seharusnya menjadi spesialis sewaan.
Artikel ini ditulis bukan oleh spesialis SDM, tetapi oleh Ilmuwan, sehingga gaya penyajiannya sangat spesifik, tetapi ada keuntungan dalam hal ini - ini adalah tampilan bagian dalam yang memungkinkan Anda untuk memahami kualitas apa yang diperlukan oleh ilmuwan data untuk profesi ini, sehingga perusahaan dapat mengandalkan orang.Prolog
Waktunya telah tiba ketika startup sains data tumbuh dari popok - jumlah tugas untuk analisis telah meningkat pada kecepatan yang tidak terduga, dan kecepatan ini segera berhenti dikompensasi oleh otomatisasi. Menjadi jelas bahwa kami membutuhkan otak baru di tim ...
Seperti yang nampak bagi saya pada mulanya, seseorang dituntut dengan cukup pasti: hanya kencan biasa-sesuatu-di sana ... programmer, analis, ahli statistik. Jadi apa kesulitan menyusun daftar persyaratan?
"Dalam bidang teknik, jika Anda tidak tahu apa yang Anda lakukan, Anda seharusnya tidak melakukan ini."
Richard Hamming
Saya mendekati masalah seperti biasa. Dia mengeluarkan dua lembar kertas. Satu berjudul "Keterampilan Teknis", yang lain - "Keterampilan Profesional". Setelah itu, ada keinginan untuk naik ke sumber daya apa pun, menemukan banyak resume di sana, menulis daftar kualitas, pilih yang Anda suka. Tetapi sesuatu menghentikan saya. "Ini bukan caraku," kataku pada diri sendiri. "Aku tidak mengerti ini." Saya mengerti tugasnya .. ”
Saya mencoba untuk keluar dari tugas. Tugas kita sederhana. Anda diberi CRM yang tidak responsif dari konten yang meragukan dan diminta untuk memperkirakan penjualan selama beberapa bulan sebelumnya. Cukup sederhana. Siapa pun dapat menangani ... Penafian: jika Anda dapat memahami bisnis klien. Idealnya, sebuah kelompok kerja diambil untuk ini, yang abstrak dari semua tugas lain dan mengabdikan dirinya untuk menganalisis tugas khusus ini. Di pintu masuk - keinginan klien, di pintu keluar - solusi yang dapat diperiksa tanpa memerinci dan tanpa menduplikasi pekerjaan yang dilakukan.
Dari sini saya mengumpulkan persyaratan formal entah bagaimana pertama - seseorang harus dapat mengambil tugas yang terpisah dan tidak menarik siapa pun sampai saat keputusan kasar pertama diterima. Maka keputusan ini dapat ditingkatkan dengan menarik spesialis untuk membantu. Tetapi pada tahap pertama, menggunakan orang lain sama dengan menempatkan pengawas pada seseorang. Dan pengawas dapat setiap saat mendorong pendatang baru dan mulai melakukan segalanya untuknya, membuat perekrutan benar-benar tidak berarti.
Berdasarkan persyaratan pertama ini, saya dengan cepat mengisi lembar pertama: tahu python, dapat mengekstraksi informasi dari berbagai sumber, menyimpan informasi, menggunakan AWS, mengetahui server dan statistik, dapat melakukan proses acak. Beberapa saat kemudian saya menambahkan ekonomi di sana dalam versi dasar. Hasilnya adalah daftar keterampilan yang diperlukan untuk memastikan bahwa persyaratan pertama dipenuhi.
Tetapi, dengan daftar kualitas profesional, saya tidak berhasil. Bahkan googling, saya tidak menemukan persyaratan profesional untuk ilmuwan data yang tampaknya sesuai.
Entah formulasi umum dari bentuk "tanggung jawab" muncul, atau kualitas dipahami sebagai keterampilan, yang termasuk dalam daftar lain.
Pikirannya sendiri bercampur menjadi bubur, yang sulit disistematisasi. Global dicampur dengan spesifik, hanya berlaku untuk tugas-tugas tertentu. Bagiku sangat keliru untuk bertahan dalam satu tumpukan kualitas yang terlalu umum, bersama dengan kualitas yang tidak akan pernah bisa digunakan oleh kandidat.
Di suatu tempat di sini, ide Masalah muncul. Bagi saya, ini merupakan cara yang baik dan elegan untuk membayar kebutuhan berfilsafat atas daftar persyaratan, dan pada saat yang sama mengumpulkan daftar yang diperlukan, dengan melihat kesalahan dalam solusi.
Pernyataan Tugas
Pengusaha memutuskan untuk membuka toko di lapangan bulutangkis, sehingga pengunjung tidak perlu pergi ke supermarket untuk shuttlecock dan raket.
Sepanjang tahun, pengusaha menyimpan semua kwitansi dari pembelian untuk kemudian memahami keputusan apa yang harus diambil untuk meningkatkan laba. Informasi dari cek terkandung dalam file
train_dataset.csv yang terlampir.
Dia mengemas kok dan raket dan dijual secara eksklusif dalam tiga tipe:
- Racket dan dua kok
- Racket dan lima kok
- Sepuluh kok
Dari waktu ke waktu, pengusaha harus mengubah harga dengan memperhatikan harga supermarket dan tarif pajak.
Toko dan pengadilan bekerja tanpa hari libur dan hari libur. Alur pelanggan agak terbatas karena fakta bahwa hanya 4 orang yang diizinkan di pengadilan, dan pengadilan sudah dipesan terlebih dahulu untuk sesi dua jam, hanya ada tiga lapangan di stadion. Namun demikian, tidak ada hari berlalu tanpa penjualan, karena dari waktu ke waktu baik orang yang benar-benar tidak siap datang ke pengadilan, atau seseorang merobek raket atau kehilangan kok.
Setahun kemudian, pengusaha memutuskan untuk mengatur penjualan, yang harus berlangsung dari 1 Januari hingga 31 Januari, inklusif. Dia mendistribusikan kembali set barang dan menetapkan harga berikut untuk mereka:
- Hanya satu raket - 11 dolar 80 sen
- Lima kok - 5 dolar 90 sen
- Satu raket dan satu shuttlecock - 12 dolar 98 sen
Diperlukan untuk menentukan ukuran pendapatan pengusaha pada bulan Januari.
Sensitivitas probabilitas
“Saya percaya prediksi terbaik didasarkan pada pemahaman
terlibat dalam proses kekuatan fundamental. "
Richard Hamming
Tugas itu disusun meniru tugas-tugas nyata kehidupan, tetapi dengan cara buatan yang tidak tersembunyi dari para kandidat. Dan, oleh karena itu, beberapa rumus diterapkan untuk membuat dataset. Misalkan, dibumbui dengan variabel acak, tetapi formula. Bagaimanapun, diasumsikan bahwa ilmuwan data dapat mendeteksi dan menggunakan formula ini untuk peramalan.
Tentu saja, seseorang tidak boleh membuang kemungkinan bahwa dataset tidak memberikan gambaran lengkap yang memungkinkan seseorang untuk mengembalikan formula dengan akurasi yang diperlukan. Tetapi untuk kasus ini dalam kehidupan nyata, kami datang dengan informasi tambahan seperti apa, dan dari mana mendapatkannya.
Secara umum, keinginan untuk menemukan "hukum alam semesta" adalah kualitas profesional yang baik. Kemampuan untuk memahami apa yang harus dicari dan ke mana harus mencari juga. Mr. Hamming tahu apa yang ia bicarakan. Dan terima kasih kepadanya, baris pertama muncul di daftar persyaratan saya:
Kemampuan untuk mendeteksi hubungan sebab-akibat, menggambarkannya, merumuskan kondisi di mana hubungan dapat dikonversi menjadi formula yang berguna untuk bisnis.Bukan kebetulan bahwa saya menggunakan ungkapan "berguna untuk bisnis" di sini. Dalam praktik pribadi saya, sering kali ternyata bukan jawaban atas masalah yang mendatangkan keuntungan bisnis, tetapi semacam produk sampingan yang diperoleh dengan membuka semacam ketergantungan internal. Dalam beberapa kasus, ini membawa uang tambahan kepada startup, kontrak baru, dan meningkatkan jumlah pengetahuan dan produk sampingan.
Oleh karena itu, menganalisis keputusan yang dikirim kepada saya, saya hati-hati mengamati bagaimana kandidat akan menggunakan pengetahuan tentang kesemuan set data, apakah dia akan meminta informasi tambahan di beberapa titik atau membuktikan kecukupan dataset untuk menyelesaikan tugas.
Kepercayaan diri
"Jika suatu peristiwa menarik perhatian kita, memori asosiatif mulai mencari penyebabnya, atau lebih tepatnya, alasan apa pun yang sudah tersimpan dalam memori diaktifkan."
Daniel Kahneman
Saya tidak akan mengatakan bahwa memori asosiatif buruk. Dia adalah sumber dan bahan bakar imajinasi kita. Fantasi memungkinkan Anda untuk menghasilkan hipotesis, secara intuitif mengajukan asumsi, dengan cepat menemukan pasangan variabel di mana koneksi dimungkinkan.
Dan dia menempatkan kita pada kereta musik dalam bentuk konfirmasi bias.
Kami sangat terbiasa dengan pengalaman dan pengetahuan kami sendiri sehingga kami mulai menyebarkannya ke situasi baru. Di dunia yang hidup, ini sering berguna. Katakanlah, kepercayaan bahwa semua ular beracun, menyelamatkan lebih banyak nyawa daripada meragukan bahwa ular khusus ini tidak beracun. Tetapi di kantor yang aman, memiliki waktu yang cukup, lebih baik untuk menganggap penilaian apa pun sebagai hipotesis.
Dataset tugas dirancang khusus sedemikian rupa sehingga interval waktu hanya mencakup satu tahun pengamatan. Adalah baik bahwa kandidat pada tahap mempertimbangkan grafik mengajukan hipotesis tentang adanya fluktuasi musiman. Sangat buruk bahwa jarang ada orang yang menyatakan perlunya memverifikasi ini. Dan sangat buruk bahwa beberapa, tanpa memeriksa, bersikeras dengan adanya musiman.
Jadi saya memasukkan yang berikut ini dalam daftar kualitas:
Kekritisan berpikir, termasuk dalam kaitannya dengan pengalaman mereka sendiri.Saya benar-benar ingin menambahkan "dan pengetahuan" di sini, tetapi kemudian tampak bagi saya bahwa catatan tambahan ini membuka topik baru yang besar.
Neurotisme
"Setelah mengembangkan teori ini atau itu, kami kembali beralih ke pengamatan,
untuk memeriksanya. "
Gregory Mankyu
Literatur sains data meneliti cara-cara untuk mengotomatisasi pengujian hipotesis. Namun, saya jarang memenuhi pedoman untuk penggunaannya. Karena itu, percaya atau tidak, ketika saya menjadi bingung antara dua kegiatan yang tampaknya sangat berbeda - memeriksa hipotesis statistik dan memeriksa model.
Pada saat yang sama, yang bahkan lebih membingungkan, perbedaan antara konsep hipotesis statistik dan hipotesis secara umum diabaikan. Untuk menghindari kebingungan seperti itu dalam artikel kami, izinkan saya menggunakan asumsi istilah untuk konsep umum hipotesis.
Dalam paragraf sebelumnya, satu asumsi seperti itu dibuat mengenai dataset, yaitu, adanya musiman. Secara intuitif dimungkinkan untuk mendefinisikan komponen musiman sebagai berulang secara berkala. Dan di sini Anda harus segera bertanya pada diri sendiri pertanyaan: berapa kali komponen harus diulang sehingga dapat dianggap musiman? Selain itu, bisakah kita, berdasarkan pengulangan berkala, mengkonfirmasi keberadaan komponen musiman dalam dataset, interval waktu yang hanya satu tahun.
Seperti yang telah disebutkan, panjang interval dipilih secara khusus. Saya ingin para kandidat memiliki kebutuhan dan kesempatan untuk menawarkan cara mereka sendiri memeriksa ketersediaan musiman untuk tugas yang dimaksud. Dan saya juga menambahkan kualitas ini ke daftar kualitas profesional yang diperlukan:
Kemampuan untuk menguji asumsi dengan cara standar dan menghasilkan cara pemeriksaan baru.Mungkin “menemukan cara baru” terdengar terlalu keras. Saya jarang menemukan perlunya memunculkan sesuatu yang baru. Metode pertimbangan sederhana mengikuti pertanyaan "Bagaimana jika?" Cukup cocok.
Dalam artikel yang indah
"Ini benar, tetapi salah", Alexander Chernookiy memberikan contoh solusi cepat dan hampir intuitif untuk beberapa masalah probabilistik. Menurut saya, mekanisme yang sama cocok untuk menguji asumsi.
Pertama-tama kita akan berpikir tentang jenis musiman apa yang ingin kita temukan. Musiman mungkin merupakan faktor eksternal yang tidak diketahui oleh kami, dan yang mewakili pengulangan paranormal tertentu dalam data. Dimungkinkan untuk menggambarkan musiman seperti itu tanpa melampaui dataset dengan menuliskan komponen musiman secara terpisah dan menunjukkan tingkat kestabilannya. Dan musiman dapat disembunyikan di dalam data yang diketahui. Sebagai contoh, jika musim mempengaruhi jumlah pembeli, dan jumlah pembeli pada volume penjualan, maka jika kita tahu sebelumnya dan kapan pembeli akan datang, maka tidak perlu bagi kita untuk musiman sebagai fenomena terpisah. Akibatnya, kita akan mencari musiman paranormal dengan tepat, karena kita tidak tahu dan membutuhkannya.
Sekarang mari kita asumsikan bahwa musim seperti itu tidak mempengaruhi penjualan. Maka semua fluktuasi dalam penjualan adalah acak, atau Anda dapat menemukan beberapa hubungan di antara mereka dan perubahan dalam variabel lain. Seberapa penuhkah ketergantungan ini menggambarkan apa yang terjadi? Akankah masih ada ruang untuk musiman paranormal?
Artinya, untuk memeriksa keberadaan musiman, kita dapat menemukan semua dependensi pada variabel yang diketahui, dan setelah itu, mengurangkan dependensi ini dari fluktuasi, lihat sisanya. Selain itu, jika penyebaran sisanya cukup kecil, maka mungkin tidak ada gunanya sama sekali dalam mencari nilai paranormal.
Jadi kami mendapat cara sederhana untuk memeriksa musiman tanpa adanya interval data yang cukup panjang.
Perhatian
"Pikiran kita tidak siap untuk memahami peristiwa langka."
Robert Banner
Beralih ke pencarian untuk hubungan antara dua kuantitas, hal pertama yang kami coba rasakan saling berubah. Dan, mungkin, tidak ada metode yang lebih sederhana dan lebih rumit daripada regresi linier. Dapat membantu untuk membentuk pendapat tentang hubungan, bahkan dalam kasus di mana hubungan kuantitatif antara jumlah tidak diketahui. Ya, ia memiliki sejumlah keunggulan lainnya.
Dan kekurangannya.
Sebenarnya, hubungan antara dua kuantitas jauh dari selalu begitu sederhana sehingga dapat diidentifikasi oleh karakteristik numerik. Tidak peduli seberapa indah perkiraan linier hubungan antara dua kuantitas itu, selalu ada kemungkinan bahwa kita berurusan dengan sesuatu yang lebih kompleks. Matematikawan Inggris
Francis Enscombe mengilustrasikan fenomena ini dengan empat contoh, yang kemudian dikenal sebagai
Enscombe Quartet .
Memasukkan sesuatu yang mirip dengan kuartet Enscomb ke dalam tugas ternyata merupakan ide yang bagus dan sangat mudah diterapkan. Terlepas dari popularitas fenomena tersebut, banyak kandidat jatuh cinta pada umpan tersebut.
Implementasi fenomena dalam masalah adalah sebagai berikut. Biarkan ada tiga kelompok pelanggan, yang masing-masing menyadari minat tertentu saat membeli. Kedua kelompok berperilaku serupa, dan perilaku mereka diekspresikan dalam hubungan linear antara permintaan dan harga. Tetapi kelompok ketiga melakukan sebaliknya. Dengan transisi harga di atas batas tertentu, pembeli dari grup ini dengan tajam berhenti membeli lebih dari minimum yang diperlukan.
Fenomena ini, sangat umum di dunia nyata, memungkinkan untuk mensimulasikan salah satu contoh Enscomb dan menyembunyikannya di antara dua distribusi lainnya.
Sebenarnya, "sembunyikan" tidak cocok untuk situasi ini. Saya hanya menempatkan distribusi ini di sebelah yang lain, lebih akrab dan mudah dimengerti. Perbedaannya jelas pada grafik, seperti yang tampak bagi saya, tetapi tidak semua orang memperhatikan. Dan upaya salah satu kandidat untuk "meningkatkan" perkiraan dengan pindah ke polinomial tingkat tinggi sangat menarik.
Jadi saya merumuskan persyaratan lain untuk kualitas profesional:
Untuk dapat mengisolasi pengamatan signifikan, buatlah hipotesis mengenai signifikansi mereka.Impulsif
"Meteran ini telah digunakan secara luas selama lima tahun dan melewati tiga pemeriksaan."
Timothy Leary
Sebelumnya, saya menggambarkan situasi di mana saldo yang tidak dapat dijelaskan menjadi sangat kecil sehingga pengaruhnya menjadi tidak dapat dibedakan dengan latar belakang manfaat bisnis yang disediakan oleh sisa model.
Namun, Anda perlu memahami apa yang mungkin tersembunyi di balik ungkapan "sangat kecil."
Biasanya dunia diamati dan diukur oleh kami menggunakan beberapa instrumen. Sederhana, seperti penggaris, atau kompleks, seperti mikroskop elektron. Perangkat yang kompleks termasuk komputer dengan lingkungan pemrograman statistik yang diinstal di dalamnya.
Dalam arti tertentu, setiap pengamatan atau kesimpulan yang kita buat dapat dirasakan sebagai hasil dari suatu pengukuran. Kami melihat kondisi masalah dan mengukur pendapatan pada interval waktu yang belum terjadi. Di sini saya mengganti kata misterius dan magis untuk banyak kata "prediksi" dengan kata "ukur". Sebagai bagian dari pekerjaan saya sehari-hari, saya dapat mengatakannya, karena ramalan pada tingkat akurasi yang cukup tinggi digantikan oleh perhitungan rutin.
Tetapi pengukuran apa pun tidak bisa sangat akurat. Setiap perangkat memiliki kesalahan pengukuran yang disebabkan oleh ketidaksempurnaannya. Dan dalam pengukuran itu perlu untuk menunjukkan keakuratannya, untuk ini, bersama dengan hasil yang diperoleh, interval kepercayaan ditunjukkan.
Indikasi interval kepercayaan bahkan bukan merupakan rekomendasi, tetapi suatu keharusan yang sering dilupakan. Selain itu, meskipun sedikit pengetahuan akan terdengar dalam kata-kata saya, saya percaya bahwa menghitung interval kepercayaan adalah tindakan harga diri, dan kualitas berikut adalah salah satu kualitas yang diperlukan untuk seorang ilmuwan data:
Keakuratan dalam mengamati persyaratan formal algoritma dan metode, terutama dalam hal menghitung interval kepercayaan dan memeriksa kondisi yang diperlukan dan memadai.Daktilitas
"Ketentuan ini tidak sepenuhnya benar, tetapi cukup benar untuk aplikasi praktis dalam banyak kasus."
Francis Enscomb
Sampai sekarang, saya telah menghindari membahas fitur yang paling mencolok dari tugas ini. Interval yang diperkirakan ditandai oleh perubahan kuat dalam barang yang dijual. Sekarang adalah waktunya untuk menjelaskan mengapa perubahan ini muncul dalam tugas.
Di atas, saya sudah menguraikan pandangan saya tentang kemungkinan memeriksa berbagai asumsi. Verifikasi harus selalu demikian. Jika sesuatu tidak dapat diverifikasi, atau metode verifikasi tidak diketahui, maka berbagai opsi harus diuraikan; mereka dapat berfungsi sebagai alasan untuk penelitian lebih lanjut. Tetapi pada saat yang sama, perlu untuk mencoba menggambarkan situasi sebanyak mungkin, berdasarkan informasi yang diketahui.
Sebenarnya, apa yang kita ketahui tentang penjualan? Ada orang yang, karena alasan yang diketahui dan terdaftar, melakukan pembelian. Anda hampir dapat sepenuhnya mensimulasikan keseluruhan proses, karena kami menemukan semua dependensi dan menemukan bahwa residu yang tidak dapat dijelaskan biasanya terdistribusi dan memiliki dispersi yang sangat kecil.
Pertanyaan mulai muncul: apakah volume barang yang dibeli memenuhi kebutuhan orang? Apa yang mereka lakukan ketika kebutuhan tetap tidak terpenuhi? Misalnya, apa yang mereka lakukan jika, menurut mereka, harga suatu produk terlalu tinggi? Dari mana datangnya ketergantungan linear terhadap permintaan?
Sebenarnya, ini adalah pertanyaan untuk bisnis. Dan, tentu saja, mereka harus diminta kepada pemilik bisnis sebagai ahli di bidangnya.
Pada akhirnya, dataset awal jauh dari selalu lengkap, dan bisnis, bahkan memiliki staf analis profesional, tidak tahu segalanya. Sebenarnya, bisnis beralih ke ilmu data justru karena tidak semua orang tahu. Tetapi bagaimana jika ...Bagaimana jika ada model yang dapat diverifikasi dan konsisten yang menggambarkan situasi hanya menggunakan data yang kita ketahui? Ini juga layak untuk dicoba.Epilog
Biarkan saya membuat daftar akhir dari kualitas profesional ilmuwan data yang saya tulis.- Kemampuan untuk mendeteksi hubungan sebab-akibat, menggambarkannya, merumuskan kondisi di mana hubungan dapat dikonversi menjadi formula yang berguna untuk bisnis.
- Kekritisan berpikir, termasuk dalam kaitannya dengan pengalaman mereka sendiri.
- Kemampuan untuk menguji asumsi dengan cara standar dan menghasilkan cara pemeriksaan baru.
- , .
- , .
Dalam bentuk rakitan ini, daftar itu kelihatannya cukup jelas bagi saya. Mungkin karena mengulang sampai batas tertentu daftar bias kognitif. Yang, kebetulan, menuntun saya ke ide bukti alami pengamatan posterior. Namun, saya ingat waktu meditasi pada selembar kertas kosong kedua dan saya mengerti bahwa daftar itu tidak akan dikompilasi tanpa pekerjaan selesai.Yang masih menarik adalah gagasan bahwa pentingnya fakta bagi satu orang belum tentu jelas bagi orang lain. Ini dapat dilihat dengan jelas dari solusi untuk masalah yang saya terima dari puluhan kandidat ...Penulis: Valery Kondakov, Co-founder dan CTO dari Uninum
Co-author: Pavel Zhirnovsky, Co-founder dan CEO UninumPS
Statistik kekosongan pada tanggal 06/25/19Tanggal penempatan lowongan: 27/05/19Total penayangan lowongan: 2727Total tanggapan: 94- Mereka mengirim solusi untuk masalah ini, tetapi ternyata salah: 20%
- Mereka setuju untuk menyelesaikan masalah, tetapi tidak mengirim jawaban: 30%
- Penolakan pada tahap pertimbangan resume karena berbagai alasan: 45%
- Mereka mengirim solusi mendekati yang benar: 5%