Mengapa Tim Ilmu Pengetahuan Data Perlu Universal, Bukan Spesialis

gambar
GAMBAR HIROSHI WATANABE / GETTY

Dalam The Wealth of Nations, Adam Smith menunjukkan bagaimana pembagian kerja menjadi sumber utama peningkatan produktivitas. Contohnya adalah jalur perakitan pabrik untuk produksi pin: "Satu pekerja menarik kawat, yang lain meluruskannya, yang ketiga memotong, yang keempat mempertajam ujung, yang kelima menggiling ujung yang lain agar sesuai dengan kepala." Berkat spesialisasi yang difokuskan pada fungsi-fungsi tertentu, setiap karyawan menjadi spesialis yang berkualifikasi tinggi dalam tugasnya yang sempit, yang mengarah pada peningkatan efisiensi proses. Output per pekerja meningkat berkali-kali, dan pabrik menjadi lebih efisien dalam produksi pin.

Pembagian kerja berdasarkan fungsi ini begitu mengakar di benak kita bahkan hingga hari ini sehingga kita dengan cepat mengatur tim kita. Ilmu Data tidak terkecuali. Peluang bisnis algoritmik yang kompleks membutuhkan banyak fungsi tenaga kerja, sehingga perusahaan biasanya membuat kelompok spesialis: peneliti, insinyur analisis data, insinyur pembelajaran mesin, ilmuwan yang terlibat dalam hubungan sebab dan akibat, dan sebagainya. Pekerjaan spesialis dikoordinasikan oleh manajer produk dengan transfer fungsi dengan cara yang menyerupai pabrik pin: "satu orang menerima data, model yang lain, yang ketiga melakukannya, langkah keempat" dan seterusnya,

Sayangnya, kita tidak harus mengoptimalkan tim Ilmu Data kami untuk meningkatkan kinerja. Namun, Anda melakukan ini ketika Anda memahami apa yang Anda hasilkan: pin atau sesuatu yang lain, dan hanya berusaha untuk meningkatkan efisiensi. Tujuan dari jalur perakitan adalah untuk menyelesaikan tugas. Kami tahu persis apa yang kami inginkan - ini adalah pin (seperti dalam contoh Smith), tetapi Anda dapat menyebutkan produk atau layanan apa pun yang persyaratannya sepenuhnya menggambarkan semua aspek produk dan perilakunya. Peran karyawan adalah untuk memenuhi persyaratan ini seefisien mungkin.

Tetapi tujuan Ilmu Data bukan untuk menyelesaikan tugas. Sebaliknya, tujuannya adalah untuk mengeksplorasi dan mengembangkan peluang bisnis baru yang kuat. Produk dan layanan Algoritma, seperti sistem rekomendasi, interaksi pelanggan, preferensi gaya, ukuran, desain pakaian, optimisasi logistik, deteksi tren musiman, dan banyak lagi tidak dapat dikembangkan sebelumnya. Mereka harus dipelajari. Tidak ada gambar untuk direproduksi, ini adalah fitur baru dengan ketidakpastian yang melekat. Koefisien, model, tipe model, hiperparameter, semua elemen yang diperlukan harus dipelajari menggunakan eksperimen, coba-coba, dan juga pengulangan. Dengan pin, pelatihan dan desain dilakukan di muka, sampai diproduksi. Dengan Ilmu Data, Anda belajar dalam prosesnya, bukan sebelumnya.

Di pabrik pin, ketika pelatihan lebih dulu, kami tidak berharap dan tidak ingin pekerja berimprovisasi pada properti produk apa pun, di samping meningkatkan efisiensi produksi. Spesialisasi tugas masuk akal, karena mengarah pada efisiensi proses dan koordinasi produksi (tanpa membuat perubahan pada produk akhir).

Tetapi ketika produk masih berkembang dan tujuannya adalah pelatihan, spesialisasi mengganggu tujuan kami dalam kasus-kasus berikut:

1. Ini meningkatkan biaya koordinasi.

Yaitu, biaya yang timbul selama waktu yang dihabiskan untuk berkomunikasi, berdiskusi, membenarkan, dan memprioritaskan pekerjaan yang perlu dilakukan. Skala biaya ini secara superlinear dengan jumlah orang yang terlibat. (Seperti yang diajarkan oleh J. Richard Hackman kepada kita, jumlah hubungan r tumbuh serupa dengan fungsi jumlah anggota n sesuai dengan persamaan ini: r = (n ^ 2-n) / 2. Dan setiap rasio mengungkapkan sejumlah rasio biaya tertentu). Ketika spesialis analisis data diatur berdasarkan fungsi, pada setiap tahap, dengan setiap perubahan, setiap transfer layanan, dll. Banyak spesialis diperlukan, yang meningkatkan biaya koordinasi. Misalnya, ahli statistik yang ingin bereksperimen dengan fitur-fitur baru harus berkoordinasi dengan insinyur pemrosesan data yang menambah set data mereka setiap kali mereka ingin mencoba sesuatu yang baru. Dengan cara yang sama, setiap model baru yang terlatih berarti bahwa pengembang model akan membutuhkan seseorang yang dapat dikoordinasikan dengan tindakan mereka untuk menjalankannya. Biaya koordinasi bertindak sebagai pembayaran untuk iterasi, yang membuatnya lebih sulit dan mahal dan lebih mungkin memaksa studi untuk ditinggalkan. Ini dapat mengganggu pembelajaran.

2. Ini mempersulit waktu tunggu.

Yang lebih menakutkan daripada biaya koordinasi adalah waktu yang hilang di antara shift. Sementara biaya koordinasi biasanya diukur dalam jam: waktu yang dibutuhkan untuk melakukan pertemuan, diskusi, ulasan proyek - waktu tunggu biasanya diukur dalam hitungan hari, minggu, atau bahkan bulan! Jadwal spesialis fungsional sulit untuk diselaraskan, karena setiap spesialis harus didistribusikan di beberapa proyek. Rapat satu jam untuk membahas perubahan bisa memakan waktu beberapa minggu untuk merampingkan alur kerja. Dan setelah menyepakati perubahan, perlu untuk merencanakan pekerjaan aktual itu sendiri dalam konteks banyak proyek lain yang memakan waktu kerja para spesialis. Pekerjaan yang terlibat dalam memperbaiki kode atau penelitian yang hanya membutuhkan beberapa jam atau hari untuk menyelesaikannya bisa memakan waktu lebih lama sebelum sumber daya tersedia. Sampai saat itu, iterasi dan pembelajaran dijeda.

3. Ini mempersempit konteksnya.

Pembagian kerja dapat secara artifisial membatasi pembelajaran dengan memberi penghargaan kepada orang-orang karena tetap berada dalam spesialisasi mereka. Sebagai contoh, seorang ilmuwan penelitian yang harus tetap berada dalam lingkup fungsionalitasnya akan memfokuskan energinya pada eksperimen dengan berbagai jenis algoritma: regresi, jaringan saraf, hutan acak, dan sebagainya. Tentu saja, pilihan algoritma yang baik dapat mengarah pada peningkatan bertahap, tetapi, sebagai suatu peraturan, lebih banyak yang dapat dipelajari dari kegiatan lain, seperti integrasi sumber data baru. Demikian pula, ini akan membantu mengembangkan model yang menggunakan setiap bit kekuatan penjelas yang melekat dalam data. Namun, kekuatannya mungkin terletak pada perubahan fungsi tujuan atau pelonggaran pembatasan tertentu. Sulit untuk dilihat atau dilakukan ketika pekerjaannya terbatas. Karena seorang ilmuwan spesialis mengkhususkan diri dalam mengoptimalkan algoritma, ia jauh lebih kecil kemungkinannya untuk melakukan hal lain, bahkan jika itu membawa manfaat yang signifikan.

Mari kita beri nama tanda-tanda yang muncul ketika tim sains data bekerja seperti pabrik pin (misalnya, dalam pembaruan status sederhana): "menunggu perubahan pipa data" dan "menunggu sumber daya ML Eng", yang merupakan pemblokir umum. Namun, saya percaya bahwa efek yang lebih berbahaya adalah apa yang tidak Anda perhatikan, karena Anda belum dapat menyesali apa yang belum Anda ketahui. Pemenuhan yang sempurna dari persyaratan dan kepuasan yang dicapai sebagai hasil dari pencapaian efisiensi proses dapat mengaburkan kebenaran bahwa organisasi tidak akrab dengan manfaat belajar yang mereka lewatkan.

Solusi untuk masalah ini, tentu saja, adalah dengan menyingkirkan metode pin pabrik. Untuk merangsang pembelajaran dan iterasi, peran ilmu data harus umum, tetapi dengan tanggung jawab luas yang independen dari fungsi teknis, yaitu, mengatur spesialis data sehingga mereka dioptimalkan untuk pembelajaran. Ini berarti bahwa perlu untuk menyewa "spesialis penuh-tumpukan" - spesialis umum yang dapat melakukan berbagai fungsi: dari konsep hingga pemodelan, dari implementasi hingga pengukuran. Penting untuk dicatat bahwa saya tidak berasumsi bahwa ketika mempekerjakan spesialis full-stack, jumlah karyawan harus berkurang. Kemungkinan besar, saya hanya akan berasumsi bahwa ketika mereka diatur secara berbeda, insentif mereka lebih selaras dengan manfaat pelatihan dan efektivitas. Misalnya, Anda memiliki tim yang terdiri dari tiga orang dengan tiga kualitas bisnis. Di pabrik untuk memproduksi pin, setiap spesialis akan mencurahkan sepertiga waktu untuk setiap tugas profesional, karena tidak ada orang lain yang dapat melakukan pekerjaannya. Dalam tumpukan penuh, setiap karyawan universal sepenuhnya didedikasikan untuk seluruh proses bisnis, penskalaan pekerjaan, dan pelatihan.

Dengan lebih sedikit orang yang mendukung siklus produksi, koordinasi berkurang. Gerobak dengan lancar bergerak di antara fungsi-fungsi, memperluas jalur data, untuk menambah lebih banyak data, mencoba fungsi-fungsi baru dalam model, menyebarkan versi baru dalam produksi untuk pengukuran kausal, dan mengulangi langkah-langkah secepat ide-ide baru datang. Tentu saja, station wagon melakukan fungsi yang berbeda secara seri, dan tidak secara paralel. Bagaimanapun, ini hanya satu orang. Namun, tugas biasanya hanya memakan sebagian kecil dari waktu yang diperlukan untuk mengakses sumber daya khusus lainnya. Jadi, waktu iterasi berkurang.

Station wagon kami mungkin tidak seprampil spesialis dalam fungsi pekerjaan tertentu, tetapi kami tidak mengusahakan keunggulan fungsional atau peningkatan bertahap kecil. Sebaliknya, kami berusaha untuk belajar dan menemukan tantangan profesional baru dengan dampak bertahap. Dengan konteks holistik untuk solusi lengkap, ia melihat peluang yang akan dilewatkan oleh spesialis sempit. Dia memiliki lebih banyak ide dan lebih banyak peluang. Dia juga gagal. Namun, biaya kegagalannya rendah, dan manfaat belajarnya tinggi. Asimetri ini mempromosikan iterasi cepat dan pembelajaran penghargaan.

Penting untuk dicatat bahwa ini adalah skala otonomi dan beragam keterampilan yang disediakan bagi para ilmuwan yang bekerja dengan tumpukan penuh, sebagian besar tergantung pada keandalan platform data tempat Anda dapat bekerja. Sebuah platform data yang dirancang dengan baik mengabstraksi data para ilmuwan dari kerumitan kontainer, pemrosesan terdistribusi, transfer otomatis ke sumber daya lain, dan konsep komputer canggih lainnya. Selain abstraksi, platform data yang andal dapat menyediakan konektivitas tanpa hambatan ke infrastruktur eksperimental, mengotomatisasi sistem pemantauan dan pelaporan, dan secara otomatis skala dan memvisualisasikan hasil algoritme dan debugging. Komponen-komponen ini dirancang dan dibuat oleh insinyur platform data, yaitu, mereka tidak ditransfer dari spesialis Ilmu Data ke tim pengembangan platform data. Adalah Spesialis Ilmu Data yang bertanggung jawab atas semua kode yang digunakan untuk meluncurkan platform.

Saya juga pernah tertarik pada pembagian fungsional tenaga kerja menggunakan efisiensi proses, tetapi dengan coba-coba (tidak ada cara yang lebih baik untuk belajar), saya menemukan bahwa peran tipikal berkontribusi lebih baik untuk pembelajaran dan inovasi dan memberikan indikator yang tepat: menemukan dan membangun sejumlah peluang bisnis yang jauh lebih besar daripada pendekatan khusus. (Cara yang lebih efektif untuk mempelajari pendekatan organisasi ini daripada metode trial and error yang saya lalui adalah membaca buku Amy Edmondson, Interaksi Tim: Bagaimana Organisasi Belajar, Menciptakan Inovasi, dan Bersaing dalam Ekonomi Pengetahuan.)

Ada beberapa asumsi penting yang dapat membuat pendekatan organisasi ini lebih atau kurang dapat diandalkan di beberapa perusahaan. Proses iterasi mengurangi biaya coba-coba. Jika biaya kesalahan tinggi, Anda mungkin ingin menguranginya (tetapi, ini tidak disarankan untuk aplikasi medis atau produksi). Selain itu, jika Anda berurusan dengan petabytes atau exabytes data, spesialisasi dalam desain data mungkin diperlukan. Demikian pula, jika mempertahankan peluang bisnis online dan aksesibilitasnya lebih penting daripada meningkatkannya, keunggulan fungsional dapat mengungguli pembelajaran. Akhirnya, model tumpukan penuh didasarkan pada pendapat orang-orang yang mengetahuinya. Mereka bukan unicorn; mereka dapat ditemukan atau dipersiapkan sendiri. Namun, mereka dalam permintaan tinggi, dan untuk menarik dan mempertahankan mereka di perusahaan akan memerlukan kompensasi finansial yang kompetitif, nilai-nilai perusahaan yang berkelanjutan dan pekerjaan yang menarik. Pastikan budaya perusahaan Anda dapat menyediakan kondisi ini.

Bahkan dengan semua ini dikatakan, saya percaya bahwa model full-stack memberikan kondisi terbaik untuk memulai. Mulailah dengan mereka, dan kemudian secara sadar bergerak menuju pembagian fungsional kerja hanya ketika itu benar-benar diperlukan.

Ada kelemahan lain dari spesialisasi fungsional. Hal ini dapat menyebabkan hilangnya tanggung jawab dan kepasifan di pihak para pekerja. Smith sendiri mengkritik pembagian kerja, menyarankan bahwa itu mengarah pada menumpulkan bakat, yaitu. pekerja menjadi tidak tahu apa-apa dan menarik diri, karena peran mereka terbatas pada beberapa tugas yang berulang. Sementara spesialisasi dapat memastikan efisiensi proses, kecil kemungkinannya untuk menginspirasi pekerja.

Pada gilirannya, peran universal menyediakan segala sesuatu yang merangsang kepuasan kerja: otonomi, keterampilan, dan tekad. Otonomi adalah bahwa mereka tidak bergantung pada apa pun dalam mencapai kesuksesan. Penguasaan terletak pada keunggulan kompetitif yang kuat. Dan tekad adalah kemampuan untuk mempengaruhi bisnis yang mereka ciptakan. Jika kita berhasil membuat orang terbawa oleh pekerjaan mereka dan memiliki dampak besar pada perusahaan, maka semua yang lain akan jatuh ke tempatnya.

Source: https://habr.com/ru/post/id450420/


All Articles