
"Berapa banyak ilmuwan yang kamu butuhkan untuk mengubah bohlam?"
- Satu, jika seleksi historis bohlam yang berhasil diputar cukup.
Ini, tentu saja, adalah sebuah lelucon, tetapi ketika di sebuah perusahaan datang ke menjinakkan data besar untuk meningkatkan kinerja bisnis, tidak semua orang mengerti siapa yang akan menjinakkannya. Pendapat klasik: Anda memerlukan ilmuwan data - analis data yang dapat membangun model, memahami kecerdasan buatan dan pembelajaran mesin. Dan pria ini memutuskan semuanya dalam satu kepala.
Juga, ada kecenderungan bahwa ketika divisi Big Data dibentuk di sebuah perusahaan, maka Data Scientists adalah mereka yang dipekerjakan.
Pada kenyataannya, semuanya lebih rumit. Tanpa tanggal Scientist, tentu saja, tidak ada pekerjaan dengan data besar, tetapi dia bukan seorang pejuang sendirian di lapangan. Siapa lagi yang harus bertarung bahu-membahu dengannya lebih baik dipahami oleh contoh-contoh.
Mediator
Katakanlah ada jaringan klub kebugaran yang ingin menggunakan data besar. Data Scientist memecahkan masalah memprediksi bahwa klien, di samping pelatihan dasar, cenderung menggunakan beberapa masalah pribadi lainnya. Spesialis mengambil data tentang siapa yang melakukan apa sebelumnya, dan membangun model kecanduan.
Muncul pertanyaan - pelatihan apa? Dan bagaimana kita mengusulkan agar dia pergi ke mereka? Penting untuk secara jelas membagi pelatihan menjadi pria dan wanita. Dibagi dengan logika bisnis - jika seseorang sudah terlibat dengan pelatih premium, kami tidak boleh menawarkan non-premium.
Atau contoh dari sektor perbankan. Bank memiliki produk yang dijual sendiri, dan ada yang sering dijual bersama dengan yang lain. Kami membeli kartu atau mengambil pinjaman, dan pada saat yang sama kami menjual asuransi. Kisah serupa di perusahaan asuransi. Kita dapat membeli asuransi mobil, tetapi pada saat yang sama kita dapat menjual asuransi jiwa secara paralel.
Jadi, jika Anda tidak tahu bisnisnya, tetapi ada tugas untuk memperkirakan pembelian, Anda dapat melakukan hal berikut: "Lihat, banyak pelanggan kami membeli pelatihan / asuransi ini". Dan mulai membangun model di atasnya untuk merangsang penjualan. Tetapi bisnis tahu bahwa pelatihan / asuransi ini hanya berjalan dengan sesuatu. Dan bahkan modelnya mungkin bagus, tetapi produknya tidak akan bekerja secara terpisah.
Saat membangun model, selalu ada satu set catatan pengantar yang terkait dengan bagaimana bisnis bekerja. Dan jika kita salah memformulasikannya, maka tidak akan masuk akal. Oleh karena itu, selain data Scientist yang sebenarnya, Anda memerlukan pemilik produk - manajer produk yang akan berteman dengan bisnis dengan matematika.
Dua peran ini merupakan keharusan bagi tim data besar. Penting: jika kita memiliki beberapa lini bisnis, maka untuk setiap arah kita membutuhkan produk kita sendiri. Data Scientist dapat bersifat universal.
Anda bahkan bisa mengatakan bahwa pemilik produk adalah orang yang memulai semuanya. Siapa yang muncul dengan studi kasus pembelajaran mesin di perusahaan tertentu dan kemudian mendorong implementasi kasus-kasus ini.
Tapi seperti yang mereka katakan, dan itu belum semuanya.
Programmer penggali
Bayangkan sebuah bank memutuskan untuk mempromosikan kartu khusus untuk pelanggan yang sering bepergian ke luar negeri. Data historis apa yang dapat ia jadikan dirinya sebagai tanda? Yang paling jelas adalah bahwa pada suatu saat, ada transaksi di luar negeri pada kartu klien. Gejalanya sederhana, tetapi perlu diberikan persyaratan yang jelas. Berapa kali setahun transaksi semacam itu? Apa poinnya? Untuk periode apa? Semua ini perlu dirumuskan, dan kemudian dikodekan dari data sederhana sehingga atribut dipilih dengan benar. Untuk melakukan ini, Anda memerlukan orang yang terpisah - seorang insinyur data.
Tugas peran sangat berbeda. Data Scientist harus membangun model yang baik. Kepala disibukkan dengan memilih fitur, kasus, algoritma yang digunakan, cara mengoptimalkan sehingga model bekerja dengan cepat. Dan seorang insinyur data lebih seperti programmer atau pengembang basis data. Dia perlu mengumpulkan data dari 10/100/500 tabel dan sumber yang berbeda, menghitung ini, membandingkan ini, mempertimbangkan ini, ini dan itu.
Poin penting: insinyur data tidak menyala pada tahap pertama. Seperti yang telah kita lihat, siklus pengembangan terdiri dari tahap percobaan (MVP - produk yang layak) dan tahap produktif. Saat kami bereksperimen, sangat sulit untuk menggambarkan data dengan jelas kepada teknisi setiap kali data apa yang akan diunggah. Ada kreativitas, hipotesis sedang dikerjakan, data berputar dengan cara yang berbeda. Di sini, bahkan ketidaknyamanan sedikit pun antara Scientist dan insinyur menunda kesiapan MVP selama berminggu-minggu.
Lebih tepatnya, Insinyur Data melakukan iterasi pertama persiapan data, karena jika tidak ada data, maka Ilmuwan Data tidak ada hubungannya dengan. Selanjutnya, Data Scientist secara iteratif membangun fitur untuk model. Setelah model berhasil dan perlu dikonversi menjadi Insinyur Data yang produktif sesuai dengan spesifikasi dari Data Scientist, ia menulis kode produktif untuk perhitungan sifat secara teratur.
Oleh karena itu, tren saat ini: pada tahap MVP, Ilmuwan menyiapkan data secara mandiri. Tetapi kemudian, ketika model dibangun dan semua orang menerimanya, Data Scientist dengan jelas menjelaskan bagaimana atribut yang ia butuhkan terbentuk, dan meneruskannya kepada orang yang terlatih secara terpisah. Dia memprogram mereka sehingga mereka selalu digunakan dalam produk.
Cerita ini juga dapat diputar - jika tujuan bisnis belum ditentukan, tetapi perusahaan memiliki sejumlah besar data yang ingin Anda gunakan.
Dalam hal ini, kami mencoba 100 kasus bersyarat, 100 MVP, yang dapat digunakan untuk menembak. Jika Anda memperluas proses pembuatan MVP dalam setiap kasus, 80% digunakan untuk persiapan data, 20% - untuk model itu sendiri. Setiap kali, data harus diperoleh dari sumber yang berbeda dan multi-format. Kumpulkan mereka menjadi tanda-tanda yang logis dan dapat dimengerti: misalnya, "transaksi di titik N" harus berubah menjadi "perjalanan ke luar negeri berkali-kali setahun".
Pekerjaan ini membutuhkan banyak waktu. Jika kami menggunakan semacam vektor data dan membuat model, dan ternyata jelek, kami kembali dan mengunggah data lagi. Dengan setiap case dari 100. Anda dapat mengoptimalkan iterasi ini hanya dalam satu cara - jika kita memiliki "showcase" besar di muka dengan semua atribut yang mungkin - ribuan, puluhan ribu. Untuk membuat "showcase" seperti itu adalah tugas seorang insinyur tanggal di bawah arahan seorang ilmuwan tanggal. Percobaan dipercepat secara signifikan - parameter input untuk model dapat dipilih dan diubah dengan cepat.
Konduktor Data Besar Orkestra
Kami mengumpulkan data, membuat model, berteman dengan bisnis. Hanya itu semua
Tidak semua. Kisah data besar ini harus memiliki seorang pemimpin. Tampaknya postingan ini adalah yang paling sederhana dan paling mudah dipahami, tetapi ini tidak sepenuhnya benar. Pemimpin harus menggabungkan dua properti yang biasanya tidak terlalu digabungkan.
Jika kita memulai data besar dari awal di sebuah perusahaan, kita membutuhkan seorang Ahli Strategi dan Penjual sebagai kepala dan penggerak arah. Dia akan menjelaskan kepada seluruh perusahaan mengapa bekerja dengan data besar sangat penting. Jelas bahwa pada awal sesuatu yang inovatif sangat sulit untuk meminta kasus bisnis yang jelas, karena didasarkan pada sejumlah besar asumsi. Oleh karena itu, sang ahli strategi akan menjelaskan: teman-teman, kami akan merencanakan data besar pada prinsip "top down" (top down). Dan tetapkan tujuan dari berbagai tingkat globalitas, seperti:
- sehingga setelah 5 tahun, pendapatan dari proyek, produk yang terkait dengan big data adalah 10% dari pendapatan kami
- mengurangi risiko default sebesar 20%
- mengurangi 30% kantor yang tidak efisien
dan sebagainya.
Di sisi lain, ahli strategi ini harus dapat menjual ide di dalam organisasi.
Masalahnya adalah jika orang seperti itu sudah ditemukan, maka sulit baginya dalam hal taktis. Untuk mewujudkan ide-ide ahli strategi di tingkat fisik, Anda membutuhkan orang yang operasional. Dia akan membangun proses bisnis, analis, manajer produk, melakukan segalanya dengan gesit. Penting agar semua ini bekerja dengan cepat. Oleh karena itu, kepemimpinan dibagi menjadi dua bagian: ahli strategi bertanggung jawab atas masa depan yang cerah, operator lebih rendah dari ahli strategi dan mengimplementasikan rencana. Tak satu pun dari mereka dapat mengatasinya sendiri.
Anda masih dapat melihat masalah ini dari sudut yang sama sekali berbeda. Bayangkan penerapan teknologi Big Data direncanakan di perusahaan produksi klasik besar yang teknologi ini baru. Siapa yang ditugaskan? Seseorang dari luar, dengan pengalaman luas dalam menerapkan data besar di berbagai industri dan pengetahuan di bidang ini, atau seseorang dari dalam, yang telah lama berada di perusahaan, memiliki posisi yang cukup tinggi, telah mengimplementasikan banyak proyek yang semua orang tahu dan hormati?
Saya pikir jelas bahwa seseorang dari dalam, yang tahu bagaimana perusahaan bekerja dari dalam, mengenal orang dan proses di sana akan mencapai lebih banyak. Karenanya, untuk membantunya, Anda perlu menempatkan seseorang dari luar, dengan pengalaman dalam mengimplementasikan Big Data, sehingga ia menunjukkan arahan yang diperlukan dan mengelola tim Big Data.
Tempatkan di bawah sinar matahari
Kami memutuskan komposisi. Tetap menundukkan orkestra data besar ke departemen yang tepat.
Adalah logis untuk mendefinisikannya ke arah bisnis yang kita optimalkan. Adalah baik jika perusahaan tersebut matang. Kemudian Anda dapat mencoba menempatkan data besar dalam target penjualan. Kami membutuhkan cabang bisnis untuk membuatnya bekerja. Misalnya, untuk bank, jika kami ingin mempertahankan pelanggan, kami membutuhkan cabang yang dapat berkomunikasi dengan pelanggan yang dipilih oleh model dan benar-benar menahan mereka. Jika Anda ingin menggunakan data besar untuk merencanakan lokasi kantor bank, Anda memerlukan cabang yang berhubungan dengan pembukaan kantor-kantor ini. Kami ingin mengoptimalkan data untuk penilaian perbankan - kami membutuhkan cabang yang bertanggung jawab atas risiko. Tanpa arahan bisnis yang bertanggung jawab untuk bekerja dengan hasil model, tidak ada yang akan datang darinya.
Secara global, tanpa dukungan langsung dari atas, topik tidak akan lepas landas - Anda memerlukan strategi top down yang sama. Terutama ketika Anda membutuhkan dukungan dari arah yang sudah sibuk dengan prosesnya, dan menyipit semua jenis inovasi.
Ingin mempelajari lebih lanjut tentang aspek penerapan Big Data di perusahaan, baca publikasi kami yang lain di
situs web kami atau datang untuk belajar di
School of DataPosting disiapkan
oleh School of Data berdasarkan publikasi pendiri Sekolah di
Business HUB Kyivstar PJSC