Bagaimana cara didorong data. Dari awal

Jumlahnya sangat berarti bagi kami. Kami berinvestasi dalam data, mendengarkan dan memahaminya. Kami dibimbing oleh mereka saat membuat keputusan. Terlepas dari kenyataan bahwa kami masih memiliki banyak kemajuan dalam hal infrastruktur untuk bekerja dengan data, pendekatan berbasis data selalu bersama kami. Dalam teks ini - sebuah cerita tentang ke mana kita pergi, pelajaran apa yang kita pelajari dan apa yang telah kita kumpulkan.

gambar

Nama saya Andrey Sytsko, saya adalah kepala lini produk di perusahaan fintech ID Finance. Seperti yang saya katakan, kami masih memiliki jalan panjang dalam hal metode dan alat untuk bekerja dengan data. Pertumbuhan berganda yang dialami perusahaan sejak awal menetapkan langkah yang tidak dapat dicapai untuk infrastruktur analitik. Namun, kemungkinan ekspektasi dari pendekatan yang didorong oleh data hanya meningkat dengan kecepatan yang lebih cepat. Pada akhirnya, seperti yang kita semua pahami, bukan hanya alat dan teknologi spesifik yang penting, tetapi juga pendekatan, budaya, dan pandangan dunia.

Apa itu budaya yang didorong oleh data?


Apa yang kita maksudkan dengan budaya berbasis data di sebuah perusahaan? Menurut pendapat saya, ini adalah ketika kita secara internal sepakat bahwa data dapat memberikan jawaban atau saran yang baik dalam kerangka dilema bisnis tertentu. Ada beberapa konsekuensi dari pengaturan semacam itu:

  • Kami siap berinvestasi dalam bekerja dengan data: ekstraksi, penyimpanan, analisis, interpretasi, visualisasi, dan banyak lagi. Siap menghabiskan uang dan waktu
  • Kami siap mendengarkan data. Yaitu ketika Anda perlu membuat keputusan bisnis, kami berhenti dan memberi tahu diri sendiri - mari kita lihat angkanya.
  • Kita bisa mengerti datanya. Memang, menakutkan untuk menarik kesimpulan yang salah, memiliki semua angka yang diperlukan. Katakan apa yang Anda suka, ada beberapa persyaratan minimum untuk pemikiran analitis pengambil keputusan untuk mengekstraksi makna dari tabel, grafik, dan grafik.
  • Kami mempercayai data dan dipandu oleh mereka saat membuat keputusan. Ketika seorang manajer, melihat laporan analitis yang disiapkan, mengatakan bahwa ia akan melakukan yang lebih baik seperti pengalaman mengatakan kepadanya, daripada laporan, maka ia tidak selalu salah. Bagaimana jika analis tidak memperhitungkan musiman, hasil pemilihan umum mendatang, atau yang lainnya? Dialog antara manajer dan analis, saling percaya adalah penting di sini.

Secara alami, budaya yang didorong oleh data di perusahaan paling mudah dibangun ketika pendiri perusahaan sudah menjadi operatornya. Penggunaan data dalam pengambilan keputusan membuat proses ini lebih memakan waktu dan mahal. Dan tanpa keyakinan serius bahwa masuk akal untuk melakukannya, dan bukan sebaliknya, Anda tidak akan pergi jauh. Kami beruntung dalam hal ini - fondasi yang tepat untuk bangunan masa depan sudah diletakkan.

Langkah infrastruktur pertama


Hal pertama yang akan Anda temui dalam perjalanan menuju pengambilan keputusan berdasarkan data ideal adalah Anda tidak memiliki cukup data. Secara umum, mereka akan selalu dirindukan karena alasan obyektif, tetapi Anda harus memulai dari suatu tempat.

Untuk memulai, Anda membangun infrastruktur untuk mengumpulkan dan menyimpan metrik. Dalam sebagian besar proyek untuk backend data (bagi kami, misalnya, informasi tentang pelanggan, pinjaman dan pembayaran untuk mereka), replika basis produksi hanya digunakan pada awalnya. Dalam hal ini, Anda harus sepenuhnya menikmati struktur data internal perangkat lunak Anda, yang dibuat oleh pengembang tanpa memikirkan untuk membuat data nyaman untuk dianalisis. Tapi kami punya informasi dari tangan pertama. Pada awalnya, biasanya ada satu basis data, dan struktur datanya relatif sederhana, serta pertanyaan yang ingin Anda tanyakan untuk data ini, jadi ini adalah opsi yang benar-benar berfungsi dan berinvestasi pada sesuatu yang lebih rumit tidak masuk akal.

Untuk data front-end (tampilan halaman, interaksi dengan kontrol, gulir, klik, input), Anda dapat menggunakan alat klasik seperti Google Analytics atau Yandex.Metrica dan, misalnya, HotJar untuk merekam sesi. Ada cukup fungsionalitas dasar untuk tugas pemasaran, dan untuk laporan produk tentang corong dan uji a / b, kami dengan cepat beralih untuk bekerja melalui Google Reporting API. Kami sudah menceritakannya di Habré. Di sini dan di sini .

gambar

Setelah Anda membangun infrastruktur dasar dan mulai mengumpulkan statistik dasar, Anda perlu memastikan bahwa produk akan berkembang secara bersamaan dengan metriknya.

Yaitu ketika Anda akan mengimplementasikan fitur baru dalam suatu produk, Anda perlu menjawab pertanyaan-pertanyaan berikut:

  • Apa metrik bisnis utama yang akan mempengaruhi ini?
  • Perubahan apa yang akan dibuat untuk perjalanan pelanggan atau algoritma backend? Dan bagaimana ini akan memengaruhi metrik yang ada?
  • Tahap / komponen apa yang bisa saya hancurkan fungsionalitas baru sehingga dengan mengumpulkan metrik untuk masing-masing, saya bisa melihat ke dalam dan menganalisis pekerjaan fitur

Sekarang pikirkan apakah kemampuan untuk mengumpulkan semua metrik di atas adalah bagian dari pernyataan masalah. Dan bagaimana tepatnya Anda mengumpulkannya ketika fungsionalitas diterapkan?

Selanjutnya, Anda perlu memastikan bahwa subsistem untuk mengumpulkan dan menyimpan statistik cukup penting bagi tim pengembangan Anda dan tim TI. Kepentingannya harus hampir sama dengan pentingnya sistem produksi. Misalnya, pada awalnya kami memiliki masalah konstan dengan pelacakan Google Analytics menghilang dari halaman yang berbeda, sampai kami membahas pentingnya hal-hal ini dengan pengembang. Setelah itu, perpustakaan umum yang diperlukan, pedoman QA, dll muncul.

Analisis untuk Analis


Ketersediaan data tidak berarti penggunaannya yang efektif. Masalah / tugas berikut biasanya terjadi:

  • Di mana mendapatkan metrik ini atau itu? Bagaimana cara mengeluarkannya dari sana?
  • Apakah dia benar? (tiba-tiba semuanya tidak berfungsi sebagaimana dimaksud)
  • Laporan apa yang harus saya buat sehingga saya bisa menarik kesimpulan?
  • Apakah ada signifikansi statistik?
  • Apakah mungkin menggali lebih banyak data untuk lebih memahami apa yang terjadi atau memeriksa metrik yang dikumpulkan dalam satu cara / di satu tempat oleh metrik lain.

gambar

Ternyata ini adalah pekerjaan yang cukup banyak yang membutuhkan keterampilan khusus dan, yang paling penting, waktu. Jadi ada kebutuhan untuk membuat departemen analitik.

Departemen analitik kami cukup besar, dalam hal jumlah orang hampir sama dengan manajemen menengah. Ini berisi kedua siswa kemarin dengan pengetahuan yang baik tentang SQL, dan para profesional yang mengerti dengan baik bagaimana dan data apa yang perlu diperoleh untuk membuat keputusan bisnis. Aliran permintaan kepada mereka secara tradisional melebihi kemampuan mereka.

Danau dan gudang data


Salah satu masalah yang mungkin Anda temui ketika akan ada semakin banyak data adalah bahwa mereka terletak di tempat yang berbeda dan beberapa analis dapat bekerja dengan beberapa repositori, yang lain dengan yang lain. Dan dengan beberapa database, mungkin, tidak ada yang tahu cara bekerja segera. Juga menjadi sulit untuk membandingkan data ini satu sama lain.
Solusi untuk masalah ini dapat berupa sistem seperti data warehouse (DWH). Dalam kasus kami, kami memikirkan hal ini untuk pertama kalinya, ketika kami ingin menggabungkan data tentang perilaku pengguna di situs dan data tentang perilakunya sebagai peminjam. Prinsip-prinsip membangun DWH jauh di luar ruang lingkup artikel ini, saya hanya akan mengatakan apa kesulitan / fitur dalam kasus kami:

  • masing-masing proyek kami (sekarang ada 9 di 6 negara) struktur data sedikit berbeda dan, oleh karena itu, perlu untuk mengembangkan prinsip-prinsip untuk penyatuan mereka.
  • Itu perlu dipikirkan bagaimana menyatukan data heterogen dalam satu penyimpanan.

Sebagai contoh:

  1. perilaku pengguna di situs - transisi antar halaman, interaksi dengan kontrol
  2. log kerja kebijakan kredit - implementasi aturan dan hasilnya, transisi sepanjang cabang logika
  3. perilaku peminjam - pembayaran pinjaman, cross-selling

Sekarang setelah kami telah mempelajari kurang lebih cara mengintegrasikan data satu sama lain dan menggabungkannya ke dalam satu Danau Data, kami melanjutkan untuk membuat etalase - set data, laporan, dan visualisasi yang telah disiapkan sebelumnya - yang menjadi tujuan semua ini. Di pintu keluar, kami berharap untuk menerima pengurangan yang signifikan dalam persyaratan untuk keterampilan dan biaya tenaga kerja analis kami.

Biasanya pada tahap ini, peran insinyur data khusus muncul di perusahaan - mis. orang yang bertanggung jawab atas infrastruktur data. Mereka dipercayakan dengan tugas memelihara dan mengembangkan DWH.

Lebih baik mempekerjakan orang yang tepat segera.


Dengan pertumbuhan perusahaan, ternyata tidak semua karyawan segera memahami pentingnya data dan mampu bekerja dengan mereka. Dua pertanyaan muncul: promosi internal dan mempekerjakan orang yang tepat.

Adapun promosi internal, maka, seperti yang disebutkan di atas, jika pendiri perusahaan adalah pembawa budaya data, maka itu turun ke manajemen puncak, manajemen menengah, dan sebagainya. Sebagai contoh, saya meminta dari manajer produk saya untuk menghitung efek potensial dalam uang atau mengubah metrik kunci sebelum implementasi, dan melihat fakta rencana setelah implementasi fungsionalitas baru. Atau, katakanlah, untuk memprioritaskan pekerjaan, dipandu oleh penilaian "nilai bisnis" yang sama.

Kami mendekati penanaman budaya berbasis data dari dua sisi. Departemen TI kami mungkin mengharuskan manajer bisnis untuk menetapkan perkiraan dampak uang dalam laporan tugas. Dan ini berlaku untuk semua departemen: pemasaran, dukungan, akuntansi. Untuk ini, kami baru-baru ini menambahkan persyaratan bahwa bisnis secara eksplisit menggambarkan metrik yang dengannya ia akan melacak hasil dari perubahan yang diterapkan, dan TI harus memastikan bahwa metrik ini dapat diakses dengan cara yang dapat dimengerti.

Penting, tentu saja, untuk segera memeriksa ketika merekrut orang apakah mereka terbiasa berfokus pada angka-angka dalam pekerjaan mereka atau tidak, apakah mereka tahu cara melakukannya. Pertanyaan favorit saya selama wawancara, ketika kami membahas pengalaman kandidat: bagaimana Anda menghitung efek yang akan diberikan fitur, bagaimana Anda mengukur efek apa yang sebenarnya diberikannya, dan mengapa menurut Anda efek ini harus dikaitkan dengan fitur ini, dan bukan untuk sesuatu yang lain. Calon yang baik akan selalu dapat membenarkan secara logis mengapa ia melakukannya dan bukan sebaliknya.

Dengan pertumbuhan volume bisnis dan data, menjadi lebih berarti untuk menggunakan teknik statistik yang lebih maju dan perpustakaan aplikasi yang lebih maju - beberapa dari apa yang sekarang disebut ilmu data.

Jika kita berbicara tentang ilmu data dalam arti yang lebih luas daripada jaringan saraf dan pembelajaran mesin, maka, misalnya, kami memiliki pengalaman yang sukses dalam berpindah dari paket klasik seperti SAS untuk membangun regresi logistik ke alat python yang ditulis sendiri. Ini mengurangi waktu untuk mengembangkan penilaian kredit sebanyak 5 kali.

Pada titik tertentu, kami menyadari bahwa regresi logistik dan analisis kluster pada volume tertentu membenarkan penggunaannya dalam pemasaran dan manajemen produk untuk tugas-tugas yang berkaitan dengan segmentasi pelanggan dan menentukan produk optimal atau strategi diskon secara individual untuk setiap klien.

Belajar memprediksi masa depan


Keunikan bisnis pinjaman adalah bahwa tidak cukup untuk menjual produk - uang secara kredit, Anda perlu mengelola arus kas masa depan. Karenanya, peran berbagai model prediktif dan integrasinya ke dalam ramalan P&L di masa mendatang muncul. Contoh model tersebut: biaya masa depan berdasarkan data tunggakan awal, tagihan rata-rata berdasarkan data segmentasi pelanggan, jumlah pinjaman berdasarkan data pengembalian, dan sejenisnya.

gambar

Ini umumnya sangat menginspirasi ketika ada toolkit yang memungkinkan Anda untuk mengevaluasi dampak fitur Anda pada berbagai metrik bisnis utama dan memprediksi peningkatan pendapatan perusahaan.

Untuk mengembangkan, memelihara, dan mengimplementasikan alat-alat tersebut, kami sekarang sedang mengembangkan departemen untuk perencanaan dan analisis keuangan (FP&A), yang tugasnya akan membuat pengambilan keputusan bisnis semakin didukung oleh data, analisis, dan pemodelan.

Di depan kita masih banyak hal yang menarik: pengembangan lebih lanjut dari infrastruktur BI, penciptaan departemen yang mendukungnya dan proses yang menggunakannya.

Sebagai rangkuman, kita dapat membedakan prinsip-prinsip berikut untuk pengembangan pendekatan berbasis data, yang akan saya patuhi:

  • Pengembalian investasi yang diharapkan (misalnya, dalam menghemat waktu staf, meningkatkan akurasi / kecepatan pengambilan keputusan, dll.) Memadai untuk sumber daya yang dikeluarkan.
  • Manajemen produk internal: ketika membuat dan mengembangkan infrastruktur, "Daftar Keinginan" dan umpan balik dari pelanggan internal diselidiki. Dan diperhitungkan.
  • Pengembangan infrastruktur harus mengikuti perkembangan proses dan metodologi. Dan semuanya bersama-sama - tidak ketinggalan dan tidak melampaui pengembangan perusahaan dalam hal kebutuhan analitiknya.

Source: https://habr.com/ru/post/id461339/


All Articles