Penulis materi mengadakan serangkaian percakapan dengan para ahli di bidang analisis dan pemrosesan data dan membuat kesimpulan tentang prospek dan arah pengembangan ilmuwan data.Teori dan metode pengolahan data telah menyederhanakan solusi berbagai masalah di bidang teknologi. Ini termasuk optimalisasi hasil pencarian Google, rekomendasi di LinkedIn, pembentukan judul di Buzzfeed. Namun, bekerja dengan data dapat secara signifikan mempengaruhi banyak sektor ekonomi: mulai dari ritel, telekomunikasi, pertanian hingga layanan kesehatan, pengangkutan dan sistem hukuman.
Namun demikian, istilah "ilmu data", "teori dan metode analisis data" dan "ilmuwan data" tidak sepenuhnya dipahami. Dalam praktiknya, mereka digunakan untuk menggambarkan berbagai metode bekerja dengan informasi.
Apa yang sebenarnya dilakukan oleh para pakar ilmu data? Sebagai tuan rumah podcast
DataFramed, saya mendapat peluang besar untuk mewawancarai lebih dari 30 pakar analisis data dari berbagai industri dan disiplin ilmu. Antara lain, saya selalu bertanya apa sebenarnya pekerjaan mereka.
Ilmu data adalah bidang yang sangat luas. Tamu saya mendekati percakapan kami dari berbagai posisi dan sudut pandang. Mereka menggambarkan berbagai kegiatan, termasuk kerangka pengembangan produk online skala besar di booking.com dan Etsy, metode yang digunakan oleh Buzzfeed untuk memecahkan masalah bandit multi-bersenjata dalam mengoptimalkan judul untuk material, dan dampak pembelajaran mesin terhadap keputusan bisnis airbnb.
Contoh terakhir disuarakan oleh Robert Cheng, spesialis analisis data di Airbnb. Ketika dia bekerja di Twitter, perusahaan itu fokus pada pertumbuhan. Sekarang di Airbnb, Cheng sedang mengembangkan model pembelajaran mesin besar-besaran.
Pendekatan penerapan teori analisis dan pemrosesan data bisa sangat berbeda, dan pilihan solusi tidak hanya tergantung pada industri, tetapi juga pada jenis bisnis dan tugasnya.
Namun, meskipun beragam, sejumlah topik umum terlihat jelas dalam semua wawancara.
Apa yang dilakukan para ahli ilmu data?
Kami tahu cara kerja ilmu data, setidaknya di industri teknologi. Para peneliti pertama-tama meletakkan dasar yang kuat dalam bentuk informasi yang dikumpulkan untuk melakukan pekerjaan analitis yang menyeluruh. Pada tahap selanjutnya, mereka, antara lain, menggunakan eksperimen online untuk kemajuan berkelanjutan dalam menyelesaikan masalah. Akibatnya, metode pembelajaran mesin dan produk khusus diciptakan untuk memproses data yang diperlukan untuk lebih memahami bisnis Anda dan membuat keputusan yang lebih baik. Artinya, esensi dari metode pengolahan data di bidang teknologi turun ke membangun infrastruktur, melakukan tes dan pembelajaran mesin untuk membuat keputusan dan membuat produk informasi.
Langkah besar sedang diambil di sektor non-teknologi lainnya.
Pada salah satu pertemuan, Ben Skrainka, seorang spesialis pemrosesan data di Convoy, dan saya memeriksa penggunaan metode pemrosesan informasi yang efektif untuk berinovasi di industri transportasi barang Amerika Utara. Dan Sandy Griffith dari Flatiron Health berbicara tentang peran penting yang dimainkan oleh analisis data dalam studi kanker. Bersama dengan Drew Conway, kami mendiskusikan perusahaannya Alluvium, yang “menggunakan kecerdasan buatan dan pembelajaran mesin untuk mengidentifikasi pola yang berguna berdasarkan aliran data skala besar yang dihasilkan selama pengoperasian sistem industri.” Mike Tamir, kepala departemen mengemudi otonom Uber saat ini, berbicara tentang bekerja di Takt, di mana Tamir membantu perusahaan-perusahaan Fortune 500 memperkenalkan metode pengolahan dan analisis data. Antara lain, ia berbagi pengalamannya dalam mengembangkan sistem rekomendasi untuk Starbucks.
Analisis data tidak hanya prospek mobil otonom dan kecerdasan buatan
Banyak tamu podcast saya skeptis terhadap generalisasi fetish AI pada media populer (contoh: artikel VentureBeat "Dewa AI akan dibuat pada tahun 2042, siapa yang akan menulis Alkitabnya. Apakah Anda akan menyembahnya?") Dan hype seputar mesin dan kedalaman belajar. Tentu saja, kedua area ini merupakan pendekatan yang kuat dengan contoh penting aplikasi praktis. Tetapi kegembiraan seperti itu harus selalu diperlakukan dengan bagian skeptisisme yang sehat. Hampir semua tamu saya mencatat bahwa para peneliti sejati di bidang ini mencari nafkah dengan mengumpulkan dan menyaring data, membuat dasbor dan laporan, melakukan visualisasi data dan analisis statistik. Selain itu, mereka harus dapat menyampaikan esensi hasil kepada para pemain kunci dan meyakinkan para pembuat keputusan.
Himpunan keterampilan yang dituntut oleh profesi ilmuwan Data terus berubah dan diisi ulang (dan memiliki pengalaman bekerja dengan pelatihan mendalam bukanlah persyaratan utama)
Dalam percakapan dengan Jonathan Nolis, salah satu analis data terkemuka Seattle yang bekerja dengan perusahaan-perusahaan Fortune 500, kami membahas pertanyaan berikut: "Manakah dari dua keterampilan yang lebih penting bagi seorang profesional data adalah kemampuan untuk menggunakan model rumit yang mendalam pelatihan atau kemampuan untuk menggambar slide yang baik di PowerPoint? " Nolis berpendapat mendukung yang terakhir, percaya bahwa penjelasan yang dapat diakses dari hasil analisis tetap menjadi elemen kunci dari bekerja dengan informasi.
Topik populer lainnya adalah variabilitas seperangkat keterampilan inti. Relevansi beberapa dari mereka mungkin berubah di masa mendatang. Pesatnya perkembangan alat analisis data komersial dan terbuka telah mengarah pada fakta bahwa sekarang kita menyaksikan transisi besar-besaran ke otomatisasi banyak tugas rutin, seperti pembersihan data dan persiapan awal mereka. Sampai sekarang, itu adalah
hal biasa ketika 80% dari waktu berharga peneliti dihabiskan untuk pencarian sederhana, penyaringan dan penataan data, dan hanya 20% pada analisis mereka. Tapi keadaan ini tidak mungkin bertahan. Saat ini, otomatisasi bahkan telah mencapai proses permesinan dan pembelajaran yang mendalam. Secara khusus, dalam podcast terpisah yang sepenuhnya didedikasikan untuk masalah-masalah seperti itu, Randal Olson, seorang spesialis analisis data dan pemrosesan terkemuka di Life Epigenetics, membicarakan hal ini.
Menurut hasil wawancara, mayoritas tamu saya percaya bahwa kemampuan untuk membuat dan menggunakan infrastruktur pembelajaran yang mendalam sama sekali bukan kunci. Sebaliknya, mereka menunjukkan kemampuan untuk belajar dengan cepat dan kemampuan untuk menjelaskan perhitungan analitik yang kompleks dengan benar kepada peserta kunci dalam proses, jauh dari masalah teknis. Oleh karena itu, spesialis yang memiliki tujuan dalam bidang pengolahan dan analisis data harus lebih memperhatikan presentasi materi yang benar daripada metode pemrosesan informasi. Metode baru datang dan pergi, tetapi pemikiran kritis dan keterampilan profesional yang terukur secara numerik akan selalu relevan.
Spesialisasi menjadi lebih penting
Meskipun kurangnya jalur karier yang jelas dan dukungan yang tidak memadai bagi para profesional pemula, kami sudah mengamati munculnya beberapa bidang spesialisasi. Emily Robinson menggambarkan perbedaan antara ilmuwan tipe A dan B. Menurutnya, tipe A termasuk analis yang kegiatannya dekat dengan statistik tradisional, tetapi perwakilan dari tipe B terutama terlibat dalam pembuatan model pembelajaran mesin.
Jonathan Nolis membagi ilmu data menjadi tiga komponen. Komponen pertama adalah analitik bisnis, yang bermuara pada "mengambil data perusahaan dan memberikannya kepada orang yang tepat" dalam bentuk dasbor, laporan, email. Yang kedua adalah teori keputusan, yang bertujuan untuk "mengambil data dan membantu perusahaan membuat keputusan terbaik dengan bantuan mereka." Komponen ketiga adalah pembelajaran mesin, di mana spesialis berusaha menjawab pertanyaan "Bagaimana kita dapat secara sadar menerapkan model analitik informasi dalam proyek nyata?" Terlepas dari kenyataan bahwa banyak spesialis canggih dalam kegiatan mereka mencakup ketiga bidang, jalur karier konkret sudah mulai terbentuk, seperti halnya dengan insinyur pembelajaran mesin.
Masalah Etis dan Moral - Tantangan Serius
Anda mungkin menduga bahwa perwakilan dari profesi analitik menghadapi sejumlah besar ketidakpastian dalam perjalanan mereka. Ketika saya bertanya kepada Hillary Mason dalam episode pertama percakapan kami apakah ada kesulitan lain yang dihadapi komunitas profesional, dia menjawab: "Apakah Anda benar-benar berpikir bahwa kita tidak memiliki pedoman moral, praktik standar, dan terminologi yang disederhanakan pada tahap perkembangan ini? ? "
Ketiga poin ini sangat penting, dan dua masalah pertama menjadi perhatian bagi hampir semua tamu podcast DataFramed. Peran apa yang akan dimainkan oleh moralitas dalam kondisi di mana algoritma yang dikembangkan oleh analis informasi menentukan bagi kita bagaimana berinteraksi dengan dunia luar?
Seperti Omuju Miller, kepala spesialis pembelajaran mesin di GitHub, mengatakan dalam sebuah wawancara:
Penting untuk merumuskan pemahaman tentang nilai-nilai moral dasar, mengembangkan skema untuk melatih para spesialis dan menyusun sesuatu seperti sumpah Hipokrates. Dan kita membutuhkan lisensi nyata untuk menghukum atau menghapus praktik seorang spesialis yang telah melampaui etika. Harus diperjelas bahwa kita, sebagai industri, menentang tindakan semacam itu. Dan, tentu saja, perlu untuk entah bagaimana membantu mereka yang melakukan pelanggaran serius dan mereka yang menyimpang dari aturan ketidaktahuan untuk membantu meningkatkan karena mereka tidak lulus pelatihan yang diperlukan.
Topik saat ini adalah konsekuensi serius, berbahaya dan tidak bermoral dari penggunaan ilmu data, seperti halnya dengan peringkat risiko residivisme COMPAS, "yang digunakan untuk memprediksi dan mengidentifikasi penjahat masa depan," dan, menurut
ProPublica , ternyata "bias terhadap orang kulit hitam." ke Amerika. "
Kami secara bertahap menyetujui bahwa standar etika harus dilahirkan dalam komunitas analis profesional, serta mendapatkan dukungan dari pembuat undang-undang, gerakan sosial, dan pihak berkepentingan lainnya. Sebagian, penekanan khusus ditempatkan pada interpretabilitas model yang bertentangan dengan solusi modern yang beroperasi pada prinsip kotak hitam. Artinya, perlu untuk membuat model yang dapat menjelaskan mengapa mereka membuat ramalan ini atau itu. Pembelajaran yang dalam mengatasi banyak tugas, tetapi terkenal karena ketidakmampuannya untuk dijelaskan. Peneliti, pengembang, dan analis data yang berdedikasi sedang membuat kemajuan dalam arah ini melalui proyek-proyek seperti
Lime untuk menjelaskan bagaimana model pembelajaran mesin bekerja.
Revolusi masif dalam analisis data dalam industri manusia dan masyarakat baru saja dimulai. Belum jelas apakah profesi spesialis analisis data akan tetap menjadi
karya paling menarik di abad ke-21 , apakah akan menjadi lebih fokus atau hanya berubah menjadi seperangkat keterampilan yang harus dimiliki para peneliti. Seperti yang dikatakan Hilary Mason: “Akankah ilmu data ada dalam 10 tahun? "Aku ingat dunia di mana dia tidak berada, dan aku tidak akan terkejut jika profesi ini akan menghadapi nasib yang sama dengan profesi seorang webmaster."
