Halo semuanya. Set untuk kursus baru dari Otus - "Analisis Terapan pada R" , yang sudah dimulai pada akhir bulan ini, terbuka. Dalam hal ini, saya ingin berbagi terjemahan publikasi tentang perbedaan antara seorang analis data dan seorang ahli statistik, yang pada gilirannya menggunakan R dalam praktiknya.

Pendahuluan
Selama sepuluh tahun terakhir, volume data dan tingkat penampilan mereka telah tumbuh secara eksponensial. Menurut laporan, lebih dari 3 quintillion byte data muncul setiap hari! Tidak mengherankan bahwa profesi baru dari seorang ilmuwan data telah muncul untuk bekerja dengan mereka - seorang spesialis serbaguna dalam analisis dan pemrosesan data. Namun, orang-orang terlibat dalam statistik sebelum munculnya alat pemrosesan data digital. Apa perbedaan antara kedua profesi ini: peneliti data dan statistik?
Mari kita cari tahu.
Siapa yang menjadi penjelajah data?
Seorang peneliti data lebih unggul dalam kualitas profesional daripada insinyur perangkat lunak mana pun, dan juga lebih berpengalaman dalam pengembangan perangkat lunak daripada ahli statistik mana pun.
Peneliti data bekerja dengan sejumlah besar data, yang, sebagai suatu peraturan, ada dalam repositori organisasi atau di situs, tetapi pada saat yang sama mereka secara praktis tidak berguna dalam hal memperoleh keuntungan strategis atau finansial. Untuk memberikan rekomendasi dan saran untuk membuat keputusan yang optimal, peneliti data mempersenjatai diri dengan rencana statistik dan mengevaluasi data sebelumnya dan saat ini dari sumber tersebut.
Dalam sistem pemasaran dan perencanaan, peneliti data terutama berkaitan dengan mengidentifikasi ide dan indikator statistik yang dapat berguna untuk mempersiapkan, menerapkan, dan melacak kebijakan pemasaran yang berorientasi pada hasil.
Apa itu statistik?
Ahli statistik mengumpulkan dan mengevaluasi informasi untuk mencari pola perilaku atau deskripsi lingkungan. Berdasarkan informasi ini, mereka membangun model. Model-model ini dapat digunakan untuk memprediksi dan memahami alam semesta.
Misalnya, statistik menunjukkan bahwa aman untuk merayakan ulang tahun - semakin tua orang tersebut, semakin banyak ulang tahun yang ia rayakan.
Peneliti di bidang statistik membuat dan menggunakan model statistik atau matematika untuk membantu memecahkan masalah nyata berdasarkan data yang dikumpulkan dan digeneralisasi. Data dikumpulkan, dianalisis, dan digunakan di berbagai bidang, termasuk teknik, sains, dan bisnis. Akumulasi data numerik membantu perusahaan dan pelanggan mereka memahami indikator kuantitatif dan melacak atau memprediksi tren yang berguna dalam pengambilan keputusan bisnis.
Perbedaan keterampilan
Penjelajah data
1. Pendidikan
Ilmuwan komputer biasanya berpendidikan tinggi - 88% dari mereka memiliki gelar master, dan 46% adalah kandidat untuk gelar kandidat. Meskipun ada pengecualian untuk aturan ini, secara umum, untuk mendapatkan pengetahuan dan keterampilan ahli yang diperlukan di bidang ilmu informasi, sebagai aturan, pelatihan yang kuat diperlukan.
2. Pemrograman dalam R
Lebih disukai analis data untuk mengetahui setidaknya satu alat tersebut. R diciptakan khusus untuk kebutuhan ilmu data. Menggunakan R, Anda dapat memproses informasi apa pun untuk tujuan ilmiah. 43% dari data peneliti menggunakan R untuk memecahkan masalah statistik. Namun, R memiliki jalur studi yang agak sulit.
3. Pemrograman dengan Python
Python, bersama dengan Java, Perl, dan C / C ++, adalah salah satu bahasa pemrograman paling populer untuk ilmu data. Untuk peneliti data, Python adalah opsi yang bagus.
4. Platform Hadoop
Tidak semuanya, tetapi dalam banyak kasus, kepemilikan alat ini sangat diinginkan. Nilai spesialis meningkat jika ia juga memiliki pengalaman dengan Hive atau Babi. Alat cloud seperti Amazon S3 juga dapat berguna.
5. SQL: bekerja dengan database dan pemrograman
Peneliti data harus mahir dalam SQL. Bahasa pemrograman ini dirancang khusus untuk bekerja dengan data. Ini memungkinkan Anda untuk mendapatkan informasi yang Anda minati dari database menggunakan instruksi permintaan singkat - dengan cepat dan tanpa menulis kode rumit.
6. Pembelajaran mesin dan kecerdasan buatan
Banyak peneliti data tidak mengetahui algoritma dan metode pembelajaran mesin, tanpa memahami apa pun dalam jaringan saraf, pembelajaran yang mendalam dan kompetitif, dan hal-hal serupa. Namun, jika Anda ingin menonjol dari sisa peneliti data , Anda lebih memahami metode seperti pembelajaran mesin dengan guru, pohon keputusan, regresi logistik, dll.
7. Visualisasi data
Jumlah data di dunia korporasi sangat besar. Mereka membutuhkan konversi ke format yang lebih mudah dipahami. Sebagai aturan, orang lebih memahami data dalam bentuk grafik dan grafik.
8. Data tidak terstruktur
Penjelajah data harus siap untuk bekerja dengan data yang tidak terstruktur. Data tersebut dalam format sewenang-wenang dan tidak disimpan dalam database - misalnya, foto, entri blog, ulasan pelanggan, posting di jejaring sosial, video, file audio, dll.
9. Pengetahuan tentang prinsip-prinsip bisnis
Untuk menjadi peneliti di bidang informasi, Anda perlu memahami sektor tempat Anda bekerja, serta tugas bisnis yang dihadapi perusahaan Anda.
10. Keterampilan berkomunikasi
Perusahaan yang mencari peneliti data yang kuat membutuhkan seseorang yang dapat dengan jelas dan bebas menyampaikan hasil teknis kepada audiens non-inti, seperti pemasar atau spesialis penjualan.
Statistik
- Pengetahuan mendalam tentang teori probabilitas dan statistik induktif.
- Kemampuan untuk bekerja dengan angka - keterampilan ini mencerminkan tingkat kecerdasan secara umum, dan perkembangannya sebagian besar berkontribusi pada pencapaian tujuan organisasi.
- Keahlian analitis - kemampuan untuk mengumpulkan dan mengevaluasi data, memecahkan masalah dan membuat pilihan. Keterampilan ini akan membantu menyelesaikan masalah yang dihadapi perusahaan, meningkatkan produktivitas tenaga kerja, dan mencapai tujuan perusahaan.
- Keterampilan menulis dan komunikasi lisan.
- Keterampilan interpersonal yang baik adalah fitur dan perilaku yang kami tunjukkan saat berinteraksi dengan orang lain. Mereka dianggap sebagai salah satu keterampilan sosio-psikologis yang paling relevan. Kami menggunakannya dalam semua situasi interaksi verbal dan non-verbal. Memang, ciri-ciri kepribadian utama dan sikap orang tersebut untuk bekerja memiliki pengaruh yang menentukan pada kemampuannya untuk berhasil dalam posisi tertentu.
Perbedaan Alat
Alat Statistik
1. SPSS
Paket Statistik untuk Ilmu Sosial (SPSS) bisa dibilang perangkat lunak statistik yang paling umum di bidang penelitian perilaku manusia. Antarmuka visual SPSS memungkinkan Anda untuk menggabungkan statistik deskriptif dan hasil analisis parametrik dan non-parametrik, disajikan dalam bentuk grafis. SPSS memiliki kemampuan untuk membuat skrip untuk mengotomatisasi perkiraan atau perhitungan statistik yang kompleks.
2. R
R adalah paket perangkat lunak freeware yang secara aktif digunakan dalam studi perilaku manusia dan bidang lainnya. Alat berbasis R yang menyederhanakan berbagai langkah proses pemrosesan informasi tersedia untuk berbagai aplikasi. R adalah perangkat lunak berperforma tinggi, tetapi menguasainya tidaklah sesederhana itu. Selain itu, penggunaannya akan membutuhkan keterampilan menulis kode.
3. MATLAB (Mathworks)
MatLab adalah platform analitik dan pemrograman yang banyak digunakan oleh para pakar teknis dan peneliti. Seperti dalam kasus R, jalur pengembangan agak sulit, dan pada tahap tertentu Anda harus menulis program Anda sendiri. Berbagai alat akan membantu mengatasi tugas penelitian (misalnya, alat EEGLab dirancang untuk menganalisis data EEG). Meskipun akan sulit bagi pemula untuk menggunakan MatLab, paket ini memberikan kemungkinan yang sangat luas, asalkan Anda dapat menulis kode (atau setidaknya menjalankan alat yang diperlukan).
4. Microsoft Excel
Microsoft Excel menawarkan berbagai alat visualisasi dan fungsi statistik yang mudah digunakan, meskipun itu bukan alat analisis statistik lengkap. Mudah untuk bekerja dengan angka, menghitung total ringkasan dan membuat grafik khusus. Ini adalah alat yang berguna bagi mereka yang ingin melihat data apa yang menjadi inti dari informasi yang tersedia. Karena Excel digunakan oleh banyak orang dan perusahaan, ini dapat dianggap sebagai pilihan yang terjangkau untuk pemula.
5. GraphPad Prism
GraphPad Prism menyediakan banyak peluang yang dapat diterapkan di berbagai bidang, terutama dalam statistik yang berkaitan dengan biologi. Seperti SPSS, analisis dan perhitungan statistik canggih dapat diotomatisasi di sini menggunakan skrip.
6. Minitab
Paket perangkat lunak Minitab menawarkan banyak alat statistik dasar dan cukup canggih untuk mengevaluasi informasi. Seperti GraphPad Prism, berkat antarmuka pengguna dan skrip grafisnya, ia dapat diakses baik bagi pemula maupun pengguna yang membutuhkan analisis yang lebih kompleks.
Alat Peneliti Data
1. R
R adalah paket perangkat lunak gratis untuk perhitungan statistik dan visualisasi mereka. R mengkompilasi dan berjalan pada banyak platform UNIX, Windows, dan macOS.
2. Python
Python adalah bahasa pemrograman populer yang dikembangkan oleh Guido van Rossum. Kode sumber untuk bahasa ini pertama kali diterbitkan pada tahun 1991. Python digunakan untuk pengembangan backend, manufaktur komputer, matematika, dan scripting untuk sistem.
3. Julia
Bahasa Julia pada awalnya diciptakan untuk komputasi berkinerja tinggi. Untuk berbagai sistem LLVM, program Julia dikompilasi menjadi kode asli yang efisien. Julia adalah bahasa pemrograman mengetik yang dinamis yang terlihat seperti bahasa scripting dan memiliki tips interaktif yang hebat dalam lingkungan pengembangan.
4. Tableau
Tableau adalah salah satu alat visualisasi data dengan pertumbuhan tercepat di sektor intelijen bisnis. Ini adalah cara terbaik untuk mengubah data mentah menjadi format yang mudah dipahami yang tidak memerlukan pengetahuan teknis dan keterampilan pemrograman.
5. QlikView
QlikView adalah salah satu platform utama untuk penemuan data perusahaan. Ini berbeda dari sistem intelijen bisnis tradisional dalam sejumlah karakteristik. Sebagai alat untuk menganalisis informasi, selalu memvisualisasikan hubungan antara data menggunakan warna, dan juga menampilkan informasi yang tidak terkait. Pencarian langsung dan tidak langsung dilaksanakan dengan memasukkan kueri dalam daftar header.
6. AWS
Menawarkan kekuatan komputasi, sumber daya basis data, dan layanan pengiriman konten, Amazon Web Services (AWS), platform cloud yang aman, membantu bisnis mengembangkan bisnis mereka. Jutaan pelanggan sudah menggunakan AWS dan alternatif untuk mengembangkan aplikasi yang kompleks dengan fleksibilitas, skalabilitas, dan keandalan yang sangat baik.
7. Spark
Apache Spark adalah kerangka kerja komputasi cluster cepat. Ini mendukung API tingkat tinggi untuk Java, Scala, Python, dan R, serta mesin pengolah grafik yang dioptimalkan.
8. RapidMiner
RapidMiner adalah platform teknologi untuk pemrosesan data. Ini mencakup fungsi persiapan data, pembelajaran mesin dan algoritma pembelajaran dalam, alat analisis teks, dan lingkungan analitik prediktif. RapidMiner mendukung semua alat pembelajaran mesin, termasuk menyiapkan informasi, memvisualisasikan hasil, memverifikasi kepatuhan dengan persyaratan proyek, dan mengoptimalkan. RapidMiner digunakan dalam bisnis, industri, untuk pelatihan dan pengajaran, pembuatan prototipe cepat dan pengembangan perangkat lunak.
9. Kain-kain
Platform Databricks, yang menggabungkan pemrosesan data dan dukungan teknologi bisnis, dirancang untuk para profesional, insinyur, dan peneliti data. Platform ini mendukung seluruh siklus hidup pembelajaran mesin: mulai dari persiapan informasi hingga pengujian dan implementasi.
Perbedaan Upah
Penelitian data tidak hanya lebih diminati daripada pekerjaan ahli statistik , tetapi juga dibayar lebih baik. Menurut Glassdoor, gaji rata-rata untuk seorang peneliti data di Amerika Serikat adalah $ 118.709, dan statistik adalah $ 75.069. Peneliti Data - spesialis serbaguna untuk perusahaan, mampu memberikan jawaban atas pertanyaan penting. Biasanya dia mendapat pertanyaan terbuka. Spesialis menemukan informasi apa yang diperlukan, menentukan tenggat waktu untuk tugas, melakukan pemodelan dan analisis, dan menulis program yang brilian yang memungkinkan Anda untuk mendapatkan jawaban.
Peluang karir
Statistik Peluang Karir
Teknisi Statistik
Pakar statistik umumnya menganalisis informasi di bawah pengawasan ahli statistik senior, yang mungkin juga menjadi mentor mereka. Setelah beberapa waktu, banyak spesialis seperti meninggalkan belakang panggung untuk posting yang lebih bertanggung jawab dan independen dan mengambil tugas teknis yang kompleks.
Statistik Terapan
Ahli statistik terapan bertanggung jawab untuk memastikan bahwa, untuk setiap masalah penting, data yang sesuai dikumpulkan dan disiapkan untuk analisis (atau analisis yang sesuai telah dilakukan) dan laporan disiapkan dengan hasilnya. Mereka bekerja erat dengan para ahli teknis dan manajemen lainnya, menjadi bagian integral dari tim proyek.
Ahli Statistik Senior
Seorang ahli statistik senior memiliki tanggung jawab yang lebih luas daripada statistik yang diterapkan. Dia mengeksplorasi masalah secara komprehensif untuk menemukan koneksi dengan tujuan organisasi secara keseluruhan. Untuk menawarkan ide-ide segar yang akan bermanfaat bagi organisasi dan pelanggan dari waktu ke waktu, ahli statistik senior proaktif. Seringkali mereka terhubung pada tahap awal proyek, membantu mengidentifikasi masalah berdasarkan angka, dan merekomendasikan cara untuk menyelesaikannya kepada manajemen senior. Mereka kemudian direkrut untuk mempersiapkan dan mempresentasikan hasilnya. Dalam masalah statistik, mereka seringkali merupakan sumber informasi dan pengalaman terbaik.
Kepala Statistik
Kepala departemen statistik, terutama yang termuda, terlibat dalam perencanaan proyek, membantu menentukan apa yang harus terjadi. Mereka merekrut karyawan, memberikan saran dan bertanggung jawab atas keseluruhan hasil proyek. Mereka memberi tahu manajer senior tentang pencapaian departemen, membantu karyawan mereka dalam pengembangan karier dan menentukan arah pengembangan. Tugas administrasi mereka termasuk merekrut dan mengembangkan karyawan, serta mengevaluasi efektivitas pekerjaan mereka. Untuk alasan yang jelas, dibutuhkan lebih sedikit manajer daripada pekerja biasa.
Konsultan Pribadi untuk Statistik
Beberapa ahli statistik terapan menjadi konsultan swasta yang independen. Mereka melakukan studi khusus, sering ditugaskan oleh organisasi yang tidak memiliki ahli statistik, atau mengevaluasi pekerjaan ahli statistik lainnya. Konsultan statistik sering dilibatkan sebagai ahli dalam menyelesaikan masalah hukum.
Analis Data Peluang Karir
Penjelajah data
Peneliti data bekerja dengan model statistik dan matematika yang digunakan untuk memproses informasi. Pikiran yang cemerlang dari seorang spesialis analisis data akan berguna ketika membuat sistem untuk menilai jumlah pinjaman yang tidak dapat dilunasi bulan depan.
Spesialis pemrosesan data
Spesialis berbasis luas ini menggunakan sistem komputasi untuk memproses set data besar, bergantung pada pengetahuan mereka tentang pengembangan perangkat lunak. Biasanya, masing-masing dari mereka tahu beberapa bahasa pemrograman, seperti Python dan Java. Biasanya, karyawan ini fokus pada penulisan kode, kliring data, dan melakukan kueri dari peneliti data . Untuk mengubah model prediktif yang dibuat oleh peneliti data ke dalam kode program, mereka biasanya menggunakan layanan spesialis pemrosesan data.
Analis
Dan akhirnya, ada pakar yang meneliti data, membuat laporan, dan memvisualisasikan apa yang dibawa data ini. Analis membantu karyawan perusahaan mendapatkan informasi tentang masalah tertentu.
Ringkasan
Analis yang luar biasa adalah spesialis yang berharga; gaya pengkodeannya dioptimalkan dalam hal kecepatan. Tapi dia bukan ahli statistik , bahkan bukan yang buruk, karena dia tidak membuat kesimpulan akhir berdasarkan fakta. Tugas utama analis adalah untuk menyatakan: "Ini adalah isi data kami. Mengatakan apa yang mengikuti dari ini bukanlah tugas saya. Mungkin pembuat keputusan ingin mendapatkan statistik untuk mengetahuinya. "
Itu saja, kami menunggu semua orang di kursus .