Keterampilan yang paling dicari dalam ilmu data

Dalam hal pengetahuan, para pakar ilmu data berharap banyak: pembelajaran mesin, pemrograman, statistik, matematika, visualisasi data, komunikasi, dan pembelajaran mendalam. Masing-masing bidang mencakup puluhan bahasa, kerangka kerja, teknologi yang tersedia untuk studi. Jadi, bagaimana cara yang lebih baik bagi para profesional data untuk mengelola anggaran waktu pelatihan mereka sehingga mereka dapat dihargai oleh pemberi kerja?

Dengan hati-hati saya mempelajari lokasi kerja untuk mengetahui keterampilan apa yang paling populer di kalangan pengusaha saat ini. Saya menganggap disiplin yang lebih luas terkait dengan bekerja dengan data, serta bahasa dan alat khusus, sebagai bagian dari studi terpisah. Sebagai bahan, saya beralih ke LinkedIn , Memang , SimplyHired , Monster, dan AngelList , pada 10 Oktober 2018. Grafik di bawah ini menunjukkan berapa banyak pekerjaan data sains diwakili pada masing-masing sumber daya ini.



Saya telah mempelajari banyak deskripsi pekerjaan dan survei untuk memahami keterampilan mana yang paling sering disebutkan. Istilah seperti "manajemen" tidak dimasukkan dalam analisis, karena digunakan di lokasi kerja dalam berbagai konteks yang sangat beragam.

Pencarian dilakukan di Amerika Serikat berdasarkan pada istilah "ilmu data", "kata kunci". Untuk mengurangi output, saya hanya memilih kejadian yang tepat. Dengan satu atau lain cara, metode serupa memastikan bahwa semua hasil akan relevan dengan ilmu data dan kriteria yang sama akan berlaku untuk semua pertanyaan.

AngelList tidak memberikan jumlah total lowongan yang terkait dengan bekerja dengan data, tetapi jumlah total perusahaan yang menawarkan lowongan tersebut. Saya mengecualikan situs ini dari kedua studi, karena algoritma pencariannya, tampaknya, bekerja atas dasar prinsip "ATAU" dan tidak memungkinkan untuk entah bagaimana beralih ke model "Dan". Anda dapat bekerja dengan AngelList ketika Anda memasukkan sesuatu dalam semangat "ilmuwan data" "TensorFlow" - dalam hal ini, mencocokkan kueri kedua berarti mencocokkan yang pertama. Namun, jika Anda menggunakan kata kunci dalam semangat "ilmuwan data" "react.js", maka akan ada banyak lowongan yang tidak terkait dengan ilmu data.

Bahan-bahan dengan Glassdoor juga harus dikeluarkan. Situs ini mengklaim bahwa mereka memiliki informasi tentang 26.263 lowongan pekerjaan dalam bekerja dengan data, tetapi pada kenyataannya maksimal 900 ditampilkan. Selain itu, saya merasa sangat ragu bahwa mereka mengumpulkan lebih dari tiga kali lebih banyak lowongan daripada situs besar lainnya.

Untuk tahap akhir penelitian, saya memilih kata kunci yang menghasilkan pengembalian besar di LinkedIn: lebih dari 400 hasil untuk keterampilan profil luas, lebih dari 200 untuk teknologi pribadi. Tentu saja, ada beberapa penawaran rangkap. Saya mencatat hasil tahap ini dalam dokumen Google .

Kemudian saya mengunduh file dalam format .csv, mengunggahnya ke JupyterLab, menghitung tingkat prevalensi masing-masing sebagai persentase, dan rata-rata memperoleh nilai dari sumber daya yang berbeda. Saya kemudian membandingkan hasil dengan bahasa dengan yang disajikan dalam penelitian tentang lowongan pekerjaan dari sektor ilmu data dari Glassdoor pada paruh pertama 2017. Jika Anda menambahkan informasi ini dari survei tentang penggunaan KDNuggets, tampaknya beberapa keterampilan mendapatkan popularitas, sementara yang lain secara bertahap kehilangan nilainya. Tetapi lebih lanjut tentang itu nanti.

Di Kaggle Kernel saya, Anda akan menemukan grafik interaktif dan analisis tambahan. Untuk visualisasi, saya menggunakan Plotly. Untuk dapat bekerja dengan Plotly dan JupyterLab dalam banyak grup, Anda harus memainkan sesuatu, setidaknya itu pada saat penulisan ini - instruksi dapat ditemukan di akhir Kaggle Kernel saya, serta dalam dokumentasi Plotly .

Keahlian yang luas


Berikut adalah grafik yang mewakili keterampilan umum paling populer yang ingin dilihat oleh para kandidat.



Hasil penelitian menunjukkan bahwa analitik dan pembelajaran mesin terus membentuk dasar kerja para ahli ilmu data. Tujuan utama dari spesialisasi ini adalah untuk membuat kesimpulan yang berguna berdasarkan pada array data. Pembelajaran mesin bertujuan untuk menciptakan sistem yang dapat memprediksi jalannya acara, masing-masing, sangat diminati.

Pemrosesan data membutuhkan pengetahuan tentang statistik dan kemampuan untuk menulis kode - tidak ada yang mengejutkan. Selain itu, statistik, matematika dan rekayasa perangkat lunak adalah spesialisasi di mana pelatihan dilakukan di universitas, yang juga dapat mempengaruhi frekuensi permintaan.

Menariknya, dalam deskripsi hampir setengah dari lowongan, disebutkan komunikasi: spesialis data harus dapat menyampaikan temuan mereka kepada orang-orang dan bekerja dalam tim.

Sebutkan AI dan pembelajaran yang mendalam tidak teratur seperti beberapa pertanyaan lainnya. Namun, area ini adalah cabang dari pembelajaran mesin. Pembelajaran yang dalam semakin banyak digunakan dalam tugas-tugas yang sebelumnya digunakan algoritma pembelajaran mesin. Sebagai contoh, algoritma pembelajaran mesin terbaik untuk masalah yang muncul saat memproses bahasa alami, sekarang berhubungan khusus dengan bidang pembelajaran yang mendalam. Saya percaya bahwa di masa depan itu akan menjadi semakin populer, dan pembelajaran mesin secara bertahap akan mulai dianggap sebagai sinonim untuk kedalaman.

Apa solusi perangkat lunak khusus yang harus dikuasai oleh para pakar ilmu data, menurut pemberi kerja? Kita beralih ke pertanyaan ini di bagian selanjutnya.

Keterampilan teknologi


Di bawah ini adalah 20 bahasa khusus, perpustakaan dan alat teknologi yang, menurut pendapat pengusaha, spesialis pemrosesan data harus memiliki pengalaman.



Mari kita berjalan melalui para pemimpin dengan cepat.



Python adalah opsi yang paling banyak diminta. Fakta bahwa bahasa open source ini sangat populer di kalangan programmer, banyak yang mencatat. Untuk pemula, ini adalah pilihan yang sangat nyaman: ada banyak sumber daya pelatihan. Sebagian besar alat data baru kompatibel dengannya. Berdasarkan semua ini, Python bisa disebut bahasa utama bagi para ahli ilmu data.



R mengikuti Python dengan selisih kecil. Sekali waktu, dialah yang merupakan bahasa utama untuk spesialis ilmu data. Itu mengejutkan saya bahwa minat aktif terhadapnya masih berlanjut. Bahasa ini berasal dari statistik, dan, karenanya, sangat populer di kalangan mereka yang menanganinya.

Hampir semua lowongan mengharuskan untuk mengetahui salah satu dari dua bahasa ini - Python atau R.



SQL juga sangat laris. Singkatan singkatan dari Structured Query Language (Structured Query Language), dan bahasa inilah yang merupakan alat utama untuk berinteraksi dengan basis data relasional. SQL dalam komunitas sains data sering diabaikan, tetapi ini merujuk pada keterampilan yang Anda harus fasih jika Anda berencana untuk memasuki pasar tenaga kerja.




Selanjutnya datang Hadoop dan Spark - keduanya merupakan alat open source dari Apache, yang dirancang untuk bekerja dengan data besar. Apalagi tutorial dan artikel tentang Medium telah ditulis tentang mereka. Saya berasumsi bahwa jumlah pelamar yang memiliki mereka secara signifikan lebih sedikit daripada mereka yang akrab dengan Python atau R. Jika Anda tahu bagaimana bekerja dengan Hadoop dan Spark atau memiliki kesempatan untuk menguasainya, ini bisa menjadi keuntungan yang baik bagi Anda daripada pesaing Anda.




Selanjutnya adalah Java dan SAS . Saya terkejut bahwa kedua bahasa ini bisa naik sangat tinggi. Keduanya adalah gagasan dari perusahaan besar dan untuk keduanya adalah sejumlah materi gratis. Namun, di antara para pakar ilmu data, baik Java maupun SAS tidak memiliki minat khusus.



Berikutnya dalam peringkat teknologi populer adalah Tableau . Ini adalah platform analitis dan alat visualisasi yang kuat dan mudah digunakan. Popularitasnya terus meningkat. Tableau memiliki versi publik gratis, tetapi jika Anda ingin bekerja dengan data dalam mode pribadi, Anda harus membayar. Jika Anda benar-benar baru mengenal Tableau, masuk akal untuk mengambil kursus singkat - katakanlah, Tableau 10 AZ tentang Udemy. Mereka tidak membayar saya untuk iklan, saya hanya melakukan kursus ini sendiri dan merasa sangat berguna.

Pada bagan di bawah ini Anda dapat menemukan daftar tambahan bahasa populer, kerangka kerja dan alat-alat lain untuk bekerja dengan data.



Perbandingan historis


Tim GlassDoor menerbitkan studi tentang sepuluh keterampilan paling populer untuk para ahli sains data dari Januari hingga Juli 2017. Pada grafik di bawah ini, data mereka tentang frekuensi istilah dibandingkan dengan nilai rata-rata yang saya perhitungkan untuk situs LinkedIn, Memang, SimplyHired, dan Monster.



Secara keseluruhan, hasilnya serupa. Baik penelitian dan penelitian saya dari Glassdoor setuju bahwa permintaan untuk Python, R dan SQL adalah yang tertinggi. Puncak keterampilan juga bertepatan dalam komposisi dalam sembilan posisi pertama, meskipun urutan yang tepat berbeda.

Dilihat oleh hasil, dibandingkan dengan paruh pertama 2017, permintaan untuk R, Hadoop, Java, SAS dan MatLab menurun, sementara Tableau, sebaliknya, menjadi lebih populer. Ini harus diharapkan jika Anda melihat setidaknya pada hasil survei pengembang dari KDnuggets. Mereka jelas menunjukkan bahwa R, Hadoop, Java, dan SAS telah mengalami penurunan selama beberapa tahun, sementara Tableau stabil pada kenaikan.

Rekomendasi


Dengan perhitungan ini, saya ingin menawarkan sejumlah rekomendasi untuk spesialis data yang telah memasuki pasar atau sedang bersiap-siap untuk memulai karir, dan meskipun untuk meningkatkan daya saing mereka.

  • Tunjukkan bahwa Anda tahu cara menganalisis data, dan luangkan upaya untuk menguasai pembelajaran mesin dengan benar
  • Perhatikan keterampilan komunikasi. Saya akan menyarankan Anda untuk membaca buku " Made to Stick ", yang menjelaskan cara memberi ide Anda bobot lebih. Juga berlatih dengan aplikasi Hemmingway Editor untuk belajar bagaimana mengartikulasikan pemikiran Anda dengan lebih jelas.
  • Pelajari kerangka kerja untuk pembelajaran yang mendalam. Ini secara bertahap menjadi bagian integral dari proses pembelajaran pembelajaran mesin. Dalam artikel saya yang lain, saya membandingkan berbagai kerangka kerja tentang seberapa bermanfaat, menarik dan populernya mereka - Anda dapat menemukannya di sini .
  • Jika Anda ragu-ragu antara Python dan R, pilih Python. Jika Anda sudah tahu Python sebagai punggung tangan Anda, pertimbangkan untuk belajar tentang R. Ini pasti akan membuat Anda menjadi kandidat yang lebih menarik di pasar.

Ketika seorang majikan sedang mencari seorang karyawan yang bekerja dengan Python, ia kemungkinan besar akan mengharapkan para kandidat untuk menjadi terbiasa dengan perpustakaan pemrosesan data utama: numpy, panda, scikit-learn dan matplotlib. Jika Anda ingin menguasai set ini, saya merekomendasikan sumber daya berikut:

  • DataCamp dan DataQuest - baik di sana maupun di sana Anda dapat mengambil kursus pelatihan sains data SaaS secara online dengan sedikit uang; Anda akan belajar dengan benar dalam proses penulisan kode. Kedua kursus mencakup berbagai alat.
  • Data School menawarkan berbagai sumber daya yang berbeda, termasuk serangkaian video YouTube yang bagus yang menjelaskan konsep dasar ilmu data.
  • Analisis Python dan Data oleh McKinney. Ini adalah karya penulis perpustakaan panda; pada dasarnya ini tentang hal itu, tetapi juga menyentuh pada dasar-dasar Python, numpy, dan scikit-belajar dalam kaitannya dengan ilmu data.
  • Pengantar pembelajaran mesin dengan Python. Panduan untuk Profesional Data ”oleh Muller dan Guido. Mueller bertanggung jawab untuk mendukung scikit-belajar. Buku yang bagus untuk mereka yang mempelajari pembelajaran mesin secara umum dan perpustakaan ini pada khususnya.

Jika Anda ingin membuat terobosan dalam pembelajaran mendalam, saya menyarankan Anda untuk memulai dengan Keras atau FastAI , dan kemudian pergi ke TensorFlow atau PyTorch . “ Deep Learning in Python ” Scholl sangat membantu bagi mereka yang belajar untuk bekerja dengan Keras.

Selain rekomendasi ini, saya pikir bermanfaat untuk fokus mempelajari apa yang Anda minati, meskipun, tentu saja, Anda dapat mengalokasikan waktu Anda untuk pelatihan berdasarkan berbagai pertimbangan.

Jika Anda mencari pekerjaan sebagai spesialis pemrosesan data di portal online, saya sarankan Anda untuk mulai dengan LinkedIn - hasilnya secara konsisten paling luas. Juga, ketika mencari lowongan atau posting resume di situs web, kata kunci memainkan peran yang sangat penting. Misalnya, untuk semua sumber daya yang dipertimbangkan, kueri "ilmu data" menghasilkan hasil tiga kali lebih banyak daripada kueri "ilmuwan data". Di sisi lain, jika Anda hanya dan secara khusus tertarik pada penawaran data ilmuwan, lebih baik memberikan preferensi pada permintaan ini.

Tetapi apa pun sumber daya yang Anda pilih, saya sarankan untuk membuat portofolio online yang menunjukkan keahlian Anda di berbagai bidang yang diminta - semakin banyak, semakin baik. Profil LinkedIn Anda idealnya mengandung beberapa bukti keterampilan yang Anda bicarakan.

Mungkin saya akan menyajikan sisa hasil penelitian di artikel lain. Jika Anda ingin mempelajari lebih lanjut tentang kode atau grafik interaktif, saya mengundang Anda ke Kaggle Kernel .

Source: https://habr.com/ru/post/id426557/


All Articles