Menurut
statistik 2019 , insinyur data saat ini adalah sebuah profesi, permintaan yang tumbuh lebih cepat dari yang lainnya. Insinyur data memainkan peran penting dalam organisasi - menciptakan dan memelihara jaringan pipa dan database yang digunakan untuk memproses, mengubah, dan menyimpan data. Keterampilan apa yang dibutuhkan oleh perwakilan dari profesi ini? Apakah daftar ini berbeda dari yang dibutuhkan oleh para ilmuwan data? Anda akan mempelajari semua ini dari artikel saya.
Saya menganalisis lowongan untuk posisi insinyur data dalam bentuk di mana mereka berada pada Januari 2020, untuk memahami keterampilan apa dalam teknologi yang paling populer. Kemudian saya membandingkan hasilnya dengan statistik pada lowongan di posisi ilmuwan data, dan beberapa perbedaan menarik terungkap.
Kita bisa melakukannya tanpa perkenalan panjang - inilah sepuluh teknologi teratas yang paling sering disebutkan dalam teks pekerjaan:
Menyebutkan teknologi dalam pekerjaan untuk posisi insinyur data pada tahun 2020Mari kita perbaiki.
Tanggung jawab insinyur data
Saat ini, pekerjaan yang dilakukan oleh para insinyur data sangat penting bagi organisasi - orang-orang inilah yang bertanggung jawab untuk menyimpan informasi dan membawanya sedemikian rupa sehingga karyawan lain dapat bekerja dengannya. Insinyur data membangun pipa untuk merampingkan penerimaan data, aliran atau paket, dari berbagai sumber. Selanjutnya, pipa melakukan operasi ekstraksi, transformasi, dan pemuatan (dengan kata lain, proses ETL), membuat data lebih cocok untuk digunakan lebih lanjut. Setelah itu, data ditransfer ke analis dan ilmuwan data untuk diproses lebih dalam. Akhirnya, data mengakhiri perjalanannya pada dasbor, laporan, dan model pembelajaran mesin.
Saya sedang mencari informasi yang akan memungkinkan kami untuk menyimpulkan teknologi mana yang paling diminati dalam pekerjaan insinyur data saat ini.
Metode
Saya mengumpulkan informasi dari tiga situs pencarian kerja -
SimplyHired ,
Memang, dan
Monster, dan melihat kata kunci apa yang
muncul dengan insinyur data dalam teks pekerjaan untuk penduduk AS. Untuk tugas ini, saya menggunakan dua perpustakaan Python -
Permintaan dan
Sup Cantik . Di antara kata kunci, saya memasukkan keduanya yang ada di daftar sebelumnya untuk menganalisis lowongan untuk posisi ilmuwan data, dan yang saya pilih secara manual saat membaca tawaran pekerjaan untuk insinyur data. LinkedIn tidak termasuk dalam daftar sumber, karena saya dilarang di sana setelah upaya terakhir saya untuk mengumpulkan data.
Untuk setiap kata kunci, saya menghitung persentase klik dari jumlah total teks pada setiap situs secara terpisah, dan kemudian saya menghitung nilai rata-rata dari tiga sumber.
Hasil
Di bawah ini adalah tiga puluh istilah teknis dari rekayasa data dengan skor tertinggi di ketiga lokasi kerja.
Dan ini adalah angka yang sama, tetapi dirancang dalam bentuk tabel:
Mari kita mulai.
Ikhtisar HasilBaik SQL dan Python muncul di lebih dari dua pertiga dari lowongan yang diulas. Dua teknologi inilah yang masuk akal untuk dipelajari terlebih dahulu.
Python adalah bahasa pemrograman yang sangat populer digunakan untuk bekerja dengan data, membuat situs web dan menulis skrip.
SQL adalah singkatan dari Structured Query Language; ini mengasumsikan standar yang diterapkan oleh sekelompok bahasa, dan digunakan untuk mengekstrak data dari basis data relasional. Dia muncul sejak lama dan telah memantapkan dirinya sebagai sangat stabil.
Tentang Spark mengatakan sekitar setengah dari lowongan.
Apache Spark adalah "mesin analisis big data gabungan dengan modul bawaan untuk streaming, SQL, pembelajaran mesin, dan pemrosesan grafik." Ini sangat populer di kalangan mereka yang bekerja dengan basis data besar.
AWS muncul di sekitar 45% dari lowongan pekerjaan. Ini adalah platform cloud computing Amazon; Ia memiliki pangsa pasar terbesar di antara semua platform cloud.
Selanjutnya datang Jawa dan Hadoop - sedikit lebih dari 40% untuk saudara.
Java adalah bahasa luas yang telah teruji pertempuran, yang dalam
Survei Pengembang Stack Overflow 2019 memenangkan tempat kesepuluh di antara bahasa-bahasa yang menakutkan programmer. Sebaliknya, Python ternyata menjadi bahasa kedua yang paling dicintai. Java menjalankan bahasa Java, dan semua yang perlu Anda ketahui tentangnya dapat dipahami dari tangkapan layar halaman resmi Januari 2020 ini.
Seperti mesin waktuApache Hadoop menggunakan model pemrograman MapReduce dengan cluster server untuk data besar. Sekarang model ini semakin banyak dibuang.
Selanjutnya kita melihat Hive, Scala, Kafka dan NoSQL - masing-masing teknologi ini disebutkan dalam seperempat dari lowongan yang disajikan. Apache Hive adalah program pergudangan data yang "membuatnya mudah untuk membaca, menulis, dan mengelola kumpulan data besar yang terletak di penyimpanan terdistribusi menggunakan SQL."
Scala adalah bahasa pemrograman yang aktif digunakan saat bekerja dengan data besar. Secara khusus, Spark dibuat di Scala. Dalam peringkat bahasa menakutkan yang telah disebutkan, Scala ada di baris kesebelas.
Apache Kafka adalah platform terdistribusi untuk memproses pesan streaming. Sangat populer sebagai sarana streaming data.
Database NoSQL kontras dengan SQL. Mereka berbeda karena mereka tidak relasional, tidak terstruktur, dan memiliki skalabilitas horizontal. NoSQL telah mendapatkan popularitas, tetapi kegemaran untuk pendekatan ini, hingga nubuat bahwa itu akan menggantikan SQL sebagai paradigma penyimpanan yang dominan, tampaknya sudah berakhir.
Perbandingan dengan istilah dalam lowongan data ilmuwan
Berikut adalah tiga puluh istilah teknologi yang paling umum digunakan oleh pengusaha di bidang ilmu data. Saya mendapatkan daftar ini dengan cara yang sama seperti yang saya jelaskan di atas untuk rekayasa data.
Menyebutkan teknologi dalam pekerjaan untuk ilmuwan data pada tahun 2020Jika kita berbicara tentang jumlah total, dibandingkan dengan set sebelumnya ditinjau, ada 28% lebih banyak lowongan (12 013 melawan 9396). Mari kita lihat teknologi apa yang kurang umum di lowongan untuk ilmuwan data daripada insinyur data.
Lebih populer dalam rekayasa dataGrafik di bawah ini menunjukkan kata kunci dengan perbedaan nilai rata-rata lebih besar dari 10% atau kurang dari -10%.
Perbedaan terbesar dalam frekuensi kata kunci antara insinyur data dan ilmuwan dataPeningkatan paling signifikan ditemukan oleh AWS: dalam rekayasa data muncul 25% lebih teratur daripada dalam ilmu data (sekitar 45% dan 20% dari total jumlah lowongan, masing-masing). Perbedaannya bisa diraba!
Berikut adalah data yang sama dalam presentasi yang sedikit berbeda - pada grafik, hasil untuk kata kunci yang sama di lowongan untuk insinyur data dan posisi ilmuwan data terletak berdampingan.
Perbedaan terbesar dalam frekuensi kata kunci antara insinyur data dan ilmuwan dataLompatan terbesar berikutnya yang saya perhatikan di Spark - seorang insinyur data seringkali harus bekerja dengan data besar.
Kafka juga tumbuh sebesar 20%, yaitu hampir empat kali lipat dibandingkan dengan lowongan pekerjaan para ilmuwan data. Transfer data adalah salah satu tanggung jawab utama seorang insinyur data. Akhirnya, jumlah referensi ternyata 15% lebih banyak di bidang rekayasa data untuk Java, NoSQL, Redshift, SQL dan Hadoop.
Kurang populer dalam rekayasa dataSekarang mari kita lihat teknologi mana yang kurang populer di lowongan pekerjaan untuk insinyur data.
Penurunan paling tajam dibandingkan dengan bidang ilmu data terjadi di
R : di sana muncul di sekitar 56% dari lowongan, di sini - hanya di 17%. Mengesankan. R adalah bahasa pemrograman yang populer di kalangan ilmuwan dan ahli statistik, serta pemenang kedelapan dalam peringkat bahasa yang menakutkan.
SAS juga terjadi pada lowongan untuk posisi insinyur data secara signifikan lebih sedikit - perbedaannya adalah 14%. SAS adalah bahasa eksklusif yang dirancang untuk bekerja dengan statistik dan data. Suatu hal yang menarik: dilihat dari hasil
penelitian saya tentang lowongan untuk para ilmuwan data , baru-baru ini ia kehilangan banyak posisi - lebih banyak daripada teknologi lainnya.
Dituntut dalam rekayasa data dan ilmu dataPerlu dicatat bahwa delapan dari sepuluh posisi pertama di kedua set adalah sama. SQL, Python, Spark, AWS, Java, Hadoop, Hive, dan Scala adalah sepuluh besar untuk industri rekayasa data dan ilmu data. Pada grafik di bawah ini, Anda dapat melihat lima belas teknologi paling populer oleh para pengusaha insinyur data, dan di sampingnya adalah tingkat kekosongan mereka untuk ahli data.
Rekomendasi
Jika Anda ingin terlibat dalam rekayasa data, saya akan menyarankan Anda untuk menguasai teknologi berikut - Saya mencantumkannya dalam urutan perkiraan prioritas.
Pelajari SQL. Saya membujuk Anda secara khusus untuk PostgreSQL, karena memiliki kode sumber terbuka, sangat populer di komunitas dan dalam fase pertumbuhan. Anda dapat mempelajari cara menggunakan bahasa dari buku My Memorable SQL - versi pilotnya tersedia di
sini .
Pelajari Python, meskipun tidak pada tingkat paling hardcore. Python Memorable saya untuk pemula. Anda dapat membelinya di
Amazon , salinan elektronik atau fisik pilihan Anda, atau mengunduhnya dalam pdf atau epub
di situs ini .
Setelah Anda terbiasa dengan Python, beralihlah ke panda, pustaka Python yang digunakan untuk membersihkan dan memproses data. Jika Anda fokus untuk bekerja di perusahaan yang membutuhkan kemampuan untuk menulis dengan Python (dan sebagian besar dari mereka), Anda dapat yakin bahwa pengetahuan tentang panda akan diasumsikan secara default. Saya sekarang sedang menyelesaikan panduan pengantar untuk bekerja dengan panda - Anda dapat
berlangganan agar tidak ketinggalan momen rilis.
Master AWS. Jika Anda ingin menjadi insinyur data, Anda tidak dapat melakukannya tanpa platform cloud di zashnik, dan AWS adalah yang paling populer di antara mereka. Kursus-kursus
Linux Academy banyak membantu saya ketika saya belajar
rekayasa data di Google Cloud , saya pikir mereka juga akan memiliki materi yang bagus tentang AWS.
Jika Anda sudah menguasai seluruh daftar ini dan ingin tumbuh di mata pengusaha sebagai insinyur data, saya sarankan menambahkan Apache Spark untuk bekerja dengan data besar. Meskipun penelitian saya pada lowongan ilmu data telah menunjukkan penurunan minat, masih berkedip untuk insinyur data di hampir setiap pekerjaan kedua.
Pada akhirnya
Saya harap ulasan teknologi paling populer untuk insinyur data ini tampak bermanfaat bagi Anda. Jika Anda ingin tahu tentang bagaimana analis bekerja, baca
artikel saya yang lain . Teknik yang berhasil!