Bagaimana saya mempelajari ilmu data

Nama saya Azat Bulyakkulov. Saya bekerja sebagai analis risiko di perusahaan fintech ID Finance. Saya mulai dengan analitik, membuat laporan untuk departemen risiko, pemasaran, dan keuangan. Di perusahaan kami yang relatif kecil, saya harus berinteraksi dengan semua departemen. Hasilnya, saya berhasil mendapatkan pengalaman profesional yang beragam. Saya berpartisipasi dalam menghitung cadangan untuk keuangan, membandingkan kinerja dalam tes A / B, klien tersegmentasi untuk pemasaran, dll. Dalam waktu kurang dari satu tahun kerja, saya bergabung dengan pengembangan kartu penilaian. Dan saya menyadari bahwa saya ingin lebih memahami analisis dan pemrosesan data.

gambar


Kami menggunakan regresi logistik klasik untuk memprediksi default pelanggan. Salah satu sumber data kami adalah transaksi keuangan, yang, jika diinginkan, pelanggan memberi kami akses. Bekerja dengan mereka memerlukan pendekatan kreatif, karena banyak informasi yang berguna dapat diambil dari gudang data ini. Seperti yang kemudian saya pelajari, proses ini disebut rekayasa fitur. Itu menangkap saya - saya menjadi lebih tertarik pada ilmu data.

Bekerja dengan departemen lain, saya melihat bahwa ruang lingkup untuk menerapkan ML sangat besar. Tidak sedikit pun peran minat saya pada DS dimainkan oleh fakta bahwa kami berkembang di SAS-e yang berat. Itu tidak memiliki antarmuka yang paling nyaman dan fungsionalitas yang tidak lengkap. Saya ingin bekerja dengan alat yang lebih fleksibel.

Saya menyadari bahwa belajar mandiri ilmu data, misalnya, di Coursera, membutuhkan kemauan dan disiplin diri yang kuat, yang saya tidak punya cukup. Oleh karena itu, saya mulai melihat bukan ke arah kursus online, tetapi kursus "langsung" dengan kuliah, diskusi, dan pekerjaan rumah.

Saya memberi tahu atasan saya di tempat kerja tentang arah yang ingin saya kembangkan. Manajemen datang menemui saya, dan menawarkan untuk membayar kursus, dan kemudian pergi ke departemen ilmu data di dalam holding.

Jadi, saya mulai memilih kursus. Anehnya, kursus online berlaku di pasar pendidikan DS. Bahkan di Moskow tidak ada banyak pilihan program serius yang tidak dalam gaya "kami akan mengajarkan Anda ilmu data dalam 21 hari." Saya mengerti bahwa pelatihan yang berkualitas harus berlangsung setidaknya enam bulan. Saya tidak mempertimbangkan Yandex SHAD, karena membutuhkan perendaman total dan aktivitas harian. Bekerja penuh waktu, akan sulit untuk menyerap dan memproses materi pendidikan dengan cara yang berkualitas tinggi. Ke depan, saya akan mengatakan bahwa dalam kursus yang dipilih saya memiliki masalah dengan waktu untuk belajar, belum lagi yang gratis. Akibatnya, saya berhenti di jalur Data Scientist di salah satu sekolah populer yang berlangsung selama enam bulan: 5 bulan pelatihan intensif + sebulan untuk menulis diploma.

Tentang kursus


Biaya pelatihan sekitar 200.000 rubel. Ada banyak kelas - 3 kali seminggu selama 3 jam. Setelah setiap 2 dari 3 kelas, ada pekerjaan rumah. Program ini klasik dan termasuk metode dasar pembelajaran mesin, sistem rekomendasi, pengenalan gambar, visi mesin, pemrosesan bahasa alam (NLP), seri waktu. Ditambah lagi ada beberapa hackathon dan ijazah bagi mereka yang akan menyerahkan jumlah minimum pekerjaan rumah yang diperlukan.

gambar

Kelas diadakan di Baumanskaya, 30 orang terdaftar dalam kelompok itu, tetapi mereka berjalan dengan stabil 15-20. Saya berlatih dua kali di malam hari pada hari kerja dan Sabtu dari pukul 10:00 hingga 13:00. Sangat mengherankan bahwa orang-orang dari berbagai bidang, belum tentu terkait dengan IT, datang ke kursus. Ya, ada pengembang front / backend, tetapi setengah dari kursus terkait dengan produk / bisnis atau analisis risiko. Dan bagi hampir semua orang, kursus ini berarti perubahan profesi. Beberapa datang karena sekarang ada hype tertentu di sekitar ilmu data, yang lain bosan dengan kegiatan mereka saat ini, sementara yang lain berencana untuk menggunakan DS dalam pekerjaan mereka. Hampir semua orang membayar pelatihan sendiri, sehingga tingkat minat cukup tinggi.

Kesan saya


Semuanya dimulai dengan pengetahuan dasar dan keterampilan pemrograman dalam python, visualisasi data. Kemudian kami beralih ke berpacu dan mulai mengikuti satu metode pembelajaran mesin dalam satu pelajaran: pohon yang menentukan, regresi linier / logistik, hutan acak, peningkatan. Secara pribadi, saya pikir perlu lebih banyak waktu untuk mempelajari metode klasik ini.

Apa yang saya suka


  • Kami mempelajari hampir semua metode modern dan pendekatan pembelajaran mesin.
  • Ada blok terpisah pada rekayasa fitur - sebanyak 3 pelajaran. Ini adalah informasi yang berguna, tetapi, sayangnya, dosen tidak membaca bagian ini dengan cara terbaik.
  • Bagian dari pekerjaan rumah adalah dari kompetisi Kaggle. Setelah mengirimkan hasil, Anda dapat melihat posisi Anda. Setelah itu, ada motivasi untuk memperbaiki model Anda, menyesuaikan parameternya, dan tidak hanya mengerjakan pekerjaan rumah di "neraka".
  • Ada kursus mendalam tentang sistem rekomendasi, NLP dan visi komputer, masing-masing dengan kelas 6-8. Dan, menurut saya, ada dosen terbaik.
  • Setelah blok pada visi komputer dan seri waktu, ada 2 hackathon.

Ini ternyata latihan yang sangat berguna. Kebutuhan untuk mendapatkan hasil yang dapat diterima dalam waktu minimum mengaktifkan dan memuat otak secara maksimal. Plus, ketika bekerja dalam tim, Anda melihat pendekatan orang lain.

  • Dalam akun pribadi saya ada peringkat siswa, di mana saya melihat kemajuan teman sekelas saya di pekerjaan rumah. Itu sangat membantu. Karena selama istirahat saya mendekati "kutu buku" dan bertanya bagaimana mereka membuat pekerjaan rumah ini atau itu.
  • Keuntungan dari kuliah "langsung" adalah pertanyaan selama pelajaran.
  • Di hadapan hadirin, atas instruksi dosen, kami melakukan latihan kecil segera dengan python
  • Komunitas mahasiswa - komunikasi dengan teman sekelas, pertukaran pendapat, menarik untuk mendengar dari orang lain tentang motivasi dan bidang minat mereka kepada mereka ML.

Apa yang tidak suka


  • Kepadatan tinggi dalam ikhtisar metode utama - hanya satu pelajaran per metode.
  • Secara umum, saya ingin 2 kelas seminggu, bukan 3. Secara pribadi, bagi saya, belajar itu sulit, saya makan hampir semua waktu luang saya. Sebagian teman sekelasku, yang membuatku iri, bisa belajar di tempat kerja.
  • Untuk alasan yang tidak diketahui, unit dipindahkan melalui NLP dan dilakukan ke visi komputer (CV). Akibatnya, di NLP, kami harus menggunakan jaringan saraf, yang dijelaskan secara lebih rinci hanya dalam hal CV.
  • Ada dosen dengan kemampuan pedagogis yang sangat rendah. Selain itu, mereka tidak memeriksa pekerjaan rumah tepat waktu.

gambar
Ruang lingkup ilmu data telah berkembang baru-baru ini.

Total


Saya memiliki 5 bulan pelatihan intensif, di mana saya terjun cukup dalam ke dunia ML. Saya belajar menulis pemrosesan data dengan Python, memvisualisasikannya, membangun berbagai model. Juga dihasilkan teks menggunakan jaringan saraf, gambar rahasia.
Saya pikir saya punya pengalaman yang baik untuk memulai. Mentor diploma saya mengatakan bahwa pengetahuan kita ditarik oleh seorang ilmuwan data tengah, dan pengalaman oleh seorang junior. Baiklah, kita akan melihat dalam beberapa bulan. Sejak saya pindah ke departemen ilmu data perusahaan kami selama dua minggu.

Source: https://habr.com/ru/post/id424345/


All Articles