Ada pendapat bahwa Anda hanya bisa menjadi pusat data dengan pendidikan tinggi yang sesuai, atau lebih tepatnya gelar.
Namun, dunia sedang berubah, teknologi menjadi tersedia bagi manusia belaka. Mungkin saya akan mengejutkan seseorang, tetapi hari ini setiap analis bisnis dapat menguasai teknologi pembelajaran mesin dan mencapai hasil yang bersaing dengan ahli matematika profesional, dan bahkan mungkin yang terbaik.
Agar tidak berdasar, saya akan menceritakan kisah saya - sebagai seorang ekonom, saya menjadi analis data, setelah menerima pengetahuan yang diperlukan melalui kursus online dan berpartisipasi dalam kompetisi pembelajaran mesin.

Sekarang saya adalah seorang analis terkemuka dalam kelompok data besar di QIWI, tetapi tiga tahun yang lalu saya cukup jauh dari data dan saya hanya mendengar tentang kecerdasan buatan dari berita. Tapi kemudian semuanya berubah, sebagian besar berkat Coursera dan Kaggle.
Jadi, hal pertama yang pertama.
Tentang diri saya
Saya seorang ekonom, saya bekerja sebagai konsultan bisnis selama beberapa waktu. Spesialisasi saya adalah pengembangan metodologi penganggaran dan pelaporan untuk otomatisasi selanjutnya. Jika dengan cara sederhana - ini adalah tentang membangun proses pertama secara normal, sehingga nantinya ada hasil dari otomatisasi.
3 tahun yang lalu, pada usia 42, ketika saya merasakan bahwa dari keberhasilan konsultasi saya mulai menjadi perunggu, dan mulai berpikir tentang perlunya perubahan. Tentang karier selanjutnya. Saya sudah memiliki pengalaman bagaimana memulai karir dari awal (pada usia 30 saya mengubah kehidupan tenang ekonom menjadi konsultasi), jadi perubahan itu tidak membuat saya takut.
Itu tidak langsung terlintas dalam pikiran saya, tetapi ketika Anda memikirkannya, menjadi jelas bahwa terlepas dari kenyataan bahwa saya telah bekerja selama 20 tahun, masih ada sekitar 25 tahun sebelum pensiun (sudah lama dipahami bahwa kita harus fokus pada pensiun pada usia 70 atau bahkan lebih lambat ) Secara umum, jalan di depan lebih panjang daripada yang telah dilewati, dan akan menyenangkan untuk pergi dengan spesialisasi yang sebenarnya. Jadi, itu layak dipelajari. Pada saat itu, saya lepas, dan demi masa depan, saya mengurangi jumlah proyek dan dapat mengalokasikan cukup waktu untuk belajar.
Sementara saya berpikir ke mana harus melangkah lebih jauh, saya menemukan Coursera. Pendekatan Barat terhadap pendidikan, ketika mereka pertama-tama menjelaskan makna, gagasan umum, dan hanya detailnya, ternyata dekat dengan saya. Tidak seperti sistem pendidikan Soviet yang brutal, yang mengasumsikan bahwa hanya yang layak yang akan muncul, mereka memberikan kesempatan kepada orang-orang seperti saya, yang memiliki kesenjangan dalam pendidikan dasar.
Saya mulai dengan kursus analisis bisnis. Ini sangat membantu saya sebagai konsultan. Kursus yang sama membantu saya lebih memahami peran teknologi AI untuk pengembangan bisnis dan, yang paling penting, melihat peran saya dalam hal ini. Ini sama dengan teknologi lainnya - sama sekali tidak perlu bahwa mereka yang mengembangkan teknologi baru akan menjadi yang terbaik dalam aplikasi mereka. Agar teknologi benar-benar membantu bisnis, penting untuk memahami bisnis ini. Keahlian dalam proses bisnis tidak kalah pentingnya dengan memahami teknologi pembelajaran mesin, pemrosesan data besar, dll.
Dan saya terjun ke kursus tentang data, statistik, pemrograman.
Dengan interupsi, selama setahun saya menguasai lebih dari 30 kursus di Coursera dan tidak lagi merasa seperti orang asing di dunia bigdate dan pembelajaran mesin.
Kaggle
Beberapa kursus merekomendasikan Kaggle sebagai tempat yang bagus untuk berlatih. Jangan ulangi kesalahan saya - saya datang ke sana hanya ketika saya sudah merasa bahwa saya telah mengumpulkan cukup pengetahuan. Dan itu layak dilakukan enam bulan sebelumnya, ketika pemahaman pertama tentang apa dan bagaimana muncul. Akan lebih dingin selama enam bulan. Bagaimanapun, ini bukan hanya salah satu tempat untuk kompetisi, ini adalah platform terbaik (saat ini) untuk menguasai pembelajaran mesin dalam praktiknya, yang berguna untuk pemula dan superguru. Dan di sana Anda tumbuh, seperti kata mereka, satu hari dalam dua kursus saja tanpa latihan tidak akan memiliki efek seperti itu.
Kompetisi pertama saya adalah
kontes dari Santander Bank - memprediksi kepuasan pelanggan. Saya adalah seorang pemula dan ingin memeriksa tingkat pengetahuan saya dalam bisnis. Saya menggabungkan pengalaman saya sebagai klien bank, keterampilan menganalisis kasus-kasus bisnis dan teknologi pembelajaran mesin dan membuat model yang cukup baik dengan mana saya naik ke peringkat 50 teratas dengan pemimpin publik. Ini jauh lebih tinggi daripada harapan saya dari kompetisi pertama, mengingat lebih dari 5 ribu orang berpartisipasi di dalamnya.
Tapi tidak semuanya begitu sederhana. Saya tidak mendapatkan akhir pekan yang bahagia. Ada masalah umum di antara para pemula sebagai "pelatihan ulang model," yang saya temui dalam praktik. Validasi lokal tidak terorganisir dengan baik, saya terlalu fokus pada publik, dan sebagai hasilnya - pada bagian tertutup dari tes, saya menerbangkan 500+ posisi lebih rendah. Tentu saja, saya kesal, tetapi pelajarannya untuk masa depan: validasi yang baik adalah dasar dari pembelajaran mesin, dan itu perlu ditangani dengan serius. Sekarang komponen ini adalah salah satu kekuatan model saya.
Meskipun hasil pertama yang lemah, ada kepercayaan bahwa masuk ke atas adalah nyata, Anda perlu lebih banyak latihan dan pengetahuan tambahan.
Bagi mereka yang tidak tahu apa manfaat Cuggle, komunitas siap membantu pemula mengatasi beberapa lelucon, mendiskusikan ide, berbagi contoh "bagaimana cara kerjanya". Baik dan tidak kalah penting - di akhir kompetisi ada kesempatan untuk mempelajari keputusan para pemimpin. Belajar dari pengalaman orang lain, Anda bisa membuat kemajuan pesat. Tidak perlu menginjak semua garu sendiri.
Segera saya tidak bisa tidak mengingat OpenDataSaines (ods.ai), komunitas datacientists berbahasa Rusia. Pelatihan pembelajaran mesin yang diselenggarakan adalah cara lain untuk belajar lebih banyak tentang subjek tersebut. Yah, sebagai platform untuk komunikasi tentang masalah apa pun, itu juga banyak membantu. Jika Anda berpikir tentang masa depan Anda di dataset, dan Anda belum mendaftar dengan ods, ini adalah kesalahan serius.
Karena ekspektasi hasil tinggi di Cuggle sering disebutkan dalam lowongan untuk posisi Datacientist, saya melihat peluang untuk ini - selain mendapatkan pengalaman, dimungkinkan untuk mengisi resume kosong dengan pengalaman yang kurang lebih relevan. Saya mulai memperlakukan Cuggle sebagai pekerjaan di mana awal karier bisa menjadi bonus.
Begitu waktu luang muncul, saya membangun model di Cuggle, dan dengan setiap kompetisi hasilnya menjadi lebih baik.
Saya memiliki sesuatu yang tidak dimiliki sebagian besar peserta - kemampuan untuk menganalisis kasus-kasus bisnis dan pengalaman saya dalam konsultasi, sangat membantu ketika membangun model. Enam bulan kemudian, saya mengambil tempat ke-7 dalam kontes berikutnya dari Santander Bank dan mendapatkan medali emas pertama saya.
Jika Anda terus-menerus berjuang untuk tujuan tertentu, Anda akan mencapainya - pada bulan Juni 2017, setahun kemudian dengan sedikit pertempuran saya di Cuggle, kami, bersama pengembang Latvia Agnis Lukis, memenangkan persaingan dari Sberbank untuk memprediksi harga apartemen di Moskow.

Kekuatan kami adalah memahami kasus ini (ini adalah tugas yang kompleks, solusi yang seharusnya tidak didekati di dahi, seperti yang dilakukan mayoritas) dan validasi lokal yang kuat. Kami menyelesaikan kompetisi kedua di depan umum, tetapi model kami tidak menderita banyak dari pelatihan ulang dan tidak banyak melorot pada data tertutup - pada akhirnya kami adalah yang pertama dengan margin besar.
Kemenangan ini membuat saya masuk ke peringkat 50 besar peringkat global Kaggle, yang menghasilkan tawaran pekerjaan. Setelah mempelajari opsi-opsi tersebut, saya memilih bank sebagai tempat di mana ada banyak tugas di mana Anda dapat memompa keterampilan, serta merasakan seluruh kebenaran kehidupan ketika mengembangkan model - namun, dalam kompetisi, kondisinya agak rumah kaca.
Rencana karier saya ambisius dan opsi "tidak terburu-buru bekerja selama beberapa tahun untuk tumbuh ke tingkat berikutnya" tidak dipertimbangkan. Itu perlu untuk menggali di tempat kerja, dan di shift kedua jangan lupa tentang Cuggle. Ini tidak mudah, tetapi untuk siapa itu mudah sekarang? Dan ini menghasilkan hasil - 3 medali emas lebih dan saya mendapatkan tanda pangkat Grandmaster di Cuggle ditambah bercokol di puncak global (sekarang ke-23).
Seperti ceri pada kue - hadiah ketiga dalam kompetisi penilaian perbankan, ini adalah apa yang saya lakukan secara profesional di tahun lalu. Dan, tampaknya, dia baik-baik saja.
Sayangnya, kebenaran kehidupan di bank juga merupakan proses pengambilan keputusan yang sangat konservatif dan cepat. Pengenalan model saya bergerak lambat. Tidak ada rencana untuk membangun kembali pekerjaan seluruh bank, jadi lebih mudah, meskipun dengan penyesalan, untuk berganti pekerjaan.
Ini ternyata sama sekali tidak sulit - berkat hasil di Cuggle, pencarian tidak membutuhkan banyak waktu, dan selama beberapa bulan sekarang saya telah menggali miliaran tabel di QIWI. Kami memiliki
banyak tugas menarik , saya yakin bahwa segera kami akan dapat mengubah data kami menjadi keuntungan bagi perusahaan - latar belakang ekonom banyak membantu dalam hal ini. Caggloop di sini juga berakhir di box office dalam beberapa kasus.
Dan sekarang tentang bagaimana sukses dalam kompetisi
Bagian terpenting adalah memahami masalah dan menemukan semua driver yang dapat memengaruhi hasilnya. Semakin baik Anda memahami kasusnya, semakin banyak peluang untuk membuatnya keren. Setiap orang dapat menghasilkan ratusan atau bahkan ribuan fitur stat, tetapi mereka dapat memunculkan fitur yang dirancang khusus untuk tugas ini dan menjelaskan dengan baik target, yang jauh lebih rumit. Investasikan, dan cepat temukan diri Anda di atas. Perlu menerapkan pengalaman yang relevan (bisnis, rumah tangga, dll.) - sangat membantu.
Kemudian - validasi lokal. Musuh utama Anda adalah pelatihan ulang, terutama jika Anda menggunakan teknologi yang kuat seperti meningkatkan gradien. Saya tahu betapa sulitnya secara psikologis untuk berhenti fokus pada papan peringkat publik, tetapi jika Anda tidak ingin kekecewaan, jawaban yang benar adalah dengan menggunakan validasi silang, katakan βTidakβ untuk pemilihan yang tertunda. Tentu saja, ada pengecualian, tetapi bahkan dalam masalah dengan deret waktu, Anda dapat mengacaukan validasi silang, sangat meningkatkan keandalan model. Skema validasi lokal tidak selalu sederhana, tetapi perlu menghabiskan waktu untuk itu - baik dalam kompetisi maupun dalam kehidupan nyata. Hadiahnya akan menjadi model yang stabil.
Tentu saja, Anda perlu mempelajari alat-alat dasar dengan baik. Mengetahui prinsip-prinsip teknologi yang berbeda, Anda dapat secara memadai memilih alat terbaik untuk menyelesaikan masalah tertentu. Untuk data tabel, meningkatkan gradien sekarang menjadi pemimpin, khususnya Lightgbm. Tetapi penting untuk dapat menggunakan metode lain, dari penebangan ke jaringan saraf - dalam hidup dan dalam kompetisi mereka tidak akan berlebihan.
Omong-omong, cara terbaik untuk memahami teknologi apa yang mengemudi sekarang ketika semuanya berubah dengan cepat adalah untuk melihat perpustakaan mana yang digunakan para pemimpin kompetisi. Dalam beberapa tahun terakhir, banyak teknologi berharga telah menembus dunia melalui Cuggle.
Hyperparameter Penting untuk mengetahui hiperparameter utama dari alat yang digunakan. Biasanya tidak banyak parameter yang perlu diubah. Keyakinan saya adalah bahwa Anda tidak harus menghabiskan banyak waktu untuk pemilihan hiperparameter. Tentu saja, perlu mencari hiperparameter yang baik, tetapi Anda tidak harus berputar di dalamnya.
Biasanya, ketika model diuraikan, saya memilih satu set parameter yang lebih atau kurang stabil dan kembali ke penyetelan mereka hanya mendekati akhir, ketika ide-ide lain telah habis. Akal sehat menunjukkan bahwa waktu yang dihabiskan untuk membuat dan menguji variabel baru, perpustakaan, dan ide-ide non-standar dapat memberikan peningkatan model yang jauh lebih besar daripada meningkatkan dari bergerak dari satu set hyperparameter yang baik ke yang ideal.
Jika Anda mengandalkan Kaggle sebagai fitur yang akan memompa resume Anda - anggap ini sebagai pekerjaan, Anda tidak akan menyesalinya. Itu membantu saya, itu akan membantu Anda.
Lagi dan lagi tentang kompetisi. Dia sangat tinggi di sini, jadi sangat, sangat sulit untuk menang sendirian. Kerja tim sangat berguna, sinergi ide memungkinkan Anda melompati kepala Anda. Jangan ragu untuk menggunakannya.
Total
Nah, sedikit motivasi pada akhirnya. Pertama-tama, saya membuktikan kepada diri sendiri bahwa saya bisa menjadi pusat data pada usia 44 tahun. Resepnya ternyata sangat sederhana - pendidikan online, pemikiran berorientasi bisnis, kinerja dan tekad.

Sekarang saya dengan segala cara mendorong teman-teman saya untuk pergi dengan cara yang sama. Ekonomi digital yang baru membutuhkan (dan akan membutuhkan) profesional terkemuka. Coursera + Kaggle adalah tempat yang tepat untuk memulai.
Sekali waktu, Excel adalah alat baru dan tidak dapat dipahami (saya bahkan ingat betapa sulitnya pertempuran pertama dengan kalkulator tradisional). Dan sekarang, setelah semua, tidak ada yang meragukan bahwa seorang spesialis yang berpengalaman dalam bisnisnya dapat memeras manfaat yang jauh lebih nyata dari Excel daripada pengembang Excel sendiri.
Sedikit waktu akan berlalu, dan kepemilikan alat pembelajaran mesin akan menjadi wajib seperti halnya kepemilikan Excel, jadi mengapa tidak mempersiapkan ini terlebih dahulu dan memenangkan persaingan di pasar tenaga kerja sekarang?
Apalagi persaingan tidak sepadan. Semakin banyak orang dari sisi bisnis datang ke dataset - semakin banyak uang. Pengenalan teknologi baru di sektor tradisional ekonomi dapat mempercepat bisnis, dan untuk ini, bisnis harus mulai memahami peluang bahwa teknologi baru dibuka hari ini. Faktanya, setiap analis bisnis, setelah menguasai beberapa mata kuliah, dapat menjadi yang terdepan dalam kemajuan dan membantu perusahaannya melampaui pesaing konservatif.
Saya berharap pengalaman saya akan membantu seseorang membuat keputusan penting.
Jika Anda memiliki pertanyaan tentang Kaggle, tulis, saya akan dengan senang hati menjawab di komentar.