Apa itu pembelajaran mesin otomatis (AutoML)

Apa itu pembelajaran mesin otomatis (AutoML) dan
Apakah akan mengambil Data Scientists?


Sejak awal kemunculan alat pembelajaran mesin otomatis (AutoML), seperti Google AutoML, para ahli telah mendiskusikan pertanyaan apakah mereka siap untuk integrasi dan aplikasi perusahaan sepenuhnya. Deskripsi alat AutoML menyatakan bahwa setiap orang dapat mengambil peran sebagai "ilmuwan data," yang mampu menciptakan model pembelajaran mesin yang siap digunakan industri tanpa latar belakang teknis yang diperlukan secara tradisional.



Meskipun memang benar bahwa proses pembelajaran mesin otomatis mengubah cara di mana perusahaan dapat melakukan tugas analisis data, teknologinya belum siap untuk membuat spesialis data tidak bekerja. Salah satu klaim utama dari teknologi ini adalah bahwa model yang dibuat secara otomatis memiliki kualitas yang sama dan diproduksi sesegera mungkin dibandingkan dengan model yang setara yang dibuat oleh sekelompok peneliti data.


Meskipun model AutoML lebih cepat dibuat, mereka hanya efektif jika masalah yang mereka cari adalah konstan dan berulang. Sebagian besar model AutoML bekerja dengan baik dan mencapai kualitas yang konsisten dalam kondisi ini; tetapi semakin kompleks masalah datanya, semakin diperlukan intervensi spesialis untuk memahami apa yang telah diluncurkan sistem AutoML dan mengubahnya menjadi sesuatu yang bermanfaat. Untuk memahami beberapa batasan ini, mari kita lihat proses AutoML lebih terinci.



Alat AutoML menyederhanakan pemrosesan data dengan melakukan segala kemungkinan menggunakan informasi yang ada. Proses ini terdiri dari tiga tahap utama:


Tahap pertama termasuk "ekstraksi" informasi, yang membantu meningkatkan produktivitas model yang dihasilkan, menciptakan informasi tambahan untuk studi. Ini membutuhkan banyak waktu, karena spesialis analisis data perlu mengidentifikasi secara manual hubungan antara elemen data dan mengembangkan cara untuk menyajikan informasi sebagai bidang data tambahan yang dapat digunakan mesin untuk pelatihan, serta memutuskan kelengkapan data untuk membangun model. .


Ini adalah langkah penting, karena data tambahan ini sangat sering berarti perbedaan antara model yang tidak sesuai dan sangat baik. AutoML diprogram untuk menggunakan serangkaian metode penemuan data yang terbatas, biasanya sedemikian rupa untuk memenuhi masalah data "rata-rata", membatasi kinerja akhir model, karena tidak dapat menggunakan pengetahuan UKM tertentu (usaha kecil menengah), yang dapat menjadi penting untuk kesuksesan dan yang dapat digunakan oleh spesialis data dalam pekerjaannya.


Banyak masalah data dimulai dengan upaya mental yang signifikan untuk memilih data untuk diwakili dalam algoritma. Mentransfer semua data yang Anda miliki dalam sistem dapat mengarah pada model yang tidak cocok dengan parameter, karena data biasanya berisi banyak sinyal yang berbeda, sering bertentangan yang harus ditargetkan dan dimodelkan secara individual.


Ini terutama benar berkaitan dengan penipuan, ketika wilayah geografis yang berbeda, saluran pembayaran, dll. Memiliki jenis penipuan yang sangat berbeda. Upaya untuk secara manual menemukan pola-pola ini dan merancang set data yang sesuai untuk memastikan deteksi yang akurat sebagian besar masih tidak otomatis. Menggunakan pendekatan otomatis multi-tujuan untuk masalah ini saat ini tidak mungkin karena kompleksitas yang sangat besar dari peristiwa semacam itu.


Tahap selanjutnya adalah generasi model. Model dengan konfigurasi berbeda dibuat dan dilatih menggunakan data dari tahap sebelumnya. Ini sangat penting karena hampir tidak mungkin untuk menggunakan konfigurasi default untuk setiap masalah dan mendapatkan hasil terbaik.


Pada titik ini, sistem AutoML memiliki keunggulan dibandingkan ahli data karena mereka dapat membuat sejumlah besar model pengujian dalam waktu yang sangat singkat. Sebagian besar sistem AutoML berusaha untuk menjadi universal dan hanya menghasilkan jaringan saraf yang dalam, yang dapat menjadi berlebihan untuk banyak tugas, ketika model sederhana, seperti regresi logistik atau pohon keputusan, mungkin lebih cocok dan mendapat manfaat dari optimasi parameter hiper.


Tahap terakhir adalah pengujian kinerja massal dan memilih pemain terbaik. Pada tahap ini beberapa tenaga kerja manual diperlukan, paling tidak karena sangat penting bahwa pengguna memilih model yang tepat untuk tugas tersebut. Tidak ada gunanya memiliki model risiko penipuan yang mengidentifikasi 100% kasus penipuan, tetapi mempertanyakan setiap otorisasi.


Dalam proses manual saat ini, spesialis data bekerja dengan UKM untuk memahami data dan mengembangkan fungsi data deskriptif yang efektif. Tautan penting antara UKM dan spesialis data ini hilang dari AutoML umum. Seperti dijelaskan sebelumnya, proses mencoba untuk secara otomatis menghasilkan model-model ini dari apa yang dapat dideteksi alat dalam data, yang mungkin tidak sesuai, sehingga menghasilkan model yang tidak efisien. Sistem AutoML di masa depan harus dirancang dengan mempertimbangkan keterbatasan ini dan lainnya untuk membuat model berkualitas tinggi sesuai dengan standar yang dikembangkan oleh para ahli.


Masa Depan AutoML


AutoML terus berkembang, dan vendor AutoML utama saat ini (Google dan Microsoft) telah membuat peningkatan yang signifikan. Perkembangan ini difokuskan terutama pada peningkatan kecepatan menghasilkan model yang sudah jadi, dan bukan pada bagaimana meningkatkan teknologi untuk memecahkan masalah yang lebih kompleks (misalnya, mendeteksi penipuan dan intrusi jaringan), di mana AutoML dapat melangkah lebih jauh daripada spesialis data.


Karena solusi AutoML terus berkembang dan berkembang, proses manual yang lebih kompleks dapat diotomatisasi. Sistem AutoML modern berfungsi baik dengan gambar dan ucapan karena AutoML memiliki pengetahuan bisnis bawaan untuk melakukan tugas-tugas ini dengan sangat baik. Sistem AutoML di masa depan akan memiliki kesempatan bagi pengguna bisnis untuk memasukkan pengetahuan mereka untuk membantu mesin secara otomatis membuat model yang sangat akurat.


Selain itu, jaringan pipa data yang kompleks akan menjadi lebih dan lebih teratur, dan penambahan sejumlah besar berbagai algoritma untuk optimasi akan semakin memperluas kemungkinan masalah yang dapat diselesaikan oleh para ilmuwan yang bekerja dengan data warga.


Meskipun banyak tugas pemrosesan data akan menjadi otomatis, ini akan memungkinkan para ilmuwan untuk melakukan tugas-tugas khusus untuk bisnis; lebih lanjut merangsang inovasi dan memungkinkan bisnis untuk fokus pada bidang yang lebih penting dalam menghasilkan pendapatan dan pertumbuhan bisnis.

Source: https://habr.com/ru/post/id449260/


All Articles