Jangan mengandalkan kecerdasan buatan,
kecuali Anda memiliki pemahaman yang mendalam tentang proses tersebut.
Ray DalioDi Jet Infosystems, kami memperkenalkan pembelajaran mesin di berbagai industri, dan berdasarkan pengalaman kami, kami memilih komponen yang diperlukan untuk implementasi yang sukses:
- pernyataan masalah yang bertujuan untuk mengoptimalkan metrik prioritas untuk bisnis;
- tim ilmuwan data yang memiliki kompetensi dan siap untuk terjun jauh ke dalam proses;
- data yang relevan dengan tugas bisnis;
- pilihan metode yang memadai.
Dalam praktiknya, semua elemen ini sangat jarang bersama-sama, menurut statistik, hanya sekitar 7% dari proyek dengan ML dianggap berhasil. Proyek dengan semua komponen ini dapat dengan aman diklasifikasikan sebagai terobosan! Sebagai ilustrasi, kami telah merumuskan beberapa poin yang dapat disebut tip berbahaya tentang pengenalan pembelajaran mesin dalam bisnis.
Nasihat buruk No. 1: “Tugasnya hanyalah menerapkan ML”
Seringkali, pelanggan merumuskan tugas sebagai "hanya untuk memperkenalkan pembelajaran mesin untuk beberapa optimasi", tanpa koneksi dengan metrik bisnis dan memprioritaskan tugas bisnis.
Dalam hal ini, kita dapat melihat beberapa skenario negatif. Sebagai contoh, target akan berubah ketika mereka bekerja, tetapi ini berarti bahwa semua preprocessing dan pilihan metode optimasi akan berubah, karena mereka terkait langsung dengan makna target. Atau, seorang ilmuwan data akan memilih beberapa metrik dari pembelajaran mesin, misalnya, auc, dan akan memperbaikinya, membawa semua kerangka sensasi dan perpustakaan, berdasarkan pada rasa kecantikannya - menyempurnakan "tempat desimal kelima" dalam metrik yang dipilih. Pada saat yang sama, untuk bisnis pekerjaan ini mungkin sama sekali tidak penting dan tidak mengarah pada keberhasilan implementasi. Atau beberapa masalah bisnis kecil akan mulai diselesaikan, padahal sebenarnya ada potensi yang jauh lebih besar untuk memperkenalkan pembelajaran mesin di dekatnya.
Akibatnya, Anda mungkin menghadapi konsekuensi negatif:
- tidak mungkin untuk memperkirakan waktu dan biaya tenaga kerja;
- model ditingkatkan secara terpisah dari metrik bisnis;
- melakukan investasi dalam tugas kecil.
Saran buruk # 2: "Ilmuwan data apa pun akan melakukannya"
Ada pendapat bahwa Anda dapat mengambil ilmuwan data apa pun dari pasar, menempatkannya dalam isolasi dengan excel dan secara ajaib ia akan mencari tahu apa yang perlu dioptimalkan. Menurut pendapat kami, mentalitas ilmuwan data yang terlibat dalam optimalisasi produksi sangat penting. Ini berarti bahwa mereka harus siap untuk terjun jauh ke dalam proses teknologi (misalnya, elektrolisis aluminium, perlakuan selulosa oksigen-alkali, produksi tanur tinggi, dll.). Kesediaan para ilmuwan data untuk melakukan perjalanan bisnis yang jauh dengan tujuan untuk berbicara secara pribadi dengan para teknolog dan operator di pabrik juga penting, untuk memahami bagaimana semuanya benar-benar bekerja. Tanpa ini, kemungkinan besar, mereka akan ditakdirkan untuk sejumlah besar iterasi tanpa pertimbangan dari model enumerasi, dan Anda tidak akan pernah bisa mencapai implementasi yang bermanfaat.
Nasehat buruk No. 3: “Pekerjaan harus menjadi kain perca”
Ideologi organisasi kerja yang paling terfragmentasi dengan pembagian kerja maksimum untuk meminimalkan biaya dipenuhi secara teratur. Sebagai contoh, ada seorang analis yang memahami proses, berkomunikasi dengan pelanggan dan teknologi. Ada seorang insinyur tanggal - dia memproses data, menghasilkan fitur. Dan akhirnya, ada ilmuwan data - dia hanya mengimpor sklearn dan fit / prediksi. Dengan demikian, pekerjaan seorang ilmuwan data terjadi secara terpisah dari kenyataan hidup, sangat laboratorium, dan ada risiko tinggi melakukan sejumlah besar kesalahan dan kehilangan aspek penting dari tugas asli.
Nasihat buruk # 4: "Jangan menjelaskan kepada ilmuwan data bagaimana data dikumpulkan"
Tidak selalu jelas bahwa para ilmuwan data harus memahami bagaimana dan di mana data dikumpulkan. Bahkan ada kasus ketika kontrak implementasi ML ditandatangani tanpa terlebih dahulu meninjau data, dan dalam kondisi seperti itu ada risiko tidak pernah mencapai nilai target dari metrik yang dijelaskan dalam kontrak. Dengan pendekatan ini, masalah pasti akan muncul baik dengan menilai kualitas model dan dengan kemungkinan aplikasi nyata mereka.
Banyak properti data memengaruhi pilihan metode: rata-rata data dan kesalahan pengukuran, pengambilan sampel contoh yang tidak merata, jeda waktu pengukuran. Penting untuk membersihkan data dari noise dengan benar dalam faktor dan target, penyebab noise dapat berbeda: kesalahan digitalisasi, outlier, duplikasi variabel, kesalahan instrumen, dll.
Perusahaan harus tertarik pada fakta bahwa para ilmuwan data benar-benar memahami sifat data, jika tidak, pemrosesan data akan lama dan tidak akan menghasilkan pemodelan yang sukses. Tanpa pemahaman mendalam tentang hal-hal spesifik dari proses pengumpulan dan penyimpanan data, seseorang mungkin menghadapi masalah-masalah berikut:
- preprocessing data akan memakan banyak waktu;
- model mungkin tidak dapat diterapkan dalam kondisi nyata;
- ketentuan kontrak mungkin tidak dapat dicapai.
Nasihat buruk # 5: “Jadikan pengumpulan data sebagai proses yang rumit dan tidak bisa dipahami sehingga tidak ada yang tahu cara kerjanya. Setelah pengenalan model, pastikan untuk melakukan perubahan pada proses ”
Seringkali, seiring dengan pengembangan dan implementasi model, proses teknologi berubah yang memengaruhi pengumpulan data. Bayangkan bahwa perlu untuk mengoptimalkan proses teknologi, dan setelah pengenalan model, beberapa unit dikonfigurasi ulang dan ini mempengaruhi pengumpulan data: fitur akan “mengambang”, distribusi akan berubah, sampel pelatihan tidak lagi representatif. Tentu saja, tidak ada yang tahu tentang ini sebelumnya. Akibatnya: model akan berhenti bekerja dan semuanya perlu diperbaiki. Misalnya, dalam kasus dengan pohon, masalah domain keluar dapat terjadi.
Penting untuk mengoordinasikan terlebih dahulu dengan para ilmuwan data semua perubahan dalam proses teknologi sehingga mereka dapat dengan cepat menyesuaikan model dengan kondisi baru.
Nasihat buruk # 6: “Rata-rata pertanda”
Beberapa jenis rata-rata menyebabkan masalah, misalnya:
- tugasnya adalah memperkirakan konsumsi energi per jam, tetapi pada saat yang sama, data konsumsi energi disimpan hanya selama berbulan-bulan - dalam situasi ini, tidak ada yang bisa dilakukan sebelum akumulasi data mentah;
- rata-rata terjadi atas karakteristik yang diukur pada titik yang berbeda secara signifikan dalam waktu;
- menggunakan moving average yang menangkap periode prediksi (yang mengarah ke masalah kebocoran data dan distorsi model);
- terburuk dari semua, ketika data entah bagaimana rata-rata dan fakta ini tetap tidak diketahui.
Dalam kasus seperti itu, tugas mungkin tidak menerima solusi yang memadai sampai data mentah yang relevan muncul.
Saran buruk No. 7: "Jangan berikan data tambahan"
Ada beberapa skenario di mana para ilmuwan data meminta data tambahan:
- diperlukan data mentah tambahan;
- perlu menambahkan tanda-tanda baru ke set data. Misalnya, dalam tugas-tugas sektor perbankan dan rekomendasi produk, akan berguna untuk menggunakan sebanyak mungkin atribut sosio-demografis;
- menambah ukuran kumpulan data
- jumlah data terbatas, tetapi dapat diperluas karena data historis, atau dimungkinkan untuk membuat data tambahan, seperti dalam tugas pemrosesan gambar dan video.
Ilmuwan data meminta data tambahan ketika mereka memiliki pengalaman memecahkan masalah yang serupa di mana penggunaan data ini menghasilkan hasil yang positif, jika tidak kualitas model bisa jauh lebih buruk daripada yang berpotensi dicapai.
Nasihat buruk nomor 8: "Keakuratan pemberian tanda secara manual tidak penting"
Biarkan diperlukan untuk memprediksi kualitas produk berdasarkan penandaan manual, yaitu Operator produksi secara manual mencatat nilai target. Jika pada saat yang sama operator menerima bonus untuk hasil yang baik dan hukuman untuk yang buruk, maka:
- target cenderung mengandung ofset;
- sebagai hasil dari pelatihan, bias ini akan masuk ke dalam model;
- model tidak akan memprediksi distribusi aktual dari variabel target.
Masalah serupa dapat muncul dengan penggunaan solusi crowdsourcing (misalnya, Yandex.Toloka), di mana para ahli menerima hadiah untuk menandai data. Dalam hal ini, Anda perlu memvalidasi markup yang dihasilkan dengan hati-hati. Ada sejumlah pendekatan untuk ini:
- Tumpang tindih: beberapa markup ahli independen;
- Golden Set: contoh dengan hasil yang diketahui ditambahkan ke data untuk mengevaluasi keakuratan operator dan pemilihannya;
- Pemungutan suara mayoritas: Algoritma pemilihan putusan berdasarkan markup yang tumpang tindih.
Kesimpulan: jika ada markup data secara manual - Anda perlu memeriksanya, jika tidak, kesalahan sistematis dapat terjadi.
Nasihat buruk nomor 9: "Gunakan yang paling modis"
Baca artikel populer dan minta solusi untuk masalah tersebut didasarkan pada metode yang modis.
Hari ini, ilmu data adalah bidang mode, banyak artikel yang diterbitkan, konferensi diadakan hampir setiap hari, semakin banyak metode yang sedang dibuat. Namun, ini tidak berarti bahwa metode populer yang diambil secara sewenang-wenang adalah optimal dalam tugas-tugas industri. Biasanya tidak perlu menggunakan LSTM dalam tugas mengoptimalkan produksi besi kasar, juga tidak diharuskan untuk menggunakan RL pada set kecil data pemasaran atau penambangan. Dalam tugas seperti itu, adalah bijaksana untuk memulai dengan metode tradisional (misalnya, meningkatkan gradien), yang bisa sangat sulit untuk meyakinkan pelanggan. Metode ML yang modis tidak selalu cocok untuk tugas-tugas industri dan seringkali terbukti mahal untuk diterapkan.
Akhlak
Seperangkat tip yang diberikan tidak lengkap, tetapi semuanya dipenuhi secara teratur dalam praktik. Dengan pendekatan ini, sangat mungkin untuk memastikan bahwa ML tidak bekerja di industri dan hanya membuang-buang uang.
Meringkas, kita dapat mengatakan bahwa kasus-kasus terobosan yang benar-benar adalah proyek-ML, dilaksanakan tepat waktu dan secara stabil membawa keuntungan yang terukur ke bisnis. Untuk mencapai ini, kompetensi analisis data dan pembelajaran mesin adalah penting, dan kondisi ketika para ilmuwan data memahami dengan baik seluruh gambaran masalah bisnis.
Diposting oleh Irina Pimenova, Kepala Penambangan, Jet Infosystems