Menurut Gartner, pembelajaran mesin berada pada puncaknya. Terlibat dalam pengembangan dan implementasi solusi di bidang analisis data dan pembelajaran mesin, tim DATA4 kami telah memperoleh pengalaman dalam tahap-tahap dan perangkap utama, yang akan saya bagikan dalam artikel ini.

Pertimbangkan tahapan implementasi:
1. Pernyataan masalah
Setiap teknologi harus menyelesaikan masalah bisnis tertentu. Artikel terpisah akan diperlukan untuk menggambarkan semua aplikasi pembelajaran mesin, tetapi beberapa bidang utama dapat dibedakan. Ini adalah analitik prediktif (penilaian, arus keluar, menentukan penawaran terbaik, produk terkait, dll.), Analisis teks (ulasan di Internet, moderasi konten, topik referensi, dll.), Analisis wicara, dan analitik video.
Untuk implementasi yang sukses, perlu untuk menentukan bisnis KPI mana yang kami tingkatkan, bagaimana dan dengan metrik apa kami mengukur hasilnya.
2. Pengumpulan, penyimpanan, dan pemrosesan data
Ketika tugas ditetapkan, perlu untuk membuat sampel pelatihan (sayangnya, sebagian besar tugas bisnis diselesaikan dengan "belajar dengan seorang guru"). Dalam pengalaman kami, pengambilan sampel adalah langkah terpanjang. Untuk menguranginya, perusahaan harus memiliki budaya bekerja dengan data.
Selain mengumpulkan data, perlu untuk menghapusnya dan menentukan fitur yang mempengaruhi hasil akhir.
3. Pelatihan algoritma
Pengembangan bagian algoritmik adalah yang paling menarik, tetapi juga tahap tercepat. Biasanya dibutuhkan beberapa jam hingga beberapa minggu kerja.
4. Pengembangan strapping tingkat tinggi
Solusinya harus jelas tidak hanya untuk spesialis dalam analisis data, tetapi juga kepada programmer atau administrator yang akan mengimplementasikan solusi ini. Dan jika ini adalah solusi yang sangat dimuat, atau solusi dengan persyaratan keamanan yang meningkat, Anda mungkin harus menulis ulang dari Python ke bahasa lain.
5. Integrasi
Sebagai aturan, dibutuhkan banyak waktu karena kebutuhan untuk komunikasi dan persetujuan tambahan. Tahap ini paling baik dilakukan oleh kekuatan internal tim pelanggan.
6. Koleksi umpan balik, penyesuaian model
Dunia terus berubah, tidak semua fitur dapat diperhitungkan pada awal pengembangan. Pengumpulan umpan balik membantu melatih model secara tepat waktu. Idealnya, pada tahap ini, siklus dimulai lagi, tetapi dengan sedikit waktu.
Fitur solusi berdasarkan pembelajaran mesin:
- Pembelajaran mesin didasarkan pada statistik, dan ketika algoritma memberikan prediksi yang salah - ini normal. Lebih baik segera menjelaskan kepada pelanggan bisnis dengan apa metrik kualitas dievaluasi, apa arti metrik ini (tidak semua orang tahu apa ukuran F dan Roc-Auc), dan bahwa dengan menetapkan 3 contoh secara manual dan melihat hasilnya menarik, tetapi tidak signifikan secara statistik .
- Hasil prediksi buruk. Data tidak selalu mengandung sinyal yang bermanfaat, dan tidak mungkin untuk secara akurat memprediksi hasilnya terlebih dahulu. Kami biasanya mengambil data, membangun model-model sederhana, dan berdasarkan itu kami katakan hasil seperti apa yang mungkin dicapai. Masalah ini tidak berlaku untuk beberapa tugas klasik (pengenalan wajah, pengenalan ucapan, dll.).
- Pembelajaran mesin adalah teknologi terakhir, bukan peluru perak dari semua masalah. Jika penjual tidak mengangkat telepon dari pelanggan dan tidak menelepon kembali pelanggan, maka akan sangat sedikit akal dalam memperkenalkan analitik suara.
- Sebagian besar waktu dihabiskan untuk integrasi, dan pengumpulan dan pemrosesan data, dan bukan pada pelatihan algoritma (dengan pengecualian langka).
Opsi untuk bekerja dengan pengembang pihak ketiga:
- Pembayaran per jam. Hanya cocok untuk prototyping cepat dan MVP. Tetapi tidak cocok untuk solusi yang membutuhkan dukungan lebih lanjut.
- Pengembangan kontrak. Kekayaan intelektual diberikan kepada pelanggan, dukungan dimungkinkan, tetapi TK harus ditentukan dengan cermat.
- Pembayaran dari efektivitas terbukti. Dari pengalaman pribadi dalam DATA4, kasus yang terlalu rumit dalam hal persetujuan, yang praktis tidak diterapkan dalam praktik.
Atau, Anda dapat menggunakan platform IBM, Microsoft, dll yang sudah jadi, tetapi dalam praktiknya menjadi mahal dengan penggunaan konstan, tidak selalu mungkin untuk menerapkan kasus tertentu menggunakan alat yang sudah jadi, dan ada batasan pada data apa yang dapat dikirim ke sana.
Kesimpulan
Teknologi pembelajaran mesin meningkatkan efisiensi bisnis, tetapi kita harus ingat bahwa untuk membuat keputusan yang lengkap tidak cukup hanya dengan melatih algoritma, tetapi perlu menyiapkan data dan mengintegrasikan solusi dengan sistem internal. Dan bersiaplah bahwa hasilnya akan tergantung pada kualitas sampel pelatihan.