Pembelajaran mesin terus menembus industri di luar industri Internet. Pada konferensi Data & Sains "
Dunia melalui mata robot ", Alexander Belugin dari perusahaan "Digital" berbicara tentang keberhasilan, kesulitan, dan tugas mendesak dengan cara ini. Pengenalan teknologi seperti visi komputer membutuhkan pendekatan serial dan pendekatan produk untuk mengurangi biaya implementasi tunggal. Faktanya adalah bahwa ada banyak jenis tugas dalam produksi. Dari laporan tersebut Anda dapat mempelajari tentang produk, tren dunia, dan pengalaman tim Alexander di bidang keselamatan industri dan otomatisasi proses.
- Selamat pagi. Senang semua orang datang ke konferensi yang menarik ini. Pertama-tama saya akan berbicara singkat tentang perusahaan "Digital", kemudian sedikit tentang tugas-tugas yang ada di industri, dan tentang cara-cara khas untuk menyelesaikan masalah seperti itu. Ini adalah tugas tanpa robot, bukan yang perakitan, tetapi pabrik proses yang berbeda. Pada akhirnya, sedikit lihat pengalaman kami.
Kami telah bekerja di pasar selama satu tahun sekarang dan tujuan kami adalah untuk sepenuhnya mengotomatisasi produksi industri, yang akan memungkinkan kami untuk mencapai peningkatan laba 10-15%. Untuk melakukan ini sepenuhnya, perlu untuk menyelesaikan semua masalah, diakhiri dengan beberapa jenis optimasi bersama dari semua proses, logistik, pengadaan dan produksi itu sendiri, tetapi dimulai dengan hal-hal dasar seperti Internet hal, sensor, pengumpulan informasi.

Ini sekarang disebut digitalisasi kata kunci. Ini adalah transfer data tentang semua proses dalam bentuk digital, sehingga nantinya Anda dapat menggunakannya untuk meningkatkan efisiensi.

Hari ini kita berbicara lebih banyak tentang visi komputer. Ada juga istilah "visi mesin", yang mengacu pada teknologi. Ada kamera video yang mirip dengan yang digunakan untuk pengawasan video, ada kamera web yang digunakan untuk komunikasi, dan ada kamera khusus di industri. Mereka berbeda karena mereka sering tidak memiliki port Ethernet biasa, protokol khusus digunakan, mereka dapat mengirimkan, misalnya, 750 frame per detik dan tidak dalam mode burst, tetapi terus menerus, tanpa kompresi. Ada kamera khusus dengan sensitivitas fotosensitif khusus dalam rentang selain yang terlihat oleh mata. Bahkan ada kamera yang membaca satu jalur, mengambil banyak frame per detik, tetapi dengan lebar satu piksel. Kamera seperti itu berdiri di atas conveyor dan melihat apa yang terjadi di sana.
Ciri khas tugas penglihatan komputer adalah bahwa output tidak boleh berupa gambar - gambar tidak menarik bagi siapa pun - tetapi angka yang mencirikan kualitas atau ukuran dari apa yang kami amati.

Saya ingin mendaftar beberapa tugas dasar. Blok utama pertama adalah apa yang terkait dengan keamanan. Ada kontrol perimeter sehingga tidak ada yang diambil dari perusahaan. Ini adalah contoh dari jumlah tugas analitik video yang telah diselesaikan selama 15-20 tahun, dan setiap tahun semakin baik. Jika ada pagar dan kamera video dan seseorang berusaha memanjat, maka analitik video pasti akan menangkapnya.
Ada tugas yang lebih kompleks - mengendalikan gerakan di beberapa zona. Misalnya, di perusahaan Anda selalu dapat terbakar, temukan diri Anda di area bongkar muat atau di rel tempat gerobak mengemudi. Sudah ada tugas yang lebih sulit, Anda harus mengamati batasan yang sempit, memahami jalan apa yang bisa dilalui orang.
Contoh lain dari tugas yang berhubungan dengan keamanan adalah deteksi helm di kepala mereka ketika kamera ditempatkan pada platform. Di Rusia, topik ini dijual dengan sangat buruk. Ketika orang mendengar berapa biaya sistem semacam itu, mereka mengatakan bahwa kita memiliki peraturan, seseorang harus mengenakan helm dan dia akan mengenakannya, dan jika tidak, dia melanggar peraturan itu, masalahnya. Secara umum, ini adalah solusi populer di dunia yang dipromosikan oleh vendor dan perusahaan swasta.
Blok tugas selanjutnya terkait dengan akuntansi. Pada dasarnya, ini adalah pengakuan dari beberapa stiker. Ada stiker khusus saat mencetak barcode. Maka itu bekerja sedikit lebih mudah. Ada banyak perangkat lunak yang siap pakai untuk mengenali barcode atau karakter yang dicetak dengan jelas. Mereka sering mencoba menghemat uang, bukan untuk mengubah sistem pengkodean, tetapi menggunakan visi komputer untuk pengakuan. Maka bisa, misalnya, diisi di gerbong kereta api dan nomor yang tidak dapat dibedakan. Maka semuanya lebih rumit, Anda perlu menghabiskan lebih banyak waktu untuk membangun semua ini. Ini diperlukan untuk memerangi pencurian dan mengendalikan barang - apa yang masuk ke perusahaan, bagaimana ia bergerak di dalamnya dan ke mana barang itu berakhir.

Blok tugas terakhir adalah kontrol kualitas. Itu juga dapat dibagi menjadi dua komponen. Salah satunya terkait dengan kontrol kualitas fisik. Anda bisa menyaksikan ukuran berbagai benda. Paling sering ini menyangkut hal-hal kecil: beberapa tutup dari paket dengan susu atau dari botol. Mereka memiliki proses produksi murah yang cukup sederhana, banyak cacat, mereka hanya perlu disaring, membuat mereka lebih baik tidak menguntungkan.
Dan ada bagian yang ada di gambar. Sudah ada tugas yang lebih kompleks. Ini adalah saat kami mencoba memahami - dan apakah, pada kenyataannya, mereka melakukan tindakan yang tepat dengan produk kami. Misalnya, Anda perlu mengevaluasi pose seorang mekanik dan memahami operasi apa yang dia lakukan. Atau ada tugas ketika ada platform tempat rig pengeboran dirakit dan dibongkar. Lapangan terbesar dirakit, didorong untuk bekerja, kemudian dibongkar dan dibawa pergi. Menempatkan seseorang ke utara untuk melacak operasi ini sangat mahal, meskipun pada kenyataannya ia akan menganggur hampir sepanjang waktu. Di camcorder juga. Dengan menggunakan camcorder, Anda dapat menonton secara otomatis peristiwa apa yang terjadi dan melacak jadwal perakitan dan pembongkaran.

Contoh lain adalah tangkapan layar perangkat lunak afiliasi, kontrol pernikahan dalam coran, segala macam hal plastik sebelum dicat, seperti ini dituangkan dalam bentuk seperti itu. Anda dapat mendeteksi pernikahan menggunakan kamera.
Ada dua pendekatan utama untuk memecahkan masalah ini. Keduanya diciptakan untuk waktu yang lama, tetapi yang klasik adalah bekerja dengan gambar menggunakan beberapa jenis algoritma.

Tuas kiri, coba identifikasi. Benar tidak begitu jelas. Lingkaran adalah gulungan lembaran baja digulung, di tengah tidak jelas apa. Metodenya adalah bagaimana memproses gambar, meningkatkan kontrasnya, mungkin membuatnya dua warna, memilih beberapa tepi, tepi objek, mencoba menemukan objek itu sendiri, dan kemudian bekerja dengannya.

Metode kedua, lebih modern, terkait dengan ilmu data, adalah segala sesuatu yang berkaitan dengan jaringan saraf. Ada beberapa keuntungan di sini. Pertama dan terutama, dalam hal kualitas, adalah mungkin untuk mencapai hasil yang lebih tinggi dalam masalah paling kompleks yang tidak dapat diselesaikan dengan metode klasik. Beberapa tugas sampel dicantumkan.
Ada kemampuan beradaptasi, Anda dapat mengkonfigurasi algoritma pembelajaran jaringan saraf, dan mentransfer dari tugas ke tugas bukan jaringan saraf terlatih itu sendiri, tetapi semua bersama-sama dengan algoritma, dan kemudian tugas-tugas yang sedikit berbeda dapat diselesaikan dengan alat yang sama.
Ada kelemahan yang sering terjadi di industri - kurangnya data. Untuk mulai mengidentifikasi cacat, jika kita berbicara tentang metode klasik, kita membutuhkan aliran video yang merekam produk jadi, kita perlu melihat cacat apa yang ada, dengan mata kita, melihatnya dan membuat kode kita melihatnya. Ulangi beberapa parameter, tidak perlu markup manual untuk ini. Dalam kasus jaringan saraf, Anda memerlukan sejumlah besar contoh, baik untuk mengumpulkannya secara manual, atau menggunakan metode modern untuk menghasilkannya. Ini adalah proses yang panjang dan kompleks, yang mungkin masih perlu diulang dari waktu ke waktu ketika dipindahkan ke tugas lain.

Berikut adalah contoh gambar seperti itu yang berkaitan dengan deteksi cacat. Salah satu topik populer, jika Anda melihat artikel apa, di bagian bawah gambar menunjukkan pernikahan kecil pada struktur. Menggunakan jaringan saraf, dimungkinkan untuk mendeteksi dari 92% hingga 99% dari semua cacat, dalam pekerjaan yang berbeda dengan cara yang berbeda, dengan positif palsu pada tingkat 3-4%, hasil yang sangat cocok. Tingkat perkawinan normal di industri yang berbeda dari 0,5% hingga unit kecil persen. Indikator semacam itu sangat cocok untuk menggantikan seseorang yang mendeteksi cacat ini. Atau bahkan meningkatkan hasilnya.

Contoh lain dari tugas yang terkait dengan digitalisasi, menghubungkan berbagai peralatan yang tidak memiliki antarmuka digital, di mana panah hijau adalah leverage. Tembakan kecil dari tempat kerja driller, yang mengontrol pengeboran, ia memiliki beberapa leverage yang ia alihkan. Pengeboran itu penting, proses yang mahal, beberapa juta rubel sehari. Dan ini tidak dicatat dengan cara apa pun, ia mengganti beberapa pengungkit, dan tidak ada catatan, atau dalam kasus terbaik, itu ada dalam jurnal manual, yang pengalihan pengungkit ini sedang terjadi. Ini sangat penting.

Ini adalah tungku yang membuat marah kawat. Dalam contoh ini, kawat emas. Kompor itu berumur sekitar 25 tahun, emas murni masuk ke dalam, dilebur, dituang menjadi benang tipis, dan dihangatkan dengan panas, dibakar, diubah menjadi bahan padat. Diketahui bahwa kadang-kadang kawat ini kadang-kadang ternyata dapat diandalkan, semua jenis rantai dijalin darinya, dan kadang-kadang sejumlah kawat mengarah ke pernikahan, selama menenun rantai mereka putus, retak, patah. Tampaknya ini tergantung pada rezim perlakuan panas, mengingat bahwa bahan baku sedikit berubah. Data logger ditulis di sini, di sebelah kanan bingkai ada perekam yang dapat menulis parameternya pada gulungan kertas. Ada tiga parameter: suhu dalam cawan di mana emas dilebur, suhu pemanasan adalah mode tungku, dan kecepatan yang digunakan untuk melewatinya.
Untuk memahami apa yang terkait dengan perkawinan dan apakah mungkin untuk menyesuaikan kompor sehingga perkawinan dapat dikurangi, parameter ini harus didigitalkan. Bagaimana? Ini memiliki konektor industri, tetapi itu semua 25 tahun yang lalu, itu akan sangat mahal, baik membuat koneksi dengan teknik reverse atau membayar produsen tungku, jika perusahaan belum bangkrut, untuk koneksi. Menghubungkan peralatan seperti itu ke sistem USP atau MS [00:14:24] dapat menelan biaya, misalnya, satu juta rubel. Atau mungkin ratusan ribu. Apalagi mengingat hanya ada dua kompor semacam itu, bukan seratus.

Bagaimana kita bisa menyelesaikan masalah ini dengan alat yang kita bicarakan? Pendekatan klasik menggunakan OpenCV dalam hal ini tidak berhasil, ada terlalu banyak cahaya, gambarnya buram, bahkan seseorang tidak benar-benar membedakan angka apa yang ada di sana. OCR, pustaka siap pakai untuk pengenalan teks juga sangat tidak cocok.
Pilihan kedua tetap - jaringan saraf. Dalam hal ini, ini berfungsi, tetapi melibatkan sejumlah besar langkah. Tentunya Anda perlu mengumpulkan beberapa markup untuk pelatihan jaringan, menguji, mengambil beberapa jaringan, melatihnya. Semua ini perlu dilakukan, diuji. Saya pikir biaya tenaga kerja. Di sini Anda bisa berdiskusi, Anda bisa melakukannya lebih cepat atau lebih lambat, tetapi secara umum ternyata 72 jam. Pada tingkat spesialis yang baik, ini bisa sangat mahal. Pada saat yang sama, kami tidak menerima infrastruktur atau perangkat lunak apa pun. Kami baru saja mendapatkan jaringan yang telah disetel dan diuji yang mengenali angka-angka ini dengan baik.
Nilai tambah dari pendekatan ini adalah ia bekerja. Kelemahannya adalah tidak ada yang siap untuk mengimplementasikannya. Pertama, Anda perlu mempelajari cara mengumpulkan data ini, dan baru kemudian memahami apakah memang ada hubungan antara data ini dan pernikahan. Jika demikian, Anda perlu memikirkan bagaimana dan apa yang harus diubah untuk mengurangi proporsi pernikahan. Bagaimana jika terlalu banyak? Dan membayar pilot, untuk otomatisasi dan koneksi, Anda harus segera setidaknya sebanyak itu. Bahkan, kemungkinan besar, lebih banyak.

Oleh karena itu, selama tiga tahun terakhir, menurut pengalaman kami, proyek-proyek seperti itu tidak dapat menjual satu pun. Jika ini adalah pipa yang rusak di mana seseorang berdiri, maka seseorang itu jauh lebih murah. Jika ini adalah hal yang kompleks, maka risiko bagi pelanggan terlalu besar.
Kesimpulan - Anda harus memproduksinya.
Sekarang di dunia, di pasar untuk pembelajaran mesin, ada banyak gerakan menuju produksi. Segala macam solusi ML otomatis yang memungkinkan Anda untuk mengganti sebagian ilmuwan data, dan produk jadi atau solusi untuk aplikasi tertentu. Contoh paling sederhana adalah rekomendasi dalam e-commerce. Untuk waktu yang lama ada produk di mana data terhubung dalam format standar, dan mereka sendiri mengeluarkan rekomendasi.
Kami mencoba melakukan hal yang sama di bidang penglihatan komputer. Untuk menawarkan produk yang memungkinkan Anda untuk mengotomatisasi dan mengurangi dengan urutan tenaga kerja manual yang besar untuk menghubungkan peralatan lama dengan pengakuan angka: indikator dial dan lain-lain.

Tugas pertama yang perlu diselesaikan adalah mengurangi biaya pengaturan. Saat Anda meletakkan kamera, Anda harus membiarkan orang menyorot zona yang diinginkan. Misalnya, lingkaran seperti ini dengan persegi panjang dan katakan apa yang ingin saya kenali di zona ini.

Pertanyaan selanjutnya adalah bahwa semua tugas berbeda, dan hanya di tempat ini Anda perlu mempelajari beberapa jaringan saraf sehingga mereka bekerja dengan baik di sini.

Kita tahu bahwa ada berbagai jaringan saraf. Jika kita berbicara tentang angka, banyak yang memiliki penerjemah otomatis di telepon pintar: kami menunjuk ke teks apa pun, dan itu lebih atau kurang mulai menerjemahkannya, apa pun font atau sudutnya. Ada solusi seperti itu, yang berarti menggunakan papan skor Anda dapat melatih jaringan yang akan bekerja dengan baik dengan papan skor apa pun. Tapi itu akan memiliki kelemahan - itu akan sulit, sulit, itu akan bekerja lambat, dan karena bersifat universal, kualitas akan menderita pada tugas tertentu. Oleh karena itu, kami menggunakan pendekatan yang disebut Tutor-Student, di mana seperangkat jaringan yang kuat untuk tugas-tugas tertentu dibangun ke dalam solusi. Misalnya - secara terpisah untuk teks, untuk beberapa tuas, untuk indikator dial. Tidak banyak jenis perangkat semacam itu. Sistem ini bekerja dengan sendirinya, mengenali sesuatu, dan kemudian memberi operator kesempatan untuk melakukan markup tambahan, melihat melalui matanya dan memperbaiki 3-5% dari kesalahan yang ia lihat. Dan kemudian, berdasarkan metode ekspres dari markup yang dihasilkan, untuk melatih jaringan yang sudah ringan yang disesuaikan dengan tugas spesifik pelanggan, menurut datanya. Pendekatan ini dapat secara signifikan mengurangi biaya implementasi, sementara membuat kualitasnya hampir sama seperti jika pekerjaan dilakukan dengan tangan.

Jala ringan diperlukan nanti, karena tidak di mana-mana di perusahaan ada kemampuan untuk menghubungkan kamera video ke beberapa jenis sistem manajemen video. Jika ada VMS seperti itu, maka Anda dapat melakukan segalanya di server, di mana batas sumber daya hanya dikaitkan dengan biaya. Dan ada chip yang dibangun ke dalam camcorder seperti Nvidia Jetson, dan solusi terpisah. Secara khusus, solusi kami bekerja pada Orange PI, itu adalah jenis komputer mikro Raspberry PI, dan menghasilkan 8-10 frame per detik, menerima gambar Full HD pada input.

Selanjutnya juga bagian belanjaan. Semua data ini harus diletakkan di suatu tempat. Segera menyediakan satu set konektor standar.

Untuk meringkas. Productivization semacam itu memungkinkan Anda untuk memindahkan pembelajaran mesin dan visi komputer ke massa, ke pasar yang luas, karena biaya rendah dan biaya implementasi yang rendah, tanpa menggunakan spesialis dan ilmuwan data yang mahal. Saya pikir ini adalah masa depan, termasuk di industri.