Mengapa cukup untuk menganggap jaringan saraf sebagai kotak hitam?

gambar

Jika Anda telah menyukai teknologi jaringan saraf untuk waktu yang lama, maka Anda mungkin telah menemukan pendapat yang secara singkat disimpulkan dalam pertanyaan retoris: "Bagaimana Anda menjelaskan kepada seseorang ketika jaringan saraf menganggap bahwa ia menderita kanker?" Dan jika dalam kasus terbaik pemikiran seperti itu membuat Anda ragu penggunaan jaringan saraf di area yang cukup bertanggung jawab , maka dalam kasus terburuk Anda mungkin kehilangan semua minat Anda.

Saya menemukan pilihan terbaik - saya dengan tenang menerima batasan ini dan, tanpa banyak berpikir, terus menggunakan teknologi jaringan saraf dalam bidang visi komputer.

Tantangan


Baru-baru ini, sebuah tugas jatuh pada saya - untuk dengan cepat membuat pendeteksi emosi yang bisa dilakukan. Kondisi ditetapkan cukup jelas - orang yang terletak di depan dengan resolusi 100x100. Dalam mencari set data yang sudah jadi, saya menghabiskan beberapa jam dan menyadari bahwa praktis tidak ada yang cocok untuk saya. Atau bahkan untuk "tujuan penelitian" terlalu sulit untuk mengakses dataset. Jalan keluar ditemukan dengan cepat - untuk mengambil selusin film fitur dan hanya menjalankan melalui mereka kaskade Haar untuk membongkar semua wajah. Pada malam hari, lebih dari (!) 30 ribu gambar diterima. Selanjutnya, gambar yang diterima diurutkan berdasarkan 5 emosi utama (bahagia, sedih, netral, marah, terkejut). Tentu saja, jauh dari semua gambar yang cocok, dan sebagai hasilnya, 400-500 gambar wajah masuk dalam setiap kategori.

Kemudian semuanya dimulai dengan topik yang menjelaskan hasil dari jaringan saraf. Bahkan dengan augmentasi data khusus yang cukup berkualitas tinggi, kumpulan data seperti itu jelas tidak cukup. Saat melatih jaringan berdasarkan blok Resnet, angka-angka berikut diperoleh untuk metrik:

gambar

Pelatihan ulang bertentangan dengan latar belakang jumlah contoh yang tidak mencukupi, tetapi karena kurangnya waktu, mendesak untuk memastikan bahwa jaringan bekerja setidaknya dengan memuaskan dan tidak bergantung pada, misalnya, penentuan emosi.

Saya dulu harus bekerja dengan alat-alat seperti Lime dan Keras-Vis, tetapi di sinilah mereka bisa menjadi batu filosofis yang mengubah kotak hitam menjadi sesuatu yang lebih transparan. Inti dari kedua alat ini kira-kira sama - untuk menentukan area gambar sumber yang memberikan kontribusi terbesar pada solusi jaringan akhir. Untuk tes, saya merekam video yang meniru berbagai emosi. Setelah menurunkan ekspresi wajah yang sesuai dengan berbagai emosi, saya menjalankan alat di atas

Hasil berikut diperoleh dari Lime:

gambar

Sayangnya, meski mengubah berbagai parameter fungsi, Lime tidak bisa mendapatkan tampilan yang cukup mudah dibaca oleh manusia. Untuk beberapa alasan, bagian kanan wajah memengaruhi kelas milik "marah". Satu-satunya hal untuk "bahagia" adalah area logis dari mulut dan lesung pipi yang khas dari senyum.

Selanjutnya, semua gambar yang sama dijalankan melalui Keras-Vis dan bingo:

gambar

Happy sedang mencari lokasi mata dan bentuk mulut. Sedih berfokus pada alis dan kelopak mata terkulai. Netral mencoba melihat keseluruhan wajah sebagai keseluruhan dan pada sudut-sudut bawah gambar yang polos. "Marah" secara logis berfokus pada alis yang tergeser, TETAPI lupa tentang bentuk mulut dan untuk beberapa alasan mencari fitur di sudut kanan bawah. Dan "Terkejut" melihat bentuk mulut dan kelopak mata kiri (!) Yang terangkat - sekarang saatnya untuk mulai mengenali yang benar juga.

Hasilnya senang dan memungkinkan untuk melihat kekuatan dan kelemahan jaringan yang dihasilkan. Setelah merasakan kelemahan dalam klasifikasi kelas Terkejut dan Marah, saya menemukan kekuatan untuk sedikit meningkatkan sampel dan menambahkan dropout lebih banyak. Pada iterasi berikutnya, hasil berikut diperoleh:

gambar

Terlihat bahwa daerah aktivasi lebih terlokalisasi. Perhatian jaringan ke latar belakang dalam kasus "Marah" telah menghilang. Tentu saja, jaringannya masih memiliki kekurangan, lupa tentang alis di satu sisi dan sebagainya. Tetapi pendekatan ini memungkinkan untuk lebih memahami apa dan mengapa model yang dihasilkan melakukan. Pendekatan ini sangat ideal dalam kasus di mana kita memiliki keraguan tentang konvergensi jaringan yang benar.

Kesimpulan


Jaringan saraf tetap saja solusi untuk masalah optimasi yang kompleks. Tetapi bahkan kartu perhatian jaringan yang paling sederhana pun membawa transparansi ke hutan ini. Pendekatan ini dapat digunakan bersama dengan orientasi biasa ke fungsi kehilangan, yang akan memungkinkan untuk mendapatkan jaringan yang lebih sadar.

Jika kita mengingat pertanyaan retoris dari awal artikel, maka kita dapat mengatakan bahwa penggunaan kartu perhatian bersama dengan respons akhir dari jaringan sudah membawa penjelasan jelas tertentu yang sangat kurang.

Visualisasikan, visualisasikan, dan visualisasikan lagi!

Source: https://habr.com/ru/post/id420381/


All Articles