Jaringan neural visi mesin dilatih pada game komputer yang realistis.
Bidikan dari gim komputer Grand Theft Auto V dan markup semantik untuk melatih visi mesinjaringan saraf. Jaringan saraf membuat rekor baru di hampir semua kompetisi visi komputer, dan juga semakin banyak digunakan dalam aplikasi AI lainnya. Salah satu komponen kunci dari kinerja jaringan saraf yang luar biasa adalah ketersediaan set data besar untuk pelatihan dan evaluasi. Sebagai contoh, Imagenet Skala Besar Pengenalan Visual Tantangan (ILSVRC) dengan lebih dari 1 juta gambar digunakan untuk mengevaluasi jaringan saraf modern. Tetapi menilai dari hasil terbaru (ResNet menunjukkan hasil hanya 3,57% dari kesalahan), peneliti segera harus mengkompilasi set data yang lebih luas. Dan kemudian - bahkan lebih luas. Ngomong-ngomong, membuat anotasi foto semacam itu banyak pekerjaan, yang sebagian harus dilakukan secara manual.Beberapa pengembang sistem visi komputer menawarkan cara alternatif untuk melatih dan menguji sistem tersebut. Alih-alih menganotasi foto pelatihan secara manual, mereka menggunakan bingkai yang disintesis dari permainan komputer yang realistis.Ini adalah pendekatan yang sepenuhnya logis. Dalam permainan modern, grafik telah mencapai tingkat realisme sedemikian rupa sehingga gambar yang disintesis hanya sedikit berbeda dari foto-foto dunia nyata. Pada saat yang sama, mesin gim dapat menghasilkan jumlah frame yang tak terbatas - ini secara langsung memecahkan masalah mengumpulkan jutaan foto untuk pelatihan dan mengevaluasi jaringan saraf.Meskipun mesin gim menggunakan jumlah tekstur terbatas, ada berbagai kombinasi sudut pandang, pencahayaan, cuaca, dan tingkat detail, yang menyediakan beragam set data yang memadai.Tahun ini, dua kelompok peneliti memeriksa dalam praktiknya apakah mungkin untuk menggunakan frame yang dihasilkan dari game komputer untuk pelatihan jaringan saraf visi komputer. Sekelompok peneliti dari departemen ilmu komputer University of British Columbia (Kanada) menerbitkan sebuah artikel ilmiah yang mereka kumpulkan lebih dari 60.000 frame dari permainan komputer dengan tampilan jalan yang mirip dengan set data CamVid dan Cityscapes . Peneliti berhasil membuktikan bahwa jaringan saraf setelah pelatihan pada gambar sintetis menunjukkan tingkat kesalahan yang sama seperti setelah pelatihan dalam foto nyata. Selain itu, pelatihan tentang gambar yang disintesis menggunakan foto asli menunjukkan hasil yang lebih baik.Semua 60.000 frame diambil dalam cuaca cerah virtual, pada waktu virtual 11:00, dengan resolusi 1024 × 768 dan pengaturan grafis maksimum (nama permainan tidak diungkapkan karena kekhawatiran tentang hak cipta). Sebuah kendaraan tak berawak sengaja melaju di sepanjang jalan-jalan perjudian, mengamati aturan jalan. Frame diambil satu detik sekali. Masing-masing disertai dengan segmentasi semantik otomatis (langit, pejalan kaki, mobil, pohon, latar belakang - segmentasi benar-benar akurat dan diambil dari permainan), gambar dalam (gambar kedalaman, peta dengan markup objek), serta normals ke permukaan.Selain dataset VG dasar, para peneliti membuat dataset VG + lainnya dengan banyak informasi semantik, tidak terbatas pada lima label - di sini segmentasinya tidak akurat. Markup dilakukan secara otomatis menggunakan SegNet .
Bingkai yang diberi tag ketat dari set VG +Untuk membandingkan efektivitas pelatihan jaringan saraf, set data CamVid dan Cityscapes (lima tag), serta CamVid + dan Cityscapes + dengan set tag tambahan disiapkan.
Foto CamVid asli dengan anotasi
Dua gambar acak Cityscapes + ditetapkan dengan anotasi terperinciUntuk klasifikasi semantik, jaringan saraf convolutional panjang dengan arsitektur FCN8 sederhana di atas 16-layer VGG Net dari Simonyan dan Sisserman digunakan.Peneliti melakukan beberapa percobaan untuk mengevaluasi efisiensi pengenalan objek oleh jaringan saraf yang dilatih pada set data yang berbeda. Dalam hampir semua kasus, jaringan saraf yang dilatih tentang data sintetik menunjukkan hasil yang lebih baik daripada jaringan saraf yang dilatih pada foto nyata. Dia menunjukkan hasil terbaik bahkan ketika memeriksa foto asli.Sebagai contoh, tabel menunjukkan kinerja jaringan saraf identik yang dilatih pada tiga set data (foto asli, data sintetik dari game, set campuran) ketika objek dikenali dalam foto nyata dari set CamVid + dan Cityscapes +.
Seperti yang Anda lihat, ketika melatih jaringan saraf, yang terbaik adalah melengkapi gambar sintetis dari permainan komputer dengan foto-foto nyata.Artikel ilmiahditerbitkan 5 Agustus 2016 di arXiv.org, versi kedua adalah 15 Agustus ( pdf ).Selain peneliti dari University of British Columbia, hampir bersamaan pekerjaan yang sama dilakukan oleh kelompok ilmuwan lain dari Darmstadt Technical University (Jerman) dan Intel Labs . Mereka mengambil 24.966 frame untuk pelatihan dari game komputer dunia terbuka Grand Theft Auto V. Para peneliti mencapai hasil yang sama: ketika menggunakan set data pelatihan yang terdiri dari 2/3 gambar sintetis dan 1/3 foto CamVid, keakuratannya. Pengakuan lebih tinggi daripada hanya ketika menggunakan foto CamVid.
Akurasi pengenalan berbagai objek dalam foto dari set CamVid saat belajar menggunakan metode konvensional dan saat menggunakan bingkai dari GTA V (garis bawah)Pada saat yang sama, anotasi semi-otomatis dalam editor yang dikembangkan secara khusus mengurangi waktu yang dibutuhkan untuk menyiapkan set data untuk pelatihan jaringan saraf. Misalnya, menganotasi satu foto CamVid membutuhkan waktu 60 menit, satu foto Cityscapes membutuhkan waktu 90 menit, dan anotasi bingkai GTA V semi-otomatis hanya membutuhkan waktu 7 detik, rata-rata ( video, demonstrasi editor ).Karya para peneliti dari Universitas Teknis Darmstadt dan Intel Labs disiapkan untuk Konferensi Eropa tentang Visi Komputer ECCV'16 (11-14 Oktober) dan diterbitkan di situs web universitas. Para penulis meletakkan kode sumber untuk membaca label dan set data lengkap : baik foto sumber dan gambar mendalam dengan markup semantik. Kode sumber editor untuk anotasi kemungkinan akan diterbitkan di masa depan.Berkat kemajuan dalam menciptakan game komputer yang realistis, pengembang sistem kecerdasan buatan akan memiliki platform yang sangat baik untuk mempelajari sistem visi mesin. Sistem ini akan digunakan pada kendaraan dan robot tak berawak.Mungkin game komputer dapat digunakan tidak hanya untuk visi mesin, tetapi juga untuk menciptakan pola perilaku alami di masyarakat. Hanya dengan pelatihan AI Anda harus berhati-hati dalam memilih permainan.Source: https://habr.com/ru/post/id397557/
All Articles