Baru-baru ini, kami
berbicara tentang bagaimana kami dianalisis di bioskop menggunakan teknologi visi komputer: emosi, gerakan, dan itu saja. Hari ini kami menerbitkan percakapan dengan kolega kami dari Microsoft Research. Dia terlibat dalam penciptaan visi itu. Di bawah cut, detail tentang pengembangan teknologi, sedikit tentang GDPR, serta bidang aplikasi. Bergabunglah sekarang!

Dari sudut pandang teknis, pakar visi komputer "membuat algoritma dan sistem untuk secara otomatis menganalisis gambar dan mengekstraksi informasi dari dunia yang terlihat." Dari sudut pandang orang awam, mereka menciptakan mesin yang bisa mereka lihat. Inilah yang dilakukan oleh kepala peneliti dan kepala departemen penelitian, Dr. Gang Hua, dan tim ahli visi komputer. Untuk perangkat seperti robot pribadi, kendaraan tak berawak, dan drone, yang semakin sering kita temui dalam kehidupan sehari-hari, penglihatan sangat penting.
Hari ini, Dr. Hua akan memberi tahu kami bagaimana kemajuan terbaru dalam AI dan pembelajaran mesin telah membantu meningkatkan pengenalan gambar dan teknologi "pemahaman" video, dan telah berkontribusi pada pengembangan seni. Dia juga akan menjelaskan esensi dari pendekatan ensemble terdistribusi untuk pembelajaran aktif, di mana orang dan mesin bekerja bersama di laboratorium untuk menciptakan sistem visi komputer yang dapat melihat dan mengenali dunia terbuka.
Gang Hua, Peneliti Utama dan Kepala Riset. Foto milik Maryatt Photography.Wawancara
Jika kita melihat ke belakang sepuluh hingga lima belas tahun, kita akan melihat bahwa ada lebih banyak keanekaragaman dalam komunitas spesialis penglihatan komputer. Untuk mempertimbangkan masalah dari sudut yang berbeda dan menemukan solusinya, berbagai metode pembelajaran mesin dan pengetahuan dari berbagai bidang, seperti fisika dan optik, diterapkan. Kami menekankan pentingnya keragaman dalam semua bidang kegiatan, jadi saya pikir komunitas ilmiah akan mendapat manfaat jika kami memiliki sudut pandang yang lebih berbeda.
Kami memperkenalkan Anda pada penelitian teknologi canggih dan para ilmuwan di baliknya.
Dari sudut pandang teknis, pakar visi komputer "membuat algoritma dan sistem untuk secara otomatis menganalisis gambar dan mengekstraksi informasi dari dunia yang terlihat." Dari sudut pandang orang awam, mereka menciptakan mesin yang bisa mereka lihat. Inilah yang dilakukan oleh kepala peneliti dan kepala departemen penelitian, Dr. Gang Hua, dan tim ahli visi komputer. Untuk perangkat seperti robot pribadi, kendaraan tak berawak, dan drone, yang semakin sering kita temui dalam kehidupan sehari-hari, penglihatan sangat penting.
Hari ini, Dr. Hua akan memberi tahu kami bagaimana kemajuan terbaru dalam AI dan pembelajaran mesin telah membantu meningkatkan pengenalan gambar dan teknologi "pemahaman" video, dan telah berkontribusi pada pengembangan seni. Dia juga akan menjelaskan esensi dari pendekatan ensemble terdistribusi untuk pembelajaran aktif, di mana orang dan mesin bekerja bersama di laboratorium untuk menciptakan sistem visi komputer yang dapat melihat dan mengenali dunia terbuka. Tentang ini dan banyak lagi - dalam rilis baru podcast Microsoft Research.
Anda adalah peneliti utama dan kepala departemen penelitian di MSR (Microsoft Research), dan spesialisasi Anda adalah visi komputer.Ya
Secara umum, mengapa spesialis visi komputer bangun di pagi hari? Apa tujuan utamanya?Visi komputer adalah bidang penelitian yang relatif muda. Singkatnya, kami mencoba membuat mesin yang dapat melihat dunia dan melihatnya dengan cara yang sama seperti manusia. Dalam bahasa yang lebih teknis, informasi yang masuk ke komputer dalam bentuk gambar dan video sederhana dapat direpresentasikan sebagai urutan angka. Kami ingin mengekstrak dari angka-angka ini beberapa struktur yang menggambarkan dunia, beberapa informasi semantik. Sebagai contoh, saya dapat mengatakan bahwa beberapa bagian dari gambar sesuai dengan kucing. Dan bagian lainnya sesuai dengan mesin, maksud saya interpretasi semacam ini. Ini dia, tujuan dari visi komputer. Ini sepertinya tugas yang sederhana bagi orang-orang, namun, untuk mengajarkan komputer tentang hal itu, kami harus melakukan banyak pekerjaan selama 10 tahun terakhir. Namun, visi komputer sebagai bidang penelitian sudah berusia 50 tahun. Meskipun demikian, kita masih harus menyelesaikan banyak masalah.
Ya 5 tahun yang lalu Anda mengatakan yang berikut, saya ulangi: "Mengapa, setelah 30 tahun penelitian, apakah kita masih bekerja pada masalah pengenalan wajah?" Beri tahu kami bagaimana Anda menjawab pertanyaan ini dan apa yang telah berubah selama ini.Jika kita menjawab dari perspektif lima tahun lalu, maka saya akan mengatakan bahwa dalam 30 tahun yang telah berlalu sejak awal penelitian di bidang penglihatan komputer dan pengenalan wajah, kita telah mencapai banyak hal. Tetapi sebagian besar, kita berbicara tentang lingkungan yang terkendali di mana, ketika menangkap wajah, Anda dapat menyesuaikan pencahayaan, kamera, dekorasi dan sejenisnya. Lima tahun lalu, ketika kami mulai bekerja lebih in vivo, di lingkungan yang tidak terkendali, ternyata ada kesenjangan besar dalam akurasi pengakuan. Namun, selama lima tahun terakhir, komunitas kami telah membuat kemajuan besar melalui penggunaan metode pembelajaran mendalam yang lebih maju. Bahkan di bidang pengenalan wajah in vivo, kami telah membuat kemajuan dan benar-benar sampai pada titik di mana dimungkinkan untuk menggunakan teknologi ini untuk berbagai keperluan komersial.
Ternyata pembelajaran mendalam telah benar-benar memungkinkan untuk mencapai sukses besar di bidang visi komputer dan pengenalan gambar selama beberapa tahun terakhir.Benar
Ketika kami berbicara tentang perbedaan kondisi dalam lingkungan yang sepenuhnya terkendali dan tidak dapat diprediksi, saya ingat beberapa ilmuwan, tamu podcast, yang mencatat bahwa komputer gagal ketika data tidak cukup lengkap ... misalnya, urutan "anjing, anjing, anjing, anjing dengan tiga kaki" "- komputer mulai ragu apakah yang terakhir ini juga seekor anjing?Ya
Apakah itu benar Jadi, apa tepatnya, metode pembelajaran mendalam yang sebelumnya tidak dapat diakses yang dapat Anda lakukan hari ini di bidang pengakuan?Ini pertanyaan yang bagus. Dari perspektif penelitian, pembelajaran mendalam membuka beberapa kemungkinan. Pertama, Anda dapat melakukan pelatihan komprehensif untuk menentukan representasi yang benar dari gambar semantik. Misalnya, kembali ke anjing. Misalkan kita melihat berbagai foto anjing, misalnya, gambar 64 Γ 64 piksel, di mana setiap piksel dapat mengambil sekitar dua ratus lima puluh nilai yang berbeda. Jika Anda memikirkannya, ini merupakan kombinasi yang sangat banyak. Tetapi jika kita berbicara tentang anjing sebagai templat, di mana piksel berkorelasi satu sama lain, maka jumlah kombinasi yang sesuai dengan "anjing" akan jauh lebih sedikit.
Menggunakan metode pembelajaran mendalam yang komprehensif, Anda dapat mengajarkan sistem untuk menentukan representasi numerik yang benar dari "anjing". Berkat kedalaman struktur, kami dapat membuat model yang benar-benar kompleks yang dapat menguasai sejumlah besar data untuk pelatihan. Jadi, jika data pelatihan saya mencakup semua opsi dan representasi templat yang memungkinkan, maka pada akhirnya saya akan dapat mengenalinya dalam konteks yang lebih luas, karena saya mempertimbangkan hampir semua kemungkinan kombinasi. Ini yang pertama.
Peluang belajar yang mendalam lainnya adalah semacam perilaku komposisi. Ada lapisan struktur dan lapisan presentasi, oleh karena itu, ketika informasi atau gambar jatuh ke dalam jaringan yang dalam dan ekstraksi gambar primitif tingkat rendah dimulai, maka secara bertahap model dapat mengumpulkan struktur semantik dengan kompleksitas yang lebih tinggi dan lebih tinggi dari gambar primitif ini. Algoritma pembelajaran mendalam mengidentifikasi pola yang lebih kecil yang cocok dengan pola yang lebih besar dan menyatukannya untuk membentuk pola akhir. Oleh karena itu, ini adalah alat yang sangat kuat, terutama untuk tugas-tugas pengenalan visual.
Jadi, kemudian, topik utama konferensi CVPR adalah pengenalan pola dengan visi komputer.Ya itu benar.
Dan pengenalan pola adalah apa yang benar-benar diupayakan oleh teknologi.
Ya tentu saja Bahkan, tujuan dari visi komputer adalah untuk menangkap makna dalam piksel. Berbicara dari sudut pandang teknis, komputer perlu memahami apa gambar itu, dan kami mendapatkan hasil numerik atau simbolik tertentu dari gambar itu. Misalnya, hasil numerik mungkin berupa awan titik tiga dimensi yang menggambarkan struktur ruang atau bentuk objek. Ini juga dapat dikaitkan dengan beberapa label semantik, seperti "anjing" atau "kucing," seperti yang saya katakan sebelumnya.
Saya melihat. Jadi mari kita bicara sedikit tentang tag. Fitur yang menarik dan penting dari proses pembelajaran mesin adalah kenyataan bahwa komputer perlu menyediakan piksel dan label.Ya tentu saja
Anda berbicara tentang tiga hal yang paling menarik bagi Anda dalam konteks visi komputer. Video, wajah, dan seni dan multimedia. Mari kita bicara tentang masing-masing secara individual, dan mulailah dengan riset Anda saat ini, apa yang Anda sebut βpemahamanβ video.Ya Ungkapan "memahami video" berbicara untuk dirinya sendiri. Sebagai input, kami menggunakan video alih-alih gambar. Di sini penting tidak hanya untuk mengenali piksel, tetapi juga untuk mempertimbangkan bagaimana mereka bergerak. Untuk visi komputer, pengenalan gambar adalah masalah spasial. Dalam kasus video, ini menjadi spatio-temporal karena dimensi ketiga - temporal - muncul. Dan jika Anda melihat banyak tugas nyata yang terkait dengan streaming video, apakah itu kamera pengintai dalam ruangan atau kamera jalan di jalan raya, intinya adalah bahwa objek bergerak dalam aliran frame yang konstan. Dan kita perlu mengekstrak informasi dari aliran ini.
Kamera-kamera semacam itu menciptakan sejumlah besar materi video. Kamera keamanan yang merekam sepanjang waktu di supermarket dan sejenisnya. Apa manfaatnya bagi orang yang bisa Anda dapatkan dari catatan ini?Tim saya sedang mengerjakan satu proyek inkubasi, di mana kami menciptakan teknologi mendasar. Sebagai bagian dari proyek ini, kami mencoba menganalisis lalu lintas di jalan. Sejumlah besar kamera jalan telah dipasang di kota-kota, tetapi sebagian besar video yang mereka rekam terbuang sia-sia. Namun, kamera ini mungkin bermanfaat. Mari kita lihat satu contoh: Anda ingin mengontrol lampu lalu lintas lebih efisien. Biasanya perubahan sinyal merah dan hijau ditentukan oleh jadwal yang ditetapkan. Namun, jika saya melihat bahwa mobil jauh lebih sedikit bergerak dalam satu arah daripada yang lain, maka untuk mengoptimalkan gerakan, saya bisa menjaga warna hijau menyala lebih lama dalam arah yang kelebihan beban. Ini hanya satu aplikasi.
Tolong terjemahkan ide ini!Kami akan mencoba!
Siapa di antara kita yang tidak berdiri di lampu merah, meskipun hampir tidak ada yang mengendarai lampu hijau ke arah lain?Ini dia!
Hampir saja, Anda bertanya pada diri sendiri: mengapa saya harus menunggu?
Saya setuju. Teknologi ini juga dapat diterapkan dalam kasus lain, misalnya, ketika kami telah mengumpulkan arsip rekaman video yang besar. Misalkan warga meminta jalur sepeda ekstra. Kita dapat menggunakan video, menganalisis data lalu lintas, dan kemudian memutuskan apakah akan membuat jalur sepeda di tempat ini. Dengan memperkenalkan teknologi ini, kami dapat memengaruhi arus lalu lintas secara signifikan dan membantu kota membuat keputusan seperti itu.
Saya pikir ini adalah ide yang bagus, karena dalam kebanyakan kasus kita membuat keputusan seperti itu berdasarkan ide kita sendiri, dan bukan pada data, melihat di mana kita dapat mengatakan: "Hei, Anda tahu, di sini jalur sepeda akan sangat omong-omong. Dan di sini hanya akan memperumit pergerakan. "Benar juga. Terkadang sensor lain digunakan untuk ini. Mereka menyewa perusahaan yang memasang peralatan khusus di jalan. Tetapi secara ekonomi tidak efisien. Tapi kamera jalan sudah terpasang dan hanya berkeliaran. Streaming video sudah tersedia. Benar? Jadi mengapa tidak mengambil keuntungan dari ini?
Saya setuju. Ini adalah contoh yang bagus tentang bagaimana pembelajaran mesin dan pemahaman video dapat diterapkan.Tepat
Jadi, area aplikasi penting lainnya adalah pengenalan wajah. Kami kembali ke pertanyaan "Mengapa kita masih mengerjakan masalah pengenalan wajah?".Benar juga.
Omong-omong, teknologi semacam itu dalam beberapa kasus dapat diterapkan dengan cara yang sangat menarik. Beri tahu kami apa yang terjadi di bidang pengenalan wajah. Siapa yang melakukan ini dan apa yang baru?Melihat ke belakang, teknologi pengenalan wajah dipelajari oleh Microsoft ketika saya masih bekerja di Live Labs Research. Kemudian kami membuat perpustakaan pengenalan wajah pertama yang dapat digunakan berbagai kelompok pengembangan produk. Teknologi ini pertama kali diperkenalkan di Xbox. Kemudian para pengembang mencoba menggunakan pengenalan wajah untuk secara otomatis masuk ke sistem. Saya pikir ini adalah kasus pertama. Seiring waktu, pusat studi pengenalan wajah telah bergeser ke Microsoft Research Asia, di mana kami masih memiliki sekelompok peneliti yang bekerja sama dengan saya.
Kami terus berusaha memperluas batas-batas yang mungkin. Kami sekarang bekerja dengan layanan teknis untuk membantu kami mengumpulkan lebih banyak data. Berdasarkan data ini, kami melatih model yang lebih maju. Baru-baru ini, kami telah fokus pada arah penelitian, yang kami sebut "sintesis wajah dengan pelestarian pengakuan." Komunitas ahli pembelajaran yang mendalam juga sangat sukses. Mereka menggunakan jaringan yang dalam untuk melatih model generatif yang dapat mensimulasikan distribusi gambar sehingga data dapat diekstraksi dari itu, yaitu, sebenarnya mensintesis gambar. Jadi, Anda dapat membuat jaringan yang dalam yang membuat gambar.
Tapi kami ingin melangkah lebih jauh. Kami ingin mensintesis wajah. Pada saat yang sama, kami ingin mempertahankan pengakuan terhadap individu-individu ini. Algoritme kami seharusnya tidak hanya membuat set wajah yang sewenang-wenang tanpa makna semantik. Misalkan kita ingin membuat ulang wajah Brad Pitt. Anda perlu membuat wajah yang benar-benar mirip dengannya. Jika Anda perlu membuat ulang wajah orang yang saya kenal, maka hasilnya harus akurat.
Artinya, Anda ingin mempertahankan pengakuan dari orang yang Anda coba buat kembali?Benar
Ngomong-ngomong, saya bertanya-tanya apakah teknologi ini akan bekerja untuk waktu yang lama, seiring bertambahnya usia seseorang, atau akankah perlu untuk terus memperbarui database dengan individu?Ini pertanyaan yang sangat bagus. Kami sedang melakukan penelitian untuk menyelesaikan masalah ini. Pada tingkat teknologi saat ini, masih perlu memperbarui basis data dari waktu ke waktu. Apalagi jika wajahnya sudah banyak berubah. Misalnya, jika operasi plastik dilakukan, sistem modern tidak akan dapat menghasilkan hasil yang benar.
Tunggu, itu bukan kamu.Ya, ini sangat berbeda. Masalah ini dapat didekati dari beberapa sisi. Wajah manusia tidak banyak berubah antara 17-18 tahun dan sekitar 50 tahun. Tetapi apa yang terjadi segera setelah lahir? Wajah anak-anak sangat berubah, karena tulang tumbuh, dan bentuk wajah serta kulit juga berubah. Tetapi begitu seseorang tumbuh dan memasuki tahap kedewasaan, perubahan mulai terjadi dengan sangat lambat. Sekarang kami sedang melakukan penelitian di mana kami sedang mengembangkan model proses penuaan. Mereka akan membantu menciptakan sistem pengenalan wajah yang ditingkatkan berdasarkan usia. Bahkan, ini adalah teknologi yang sangat berguna yang dapat diterapkan dalam penegakan hukum, misalnya, untuk mengenali anak-anak yang diculik bertahun-tahun lalu yang ...
Mereka terlihat sangat berbeda.Ya, mereka terlihat berbeda. Jika algoritma pengenalan wajah pintar dapat mempertimbangkan foto asli ...
Dan untuk mengatakan, seperti apa mereka pada usia 14 jika mereka diculik lebih awal, atau sesuatu seperti itu?Ya, ya, tepatnya.
Ini adalah aplikasi yang bagus. Mari kita bicara tentang bidang lain yang sedang Anda jelajahi secara aktif - multimedia dan seni. Ceritakan bagaimana sains bersinggungan dengan seni, dan terutama tentang pekerjaan Anda di bidang transfer gaya artistik yang mendalam.Bagus Lihatlah kebutuhan orang-orang. Pertama-tama, kita membutuhkan makanan, air, dan tidur, kan? Setelah kebutuhan dasar terpenuhi, seseorang memiliki keinginan kuat untuk ...
Dan keinginan untuk berkreasi.Dan membuat benda seni. Sebagai bagian dari bidang penelitian ini, kami ingin menghubungkan visi komputer dengan benda seni multimedia dan seni. Kita dapat menggunakan visi komputer untuk memberikan kesenangan artistik kepada orang-orang. Sebagai bagian dari proyek penelitian terpisah yang telah kami kerjakan selama dua tahun terakhir, kami telah menciptakan serangkaian algoritma yang dengannya Anda dapat membuat gambar dengan gaya artistik apa pun jika sampel gaya ini disediakan. Misalnya, kita dapat membuat gambar dengan gaya Van Gogh.
Van gogh?Ya, atau artis lain ...
Renoir atau Monet ... atau Picasso.Ya, salah satunya. Siapa pun yang Anda ingat ...
Menarik. Menggunakan piksel?Ya, menggunakan piksel. Ini juga diciptakan oleh jaringan yang dalam menggunakan beberapa teknologi pembelajaran mendalam yang telah kami kembangkan.
Penelitian ini tampaknya membutuhkan pengetahuan dari berbagai bidang. Di mana Anda menemukan profesional yang mampu ...Saya akan mengatakan bahwa dalam arti tertentu, tujuan kami adalah untuk ... Anda tahu, karya seni tidak selalu tersedia untuk semua orang. Beberapa karya seni benar-benar sangat mahal. Dengan bantuan teknologi digital semacam itu, kami berusaha membuat pekerjaan seperti itu dapat diakses oleh orang awam.
Demokratisasikan mereka.Ya, mendemokratisasikan seni, seperti yang Anda katakan.
Ini mengesankan.Algoritma kami memungkinkan Anda untuk membuat model numerik yang jelas untuk setiap gaya. Dan kita bahkan dapat mencampurnya jika kita ingin membuat gaya baru. Ini mengingatkan kita pada penciptaan ruang artistik di mana kita dapat mempelajari opsi-opsi perantara dan menyaksikan bagaimana teknik berubah ketika berpindah dari satu seniman ke seniman lainnya. Dan kita bahkan dapat melihat lebih dalam dan mencoba memahami apa yang sebenarnya menentukan gaya artis tertentu.
Yang menarik bagi saya adalah kenyataan bahwa, di satu sisi, kita berbicara tentang bekerja dengan angka: ilmu komputer, algoritma, dan matematika. Dan di sisi lain, berbicara tentang seni adalah kategori yang jauh lebih metafisik. Namun Anda menggabungkannya, dan ini menunjukkan bahwa otak seorang ilmuwan dapat memiliki sisi artistik.Tepat Saya pikir alat paling penting yang kami gunakan untuk membantu menyatukan semuanya adalah statistik.
Menarik..
, β¦ β - MSR, β . , ?. , , -. β¦ . , - . - , , . . .
, , Amazon Mechanical Turk. . , . . , . -, , . -, , .
. . . , . , , . .
, . . , , ?, . , , . ( ), , , -, .
, .. , , , , , . . , NIH, - (co-robots).
- ?-. . , . , . , . , . , . , - , , .
, , . , , ? , , ? . . , , , .
Microsoft Research ?Microsoft . , 2006-2009 Live Labs. . . , . Nokia Research, IBM Research β¦
-, ?, -, . Microsoft Research 2015 . , 2017 .
. ?. Microsoft Research β . . β . . . . , , , Intelligent Group , .
.Ya
, , . - , ? -, ?, , . . : . , , , , , - . . , , , , . , .
β¦ , : , , ? , , , ?Microsoft (GDPR). , , , , . , . - -, . . , - . , ? , , . . , , , β¦
, . : Β« . Β».Ya itu benar.
, , . ? 10 ?. , . . , . . , .
, , «» . , - , . - , ? . β . , . , , . , . , . . . , β¦
.
. . . 10-15 , , . , , . , , , .
. , , , ., !
, , : Microsoft.com/research