Pos kami adalah kesempatan untuk belajar tentang penelitian di divisi baru Samsung Research - Pusat Inteligensi Buatan (AI) di Moskow. Ini dibuka pada Mei 2018 dan dalam satu setengah tahun menyatukan para profesional terbaik di bidang pembelajaran mesin.
Di bawah ini adalah wawancara singkat staf pusat - pembicara Forum tahunan tentang Kecerdasan Buatan, yang diadakan di Center pada bulan Desember tahun lalu. Kami mewawancarai kolega dari dua laboratorium: visi komputer dan laboratorium pemodelan visual dan laboratorium analisis data multimodal.

Tentang Samsung AI Center
Samsung berinvestasi dalam penelitian dan pengembangan ~ 8% dari pendapatan penjualan tahunan - ini adalah salah satu indikator utama di dunia. Perusahaan ini memiliki portofolio paten aktif terbesar di AS dan telah mengajukan aplikasi untuk sebagian besar teknologi terpanas di Eropa. Dalam tiga tahun ke depan, Samsung akan menginvestasikan $ 22 miliar dalam pengembangan 5G dan teknologi di bidang kecerdasan buatan.
Samsung Research, sebuah divisi riset Samsung Electronics, menyatukan 21 pusat penelitian di seluruh dunia:
Unit Riset Samsung di peta dunia (dari https://research.samsung.com/ )Di antara mereka, 7 adalah pusat yang hanya mengkhususkan pada AI. Moscow AI Centre dibuka pada 29 Mei 2018, enam lainnya berada di Seoul, Montreal, Toronto, New York, Cambridge dan Mountain View.
Bidang utama penelitian di Samsung AI AI Center di Moskow adalah pembelajaran mesin, sebuah pendekatan yang telah berhasil diterapkan dalam pengenalan suara, visi komputer dan analisis data. Direktur Pusat tersebut adalah Viktor Lempitsky, Ph.D., profesor rekanan Institut Sains dan Teknologi Skolkovo, ilmuwan Rusia yang paling banyak dikutip dalam kategori subjeknya pada 2018, pemenang Scopus Award Russia pada 2018 atas kontribusinya terhadap pengembangan industri.
Arsitek dan desainer yang mendesain kantor Pusat AI Moskow terinspirasi oleh gagasan digital infinity. Konsep kantor dirancang untuk menciptakan ruang yang memaksimalkan kreativitas dalam lingkungan yang nyaman: furnitur bergerak dan partisi multifungsi yang dapat dipindahkan, yang dengannya Anda dapat menggabungkan beberapa ruang rapat dan menciptakan konfigurasi ruang kerja yang diperlukan.
Kuliah oleh Mikhail Romanov (Insinyur Senior, Visual Understanding Lab) untuk siswa Samsung AI Bootcamp 2018 di ruang pertemuan MatrixRuang pertemuan memuat nama-nama film tentang kecerdasan buatan (The Matrix, The Terminator, The Bicentennial Man, From The Car, dll.), Masing-masing memiliki layar di kedua sisi, dan Anda dapat menulis di dinding dengan spidol. Tablet yang dipasang di pintu ruang rapat menggunakan teknologi pengenal wajah memungkinkan Anda mengetahui waktu luang dan memesan kamar.
Ruang terbuka dengan furnitur ergonomis: meja bergerak, kursi yang dirancang khususAI Centre memiliki area olahraga dan rekreasi di mana Anda dapat bermain tenis meja di ruangan khusus dengan daya serap suara, melakukan yoga dan kebugaran, mandi dan berganti pakaian. Dan bahkan ada beberapa kapsul untuk tidur singkat!

Setiap tahun, Forum AI Samsung berlangsung di Moscow AI Center. Tujuan Forum Kecerdasan Buatan adalah komunikasi dan interaksi ilmuwan-ilmuwan terkemuka dari Rusia dan luar negeri. Di tempat acara, mereka dapat berbagi pengetahuan dan pengalaman mereka, menawarkan ide-ide untuk memecahkan masalah yang paling mendesak di bidang AI. Pada Desember tahun lalu, dalam kerangka Forum tahunan kedua, hasil penelitian oleh rekan-rekan Moskow disajikan, yang selanjutnya dapat digunakan untuk membuat layanan bermutu tinggi berdasarkan teknologi AI, serta untuk mengembangkan aplikasi dan komponen untuk produk perusahaan.

Laboratorium Visi Komputer dan Pemodelan Visual
Kepala laboratorium adalah Anton Konushin, Ph.D., associate professor HSE dan VMK Moscow State University, di mana ia juga adalah kepala laboratorium gabungan Samsung dan Moscow State University.
Mikhail Romanov dan Igor Slinko, penulis kursus "Jaringan Saraf dan Visi Komputer" juga bekerja di laboratorium visi komputer dan pemodelan visual. Ini adalah kursus online massal gratis pertama yang diluncurkan Samsung Research di Rusia pada tahun 2019, dan mereka adalah pelopor kami. Kursus berbicara tentang penggunaan jaringan saraf dalam analisis gambar dari dasar-dasar, tidak memerlukan pengetahuan khusus, hanya pengetahuan dasar di bidang matematika dan statistik yang lebih tinggi, dan kesiapan untuk program dengan Python diperlukan. Kursus ini sudah memiliki 24.000 siswa terdaftar. Dan fitur pembunuh: prospek pekerjaan - beberapa orang sudah menjadi karyawan Pusat setelah wawancara.Danila Rukhovich
25 tahun, ia lulus dari Mechmath dari Universitas Negeri Moskow, belajar di sekolah pascasarjana dengan gelar di "Yayasan Teoritis Ilmu Komputer". Dia bekerja di IBM Research, Angry Developers, SMTDP Tech. Di Samsung AI Forum, Danila Rukhovich dan Danil Galeev mempresentasikan laporan “MixMatch Domain Adaptaion: Solusi Pemenang Hadiah untuk Kedua Jalur VisDA 2019 Challenge ” ( kode sumber ).Kami memiliki dua kelompok besar di laboratorium kami: yang pertama terlibat dalam Estimasi Kedalaman (mengukur kedalaman gambar), yang kedua adalah SLAM (dengan metode lokalisasi simultan dan pembangunan peta). Dan ada tim kecil dengan tugas yang berbeda, misalnya, rekan saya Danil Galeev dan saya dulu terlibat dalam GAN (jaringan generatif-kompetitif), dan sekarang adaptasi domain.
Adaptasi domain adalah ketika kita melatih model jaringan saraf pada satu domain (domain), dan kemudian mengujinya di domain lain. Dua domain yang paling umum adalah data sintetis dan data nyata. Pernyataan masalah inilah yang paling relevan, karena data sintetis dapat dihasilkan sebanyak yang Anda inginkan, harganya murah. Misalnya, Anda dapat menghasilkan banyak gambar kota dan melatih mobil tak berawak di atasnya, yang jauh lebih mudah daripada menjalankan mobil nyata di jalanan kota nyata dan mengumpulkan data nyata.
Jelas bahwa jika kita melatih jaringan saraf pada data sintetis dan hanya mentransfernya ke data nyata, maka itu tidak akan bekerja dengan baik. Bagaimana cara mengurangi perbedaan ini? Anda dapat menghasilkan dan kemudian menggunakan banyak data sintetis berlabel, untuk melatih jaringan saraf pada mereka. Dan kemudian menggunakan banyak data nyata yang tidak terisi (sumber daya dihabiskan, tetapi hanya untuk pengumpulan data, dan bukan untuk markup mereka). Dan dengan demikian, menggabungkan data berlabel dan tidak terisi, kami mencapai peningkatan yang signifikan dalam akurasi model jaringan saraf.
Contoh berbagai domain dalam set data DomainNet: clipart, infografis, lukisan, sketsa, foto, grafik. Objeknya sama, tetapi domainnya berbeda.Konstantin Sofiyuk
25 tahun, lulus dari Universitas Negeri VMK Moscow. Dia suka jogging, snowboarding, dan visi komputer.
Konstantin berbicara di Forum AI Samsung dengan laporan "AdaptIS: Adaptive Instance Selection Network" .Saya tertarik berurusan dengan algoritma yang akan membantu memecahkan masalah nyata. Misalnya, mengotomatiskan tugas rutin sehari-hari. Kerja manusia adalah yang paling mahal. Karena itu, saya tertarik untuk melakukan hal-hal yang dapat dikonversi untuk memberi manfaat kepada orang-orang.
Menurut pendapat saya, kecerdasan buatan memiliki dua jalur pengembangan: itu akan menjadi "kuat" dan sesuatu seperti "Cawan Suci" akan berubah. Munculnya AI "kuat" akan mengubah segalanya dalam hidup kita; Saya merasa sulit untuk memprediksi apa yang akan terjadi. Atau, akan mungkin untuk berbicara tentang AI "lemah", maka robotika mungkin adalah arah yang paling menarik. Kendaraan tak berawak memiliki arah yang sama, karena pada dasarnya merupakan robot jalan. Mengganti driver dengan robot menimbulkan pertanyaan: konsekuensi sosial apa yang akan ditimbulkannya? Kita semua hidup dalam masyarakat, dan teknologi dapat membawa perubahan sosial global. Saya merenungkan topik ini.
Salah satu artikel terakhir saya dikhususkan untuk topik Segmentasi Instans - mencari dan menyoroti pada gambar semua objek yang kita butuhkan. Kami memilih mereka menggunakan masker pixel-by-pixel, yaitu, pada setiap titik itu ditunjukkan apakah pixel ini milik objek atau tidak. Ini sangat cocok dengan konsep Pengertian Pemandangan Visual, karena langkah pertama dalam memahami suatu gambar adalah memahami benda apa yang ada di dalamnya. Ada algoritme Deteksi Objek yang memecahkan masalah ini, tetapi di sana setiap objek disorot dengan persegi panjang, dan objek saling tumpang tindih: ini memberikan perkiraan yang terlalu sederhana, terlalu kasar tentang lokasi objek. Jika Anda melihat seperti apa pemandangan dalam ruangan yang biasa (saya tidak berbicara tentang kamar desain yang ideal, di mana mereka bersih dan rapi), apartemen yang sebenarnya akan terlihat seperti ini: sofa, bantal diletakkan di atasnya, beberapa hal lain.
Ketika saya memulai tugas ini, saya dihadapkan dengan fakta bahwa algoritma yang ada tidak dapat menangani kasus seperti itu dengan baik. Kami sampai pada algoritma baru yang kami sajikan dalam pekerjaan kami. Ini memungkinkan Anda untuk memilih objek dengan kerumitan persimpangan: yang utama adalah bahwa setidaknya satu piksel objek terlihat. Algoritme didasarkan pada hipotesis yang menurutnya Anda selalu dapat menemukan piksel dalam gambar yang dimiliki objek tertentu. Jika tidak ada satu piksel pun dari objek dalam gambar, maka tidak ada objek. Dan jika ada objek, jika seseorang melihat objek, maka ada pixel yang menjadi miliknya. Dengan demikian, algoritma ini memungkinkan Anda untuk menemukan piksel tersebut dan memilih seluruh topeng objek melalui piksel ini.
Sekarang kita berurusan dengan topik segmentasi interaktif, dan ini juga merupakan tugas yang sangat penting. Kembali ke tugas sebelumnya: untuk melatih Segmentasi Instans, Anda memerlukan markup pixel-by-pixel berkualitas tinggi dari semua objek dalam gambar, dan ini adalah hal yang mahal, karena itu dangkal untuk duduk dan memilih garis besar dari setiap objek secara manual di Photoshop untuk waktu yang sangat lama. Dan segmentasi interaktif memungkinkan Anda untuk mengotomatiskan markup ini. Kami menandai setiap objek bukan dengan memilih poligon objek ini, tetapi cukup seseorang mengklik objek tersebut - membuat klik yang disebut positif. Objek dipilih dari klik pertama, atau jika tidak berhasil (misalnya, beberapa bagian dari objek dilewati, atau, sebaliknya, sesuatu yang tidak perlu jatuh), kami menempatkan klik negatif.
Akibatnya, alih-alih memilih seluruh objek dengan garis besar piksel demi piksel, kami mengurangi masalah dengan fakta bahwa area ini harus atau tidak boleh dipilih dengan klik sederhana. Latihan menunjukkan bahwa pada sebagian besar gambar dalam sepuluh klik Anda dapat memilih objek dengan akurasi tinggi. Ini adalah perbedaan besar, markup data akan dipercepat di kali.
Topeng yang ditampilkan algoritma jika Anda memilih titik objekLaboratorium Analisis Data Multimodal
Kepala laboratorium adalah Sergey Nikolenko, Ph.D., peneliti senior di V. Petersburg. Institut Matematika Steklov (POMI RAS), associate professor di Sekolah Tinggi Ekonomi di St. Petersburg, salah satu penulis buku
“Deep Learning. Perendaman dalam dunia jaringan saraf .
"Gleb Sterkin
Gleb berusia 25 tahun, ia lulus dari Departemen Fisika Universitas Negeri Moskow. Insinyur dan manajer proyek di laboratorium analisis data multimoda. "Tidak ada hobi, tidak ada hobi, dihuni oleh robot."
Di Samsung AI Forum, Gleb membuat presentasi tentang Terjemahan Siang Hari Resolusi Tinggi Tanpa Label DomainLaboratorium saya terlibat dalam model generatif, fotografi komputasi. Ada sejumlah tugas untuk pemulihan struktur tiga dimensi, yaitu ketika beberapa foto perlu membuat ulang bentuk tiga dimensi dari objek yang kompleks. Juga, ini adalah tugas yang terkait dengan memperoleh representasi universal untuk gambar atau objek dalam gambar. Ini semua, secara umum, berputar di sekitar jaringan saraf. Dari sudut pandang terapan, aplikasi di mana seseorang berinteraksi dengan model generatif, mulai dari pengaruh implisit ke kasus di mana model bertindak sebagai alat untuk seseorang, misalnya, dalam sintesis musik, sangat mengesankan.
Saya terutama berurusan dengan model generatif yang dikombinasikan dengan interaksi manusia-mesin. Ini menarik! Sesuatu yang rumit, seperti jaringan saraf, berubah menjadi alat seperti kamera, dapat digunakan untuk mendapatkan kesenangan sesaat atau pengalaman indrawi: Saya menekan tiga tombol, mendapatkan sesuatu yang keren, tidak banyak berpikir tentang cara kerjanya, tetapi secara kasar memahami apa yang akan terjadi sebagai hasilnya, meskipun kadang-kadang ternyata dan sesuatu yang tidak terduga.
Penelitian kami memecahkan tugas yang agak sederhana, pada pandangan pertama. Algoritma, setelah menerima foto lanskap pada input, memberi makan satu set foto dari lanskap yang sama pada waktu yang berbeda dalam sehari. Misalnya, jika di pintu masuk terdapat foto kota siang hari, bagaimana kelihatannya di malam hari, malam hari, pagi hari, dan di antara waktu-waktu di siang hari untuk membuat video indah yang halus? Teknologi ini bekerja dalam resolusi tinggi hingga 4K.

Kami bekerja dengan lanskap, karena dalam lanskap perubahan hari atau musim akan menjadi yang paling jelas. Interior bangunan tidak banyak berubah pada siang hari, kecuali mungkin beberapa refleksi, silau, yang tergantung pada berbagai faktor - bagaimana kisi-kisi dan daun jendela terletak di jendela. Semuanya jelas di lanskap: Anda memiliki matahari, langit, ruang besar yang perlu diringankan secara berbeda, untuk menggambar sesuatu di atasnya. Jika algoritma membuat transisi dari malam ke hari, Anda perlu meregangkan area gelap, dan jika dari hari ke malam, Anda perlu menggelapkan semuanya dengan benar.
Melihat pemandangan, tidak terlalu sulit bagi seseorang untuk membayangkan dengan tepat bagaimana dia akan berubah tergantung pada waktu hari atau tahun. Sangat menarik untuk mensimulasikan persepsi manusia pada dasarnya, sementara tidak menghabiskan banyak waktu untuk mengumpulkan gambar dan video nyata untuk setiap lanskap.
Dmitry Nikulin
25 tahun. Pada 2017 ia lulus dari Departemen Aljabar di Universitas Negeri St. Petersburg. Dia magang di Google London, di mana dia meningkatkan sistem verifikasi pengguna di Google Bisnisku, kemudian magang di Yandex Research dan bekerja untuk Serokell, sebuah perusahaan yang mengkhususkan diri dalam konsultasi dan outsourcing di bidang pemrograman di Haskell. Pada saat yang sama ia lulus dari ShAD, sekarang membantu untuk melakukan kursus tentang RL di sana. Samsung sedikit lebih dari setahun. Ia belajar bahasa: selain bahasa Inggris, ia sedikit mengenal bahasa Prancis, Spanyol, dan Esperanto.
Dmitry menyampaikan dua laporan di Forum AI Samsung: “Saliency Makan Siang Gratis melalui Perhatian pada Agen Atari” dan “Jaringan Perseptual Gradient”.Bidang utama penelitian di laboratorium untuk analisis data multimoda adalah tugas-tugas yang terkait dengan pembuatan dan pemrosesan gambar, dan selama setahun terakhir saya telah berhasil mengerjakan dua proyek di bidang ini. Pada paruh pertama tahun ini, saya terlibat dalam Reinforcement Learning (RL) - ini adalah salah satu teknologi pembelajaran mesin di mana sistem uji (agen) belajar dengan berinteraksi dengan lingkungan tertentu. Sederhananya, proses pembelajaran dapat dianggap sebagai permainan: mendorong tindakan yang mengarah pada penghargaan dan menghindari mengarah pada kegagalan.
Proyek saya adalah tentang memahami bagian gambar apa yang dilihat jaringan saraf pada agen pelaksana di RL. Yaitu kami perlu memahami cara kerjanya dan apa yang kami berhasil ajarkan pada akhirnya, untuk ini kami membangun jaringan "sesuatu" di dalamnya, menunjukkan bagian mana dari gambar asli yang dilihatnya. Laporan pertama saya di forum adalah tentang bagaimana kami melewati banyak cara berbeda untuk menanamkan bagian ini dalam jaringan saraf. Masalahnya adalah menanamkan sedemikian rupa sehingga tidak ada yang rusak lagi. Kami tampaknya telah berhasil, tetapi dengan beberapa kekurangan - visualisasi peta tentang pentingnya bagian gambar tidak begitu jelas. Kami bereksperimen untuk meningkatkan kejelasan, tetapi, sayangnya, agen mulai bekerja lebih buruk dari ini.
Kiri: gambar yang jelas, agen lemah. Kanan: gambaran kasar, agen kuat.Laporan kedua disebut "Jaringan Gradien Perseptual", ini tentang mengoptimalkan kehilangan persepsi - ini adalah fungsi kerugian yang digunakan hampir di mana-mana di mana ada generasi gambar oleh jaringan saraf. Untuk menggunakan kerugian persepsi, pengembang pertama-tama harus melalui jaringan saraf maju, dan kemudian mundur. Kembali adalah komputasi yang kompleks. Kami ingin menyingkirkan pass ganda dan menggantinya dengan jaringan saraf lain, yang melaluinya semuanya dapat dilakukan dalam satu pass maju, ini memberikan peningkatan kecepatan dan penurunan kebutuhan memori. Sekarang kami sedang berupaya meningkatkan arsitektur jaringan kedua ini, kami berusaha keras untuk mengurangi biaya memori secara radikal tanpa merusak kualitasnya.
Saya tertarik pada segala sesuatu yang berhubungan dengan Reinforcement Learning, karena ini adalah area yang paling dekat dengan kecerdasan buatan umum (General AI). Area yang tersisa seperti visi komputer, rekonstruksi postur manusia, analisis suara, lebih terspesialisasi. Mereka tentu lebih berguna dalam waktu dekat, mereka sudah bisa diambil dan dibangun menjadi mobil drone atau cari. Tentang RL, dengan beberapa pengecualian, ini tidak bisa dikatakan, tetapi dengan itu, tugas yang tidak lagi diselesaikan sama sekali dapat diselesaikan. Sebagai contoh, orang-orang yang berkat teknologi ini telah belajar bermain game komputer yang sangat kompleks seperti DotA dan StarCraft dengan sangat baik. Secara umum, RL adalah metode untuk mengoptimalkan apa pun untuk tujuan apa pun yang Anda tetapkan.
Kesimpulan
Jika Anda sampai di akhir artikel dan Anda masih tertarik, meskipun sebagian besar persyaratannya tidak jelas, maka kabar baiknya adalah bahwa Samsung memiliki
kursus Stepik online gratis yang kami undang untuk Anda. Kami menulis tentang mereka sebelumnya di blog (
1 ,
2 ).
Dan bagi mereka yang jauh dari baru dengan apa yang dibicarakan oleh rekan kami, pekerjaan terbuka
Samsung Research mungkin menarik. Saat ini ada lowongan untuk Data Scientist (2 orang), Engine Learning Engineer (2 orang), Deep Learning Engineer.