Grasp2Vec: Belajar Mewakili Objek melalui Capture Belajar Mandiri



Orang-orang dari usia muda yang mengejutkan sudah dapat mengenali benda-benda favorit mereka dan mengambilnya, terlepas dari kenyataan bahwa mereka tidak secara khusus mengajarkan hal ini. Menurut penelitian tentang pengembangan kemampuan kognitif, kemungkinan berinteraksi dengan objek dunia di sekitar kita memainkan peran penting dalam pengembangan kemampuan seperti merasakan dan memanipulasi objek - misalnya, penangkapan yang ditargetkan. Berinteraksi dengan dunia luar, orang dapat belajar dengan memperbaiki kesalahan mereka sendiri: kita tahu apa yang telah kita lakukan dan belajar dari hasilnya. Dalam robotika, jenis pelatihan dengan koreksi kesalahan sendiri dipelajari secara aktif, karena memungkinkan sistem robot untuk belajar tanpa sejumlah besar data pelatihan atau penyesuaian manual.

Kami di Google, terinspirasi oleh konsep kegigihan objek , menawarkan sistem Grasp2Vec - algoritma sederhana namun efektif untuk membangun representasi objek. Grasp2Vec didasarkan pada pemahaman intuitif bahwa upaya untuk meningkatkan objek apa pun akan memberi kita beberapa informasi - jika robot mengambil objek dan mengambilnya, maka objek tersebut harus berada di tempat ini sebelum ditangkap. Selain itu, robot tahu bahwa jika objek yang ditangkap ada dalam tangkapannya, itu berarti bahwa objek tersebut tidak lagi berada di tempat di mana ia berada. Dengan menggunakan bentuk belajar mandiri ini, robot dapat belajar mengenali objek karena perubahan visual dalam adegan setelah ditangkap.

Berdasarkan kolaborasi kami dengan X Robotics , di mana beberapa robot secara bersamaan dilatih untuk menangkap objek rumah tangga menggunakan hanya satu kamera sebagai sumber data input, kami menggunakan robot capture untuk “secara tidak sengaja” menangkap objek, dan pengalaman ini memungkinkan kami untuk mendapatkan ide yang kaya tentang objek tersebut. Ide ini sudah dapat digunakan untuk memperoleh kemampuan "capture yang disengaja", ketika lengan robot dapat meningkatkan objek sesuai permintaan.



Membuat Fungsi Hadiah Perseptual


Pada platform pembelajaran penguatan, keberhasilan tugas diukur melalui fungsi hadiah. Dengan memaksimalkan imbalan, robot mempelajari berbagai keterampilan menangkap dari awal . Membuat fungsi hadiah itu mudah ketika kesuksesan dapat diukur dengan pembacaan sensor sederhana. Contoh sederhana adalah tombol yang mentransfer hadiah langsung ke input robot dengan mengkliknya.

Namun, menciptakan fungsi hadiah jauh lebih rumit ketika kriteria untuk sukses tergantung pada pemahaman perseptual tentang tugas tersebut. Pertimbangkan masalah penangkapan dalam contoh di mana robot diberi gambar dari objek yang diinginkan yang dimiliki dalam penangkapan. Setelah robot mencoba menangkap objek, ia memeriksa isi tangkapan. Fungsi hadiah untuk tugas ini tergantung pada jawaban atas pertanyaan pengenalan pola: apakah objeknya bertepatan?


Di sebelah kiri, pegangan memegang sikat, dan beberapa benda terlihat di latar belakang (cangkir kuning, blok plastik biru). Di sebelah kanan, pegangan memegang cangkir, dan sikat ada di latar belakang. Jika gambar kiri mewakili hasil yang diinginkan, fungsi hadiah yang baik adalah untuk "memahami" bahwa dua foto ini sesuai dengan dua objek yang berbeda.

Untuk mengatasi masalah pengenalan, kita membutuhkan sistem persepsi yang mengekstraksi konsep-konsep bermakna objek dari gambar tidak terstruktur (tidak ditandatangani oleh orang-orang), dan belajar untuk memvisualisasikan objek tanpa guru. Pada dasarnya, algoritma pembelajaran tanpa guru bekerja dengan membuat asumsi struktural tentang data. Sering diasumsikan bahwa gambar dapat dikompresi ke ruang dengan dimensi lebih sedikit , dan bingkai video dapat diprediksi dari yang sebelumnya . Namun, tanpa asumsi tambahan tentang isi data, ini biasanya tidak cukup untuk belajar dari representasi objek yang tidak terkait.

Bagaimana jika kita menggunakan robot untuk memisahkan objek secara fisik selama pengumpulan data? Robotika menawarkan kesempatan yang sangat baik untuk belajar bagaimana merepresentasikan objek, karena robot dapat memanipulasinya, yang akan memberikan faktor variasi yang diperlukan. Metode kami didasarkan pada gagasan bahwa menangkap objek menghilangkannya dari tempat kejadian. Hasilnya adalah 1) gambar pemandangan sebelum ditangkap, 2) gambar pemandangan setelah ditangkap, dan 3) pandangan terpisah dari objek yang ditangkap.


Kiri - benda untuk ditangkap. Di tengah - setelah penangkapan. Di sebelah kanan adalah objek yang ditangkap.

Jika kami mempertimbangkan fungsi bawaan yang mengekstrak "set objek" dari gambar, ia harus mempertahankan relasi pengurangan berikut:


objek sebelum ditangkap - objek setelah ditangkap = objek yang diambil

Kami mencapai kesetaraan ini dengan arsitektur konvolusional dan algoritma pembelajaran metrik sederhana. Selama pelatihan, arsitektur yang ditunjukkan di bawah ini menyematkan gambar sebelum dan sesudah penangkapan dalam peta keruangan properti yang padat. Peta-peta ini berubah menjadi vektor melalui penyatuan rata-rata, dan perbedaan antara vektor "sebelum ditangkap" dan "setelah ditangkap" mewakili seperangkat objek. Vektor ini dan representasi yang sesuai dari vektor objek yang dipersepsikan ini disamakan melalui fungsi pasangan-N.



Setelah pelatihan, model kami secara alami memiliki dua sifat yang bermanfaat.

1. Kesamaan benda


Koefisien kosinus dari jarak antara embeddings vektor memungkinkan kita untuk membandingkan objek dan menentukan apakah mereka identik. Ini dapat digunakan untuk mengimplementasikan fungsi hadiah untuk pembelajaran yang diperkuat, dan memungkinkan robot belajar cara menangkap dengan contoh tanpa menandai data oleh manusia.



2. Menemukan target


Kita dapat menggabungkan peta spasial adegan dan pemasangan objek untuk melokalisasi "objek yang diinginkan" di ruang gambar. Dengan melakukan penggandaan elemen dari peta fitur spasial dan korespondensi vektor dari objek yang diinginkan, kita dapat menemukan semua piksel pada peta spasial yang sesuai dengan objek target.


Menggunakan inlays Grasp2Vec untuk melokalkan objek dalam adegan. Di atas kiri adalah benda di keranjang. Kiri bawah - objek yang ingin diambil. Produk skalar dari vektor objek target dan fitur spasial dari gambar memberi kita "peta aktivasi" per-pixel (kanan atas) dari kesamaan bagian gambar tertentu dengan target. Peta ini dapat digunakan untuk lebih dekat ke target.

Metode kami juga berfungsi ketika beberapa objek sesuai dengan target, atau bahkan ketika target terdiri dari beberapa objek (rata-rata dua vektor). Misalnya, dalam skenario ini, robot mengidentifikasi beberapa blok oranye di TKP.


"Peta panas" yang dihasilkan dapat digunakan untuk merencanakan pendekatan robot ke objek target. Kami menggabungkan pelokalan dari Grasp2Vec dan pengenalan pola dengan kebijakan "tangkap apa pun" dan capai keberhasilan dalam 80% kasus selama pengumpulan data dan 59% dengan objek baru yang belum pernah ditemukan sebelumnya oleh robot.

Kesimpulan


Dalam pekerjaan kami , kami menunjukkan bagaimana keterampilan gripper robot dapat membuat data yang digunakan untuk mengajarkan representasi objek. Kemudian kita dapat menggunakan pelatihan presentasi untuk dengan cepat memperoleh keterampilan yang lebih kompleks, seperti menangkap sesuai dengan contoh, sambil mempertahankan semua sifat mengajar tanpa guru dalam sistem penangkapan otomatis kita.

Selain pekerjaan kami, beberapa karya terbaru lainnya juga mempelajari bagaimana interaksi tanpa guru dapat digunakan untuk mendapatkan representasi objek, dengan menangkap , mendorong, dan jenis interaksi lainnya dengan objek di lingkungan. Kami dengan gembira mengantisipasi tidak hanya pembelajaran mesin yang dapat memberikan robotika dalam hal persepsi dan kontrol yang lebih baik, tetapi juga robotika apa yang dapat memberikan pembelajaran mesin dalam hal paradigma belajar mandiri baru.

Source: https://habr.com/ru/post/id434898/


All Articles