PartNet - database semantik baru benda sehari-hari, membawa tingkat pemahaman robot dunia sekitar ke tingkat baru
Basis data berisi setidaknya 26.671 model 3D dari 24 kategori objek, yang masing-masing dilengkapi dengan informasi tiga dimensi yang terperinci.Salah satu kemampuan manusia yang memungkinkan kita untuk beradaptasi dengan baik dengan dunia di sekitar kita adalah untuk dapat memahami hal-hal yang berbeda sekaligus dalam kategori penuh, dan kemudian menggunakan pemahaman umum ini untuk menangani beberapa hal spesifik yang belum pernah kita temui sebelumnya. Bayangkan, misalnya, lampu. Tidak ada yang melihat semua lampu di dunia. Tetapi dalam kebanyakan kasus, ketika kita pertama kali memasuki rumah baru, kita dapat dengan mudah menemukan semua lampu di sana dan memahami cara kerjanya. Tentu saja, kadang-kadang kita dapat bertemu dengan sesuatu yang
sangat aneh yang akan membuat kita bertanya: “Wow, apakah itu lampu? Dan bagaimana cara menyalakannya? ” Tetapi dalam kebanyakan kasus, model lampu mental umum kita menyelamatkan kita.
Ini membantu kita bahwa lampu, seperti kategori objek lain, menurut definisi, memiliki banyak komponen umum. Lampu biasanya memiliki lampu. Mereka biasanya memiliki kap lampu. Mereka juga mungkin memiliki dudukan untuk menjaga mereka agar tidak jatuh, tripod untuk naik di atas lantai, dan kabel listrik. Jika Anda melihat objek yang memiliki semua tanda ini, maka ini mungkin lampu, dan ketika Anda memahami hal ini, Anda dapat membuat tebakan yang terpelajar tentang cara menggunakannya.
Tingkat pemahaman ini sering diberikan terutama pada robot, yang tidak menyenangkan, karena ini adalah hal yang sangat berguna. Anda bahkan dapat mengatakan bahwa kami dapat mempercayai robot untuk bekerja secara mandiri di lingkungan yang tidak terstruktur hanya ketika mereka dapat memahami objek pada tingkat yang dekat dengan yang dijelaskan. Pada
konferensi penglihatan dan pengenalan pola komputer
CVPR 2019, tim peneliti dari Stanford, University of California, University of San Francisco dan Intel mengumumkan pembuatan
PartNet , basis data besar benda tiga dimensi sehari-hari, dipecah menjadi beberapa bagian dan dijelaskan ke tingkat yang mereka harapkan pencipta pangkalan, akan membantu robot memahami apa lampu itu.
Contoh formulir dengan rincian kecil objek yang dijelaskan dari 24 kategoriPartNet adalah bagian dari ShapeNet, basis 3D yang bahkan lebih besar dari 50.000 objek sehari-hari. PartNet berisi 26.671 objek dari 24 kategori (misalnya, pintu, meja, kursi, lampu, microwave, jam), dan masing-masing objek dibagi menjadi bagian-bagian yang ditandai. Inilah yang terlihat dalam kasus dua lampu yang sama sekali berbeda:
Properti objek di PartNet diatur oleh para ahli dalam struktur hierarkis untuk setiap kategori, misalnya, untuk lampu. Templat mencakup objek dari berbagai jenis, seperti lampu meja (kiri) dan lampu langit-langit (kanan). Templat ini dirancang sebagai yang mendalam dan komprehensif, mencakup jenis lampu yang berbeda secara struktural; pada saat yang sama, komponen yang identik dalam konsep, seperti bola lampu atau kap lampu, muncul dalam berbagai jenis.PartNet membuat basis yang luar biasa untuk menandai semua detail kecil. Basis data seperti ShapeNet biasanya hanya berisi pernyataan seperti "semua ini adalah lampu", dan kegunaan basis data tersebut terbatas. Sebaliknya, PartNet menawarkan cara untuk memahami lampu pada tingkat mendasar: bagian apa yang terdiri dari apa, kendali apa yang mereka miliki, dll. Ini tidak hanya membantu untuk menggeneralisasi deteksi lampu yang belum pernah terpenuhi oleh komputer, tetapi juga memungkinkan sistem otonom untuk menebak bagaimana berinteraksi secara produktif dengan lampu baru.
Seperti yang dapat Anda bayangkan, membuat PartNet adalah tugas yang sangat memakan waktu. Hampir 70 "kompiler profesional" menghabiskan rata-rata 8 menit masing-masing masing-masing 26671 formulir 3D yang menggambarkan 573 585 bagian, dan kemudian masing-masing deskripsi diperiksa oleh setidaknya satu kompiler lain. Untuk menjaga keseragaman, template dibuat untuk setiap kelas objek, yang seharusnya meminimalkan set bagian, tetapi pada saat yang sama memastikan bahwa database secara komprehensif menjelaskan semua yang diperlukan untuk menentukan seluruh kelas objek. Komponen objek juga diatur secara hierarkis, dan komponen yang lebih kecil adalah bagian dari komponen yang lebih besar. Begini cara melukisnya:
Agar data ini berguna di luar PartNet, robot perlu mempelajari cara melakukan segmentasi tiga dimensi secara mandiri, menerima model objek tiga dimensi (dibuat oleh robot itu sendiri) dan memecahnya menjadi bagian yang dapat diidentifikasi dan dikaitkan dengan model objek yang ada. Ini sulit dilakukan karena berbagai alasan: misalnya, Anda harus dapat mengidentifikasi bagian-bagian individual dengan titik awan, yang bisa kecil tapi penting (seperti pegangan di laci), dan banyak bagian dari benda yang terlihat seperti dapat secara semantik berbeda .
Para peneliti telah membuat beberapa kemajuan dalam bidang ini, tetapi masalah ini membutuhkan pekerjaan lebih lanjut. PartNet juga akan membantu dalam hal ini, menyediakan satu set data yang dapat digunakan untuk mengembangkan algoritma yang ditingkatkan. Pada titik tertentu, PartNet dapat menjadi bagian dari fondasi sistem yang bahkan dapat sepenuhnya secara mandiri membangun model 3D yang serupa, seperti halnya kumpulan data untuk robot mobil dari perakitan manusia ke perakitan komputer di bawah pengawasan manusia. Pergi ke tingkat pemahaman semantik tentang lingkungan yang tidak dikenal dan tidak terstruktur akan menjadi kunci untuk menciptakan robot yang dapat beradaptasi dengan dunia nyata, yang telah kita tunggu-tunggu sejak lama.