Un ensemble de données 3D massif aide les robots à comprendre les choses

PartNet - une nouvelle base de données sémantique d'objets du quotidien, portant le niveau de compréhension des robots du monde environnant à un nouveau niveau



La base de données contient au moins 26 671 modèles 3D de 24 catégories d'objets, chacun étant équipé d'informations détaillées en trois dimensions.

L'une des capacités humaines qui nous permet de nous adapter si bien au monde qui nous entoure est de pouvoir comprendre différentes choses à la fois dans des catégories complètes, puis d'utiliser cette compréhension généralisée pour traiter des choses spécifiques que nous n'avons pas rencontrées auparavant. Imaginez, par exemple, une lampe. Personne n'a vu toutes les lampes du monde. Mais dans la plupart des cas, lorsque nous entrons dans une nouvelle maison, nous pouvons facilement y trouver toutes les lampes et comprendre comment elles fonctionnent. Bien sûr, parfois nous pouvons rencontrer quelque chose de très étrange qui nous amènera à demander: «Wow, est-ce une lampe? Et comment l'allumer? " Mais dans la plupart des cas, notre modèle de lampe mentale généralisée nous sauve.

Cela nous aide que les lampes, comme d'autres catégories d'objets, par définition, ont de nombreux composants communs. Les lampes ont généralement des ampoules. Ils ont généralement un abat-jour. Ils ont également probablement un support pour les empêcher de tomber, un trépied pour s'élever au-dessus du sol et un cordon d'alimentation. Si vous voyez un objet qui a tous ces signes, alors c'est probablement une lampe, et quand vous comprenez cela, vous pouvez faire une supposition éclairée sur la façon de l'utiliser.

Ce niveau de compréhension est souvent donné particulièrement mal aux robots, ce qui est désagréable, car c'est une chose très utile. Vous pourriez même dire que nous pouvons faire confiance aux robots pour travailler de manière autonome dans un environnement non structuré uniquement lorsqu'ils peuvent comprendre des objets à un niveau proche de celui décrit. Lors de la conférence CVPR 2019 sur la vision par ordinateur et la reconnaissance des formes , une équipe de chercheurs de Stanford, de l'Université de Californie, de l'Université de San Francisco et d'Intel a annoncé la création de PartNet , une énorme base de données d'objets tridimensionnels quotidiens, divisés en parties et décrits au niveau qu'ils espèrent les créateurs de la base, aideront les robots à comprendre ce qu'est une lampe.


Exemples de formulaires avec des détails détaillés sur les objets de 24 catégories

PartNet est un sous-ensemble de ShapeNet, une base 3D encore plus grande de 50 000 objets du quotidien. PartNet contient 26 671 objets de 24 catégories (par exemple, portes, tables, chaises, lampes, micro-ondes, horloges), et chacun des objets est divisé en parties marquées. Voici à quoi cela ressemble dans le cas de deux lampes complètement différentes:


Les propriétés des objets dans PartNet sont organisées par des experts dans des structures hiérarchiques pour chacune des catégories, par exemple, pour les lampes. Le modèle comprend des objets de différents types, tels qu'une lampe de table (à gauche) et un plafonnier (à droite). Le modèle a été conçu comme un modèle profond et complet, couvrant des types de lampes structurellement différents; en même temps, des composants de concept identique, comme une ampoule ou un abat-jour, apparaissent sous différents types.

PartNet constitue une base exceptionnelle pour baliser tous les petits détails. Les bases de données comme ShapeNet contiennent généralement des déclarations comme «tout ce tas de choses sont des lampes», et l'utilité de ces bases de données est limitée. PartNet, au contraire, offre un moyen de comprendre les lampes à un niveau fondamental: de quelles pièces elles se composent, quel contrôle elles ont, etc. Cela permet non seulement de mieux généraliser la détection des lampes que l'ordinateur n'a pas rencontrées auparavant, mais permet également au système autonome de deviner comment interagir de manière productive avec de nouvelles lampes.

Comme vous pouvez l'imaginer, la création de PartNet était une tâche très longue. Près de 70 «compilateurs professionnels» ont passé en moyenne 8 minutes chacun de ces 26671 formulaires 3D décrivant 573 585 pièces, puis chaque description a été vérifiée par au moins un autre compilateur. Pour maintenir l'uniformité, des modèles ont été créés pour chaque classe d'objets, qui étaient censés minimiser l'ensemble des parties, mais en même temps garantir que la base de données décrit de manière complète tout ce qui est nécessaire pour déterminer la classe entière d'objets. Les composants des objets sont également organisés de manière hiérarchique, et les composants plus petits font partie des plus grands. Voici comment il est peint:



Pour que ces données soient utiles en dehors de PartNet, les robots doivent apprendre à effectuer indépendamment une segmentation tridimensionnelle, accepter un modèle tridimensionnel de l'objet (créé par le robot lui-même) et le diviser en parties qui peuvent être identifiées et associées aux modèles d'objets existants. Cela est difficile à faire pour de nombreuses raisons: par exemple, vous devez être en mesure d'identifier les pièces individuelles par des nuages ​​de points, qui peuvent être petits mais importants (comme les poignées dans les tiroirs), et de nombreuses parties d'objets qui ressemblent peuvent être sémantiquement différentes .

Les chercheurs ont fait des progrès dans ce domaine, mais ces questions nécessitent des travaux supplémentaires. PartNet aidera également à cela, en fournissant un ensemble de données qui peut être utilisé pour développer des algorithmes améliorés. À un moment donné, PartNet peut devenir une partie de la base de systèmes qui peuvent même construire de manière complètement indépendante des modèles 3D similaires, tout comme les ensembles de données pour les robots motorisés vont de l'assemblage humain à l'assemblage par ordinateur sous supervision humaine. Atteindre un tel niveau de compréhension sémantique d'un environnement inconnu et non structuré sera la clé de la création de robots capables de s'adapter au monde réel que nous attendons depuis si longtemps.

Source: https://habr.com/ru/post/fr464583/


All Articles