Conjunto de dados 3D maciço ajuda os robÎs a entender as coisas

PartNet - um novo banco de dados semĂąntico de objetos do cotidiano, elevando o grau de entendimento dos robĂŽs do mundo circundante a um novo nĂ­vel



O banco de dados contém pelo menos 26.671 modelos 3D de 24 categorias de objetos, cada um deles equipado com informaçÔes tridimensionais detalhadas.

Uma das habilidades humanas que nos permite nos adaptar tĂŁo bem ao mundo ao nosso redor Ă© ser capaz de entender coisas diferentes ao mesmo tempo em categorias inteiras e usar esse entendimento generalizado para lidar com algumas coisas especĂ­ficas que nĂŁo encontramos antes. Imagine, por exemplo, uma lĂąmpada. NinguĂ©m viu todas as lĂąmpadas do mundo. Mas na maioria dos casos, quando entramos em uma nova casa, podemos encontrar facilmente todas as lĂąmpadas e entender como elas funcionam. É claro que, Ă s vezes, podemos encontrar algo muito estranho que nos leva a perguntar: “Uau, isso Ă© uma lĂąmpada? E como ligĂĄ-lo? Mas, na maioria dos casos, nosso modelo de lĂąmpada mental generalizada nos salva.

Ajuda-nos que as lĂąmpadas, como outras categorias de objetos, por definição, tenham muitos componentes em comum. LĂąmpadas geralmente tĂȘm lĂąmpadas. Eles geralmente tĂȘm um abajur. Eles provavelmente tambĂ©m tĂȘm um suporte para impedir que caiam, um tripĂ© para subir acima do chĂŁo e um cabo de alimentação. Se vocĂȘ vir um objeto com todos esses sinais, provavelmente esta Ă© uma lĂąmpada e, quando entender isso, poderĂĄ adivinhar como usĂĄ-lo.

Esse nĂ­vel de entendimento geralmente Ă© atribuĂ­do especialmente aos robĂŽs, o que Ă© desagradĂĄvel, porque isso Ă© uma coisa muito Ăștil. VocĂȘ pode atĂ© dizer que podemos confiar nos robĂŽs para trabalhar autonomamente em um ambiente nĂŁo estruturado apenas quando eles puderem entender objetos em um nĂ­vel prĂłximo ao descrito. Na conferĂȘncia CVPR 2019 de visĂŁo computacional e reconhecimento de padrĂ”es , uma equipe de pesquisadores de Stanford, Universidade da CalifĂłrnia, Universidade de SĂŁo Francisco e Intel anunciou a criação do PartNet , um enorme banco de dados de objetos tridimensionais cotidianos, divididos em partes e descritos no nĂ­vel que eles esperam. os criadores da base, ajudarĂŁo os robĂŽs a entender o que Ă© uma lĂąmpada.


Exemplos de formulĂĄrios com pequenos detalhes descritos de objetos de 24 categorias

O PartNet é um subconjunto do ShapeNet, uma base 3D ainda maior de 50.000 objetos do cotidiano. O PartNet contém 26.671 objetos de 24 categorias (por exemplo, portas, mesas, cadeiras, luminårias, microondas, relógios), e cada um dos objetos é dividido em partes marcadas. Aqui estå o que parece no caso de duas lùmpadas completamente diferentes:


As propriedades dos objetos no PartNet sĂŁo organizadas por especialistas em estruturas hierĂĄrquicas para cada uma das categorias, por exemplo, para lĂąmpadas. O modelo inclui objetos de vĂĄrios tipos, como um candeeiro de mesa (Ă  esquerda) e um candeeiro de teto (Ă  direita). O modelo foi projetado como um profundo e abrangente, cobrindo tipos estruturalmente diferentes de lĂąmpadas; ao mesmo tempo, componentes com conceito idĂȘntico, como uma lĂąmpada ou abajur, aparecem em diferentes tipos.

O PartNet Ă© uma excelente base para marcar todos os pequenos detalhes. Bancos de dados como o ShapeNet geralmente contĂȘm apenas declaraçÔes como “esse monte de coisas sĂŁo lĂąmpadas”, e a utilidade desses bancos de dados Ă© limitada. A PartNet, pelo contrĂĄrio, oferece uma maneira de entender as lĂąmpadas em um nĂ­vel fundamental: em quais partes elas consistem, em que controle elas tĂȘm, etc. Isso nĂŁo apenas ajuda a generalizar muito melhor a detecção de lĂąmpadas que o computador nĂŁo havia encontrado antes, mas tambĂ©m permite que o sistema autĂŽnomo adivinhe como interagir produtivamente com novas lĂąmpadas.

Como vocĂȘ pode imaginar, criar o PartNet era uma tarefa muito demorada. Quase 70 "compiladores profissionais" passaram uma mĂ©dia de 8 minutos cada um desses 26671 formulĂĄrios 3D descrevendo 573 585 partes e, em seguida, cada descrição foi verificada por pelo menos um outro compilador. Para manter a uniformidade, foram criados modelos para cada classe de objetos, que deveriam minimizar o conjunto de partes, mas ao mesmo tempo garantir que o banco de dados descreva de forma abrangente tudo o necessĂĄrio para determinar toda a classe de objetos. Componentes de objetos tambĂ©m sĂŁo organizados hierarquicamente, e componentes menores fazem parte de outros maiores. Veja como Ă© pintado:



Para que esses dados sejam Ășteis fora do PartNet, os robĂŽs precisam aprender a conduzir segmentação tridimensional independentemente, aceitando um modelo tridimensional de um objeto (criado pelo prĂłprio robĂŽ) e dividindo-o em partes que podem ser identificadas e associadas a modelos de objetos existentes. Isso Ă© difĂ­cil de fazer por vĂĄrios motivos: por exemplo, vocĂȘ precisa identificar partes individuais de nuvens de pontos que podem ser pequenas, mas importantes (como alças em gavetas), e muitas partes de objetos com aparĂȘncia semelhante podem ser semanticamente diferentes .

Os pesquisadores fizeram alguns progressos nessa årea, mas essas questÔes exigem mais trabalho. O PartNet também ajudarå nisso, fornecendo um conjunto de dados que pode ser usado para desenvolver algoritmos aprimorados. Em algum momento, o PartNet pode se tornar parte da base de sistemas que podem construir modelos 3D similares de maneira completamente independente, assim como conjuntos de dados para robomobiles passam de montados em humanos para montados em computador sob supervisão humana. Chegar a esse nível de entendimento semùntico de um ambiente não familiar e não estruturado serå fundamental para criar robÎs que possam se adaptar ao mundo real, pelo qual estamos esperando hå tanto tempo.

Source: https://habr.com/ru/post/pt464583/


All Articles