PartNet: una nueva base de datos semántica de objetos cotidianos, que lleva el grado de comprensión de los robots del mundo circundante a un nuevo nivel
La base de datos contiene al menos 26,671 modelos 3D de 24 categorías de objetos, cada uno de los cuales está equipado con información tridimensional detallada.Una de las habilidades humanas que nos permite adaptarnos tan bien al mundo que nos rodea es poder comprender diferentes cosas a la vez en categorías completas, y luego usar esta comprensión generalizada para tratar algunas cosas específicas que no hemos encontrado antes. Imagina, por ejemplo, una lámpara. Nadie ha visto todas las lámparas del mundo. Pero en la mayoría de los casos, cuando entramos por primera vez en una casa nueva, podemos encontrar fácilmente todas las lámparas allí y entender cómo funcionan. Por supuesto, a veces podemos encontrar algo
muy extraño que nos llevará a preguntar: “Vaya, ¿eso es una lámpara? ¿Y cómo encenderlo? Pero en la mayoría de los casos, nuestro modelo generalizado de lámpara mental nos salva.
Nos ayuda a que las lámparas, como otras categorías de objetos, por definición, tengan muchos componentes comunes. Las lámparas generalmente tienen bombillas. Suelen tener una pantalla de lámpara. Probablemente también tengan un soporte para evitar que se caigan, un trípode para elevarse sobre el piso y un cable de alimentación. Si ve un objeto que tiene todos estos signos, entonces esta es probablemente una lámpara, y cuando comprende esto, puede hacer una suposición educada sobre cómo usarlo.
Este nivel de comprensión a menudo se da especialmente mal a los robots, lo cual es desagradable, porque esto es algo muy útil. Incluso podría decir que podemos confiar en los robots para que trabajen de manera autónoma en un entorno no estructurado solo cuando puedan entender objetos a un nivel cercano al descrito. En la
conferencia de reconocimiento de patrones y visión por computadora
CVPR 2019, un equipo de investigadores de Stanford, la Universidad de California, la Universidad de San Francisco e Intel anunciaron la creación de
PartNet , una enorme base de datos de objetos tridimensionales cotidianos, divididos en partes y descritos al nivel que esperan Los creadores de la base ayudarán a los robots a comprender qué es una lámpara.
Ejemplos de formularios con pequeños detalles descritos de objetos de 24 categorías.PartNet es un subconjunto de ShapeNet, una base 3D aún más grande de 50,000 objetos cotidianos. PartNet contiene 26,671 objetos de 24 categorías (por ejemplo, puertas, mesas, sillas, lámparas, microondas, relojes), y cada uno de los objetos se divide en partes marcadas. Así es como se ve en el caso de dos lámparas completamente diferentes:
Las propiedades de los objetos en PartNet están organizadas por expertos en estructuras jerárquicas para cada una de las categorías, por ejemplo, para lámparas. La plantilla incluye objetos de varios tipos, como una lámpara de mesa (izquierda) y una lámpara de techo (derecha). La plantilla fue diseñada como una lámpara profunda y completa, que cubre diferentes tipos de lámparas estructuralmente; Al mismo tiempo, los componentes que son idénticos en concepto, como una bombilla o una pantalla de lámpara, aparecen en diferentes tipos.PartNet es una base excelente para marcar todos los pequeños detalles. Las bases de datos como ShapeNet generalmente solo contienen declaraciones como "todo este conjunto de cosas son lámparas", y la utilidad de tales bases de datos es limitada. PartNet, por el contrario, ofrece una manera de entender las lámparas a un nivel fundamental: en qué partes consisten, qué control tienen, etc. Esto no solo ayuda a generalizar mucho mejor la detección de lámparas que la computadora no ha conocido antes, sino que también permite que el sistema autónomo adivine cómo interactuar productivamente con las nuevas lámparas.
Como puede imaginar, crear PartNet fue una tarea que requirió mucho tiempo. Casi 70 "compiladores profesionales" pasaron un promedio de 8 minutos cada uno de estos 26671 formularios 3D que describen 573 585 partes, y luego cada descripción fue verificada por al menos otro compilador. Para mantener la uniformidad, se crearon plantillas para cada clase de objetos, que supuestamente minimizaban el conjunto de partes, pero al mismo tiempo aseguraban que la base de datos describiera exhaustivamente todo lo necesario para determinar toda la clase de objetos. Los componentes de los objetos también están organizados jerárquicamente, y los componentes más pequeños son parte de los más grandes. Así es como está pintado:
Para que estos datos sean útiles fuera de PartNet, los robots deben aprender a realizar de forma independiente la segmentación tridimensional, aceptando un modelo tridimensional de un objeto (creado por el propio robot) y dividiéndolo en partes que puedan identificarse y asociarse con modelos existentes de objetos. Esto es difícil de hacer por muchas razones: por ejemplo, debe poder identificar partes individuales por nubes de puntos, que pueden ser pequeñas pero importantes (como manijas en los cajones), y muchas partes de objetos que se ven pueden ser semánticamente diferentes .
Los investigadores han progresado en esta área, pero estos problemas requieren más trabajo. PartNet también ayudará en esto, proporcionando un conjunto de datos que puede usarse para desarrollar algoritmos mejorados. En algún momento, PartNet puede convertirse en parte de la base de sistemas que incluso pueden construir de manera completamente independiente modelos 3D similares, al igual que los conjuntos de datos para robomobiles van de ensamblados por humanos a ensamblados por computadora bajo supervisión humana. Llegar a tal nivel de comprensión semántica de un entorno desconocido y desestructurado será clave para crear robots que puedan adaptarse al mundo real, que hemos estado esperando durante tanto tiempo.