PartNet-一个新的日常对象语义数据库,将周围世界的机器人的理解程度提高到一个新水平
该数据库至少包含24类对象的26,671个3D模型,每个模型都配备了详细的三维信息。使我们能够很好地适应周围世界的人类能力之一就是能够一次完整地理解不同的事物,然后使用这种广义的理解来处理一些我们以前从未遇到过的特定事物。 想象一下,例如一盏灯。 没有人看到世界上所有的灯。 但是在大多数情况下,当我们第一次进入新房子时,我们可以轻松地找到那里的所有灯并了解它们的工作原理。 当然,有时我们会遇到一些
非常奇怪的事情,这将使我们问:“哇,那是灯吗? 以及如何打开它?” 但是在大多数情况下,我们的广义心理灯模型可以为我们省钱。
根据定义,它与其他类别的物体一样,灯具有许多共同的组件,这有助于我们。 灯通常有灯泡。 他们通常有一个灯罩。 它们也可能有一个支架,以防止其掉落;三脚架可以从地板上升高;还有电源线。 如果您看到具有所有这些标志的物体,则可能是一盏灯,当您理解了这一点之后,就可以对如何使用它进行有根据的猜测。
对机器人的这种理解水平通常非常糟糕,这是令人不愉快的,因为这是非常有用的事情。 您甚至可以说,只有当机器人能够以接近所描述的水平理解对象时,我们才能信任机器人在非结构化环境中自主工作。 在
CVPR 2019计算机视觉和模式识别
会议上,来自斯坦福大学,加利福尼亚大学,旧金山大学和英特尔的
一组研究人员宣布创建
PartNet ,这是一个庞大的日常三维对象数据库,分为三个部分并描述到他们希望的水平基地的创造者将帮助机器人理解什么是灯。
形式示例,其中描述了24种类别的对象的小细节PartNet是ShapeNet的子集,ShapeNet是50,000个日常对象的更大3D基础。 PartNet包含24个类别的26,671个对象(例如,门,桌子,椅子,灯,微波炉,时钟),并且每个对象均分为标记的部分。 这是两个完全不同的灯的外观:
PartNet中对象的属性由专家按层级结构排列,例如每个灯的类别。 模板包括各种类型的对象,例如台灯(左)和吸顶灯(右)。 模板设计得很全面,涵盖了结构上不同类型的灯; 同时,概念相同的组件(例如灯泡或灯罩)以不同的类型出现。PartNet为标记所有小细节奠定了良好的基础。 诸如ShapeNet之类的数据库通常只包含诸如“这堆东西都是灯”之类的语句,并且此类数据库的实用性受到限制。 相反,PartNet提供了一种从根本上理解灯的方法:灯由什么部分组成,它们具有什么控制等等。 这不仅有助于更好地概括计算机以前未遇到的灯的检测方法,而且还使自治系统能够猜测如何与新的灯高效地进行交互。
可以想象,创建PartNet是一项非常耗时的任务。 这26671个3D表格中,分别有近70个“专业编译器”平均花费8分钟来描述573585个零件,然后每个描述都至少由其他一个编译器检查。 为了保持一致性,为每个对象类创建了模板,这些模板被认为可以最大程度地减少零件集,但同时要确保数据库全面描述了确定整个对象类所需的一切。 对象的组件也是按层次组织的,较小的组件是较大的组件的一部分。 这是它的绘画方式:
为了使这些数据在PartNet之外有用,机器人需要学习如何独立进行三维分割,接受对象的三维模型(由机器人本身创建)并将其分成可以识别的部分并与现有的对象模型相关联。 由于许多原因,很难做到这一点:例如,您需要能够通过点云识别单个零件,该点云虽然很小但很重要(例如抽屉中的手柄),并且看起来像对象的许多部分在语义上可能不同。
研究人员在这方面取得了一些进展,但是这些问题需要进一步的工作。 PartNet也将为此提供帮助,提供可用于开发改进算法的数据集。 在某个时候,PartNet可能成为系统基础的一部分,该系统甚至可以完全独立地构建相似的3D模型,就像机器人的数据集从人为组装到人为监督下的计算机组装一样。 对陌生和非结构化环境进行这种语义理解将是创建可以适应现实世界的机器人的关键,而我们已经等待了很长时间。