PartNet - eine neue semantische Datenbank alltäglicher Objekte, die den Grad des Verständnisses von Robotern der umgebenden Welt auf eine neue Ebene hebt
Die Datenbank enthält mindestens 26.671 3D-Modelle von 24 Objektkategorien, von denen jede mit detaillierten dreidimensionalen Informationen ausgestattet ist.Eine der menschlichen Fähigkeiten, die es uns ermöglicht, uns so gut an die Welt um uns herum anzupassen, besteht darin, verschiedene Dinge gleichzeitig in ganzen Kategorien verstehen zu können und dieses allgemeine Verständnis dann zu nutzen, um mit bestimmten Dingen umzugehen, denen wir zuvor noch nicht begegnet sind. Stellen Sie sich zum Beispiel eine Lampe vor. Niemand hat alle Lampen der Welt gesehen. Aber in den meisten Fällen können wir beim ersten Betreten eines neuen Hauses leicht alle Lampen dort finden und verstehen, wie sie funktionieren. Natürlich können wir manchmal etwas
sehr Seltsames treffen, das uns dazu bringt zu fragen: „Wow, ist das eine Lampe? Und wie schalte ich es ein? " In den meisten Fällen rettet uns unser verallgemeinertes mentales Lampenmodell.
Es hilft uns, dass Lampen wie andere Kategorien von Objekten per Definition viele gemeinsame Komponenten haben. Lampen haben normalerweise Glühbirnen. Sie haben normalerweise einen Lampenschirm. Sie haben wahrscheinlich auch einen Ständer, um zu verhindern, dass sie fallen, ein Stativ, das sich über den Boden erhebt, und ein Netzkabel. Wenn Sie ein Objekt sehen, das all diese Zeichen aufweist, handelt es sich wahrscheinlich um eine Lampe. Wenn Sie dies verstehen, können Sie eine fundierte Vermutung anstellen, wie Sie es verwenden sollen.
Dieses Verständnis wird Robotern oft besonders schlecht vermittelt, was unangenehm ist, da dies eine sehr nützliche Sache ist. Sie können sogar sagen, dass wir darauf vertrauen können, dass Roboter in einer unstrukturierten Umgebung nur dann autonom arbeiten, wenn sie Objekte auf einer Ebene verstehen, die der beschriebenen nahe kommt. Auf der Computer Vision and Pattern Recognition-
Konferenz CVPR 2019 kündigte ein Forscherteam aus Stanford, der University of California, der University of San Francisco und Intel die Schaffung von
PartNet an , einer riesigen Datenbank alltäglicher dreidimensionaler Objekte, die in Teile zerlegt und auf das von ihnen
erhoffte Niveau beschrieben werden Die Schöpfer der Basis helfen Robotern zu verstehen, was eine Lampe ist.
Beispiele für Formulare mit beschriebenen kleinen Details von Objekten aus 24 KategorienPartNet ist eine Teilmenge von ShapeNet, einer noch größeren 3D-Basis von 50.000 Alltagsgegenständen. PartNet enthält 26.671 Objekte in 24 Kategorien (z. B. Türen, Tische, Stühle, Lampen, Mikrowellen, Uhren). Jedes der Objekte ist in markierte Teile unterteilt. So sieht es bei zwei völlig unterschiedlichen Lampen aus:
Die Eigenschaften von Objekten in PartNet werden von Experten für hierarchische Strukturen für jede der Kategorien angeordnet, z. B. für Lampen. Die Vorlage enthält Objekte verschiedener Typen, z. B. eine Tischlampe (links) und eine Deckenleuchte (rechts). Die Vorlage wurde als tiefgreifende und umfassende Vorlage konzipiert, die strukturell unterschiedliche Lampentypen abdeckt. Gleichzeitig erscheinen konzeptionell identische Komponenten wie eine Glühbirne oder ein Lampenschirm in verschiedenen Typen.PartNet ist eine hervorragende Basis, um alle kleinen Details zu markieren. Datenbanken wie ShapeNet enthalten normalerweise nur Anweisungen wie „Diese ganze Reihe von Dingen sind Lampen“, und der Nutzen solcher Datenbanken ist begrenzt. Im Gegenteil, PartNet bietet eine Möglichkeit, Lampen auf einer grundlegenden Ebene zu verstehen: Aus welchen Teilen bestehen sie, welche Steuerung haben sie usw. Dies hilft nicht nur, die Erkennung von Lampen, die der Computer zuvor noch nicht getroffen hat, besser zu verallgemeinern, sondern ermöglicht es dem autonomen System auch, zu erraten, wie produktiv mit neuen Lampen interagiert werden kann.
Wie Sie sich vorstellen können, war das Erstellen von PartNet eine sehr zeitaufwändige Aufgabe. Fast 70 „professionelle Compiler“ verbrachten durchschnittlich jeweils 8 Minuten mit jedem dieser 26671 3D-Formulare, in denen 573 585 Teile beschrieben wurden. Anschließend wurde jede Beschreibung von mindestens einem anderen Compiler überprüft. Um die Einheitlichkeit zu gewährleisten, wurden für jede Objektklasse Vorlagen erstellt, die den Teilesatz minimieren und gleichzeitig sicherstellen sollten, dass die Datenbank alles umfassend beschreibt, was zur Bestimmung der gesamten Objektklasse erforderlich ist. Komponenten von Objekten sind ebenfalls hierarchisch organisiert, und kleinere Komponenten sind Teil größerer. So wird es gemalt:
Damit diese Daten außerhalb von PartNet nützlich sind, müssen Roboter lernen, wie sie unabhängig eine dreidimensionale Segmentierung durchführen, ein dreidimensionales Modell des Objekts (vom Roboter selbst erstellt) akzeptieren und es in Teile zerlegen, die identifiziert und vorhandenen Objektmodellen zugeordnet werden können. Dies ist aus vielen Gründen schwierig: Sie müssen beispielsweise in der Lage sein, einzelne Teile anhand von Punktwolken zu identifizieren, die klein, aber wichtig sein können (z. B. Griffe in Schubladen), und viele Teile von Objekten, die aussehen, können semantisch unterschiedlich sein .
Die Forscher haben in diesem Bereich einige Fortschritte erzielt, aber diese Probleme erfordern weitere Arbeiten. PartNet wird auch dabei helfen und einen Datensatz bereitstellen, mit dem verbesserte Algorithmen entwickelt werden können. Irgendwann wird PartNet möglicherweise Teil der Grundlage von Systemen, die sogar völlig unabhängig ähnliche 3D-Modelle erstellen können, genau wie Datensätze für Robomobile unter menschlicher Aufsicht von menschlich zusammengesetzt zu computergestützt wechseln. Ein solches Maß an semantischem Verständnis einer unbekannten und unstrukturierten Umgebung zu erreichen, wird der Schlüssel zur Schaffung von Robotern sein, die sich an die reale Welt anpassen können, auf die wir so lange gewartet haben.