Die EinschrÀnkungen von Bilderkennungsalgorithmen



Nein, es geht nicht um Bilderkennungsalgorithmen, sondern um die EinschrÀnkungen ihrer Verwendung, insbesondere beim Erstellen von KI.

Meiner Meinung nach ist die Erkennung visueller Bilder durch eine Person und ein Computersystem sehr unterschiedlich - so sehr, dass es wenig gemeinsam hat. Wenn eine Person „Ich sehe“ sagt, denkt sie tatsĂ€chlich mehr als sie sieht, was nicht ĂŒber ein Computersystem gesagt werden kann, das mit GerĂ€ten zur Bilderkennung ausgestattet ist.

Ich weiß, dass die Idee nicht neu ist, aber ich schlage noch einmal vor, ihre GĂŒltigkeit am Beispiel eines Roboters sicherzustellen, der behauptet, Intelligenz zu besitzen. Die Testfrage lautet: Welche Art von Roboter sollte die umliegende Welt sehen, um vollstĂ€ndig wie eine Person zu werden?

NatĂŒrlich muss der Roboter Objekte erkennen. Oh ja, die Algorithmen kommen damit zurecht - durch Training an den Originalproben, wie ich es verstehe. Aber das ist katastrophal klein!

I.
Erstens besteht jedes Objekt der umgebenden Welt aus vielen Objekten und ist wiederum eine Teilmenge anderer Objekte. Ich nenne diese Eigenschaft Verschachtelung. Was aber, wenn ein Subjekt einfach keinen Namen hat und sich nicht auf der Basis der Originalproben befindet, die zum Erlernen des Algorithmus verwendet wurden - was sollte der Roboter in diesem Fall erkennen?

Die Wolke, die ich gerade im Fenster beobachte, hat keine benannten Teile, obwohl sie offensichtlich aus Kanten und einer Mitte besteht. Es gibt jedoch keine speziellen Begriffe fĂŒr die Kanten und die Mitte der Wolke, die nicht geprĂ€gt sind. Um ein unbenanntes Objekt anzuzeigen, habe ich eine verbale Formulierung ("Wolke" - Objekttyp, "Wolkenkante" - verbale Formulierung) verwendet, die nicht in den Funktionen des Bilderkennungsalgorithmus enthalten ist.

Es stellt sich heraus, dass ein Algorithmus ohne logischen Block wenig nĂŒtzlich ist. Wenn der Algorithmus einen Teil des gesamten Objekts erkennt, kann er nicht immer herausfinden - dementsprechend kann der Roboter nicht sagen, was es ist.

II.
Zweitens wird die Liste der Objekte, aus denen die Welt besteht, nicht geschlossen, sondern stÀndig aktualisiert.

Eine Person hat die FĂ€higkeit, Objekte der RealitĂ€t zu konstruieren und neu entdeckten Objekten, beispielsweise Tierarten, Namen zuzuweisen. Er wird ein Pferd mit einem menschlichen Kopf und Torso einen Zentauren nennen, aber dafĂŒr wird zunĂ€chst verstanden, dass die Kreatur einen menschlichen Kopf und Torso hat und alles andere pferdeartig ist, wodurch das Objekt als neues erkannt wird. Das macht das menschliche Gehirn. Und wenn keine Eingabedaten vorliegen, bestimmt der Algorithmus eine solche Kreatur entweder als Person oder als Pferd: Ohne die Arbeit mit Typmerkmalen kann er ihre Kombination nicht ermitteln.

Damit ein Roboter wie ein Mensch wird, muss er in der Lage sein, neue Objekttypen fĂŒr ihn zu definieren und diesen Typen Namen zuzuweisen. In den Beschreibungen des neuen Typs sollten Merkmale bekannter Typen erscheinen. Und wenn der Roboter nicht weiß wie, warum um alles in der Welt brauchen wir ihn so schön?

Nehmen wir an, wir schicken einen AufklĂ€rungsroboter zum Mars. Ein Roboter sieht etwas Ungewöhnliches, kann aber ein Objekt ausschließlich in irdischen Begriffen identifizieren, die ihm bekannt sind. Was wird dies den Menschen geben, die verbale Nachrichten hören, die vom Roboter kommen? Manchmal gibt es natĂŒrlich etwas (wenn Erdobjekte auf dem Mars gefunden werden) und in anderen FĂ€llen nichts (wenn die Marsobjekte den Erdobjekten nicht Ă€hnlich sind).

Das Bild ist eine andere Sache: Eine Person selbst kann alles sehen, richtig bewerten und benennen. Nur durch keinen vorab trainierten Bilderkennungsalgorithmus, sondern durch Ihr schlauer konstruiertes menschliches Gehirn.

III.
Drittens gibt es ein Problem bei der Individualisierung von Objekten.

Die Welt besteht aus bestimmten Objekten. Eigentlich können Sie nur bestimmte Objekte sehen. In einigen FĂ€llen mĂŒssen sie jedoch verbal individualisiert werden, wobei entweder persönliche Namen verwendet werden ("Vasya Petrov") oder eine einfache Angabe eines bestimmten Objekts, ausgesprochen oder impliziert ("diese Tabelle"). Was ich Objekttypen („Personen“, „Tabellen“) nenne, sind nur Sammelnamen von Objekten, die bestimmte gemeinsame Merkmale aufweisen.

Bilderkennungsalgorithmen können, wenn sie an den Originalproben trainiert werden, sowohl individualisierte als auch nicht individualisierte Objekte erkennen - das ist gut. Gesichtserkennung an ĂŒberfĂŒllten Orten und so weiter. Das Schlimme ist, dass solche Algorithmen nicht verstehen, welche Objekte als individualistisch erkannt werden sollten und welche absolut nicht wert sind.

Der Roboter als Besitzer der KI sollte gelegentlich in Nachrichten wie:
- Oh, und ich habe diese alte Frau vor einer Woche gesehen!

Es lohnt sich jedoch nicht, solche Nachbildungen von Grashalmen zu missbrauchen, zumal begrĂŒndete BefĂŒrchtungen bestehen, dass die Rechenleistung fĂŒr eine solche Aufgabe ausreicht.

Mir ist nicht klar, wo die feine Linie zwischen einer individualisierten alten Frau und unzĂ€hligen Grashalmen gezogen wird, die von nicht weniger als einer alten Frau individualisiert werden, aber unter dem Gesichtspunkt der Individualisierung fĂŒr eine Person nicht von Interesse sind. Was ist das erkannte Bild in diesem Sinne? Fast nichts - der Beginn einer schwierigen bis schmerzhaften Wahrnehmung der umgebenden RealitĂ€t.

IV.
Viertens die Dynamik von Objekten, die durch ihre gegenseitige rÀumliche Anordnung bestimmt wird. Das ist etwas, sage ich dir!

Ich sitze in einem tiefen Sessel vor dem Kamin und versuche jetzt aufzustehen.
"Was siehst du, Roboter?"

Aus unserer alltÀglichen Sicht sieht der Roboter mich von einem Stuhl aufstehen. Was soll er antworten? Wahrscheinlich wÀre die relevante Antwort:
"Ich sehe dich von deinem Stuhl aufstehen."

Dazu muss der Roboter wissen, wer ich bin, was ein Stuhl ist und was es bedeutet, sich zu erheben ...

Der Bilderkennungsalgorithmus kann mich und den Stuhl nach entsprechenden Einstellungen erkennen. Durch Vergleichen der Rahmen können wir dann feststellen, dass ich mich gegenseitig vom Stuhl entferne. Aber was bedeutet es, sich zu erheben? Wie geschieht „Erhebung“ in der physischen RealitĂ€t?

Wenn ich schon aufgestanden bin und weggegangen bin, ist alles ganz einfach. Nachdem ich mich vom Stuhl entfernt hatte, Ă€nderten alle Objekte im BĂŒro nicht die rĂ€umliche Position relativ zueinander, mit Ausnahme von mir, der ursprĂŒnglich auf dem Stuhl saß und nach einiger Zeit vom Stuhl entfernt war. Es ist zulĂ€ssig zu schließen, dass ich den Stuhl verlassen habe.

Wenn ich noch vom Stuhl aufstehe, ist alles etwas komplizierter. Ich bin immer noch neben dem Stuhl, aber die relative rÀumliche Position der Körperteile hat sich geÀndert:

  • anfangs befanden sich Tibia und Rumpf in aufrechter Position und der Oberschenkel in horizontaler Position (ich saß),
  • Im nĂ€chsten Moment befanden sich alle Körperteile in aufrechter Position (ich stand auf).

Beobachten Sie mein Verhalten als Person, er wird sofort zu dem Schluss kommen, dass ich von einem Stuhl aufstehe. FĂŒr einen Menschen ist dies weniger eine logische Schlussfolgerung als eine visuelle Wahrnehmung: Er wird mich buchstĂ€blich von meinem Stuhl aufstehen sehen, obwohl er tatsĂ€chlich eine VerĂ€nderung der relativen Position von Teilen meines Körpers sehen wird. In Wirklichkeit ist es jedoch eine logische Schlussfolgerung, die jemand dem Roboter erklĂ€ren muss, oder der Roboter muss diese logische Schlussfolgerung selbst herausarbeiten.

Beide sind gleich schwierig:

  • In die anfĂ€ngliche Wissensbasis einzugeben, dass das Aufstehen eine sequentielle Änderung der gegenseitigen rĂ€umlichen Position bestimmter Körperteile ist, ist irgendwie nicht inspirierend.
  • Es ist nicht weniger dumm zu hoffen, dass der Roboter als kĂŒnstliches denkendes Wesen selbst schnell erraten wird, dass die oben beschriebene Änderung der gegenseitigen rĂ€umlichen Position bestimmter Körperteile als Stehen bezeichnet wird. Beim Menschen dauert dieser Prozess Jahre. Wie viel braucht ein Roboter?

Und was haben die Bilderkennungsalgorithmen damit zu tun? Sie werden niemals feststellen können, dass ich von einem Stuhl aufstehe.

V. V.
"Aufstehen" ist ein abstraktes Konzept, das durch eine Änderung der Eigenschaften materieller Objekte bestimmt wird, in diesem Fall durch eine Änderung ihrer gegenseitigen rĂ€umlichen Position. Im allgemeinen Fall gilt dies fĂŒr alle abstrakten Konzepte, da abstrakte Konzepte selbst nicht in der materiellen Welt existieren, sondern vollstĂ€ndig von materiellen Objekten abhĂ€ngig sind. Obwohl wir sie oft als persönlich beobachtet wahrnehmen.

Den Kiefer nach rechts oder links bewegen, ohne den Mund zu öffnen - wie heißt diese Aktion? Aber auf keinen Fall. Zweifellos aus dem Grund, dass eine solche Bewegung fĂŒr eine Person im Allgemeinen untypisch ist. Mit den besprochenen Algorithmen wird der Roboter etwas sehen, aber worum geht es? In der Basis der anfĂ€nglichen Proben fehlt der gewĂŒnschte Name, und es ist schwierig, die aufgezeichnete Aktion des Roboters zu benennen. Und um unbenannten Aktionen sowie anderen abstrakten Konzepten detaillierte verbale Formulierungen zu geben, werden Bilderkennungsalgorithmen nicht trainiert.

TatsĂ€chlich haben wir ein Duplikat des ersten Absatzes, nicht nur in Bezug auf Objekte, sondern auch in Bezug auf abstrakte Konzepte. Der Rest der vorherigen und nĂ€chsten AbsĂ€tze kann jedoch auch mit abstrakten Konzepten verknĂŒpft werden. Ich achte nur darauf, die KomplexitĂ€t bei der Arbeit mit Abstraktionen zu erhöhen.

VI.
Sechstens ein Kausalzusammenhang.

Stellen Sie sich vor, Sie beobachten einen Pickup, der von der Straße fliegt und einen Zaun abreißt. Der Grund, warum der Zaun abgerissen wird, ist die Aufnahmebewegung, und die Aufnahmebewegung fĂŒhrt wiederum zum Abriss des Zauns.

- Ich habe es mit eigenen Augen gesehen!
Dies ist die Antwort auf die Frage, ob Sie gesehen haben, was passiert ist oder daran gedacht haben. Und was hast du eigentlich gesehen?

Einige Punkte in einer solchen Dynamik:

  • Ein Pickup fuhr von der Straße ab
  • Pickup kam nahe an den Zaun,
  • Der Zaun hat Form und Lage geĂ€ndert.

Aufgrund der visuellen Wahrnehmung muss der Roboter erkennen, dass sich die ZĂ€une im Normalfall nicht in Form und Position Ă€ndern. Hier geschah dies durch Kontakt mit dem Pickup. Die Subjektursache und die Subjektwirkung mĂŒssen miteinander in Kontakt stehen, sonst fehlt in ihrer Beziehung die KausalitĂ€t.

Obwohl wir hier in eine logische Falle geraten, weil andere Objekte mit der Subjekt-Konsequenz in Kontakt treten können, nicht nur mit dem Subjekt-Grund.

Angenommen, zum Zeitpunkt der Abholung schlagen Sie die Dohle auf dem Zaun. Ein Pickup und eine Dohle hatten gleichzeitig Kontakt mit dem Zaun: Wie kann man feststellen, bei welchem ​​Kontakt der Zaun abgerissen wurde?

Wahrscheinlich mit Wiederholbarkeit:

  • Wenn in jedem Fall, wenn eine Dohle auf dem Zaun sitzt, der Zaun abgerissen wird, ist die Dohle schuld;
  • Wenn in jedem Fall ein Pickup gegen den Zaun stĂ¶ĂŸt, ist der Pickup schuld.

Die Schlussfolgerung, dass der Zaun durch einen Pickup abgerissen wurde, ist also nicht gerade eine Beobachtung, sondern das Ergebnis einer Analyse, die auf der Beobachtung von Objekten in Kontakt basiert.

Andererseits kann die Wirkung in einer Entfernung ausgefĂŒhrt werden, beispielsweise die Wirkung eines Magneten auf ein Eisenobjekt. Wie vermutet der Roboter, dass ein Nagel, der sich einem Nagel nĂ€hert, den Nagel in Richtung des Magneten stĂŒrzt? Das visuelle Bild ist nicht so:

  • Der Magnet nĂ€hert sich, hat aber keinen Kontakt mit dem Nagel.
  • Gleichzeitig stĂŒrzt der Nagel von sich aus zum Magneten und kommt mit ihm in Kontakt.

Wie Sie sehen, ist es sehr schwierig, Ursache-Wirkungs-Beziehungen zu verfolgen, selbst wenn der Zeuge mit eiserner Überzeugung erklĂ€rt, dass er sie mit eigenen Augen gesehen hat. Bilderkennungsalgorithmen sind hier machtlos.

VII.
Siebtens und zuletzt ist dies die Wahl der visuellen Wahrnehmungsziele.

Das umgebende visuelle Bild kann aus Hunderten und Tausenden von ineinander verschachtelten Objekten bestehen, von denen viele ihre rĂ€umliche Position und andere Eigenschaften stĂ€ndig Ă€ndern. NatĂŒrlich muss der Roboter nicht jeden Grashalm auf dem Feld wahrnehmen, wie jedes Gesicht auf einer Stadtstraße: Sie mĂŒssen nur das Wichtige wahrnehmen, abhĂ€ngig von den ausgefĂŒhrten Aufgaben.

Offensichtlich funktioniert es nicht, den Bilderkennungsalgorithmus an die Wahrnehmung einiger Objekte anzupassen und andere zu ignorieren, da möglicherweise nicht im Voraus bekannt ist, worauf zu achten ist und was zu ignorieren ist, zumal sich die aktuellen Ziele auf dem Weg Ă€ndern können. Eine Situation kann entstehen, wenn Sie zuerst viele tausend ineinander verschachtelte Objekte wahrnehmen mĂŒssen - buchstĂ€blich jedes von ihnen -, um zu analysieren und erst dann ein Urteil abzugeben, welche Objekte fĂŒr die Lösung des aktuellen Problems wesentlich sind und welche nicht von Interesse sind. So nimmt der Mensch die Welt um sich herum wahr: Er sieht nur das Wichtige und achtet nicht auf uninteressante Hintergrundereignisse. Wie er Erfolg hat, ist ein Geheimnis.

Und der Roboter, der sogar mit den modernsten und genialsten Bilderkennungsalgorithmen ausgestattet ist? .. Wenn er wĂ€hrend eines Angriffs von Mars-Außerirdischen einen Bericht mit Wetterberichten startet und mit einer Beschreibung der vor ihm ausgebreiteten neuen Landschaft fortfĂ€hrt, hat er möglicherweise keine Zeit, den Angriff selbst zu melden.

Schlussfolgerungen

  1. Die einfache Erkennung visueller Bilder ersetzt nicht das menschliche Auge.
  2. Bilderkennungsalgorithmen sind ein Hilfswerkzeug mit einem sehr engen Anwendungsbereich.
  3. Damit ein Roboter nicht nur denken kann, sondern es zumindest menschlich sieht, sind Algorithmen nicht nur fĂŒr die Mustererkennung erforderlich, sondern auch fĂŒr dasselbe vollwertige und dennoch unerreichbare menschliche Denken.

Source: https://habr.com/ru/post/de450422/


All Articles