Durch einige Parameter ist die Bildverarbeitung der menschlichen überlegen. Anderen zufolge wird es uns vielleicht nie einholen.

Als die Ingenieure beschlossen, Computern das Sehen beizubringen, hielten sie es für selbstverständlich, dass Computer alles so sehen würden, wie es Menschen taten. Die ersten Vorschläge für Computer Vision aus den 1960er Jahren waren "anscheinend durch die Merkmale des menschlichen Sehens motiviert", sagte
John Tsotsos , IT-Spezialist an der York University.
Seitdem hat sich viel geändert.
Computer Vision ist aus dem Stadium der Luftschlösser herausgewachsen und hat sich zu einem sich aktiv entwickelnden Gebiet entwickelt. Heutzutage sind Computer den Menschen bei einigen Aufgaben der Mustererkennung voraus, beispielsweise bei der Klassifizierung von Bildern („Hund oder Wolf?“) Oder bei der Erkennung von Anomalien in medizinischen Fotografien. Und der Prozess der Verarbeitung visueller Daten durch "neuronale Netze" unterscheidet sich zunehmend von dem Prozess, den Menschen verwenden.
Computer schlagen uns in unserem eigenen Spiel und spielen es nach anderen Regeln.
Die neuronalen Netze, die der Bildverarbeitung zugrunde liegen, sind recht einfach. Sie erhalten ein Eingabebild und verarbeiten es in mehreren Schritten. Zuerst erkennen sie die Pixel, dann die Gesichter und Konturen, dann die gesamten Objekte, und am Ende geben sie eine Ahnung davon, was sie verrutscht sind. Diese Systeme werden als direkt verteilte neuronale Netze bezeichnet, da ihr Betrieb einem Förderer ähnlich ist.
Wir wissen nicht viel über menschliches Sehen, aber wir wissen, dass es so nicht funktioniert. In unserer jüngsten Geschichte „Das
mathematische Modell enthüllt die Geheimnisse des Sehens “ haben wir ein neues mathematisches Modell beschrieben, das versucht, das Hauptgeheimnis des menschlichen Sehens zu erklären: Wie der visuelle Kortex des Gehirns anhand der mageren Informationen, die er von der Netzhaut erhält, lebendige und genaue Darstellungen der Welt nachbildet.
Dieses Modell geht davon aus, dass der visuelle Kortex dank einer Folge von neuronalen Rückkopplungsschleifen funktioniert, die kleine Änderungen der von der Außenwelt kommenden Daten in eine Vielzahl von Bildern verarbeiten, die vor unserer inneren Wahrnehmung erscheinen. Dieser Rückkopplungsprozess unterscheidet sich stark von den direkten Ausbreitungsmethoden, mit denen Computer Vision arbeitet.
"Diese Arbeit zeigt, wie komplex der visuelle Kortex ist und sich in gewisser Weise von der Bildverarbeitung unterscheidet", sagte
Jonathan Victor , Neurowissenschaftler an der Cornell University.
Bei einigen Aufgaben ist Computer Vision jedoch dem Menschen überlegen. Es stellt sich die Frage: Ist es überhaupt notwendig, Computer-Vision-Schemata auf der Basis des Menschen zu erstellen?
In gewissem Sinne wird die Antwort darauf negativ sein. Informationen, die den visuellen Kortex erreichen, sind anatomisch begrenzt: Eine relativ kleine Anzahl von Nerven verbindet den visuellen Kortex mit der Außenwelt, wodurch die Menge an visuellen Daten begrenzt wird, mit denen der visuelle Kortex arbeiten muss. Computer haben keine derartigen Bandbreitenprobleme, daher gibt es keinen Grund für sie, mit einem Mangel an Informationen zu arbeiten.
„Wenn ich unendlich viel Rechenleistung und unendlich viel Speicher hätte, müsste ich dann den Informationsfluss begrenzen? Wahrscheinlich nicht «, sagte Tsotsos. Er hält es jedoch für unklug, das menschliche Sehen zu vernachlässigen.
Klassifizierungsaufgaben, bei denen Computer heutzutage erfolgreich waren, seien für Computer Vision zu einfach, sagt er. Um diese Probleme erfolgreich zu lösen, müssen Sie nur Korrelationen in massiven Datensätzen finden. Bei komplexeren Aufgaben, z. B. der Untersuchung eines Objekts aus verschiedenen Blickwinkeln, um es zu erkennen (ungefähr wie eine Person eine Statue kennenlernt und sie von verschiedenen Seiten umgeht), reichen solche Korrelationen möglicherweise nicht aus. Für die ordnungsgemäße Ausführung müssen Computer möglicherweise von einer Person lernen.
Im vergangenen Jahr sprach
Judah Pearl , Pionierin der künstlichen Intelligenz,
in einem Interview mit unserer Zeitschrift in einem allgemeineren Kontext über dasselbe und argumentierte, dass Korrelationstraining für die langfristige Entwicklung von KI-Systemen nicht ausreichen würde.
Ein Schlüsselmerkmal des menschlichen Sehens ist beispielsweise eine verzögerte Reaktion. Wir verarbeiten visuelle Informationen und kommen zu dem Schluss, was wir sehen. Wenn diese Schlussfolgerung nicht zu uns passt, schauen wir uns an, was wieder passiert, und oft sagt uns dieser zweite Blick genauer, was passiert. Computer-Vision-Systeme, die nach dem Direktverteilungsschema arbeiten, haben keine solche Möglichkeit, weshalb sie selbst bei den einfachsten Aufgaben der Mustererkennung oft kläglich versagen.
Das menschliche Sehen hat einen anderen, weniger offensichtlichen und wichtigeren Aspekt, der dem Computer-Sehen fehlt.
Das menschliche visuelle System hat sich im Laufe der Jahre verbessert. In
der Arbeit von 2019 , die Tsotsos mit Kollegen schrieb, wurde festgestellt, dass die Fähigkeit, Geräusche in einer mit Details übersättigten Szene zu unterdrücken und sich auf das zu konzentrieren, was sie brauchen, erst im Alter von etwa 17 Jahren bei Menschen auftritt. Andere Forscher haben herausgefunden, dass sich die Fähigkeit, Gesichter zu erkennen, bis zu 20 Jahren ständig verbessert.
Computer-Vision-Systeme verarbeiten große Datenmengen. Die zugrunde liegende Architektur ist fest und ändert sich nicht im Laufe der Zeit, wie es im Gehirn geschieht. Und wenn die zugrunde liegenden Lernmechanismen so unterschiedlich sind, werden die Ergebnisse dann unterschiedlich sein? Tsotsos glaubt, dass das System der Computer Vision am Ende auf die Abrechnung wartet.
"Das Lernen mit diesen Deep-Learning-Methoden ist so weit wie möglich vom menschlichen Lernen entfernt", sagte er. "Deshalb scheint es mir, dass eine Sackgasse auf sie wartet." Sie werden an die Grenze der Entwicklung stoßen, über die sie nicht mehr hinausgehen können. “