Eine Idee aus der Physik hilft der KI, in höheren Dimensionen zu arbeiten.

Die Gesetze der Physik ändern sich aus einer anderen Perspektive nicht. Mit dieser Idee können Computer jedoch bestimmte Merkmale im gekrümmten Raum höherer Dimensionen erkennen.




Computer lernen, Autos zu fahren, Weltmeister in Brettspielen zu besiegen und sogar Prosa zu schreiben. Zum größten Teil basiert die KI-Revolution auf den Fähigkeiten eines Typs eines künstlichen neuronalen Netzwerks, dessen Schema von miteinander verbundenen Schichten von Neuronen im visuellen Kortex des Gehirns von Säugetieren inspiriert ist. Die sogenannten „Convolutional Neural Networks“ (SNA) erwiesen sich als überraschend gut geeignet, um Muster in zweidimensionalen Daten zu finden - insbesondere bei Computer-Vision-Aufgaben wie dem Erkennen handgeschriebener Wörter oder Objekte in digitalen Bildern.

Auf Datensätze angewendet, die sich nicht auf die Geometrie in einer Ebene reduzieren lassen, z. B. auf unregelmäßig geformte Modelle, die in der 3D-Computeranimation verwendet werden, oder auf Punktwolken, die von Robomobilen zum Markieren der sie umgebenden Welt generiert werden funktioniert so gut. 2016 erschien eine neue Disziplin, Geometric Deep Learning (GGO), deren Ziel es war, die SNA aus dem Flugzeug zu holen.

Jetzt haben die Forscher ihr Ziel erreicht, indem sie eine neue theoretische Plattform für die Konstruktion von NS entwickelt haben, mit der Muster auf beliebigen geometrischen Oberflächen gefunden werden können. Diese gauge-äquivarianten Faltungs-Neuronennetze wurden an der Universität Amsterdam und im Forschungslabor von Qualcomm AI unter Beteiligung von Forschern wie Taco Cohen , Maurice Weiler , Berkai Kitsanoglu und Max Welling entwickelt . ESNS kann Muster nicht nur in zweidimensionalen Arrays von Pixeln finden, sondern auch auf Kugeln und auf asymmetrisch gekrümmten Objekten. "Diese Plattform ist eine eindeutige Antwort auf die Herausforderung, die durch das Problem des tiefen Lernens auf gekrümmten Oberflächen entsteht", sagte Welling.

KESNS hat bereits seine Vorgänger bei der Erkennung von Mustern in den Simulationen des globalen Klimas, die auf natürliche Weise auf der Kugel durchgeführt werden, ernsthaft überholt. Algorithmen können auch nützlich sein, um die Sicht von Drohnen und Robomobilen zu verbessern, die dreidimensionale Objekte wahrnehmen, und um Muster in Daten zu erkennen, die von gekrümmten Oberflächen unregelmäßiger Formen des Herzens, des Gehirns oder anderer Organe erfasst wurden.


Taco Cohen, einer der führenden Architekten von CECNS

Die Lösung des GO-Problems, die Forscher außerhalb des Flugzeugs gefunden haben, ist eng mit der Physik verbunden. Physikalische Theorien, die die Welt beschreiben, wie die Allgemeine Relativitätstheorie von Albert Einstein oder das Standardmodell in der Physik, haben die Eigenschaft der „Eichäquivarianz“. Dies bedeutet, dass die Größe der Welt und ihre Beziehung nicht von willkürlichen Bezugssystemen (oder „Kalibrierung“) abhängt. Sie bleiben unverändert, unabhängig davon, ob sich der Betrachter bewegt oder ausruht oder wie weit die Ziffern auf dem Lineal voneinander entfernt sind. Messungen, die mit unterschiedlichen Mitteln vorgenommen wurden, sollten ineinander umgewandelt werden, um die Verbindung zwischen den Dingen aufrechtzuerhalten.

Wenn wir zum Beispiel die Länge eines Fußballfeldes in Metern und dann in Metern messen, erhalten wir unterschiedliche Zahlen, aber ihre Differenz ist vorhersehbar. Zwei Fotografen, die ein Objekt von zwei verschiedenen Punkten aus fotografieren, erhalten unterschiedliche Bilder, können jedoch miteinander verbunden werden. Die Äquivarianz von Messgeräten gewährleistet die Konsistenz physikalischer Modelle, unabhängig von Gesichtspunkten oder Maßeinheiten. KESNS akzeptiert die gleichen Annahmen in Bezug auf Daten.

"Sie wollten die Idee der Physik in das neuronale Netzwerk einbringen - wenn es keine bestimmten Bereiche gibt", sagte Kyle Kranmer , Physiker an der New York University, der MO auf Teilchenphysik anwendet. "Und sie fanden heraus, wie es geht."

Flugzeug entkommen


Im Jahr 2015 prägte Michael Bronstein , ein Informatiker am Imperial College London, den Begriff „geometrisches Tiefenlernen“, um die ersten Versuche zu beschreiben, die unternommen wurden, um sich von der Ebene zu entfernen und NS zu entwickeln, das in der Lage ist, nach Mustern in 3D-Daten zu suchen. Bald setzte sich dieser Begriff - und die Forschung - durch.

Bronstein und seine Mitarbeiter wussten, dass über die euklidische Ebene hinaus eine Neuerfindung eines der grundlegenden Rechenverfahren erforderlich sein würde, die NS bei der Erkennung zweidimensionaler Bilder so effektiv machen. Dieses Verfahren, das sogenannte "Convolution" (Faltung) ermöglicht der NS-Schicht, eine mathematische Operation an kleinen Abschnitten der Eingabedaten durchzuführen und das Ergebnis dann an die nächste Netzwerkschicht zu übertragen.

„Sie können sich das Paket als Schiebefenster vorstellen“, erklärte Bronstein. SNA verschiebt viele solcher Filterfenster entsprechend den Daten, und jedes von ihnen sucht nach einem bestimmten Muster. Im Fall eines Katzenfotos kann ein geschulter SNA Filter verwenden, die Zeichen auf niedriger Ebene in Pixeln erkennen, z. B. Gesichter. Diese Zeichen werden bis zu den nächsten Schichten des Netzwerks übertragen und führen zusätzliche Windungen durch, wobei Zeichen einer höheren Ebene wie Augen, Schwanz oder dreieckige Ohren ausgewählt werden. Infolgedessen verwendet der für die Erkennung von Katzen geschulte SNS die Ergebnisse dieser schichtweisen Windungen, um festzustellen, ob sich auf dem Foto eine Katze befindet oder nicht.


Wie der SNS sieht:

  1. Filter, die Zeichen erkennen, bewegen sich entlang des eingehenden Bildes, und der Übereinstimmungsgrad mit jedem Filter an jeder Position wird aufgezeichnet, wodurch eine Karte mit Zeichen erstellt wird.
  2. Nach der Verarbeitung werden die Feature-Cards erneut gefaltet und verwenden bereits Filter, die für Features einer höheren Ebene konfiguriert sind.
  3. Dadurch lernt das Netzwerk, Bilder zu erkennen und richtig zu klassifizieren.

Dieser Ansatz funktioniert jedoch nur im Flugzeug. "Wenn das Flugzeug, auf dem Sie analysieren müssen, verzerrt ist, haben Sie Probleme", sagte Welling.

Das Falten auf einer gekrümmten Oberfläche - in der Geometrie wird dies als topologische Mannigfaltigkeit bezeichnet - entspricht dem Drücken eines quadratischen Millimeterpapiers auf den Globus, um die Konturen der grönländischen Küste genau darauf zu übertragen. Sie können kein Papier nach Grönland drücken, ohne es zu zerdrücken. Dies bedeutet, dass Ihre Zeichnung verzerrt wird, wenn Sie sie erneut glätten. Sie können das Papier an einer Stelle an den Globus lehnen und die Konturen zeichnen, indem Sie sie durch das Papier betrachten (diese Technik wird als Mercator-Projektion bezeichnet ), aber auch in diesem Fall werden Verzerrungen erzielt. Sie können Millimeterpapier an eine flache Weltkarte anbringen, nicht an einen Globus, aber Sie kopieren einfach die Verzerrungen. Denken Sie beispielsweise daran, dass der gesamte obere Rand der Karte tatsächlich den einzigen Punkt auf dem Globus darstellt, den Nordpol. Und wenn sich herausstellt, dass es sich bei der Sorte nicht um eine saubere Kugel wie eine Kugel handelt, sondern um etwas Komplexeres und Falsches wie eine dreidimensionale Flaschenform oder ein gelegtes Protein, dann wird es noch schwieriger sein, sie zu falten.

Bronstein und Kollegen fanden 2015 eine Lösung für das Faltungsproblem bei nichteuklidischen Mannigfaltigkeiten. Sie ersetzten die Fensterschiebestruktur durch eine Struktur, die eher wie ein rundes Gewebe als wie ein Millimeterpapier aussah - es kann gegen den Globus (oder eine beliebige gekrümmte Oberfläche) gelehnt werden, ohne zu falten, ohne zu reißen und ohne sich zu dehnen.

Das Ändern der Eigenschaften des Gleitfilters wirkte sich günstig auf das Verständnis der SNA bestimmter geometrischer Beziehungen aus. Zum Beispiel könnte das Netzwerk automatisch verstehen, dass eine dreidimensionale Figur, die auf unterschiedliche Weise gekrümmt ist - zum Beispiel eine Person, die aufrecht steht, und eine Person, die ein Bein angehoben hat - ein und dasselbe Objekt ist und nicht zwei völlig verschiedene. Diese Änderung hat auch die Leistung der Nationalversammlung dramatisch verbessert. Standard SNS "verwendete Millionen von Beispielen von Zahlen, sie mussten wochenlang trainiert werden", sagte Bronstein. „Wir verwenden ungefähr 100 Figuren in verschiedenen Posen und trainieren das Netzwerk für ungefähr eine halbe Stunde.“

Zur gleichen Zeit begannen Taco Cohen und seine Kollegen aus Amsterdam, sich diesem Problem von der anderen Seite zu nähern. Im Jahr 2015 beschäftigte sich der damalige Doktorand Cohen nicht mit der Frage der Flucht aus dem Flugzeug. Er interessierte sich für ein praktisches, wie er es betrachtete, technisches Problem: Dateneffizienz, dh die Frage, wie NS mit weniger Beispielen trainiert werden kann, anstatt mit Tausenden oder Millionen, die normalerweise dafür erforderlich sind. "Deep Learning ist sehr langsam", sagte Cohen. Dies bereitet keine besonderen Probleme, wenn Sie den SNS darauf trainieren, Katzen zu erkennen (angesichts des unerschöpflichen Angebots an Katzenbildern im Internet). Wenn Sie der SNA jedoch beibringen, etwas Wichtigeres zu erkennen, z. B. Krebstumoren in einem Bild des Lungengewebes, ist es ziemlich schwierig, eine ausreichende Menge an Trainingsdaten zu finden - medizinisch korrekt, korrekt gekennzeichnet und urheberrechtsfrei. Und je weniger Beispiele zum Trainieren des Netzwerks erforderlich sind, desto besser.

Cohen wusste, dass eine Möglichkeit, die Effektivität der Daten zu erhöhen, darin bestand, der NS im Voraus eine Vorstellung von diesen Daten zu vermitteln, beispielsweise, dass ein Lungenkrebs nicht aufhört, ein Tumor zu sein, wenn sein Bild gedreht oder gespiegelt wird. Das Faltungsnetzwerk muss solche Informationen normalerweise von Grund auf lernen und dabei viele Beispiele desselben Musters untersuchen, die in verschiedenen Formen dargestellt werden. 2016 arbeiteten Cohen und Welling gemeinsam an einem Artikel, in dem beschrieben wurde, wie einige dieser Annahmen in Form von geometrischen Symmetrien in NS kodiert werden können. Dieser Ansatz funktionierte so gut, dass Cohen und Maricia Winkles ihn 2018 noch einmal zusammenfassten und vielversprechende Ergebnisse bei der Erkennung von Lungenkrebs in CT-Bildern zeigten . Ihr NS konnte anhand von nur einem Zehntel der Daten, aus denen andere neuronale Netze trainiert wurden, visuelle Hinweise auf das Vorhandensein der Krankheit finden.

Amsterdamer Forscher setzten ihre Verallgemeinerungen fort und kamen schließlich dazu, die Äquivarianz zu messen.

Äquivarianz ausbauen


Physik und maschinelles Lernen haben etwas gemeinsam. Laut Cohen "sind beide Bereiche damit beschäftigt, Modelle zu erstellen, die die Ergebnisse nachfolgender Beobachtungen vorhersagen". Wichtig sei, dass beide Bereiche Modelle von nicht getrennten Dingen bilden (eine Beschreibung für das Wasserstoffatom und die zweite für dasselbe Atom, nur invertiert), sondern von allgemeinen Kategorien. "Und die Physik hat dabei natürlich große Fortschritte gemacht."

Äquivarianz


Äquivarianz (oder „Kovarianz“, wie es die Physiker bevorzugen) ist die Annahme, auf die sich die Physiker bei der Verallgemeinerung ihrer Modelle seit Einstein verlassen haben. "Es bedeutet nur, dass, wenn Sie irgendeine Art von Physik korrekt beschreiben, diese Beschreibung unabhängig davon sein sollte, welche Art von 'Herrschern' Sie verwenden oder generell, welche Art von Beobachter Sie sind", erklärte Miranda Chen , eine theoretische Physikerin von der Universität Amsterdam, die zusammen mit Cohen und anderen Wissenschaftlern einen Artikel über das Studium der Beziehung zwischen Physik und KESNS verfasst hat. Einstein selbst schrieb 1916: "Die allgemeinen Naturgesetze müssen durch Gleichungen ausgedrückt werden, die in allen Koordinatensystemen funktionieren."


Miranda Chen, eine theoretische Physikerin von der Universität Amsterdam

Faltungsneuronale Netze sind aufgrund der Verwendung eines einfachen Beispiels für ein solches Prinzip, „Transferäquivarianz“, zu einer der erfolgreichsten Methoden im Zivilschutz geworden. Ein Filterfenster, das ein bestimmtes Merkmal im Bild erkennt, z. B. vertikale Flächen, wird entlang einer Pixelebene verschoben (oder umbrochen) und zeichnet alle Stellen auf, an denen sich solche vertikalen Flächen befinden. Anschließend wird eine „Feature-Map“ erstellt, die diese Orte markiert und an die nächste Ebene des Netzwerks weitergeleitet. Die Erzeugung von Merkmalskarten ergibt sich aus der Äquivarianz der Übertragung: Das neuronale Netzwerk geht davon aus, dass dasselbe Merkmal an einer beliebigen Stelle in der zweidimensionalen Ebene auftreten kann und dass es die vertikale Fläche in der oberen rechten oder unteren linken Ecke erkennen kann.

"Die Essenz äquivarianter NS besteht darin, diese offensichtlichen Symmetrien in die Netzwerkarchitektur zu integrieren, damit diese Eigenschaft wie kostenlos funktioniert", sagte Weiler.

Bis 2018 haben Weiler, Cohen und ihr Vorgesetzter, Max Welling, diese „freie Aktion“ um andere Arten der Äquivarianz erweitert. Ihre "gruppenäquivalenten SNAs" können gedrehte oder reflektierte Merkmale in flachen Bildern erkennen, ohne aus bestimmten Variationen dieser Merkmale lernen zu müssen. Sphärische SNAs können Feature-Maps basierend auf Daten erstellen, die sich auf der Oberfläche einer Kugel befinden, ohne sie zu verzerren, wenn sie in flache Projektionen umgewandelt werden.

Dieser Ansatz war immer noch nicht universell genug, um mit Daten über eine unregelmäßig geformte klumpige Struktur zu arbeiten - das heißt über fast jedes Objekt in der realen Welt, von Kartoffeln bis zu Proteinen, vom menschlichen Körper bis zur Krümmung der Raum-Zeit. Solche Mannigfaltigkeiten haben keine „globale“ Symmetrie, in Bezug auf die die Nationalversammlung äquivariante Annahmen treffen könnte: Jeder ihrer Abschnitte unterscheidet sich von allen anderen.


Falten auf gekrümmten Oberflächen, auf denen Standard-SNAs nicht funktionieren. Ein Filter mit Kantenerkennung, der je nach Pfad entlang einer solchen Oberfläche gleitet, kann unterschiedlich ausgerichtet sein und unterschiedliche Feature-Maps erzeugen.

Das Problem ist, dass das Verschieben eines flachen Filters über eine Oberfläche seine Ausrichtung abhängig vom jeweiligen Pfad ändern kann. Stellen Sie sich einen Filter vor, der so konfiguriert ist, dass er ein einfaches Muster erkennt: einen dunklen Fleck links und einen hellen Fleck rechts. Bewegen Sie es in alle vier Richtungen auf einer ebenen Fläche. Die Ausrichtung ist dabei immer gleich. Aber die Situation ändert sich auch auf der Oberfläche der Kugel. Wenn Sie den Filter um 180 Grad entlang des Äquators der Kugel halten, bleibt seine Ausrichtung erhalten - ein dunkler Fleck links und ein heller Fleck rechts. Wenn Sie es jedoch durch den Nordpol der Kugel an denselben Punkt ziehen, wird der Filter auf den Kopf gestellt. Er wird nicht das gleiche Muster in den Daten finden, wird nicht die gleiche Zeichentabelle erzeugen. Bewegen Sie den Filter über eine komplexere Sorte, und am Ende kann er in eine beliebige Richtung zeigen.

Laut Welling geht es darum, Änderungen in der Filterausrichtung nicht mehr nachzuverfolgen, wenn Sie sich auf verschiedenen Pfaden bewegen. Stattdessen können Sie nur eine Ausrichtung (oder Kalibrierung) des Filters auswählen und dann eine konsistente Methode festlegen, um eine andere Ausrichtung in diesen Filter umzuwandeln.

Das Problem ist, dass, obwohl jede Kalibrierung in der ursprünglichen Ausrichtung verwendet werden kann, die Konvertierung in andere Optionen das ursprüngliche Muster bewahren sollte - genau wie die Konvertierung der Lichtgeschwindigkeit von Metern pro Sekunde in Meilen pro Stunde die zugrunde liegende physikalische Größe bewahren sollte. Mit einem gauge-äquivarianten Ansatz, sagt Welling, "ändern sich die Zahlen selbst, aber sie ändern sich vollständig vorhersehbar."

Soen, Weiler und Welling codierten 2019 die Äquivarianz - das sehr „kostenlose Mittagessen“ - zu ihrer SNA. Zu diesem Zweck erließen sie mathematische Einschränkungen für das, was der NS bei der Verwendung der Faltung in den Daten „sehen“ kann. Es werden nur Gauge-Äquivariantenmuster durch die Netzwerkschichten geleitet. "Tatsächlich kann man ihm jede Oberfläche geben", von euklidischen Ebenen bis zu willkürlich gekrümmten Objekten, einschließlich exotischer Sorten wie einer Klein-Flasche oder vierdimensionaler Raumzeit, "und es wird mit dem GO auf dieser Oberfläche fertig", sagte Veling.

Arbeitstheorie


Die KESNS-Theorie ist so verallgemeinert, dass sie automatisch Annahmen aus früheren geometrischen Ansätzen für GO einschließt - zum Beispiel Rotationsäquivarianz oder das Bewegen von Filtern über Kugeln. Es passt sogar zu der früheren Methode von Michael Bronstein, die es der NS ermöglichte, eine dreidimensionale Figur zu erkennen, die auf unterschiedliche Weise gekrümmt war. „Die Gleichwertigkeit von Messgeräten ist eine sehr breite Plattform. Als Sonderfall beinhaltet es, was wir 2015 gemacht haben “, sagte Bronstein.

KESNS arbeitet theoretisch auf jeder gekrümmten Oberfläche in jeder Dimension, aber Cohen und seine Co-Autoren haben sie auf globale Klimadaten überprüft, deren Struktur sphärisch ist. Sie verwendeten ihre Plattform, um die SNA zu erstellen, die extreme Wettermuster wie tropische Wirbelstürme auf der Grundlage von Klimasimulationsdaten erkennt. Im Jahr 2017 verwendeten Regierung und Wissenschaftler den Standard-SNA, um das Vorhandensein von Zyklonen in diesen Daten mit einer Genauigkeit von 74% zu bestimmen. Im vergangenen Jahr erkannte KESNS Zyklone mit einer Genauigkeit von 97,9% (es übernahm auch einen weniger verallgemeinerten Ansatz für GO, der 2018 speziell für Kugeln entwickelt wurde - das Ergebnis für dieses System lag bei 94%).

Maiyur Mudigonda, ein Klimatologe am Lawrence Berkeley National Laboratory, der den Zivilschutz in seiner Arbeit einsetzt, sagte, er werde die Entwicklung des CESN weiterhin überwachen. "Dieser Aspekt der menschlichen Intelligenz, das korrekte Erkennen von Zeichen unabhängig von ihrer Ausrichtung im Raum, ist das, was wir an die Klimagemeinschaft weitergeben möchten", sagte er. Qualcomms Chiphersteller, der vor kurzem Cohen und Welling engagierte und das von ihnen gegründete Startup kaufte, plant, die KESNS-Theorie auf die Entwicklung verbesserter Computer-Vision-Algorithmen anzuwenden , zum Beispiel einer Drohne, die alle 360 ​​Grad auf einmal sehen kann (so ein fischartiges Weltbild) eye “wird natürlich wie globale Klimadaten auf den Anwendungsbereich abgebildet.

Währenddessen gewinnt KESNS unter Physikern an Beliebtheit - Kranmer plant beispielsweise, sie dazu zu bringen, mit Daten zu arbeiten, die die Wechselwirkung von subatomaren Partikeln simulieren. « , , , », — . , , « ».

, , , , , . « YouTube, , , , , , », — . , - , . « , — , — ».

, , , , . « , , », — . , , , - . «» . « », — , , .

, , . « , - , — . – , : , ».

Source: https://habr.com/ru/post/de485654/


All Articles