🌂 🔣 🤸 Wie kann man die Berechnung eines neuronalen Netzes mit direkter Ausbreitung vereinfachen und beschleunigen? 🍟 👸🏻 🧑🏿‍🤝‍🧑🏻

Hallo liebe Leser. Es wurde viel über neuronale Netze geschrieben und gesagt, hauptsächlich darüber, wie und warum sie angewendet werden können. Darüber hinaus wird zwei wichtigen Fragen nicht viel Aufmerksamkeit geschenkt: a) wie man ein neuronales Netzwerk vereinfacht und schnell berechnet (eine Berechnung des Exponenten wird durch Bibliotheksfunktionen von Programmiersprachen realisiert, normalerweise nicht weniger als 15-20 Prozessoranweisungen), b) was, Zumindest teilweise hilft die Logik des aufgebauten Netzwerks - tatsächlich helfen die riesigen Matrizen der Werte von Gewichten und Verschiebungen, die nach dem Training des Netzwerks erhalten wurden, nicht wirklich, die Muster zu verstehen, die dieses Netzwerk gefunden hat (sie bleiben verborgen und die Aufgabe, sie zu bestimmen, ist die Aufgabe der Weiden tion von - manchmal sehr wichtig). Ich werde über einen meiner Ansätze zur Lösung dieser Probleme für gewöhnliche neuronale Netze mit direkter Verteilung sprechen, während ich versuche, mit einem Minimum an Mathematik auszukommen.

Ein bisschen Theorie

Das direkte Verteilungsnetz ist aus mathematischer Sicht eine sehr große Funktion, die die Werte der Netzwerkeingaben, Gewichtskoeffizienten und Neuronenverschiebungen enthält. In jedem Neuron der Schicht werden die Werte der Eingaben der Schicht (Vektor X) mit dem Gewicht des Neurons (Vektor) multipliziert

W_{i}

$W_i$ ) mit einem Offset addieren

B_{i}

$B_i$

s_{i} = W_{i} X + B_{i}

$s_i = W_iX + B_i$

und Aktivierungsfunktionen eingeben

A (s_{i})

$A (s_i)$ Bilden der Ausgänge von Schichtneuronen.

Aktivierungsfunktionen sind möglicherweise nicht sehr einfach zu berechnen, beispielsweise enthalten sie häufig Exponentiale (exponentielles Sigmoid, hyperbolische Tangente). Wenn Sie sich den Assembler-Code ansehen, der Exponenten implementiert, finden Sie zum einen viele verschiedene Überprüfungen, die nicht immer erforderlich sind, und zum anderen erfolgt die Berechnung des Exponenten selbst normalerweise in mindestens zwei Operationen:

e x p (v) = 2^{v * l o g_{2} (e)}

$exp (v) = 2 ^ {v * log_2 (e)}$

Wenn wir daher die Berechnung des Netzwerks beschleunigen möchten, besteht die erste Aufgabe darin, die Berechnung der Aktivierungsfunktion zu vereinfachen. Sie können versuchen, aufgrund eines Geschwindigkeitsgewinns ein wenig Qualität zu opfern, indem Sie die Berechnung der klassischen Aktivierungsfunktion ungefähr durch die Berechnung einer einfacheren Funktion ersetzen, die (anhand der verfügbaren Eingabedaten) ungefähr die gleichen Ergebnisse liefert. Im Allgemeinen ist dies ein klassisches Interpolationsproblem: Wir haben eine Reihe von Werten, die mit der ursprünglichen Funktion A (s) berechnet wurden, und wir wählen eine einfachere Funktion aus, die sehr ähnliche Werte ergibt. Solch eine einfache Funktion a (s) kann ein gewöhnliches Polynom oder ein Polynom mit negativen Potenzen oder so etwas sein. Ich habe vier Arten solcher Funktionen verwendet:

a (s) = b_{0} + b_{1} * s + b_{2} * s^{2} + . . . + b_{n} * s^{n}

$a (s) = b_0 + b_1 * s + b_2 * s ^ 2 + ... + b_n * s ^ n$ ;;

a (s) = b_{0} + b_{1} / s + b_{2} / s^{2} + . . . + b_{n} / s^{n}

$a (s) = b_0 + b_1 / s + b_2 / s ^ 2 + ... + b_n / s ^ n$ ;;

a (s) = b_{0} + b_{1} * s^{0, 5} + b_{2} * s^{1} + b_{3} * s^{1, 5} + . . . + b_{n} * s^{0, 5 n}

$a (s) = b_0 + b_1 * s ^ {0,5} + b_2 * s ^ 1 + b_3 * s ^ {1,5} + ... + b_n * s ^ {0,5n}$ ;;

a (s) = b_{0} + b_{1} / s^{0, 5} + b_{2} / s^{1} + b_{3} / s^{1, 5} + . . . + b_{n} / s^{0, 5 n}

$a (s) = b_0 + b_1 / s ^ {0,5} + b_2 / s ^ 1 + b_3 / s ^ {1,5} + ... + b_n / s ^ {0,5n}$ ;;

Angenommen, wir haben es für jedes Neuron geschafft, die Aktivierungsfunktion durch eine etwas einfachere zu ersetzen - dies kann beispielsweise durch Anwendung der Methode der kleinsten Quadrate erfolgen. Eine solche Substitution an sich wird wahrscheinlich keinen großen Gewinn bringen. Aber hier können Sie einen anderen Trick ausprobieren:

Schreiben Sie eine analytisch große Funktion NET (X), die vom gesamten Netzwerk berechnet wird.
Ersetzen Sie die ursprünglichen Funktionen A (s) in NET (X) durch die für sie erhaltenen Ersetzungsfunktionen a (s).
Vereinfachen Sie das algebraisch erhaltene NET (X) (oder verwenden Sie einen vorgefertigten Code zur symbolischen Vereinfachung von Ausdrücken). Dies ist bereits möglich (zumindest viel einfacher, als wir versuchen würden, das Netzwerk mit den ursprünglichen Funktionen zu vereinfachen, beispielsweise mit Exponenten).

Als Ergebnis erhalten wir etwas Einfacheres und vielleicht etwas mathematisch offensichtlicheres - hier können Sie bereits versuchen zu verstehen, welche Art von Funktion das Netzwerk implementiert.

Dies ist die Möglichkeit, die Logik des aufgebauten Netzwerks zu erläutern.

Die beschriebene Aufgabe sieht natürlich nur in Worten einfach aus. Für die Verwendung in meinen Programmen musste ich meinen eigenen Code zur symbolischen Vereinfachung von Ausdrücken schreiben. Außerdem habe ich ein komplexeres Problem gelöst, wobei angenommen wurde, dass jedes Neuron mit Funktion A (s) mehrere Optionen für eine alternative Aktivierungsfunktion haben kann

a_{k} (s)

$a_k (s)$ Daher bestand die allgemeine Aufgabe auch darin, Optionen für solche Funktionen aufzuzählen und das Netzwerk für jede dieser Optionen symbolisch zu vereinfachen. Hier half nur die Parallelisierung von Berechnungen.

Ergebnis

Das Ergebnis hat mir gefallen. Ich habe ein dreischichtiges Netzwerk (mit drei Eingängen) von acht Neuronen (mit Eingangsgewichten und -verschiebungen) mit den Aktivierungsfunktionen „Exponential Sigmoid“ beschleunigt. Wie Zeitmessungen zeigten, war es möglich, einen Zeitgewinn von etwa 40% ohne signifikanten Qualitätsverlust zu erzielen.

Ich illustriere. Hier sind die Quellnetzwerkdaten:

Und in der dritten Ausgabeebene:

Wenn die Eingänge als a, b und c bezeichnet sind, wird nach dem Ersetzen und Vereinfachen die Netzwerkfunktion NET wie folgt betrachtet:

double a2 = a*a; double b2 = b*b; double c2 = c*c; double a3 = a2*a; double b3 = b2*b; double c3 = c2*c; double z01 = sqrt(-1.6302e-02+7.9324e-01*a+9.65149e-01*b+5.64151e-01*c); double z06 = sqrt(1.583708e+00-8.907654e-01*a-2.844379e-01*a2+1.050942e+00*a3+1.178096e+01*b-1.865618e+00*b*a-3.145465e+00*b*a2-5.777153e+00*b2+3.138123e+00*b2*a-1.043599e+00*b3+1.32778e+00*c+5.849582e-01*c*a-3.440382e+00*c*a2+1.838371e+00*c*b+6.864703e+00*c*b*a-3.42434e+00*c*b2-3.013361e-01*c2+3.754167e+00*c2*a-3.745404e+00*c2*b-1.365524e+00*c3+1.014237e-01*z01); double NET = (-1.477593e+00)/(z06)+1.370237e+00-6.303167e-02*a-1.495051e-03*a2+2.33748e-02*a3+5.558024e-02*b+1.178189e-02*b*a-6.996071e-02*b*a2+1.837937e-02*b2+6.97974e-02*b2*a-2.321149e-02*b3+7.924241e-02*c+3.392287e-03*c*a-7.652018e-02*c*a2-1.214263e-02*c*b+1.526831e-01*c*b*a-7.616337e-02*c*b2-1.915279e-03*c2+8.349931e-02*c2*a-8.33044e-02*c2*b-3.037166e-02*c3+1.949161e-02*z01;

Gewinnen - Ich wiederhole 40% der Zeit, ohne die Qualität zu beeinträchtigen. Ich denke, dieser Ansatz kann in Fällen angewendet werden, in denen die Geschwindigkeit der Berechnung eines neuronalen Netzwerks kritisch ist - zum Beispiel, wenn es wiederholt berechnet wird, in einem Doppel- oder Dreifachzyklus. Ein Beispiel für ein solches Problem : eine numerische Lösung des Aerodynamikproblems in einem Gitter, und in jedem seiner Knoten berechnet das neuronale Netzwerk eine nützliche Vorhersage, beispielsweise für eine genauere Berechnung der turbulenten Viskosität. Dann haben wir einen externen Zyklus in der Zeit, ein doppelter oder dreifacher Koordinatenzyklus ist darin eingebettet und bereits dort, im Inneren, gibt es eine Berechnung eines neuronalen Netzwerks. In diesem Fall ist eine Vereinfachung mehr als angemessen und nützlich.

Wie kann man die Berechnung eines neuronalen Netzes mit direkter Ausbreitung vereinfachen und beschleunigen?

Ein bisschen Theorie

Ergebnis

More articles: