
Hallo an alle!
Als Fortsetzung des Studiums zum Thema
Deep Learning wollten wir einmal mit Ihnen darĂŒber sprechen,
warum Schafe in neuronalen Netzen ĂŒberall zu sein scheinen . Dieses Thema wird im 9. Kapitel des Buches von François Scholl behandelt.
So gingen wir zu den wunderbaren Studien ĂŒber positive Technologien,
die bei HabrĂ© vorgestellt wurden , sowie zu der hervorragenden Arbeit von zwei MIT-Mitarbeitern, die der Ansicht sind, dass âböswilliges maschinelles Lernenâ nicht nur ein Hindernis und ein Problem ist, sondern auch ein wunderbares Diagnosewerkzeug.
Weiter - unter dem Schnitt.
In den letzten Jahren haben FÀlle von böswilligen Eingriffen in der Deep-Learning-Community ernsthafte Aufmerksamkeit erregt. In diesem Artikel möchten wir dieses PhÀnomen allgemein skizzieren und diskutieren, wie es in den breiteren Kontext der ZuverlÀssigkeit des maschinellen Lernens passt.
Böswillige Interventionen: Ein faszinierendes PhĂ€nomenUm den Umfang unserer Diskussion zu skizzieren, geben wir einige Beispiele fĂŒr solche böswilligen Eingriffe. Wir glauben, dass die meisten Forscher in der Region Moskau auf Ă€hnliche Bilder gestoĂen sind:

Auf der linken Seite befindet sich ein Schweinchen, das vom modernen Faltungsnetzwerk korrekt als Ferkel klassifiziert wurde. Sobald wir minimale Ănderungen am Bild vornehmen (alle Pixel liegen im Bereich [0, 1] und jeder Ă€ndert sich um nicht mehr als 0,005) - und jetzt gibt das Netzwerk die Klasse âVerkehrsflugzeugâ mit hoher ZuverlĂ€ssigkeit zurĂŒck. Solche Angriffe auf trainierte Klassifikatoren sind seit mindestens 2004 bekannt (
Link ), und die ersten Arbeiten zu böswilligen Interferenzen mit Bildklassifikatoren stammen aus dem Jahr 2006 (
Link ). Dann erregte dieses PhĂ€nomen seit etwa 2013 deutlich mehr Aufmerksamkeit, als sich herausstellte, dass neuronale Netze fĂŒr Angriffe dieser Art anfĂ€llig sind (siehe
hier und
hier ). Seitdem haben viele Forscher Optionen fĂŒr die Konstruktion böswilliger Beispiele sowie Möglichkeiten vorgeschlagen, die Resistenz von Klassifikatoren gegen solche pathologischen Störungen zu erhöhen.
Es ist jedoch wichtig zu bedenken, dass es nicht notwendig ist, sich mit neuronalen Netzen zu befassen, um solche böswilligen Beispiele zu beobachten.
Wie robust sind Malware-Beispiele?Vielleicht ist die Situation, in der der Computer das Ferkel mit dem Verkehrsflugzeug verwechselt, zunÀchst alarmierend. Es ist jedoch zu beachten, dass der in diesem Fall verwendete Klassifikator (
Inception-v3-Netzwerk ) nicht so fragil ist, wie es auf den ersten Blick erscheinen mag. Obwohl sich das Netzwerk wahrscheinlich irrt, wenn versucht wird, ein verzerrtes Ferkel zu klassifizieren, geschieht dies nur bei speziell ausgewĂ€hlten VerstöĂen.
Das Netzwerk ist viel widerstandsfĂ€higer gegen zufĂ€llige Störungen vergleichbarer GröĂe. Die Hauptfrage ist daher, ob es böswillige Störungen sind, die die FragilitĂ€t von Netzwerken verursachen. Wenn die Bösartigkeit als solche entscheidend von der Kontrolle ĂŒber jedes Eingabepixel abhĂ€ngt, scheinen solche böswilligen Beispiele bei der Klassifizierung von Bildern unter realistischen Bedingungen kein ernstes Problem zu sein.
Neuere Studien weisen auf etwas anderes hin: Es ist möglich, die StabilitĂ€t von Störungen gegenĂŒber verschiedenen Kanaleffekten in bestimmten physikalischen Szenarien sicherzustellen. Beispielsweise können böswillige Muster auf einem normalen BĂŒrodrucker gedruckt werden, sodass Bilder, die mit der Kamera eines Smartphones aufgenommen wurden,
immer noch nicht korrekt klassifiziert sind . Sie können auch Aufkleber
erstellen , aufgrund derer neuronale Netze verschiedene reale Szenen falsch klassifizieren (siehe z. B.
Link1 ,
Link2 und
Link3 ). SchlieĂlich haben Forscher kĂŒrzlich eine 3D-Schildkröte auf einem 3D-Drucker gedruckt, den das Standard-Inception-Netzwerk fĂ€lschlicherweise
als Gewehr in nahezu jedem Betrachtungswinkel betrachtet.
Fehlerhafte Vorbereitung des KlassifizierungsangriffsWie kann man solche böswilligen Störungen verursachen? Es gibt viele AnsÀtze, aber die Optimierung ermöglicht es uns, all diese verschiedenen Methoden auf eine verallgemeinerte Darstellung zu reduzieren. Wie Sie wissen, wird das Klassifizierertraining hÀufig so formuliert, dass Modellparameter gefunden werden

Minimierung der empirischen Verlustfunktion fĂŒr einen gegebenen Satz von Beispielen

::

Daher, um eine fehlerhafte Klassifizierung fĂŒr ein festes Modell zu provozieren

und "harmlose" Eingabe

versuchen Sie natĂŒrlich, eine begrenzte Störung zu finden

so dass Verluste auf

stellte sich als maximal heraus:

Basierend auf dieser Formulierung können viele Methoden zum Erstellen böswilliger Eingaben als verschiedene Optimierungsalgorithmen (einzelne Gradientenschritte, projizierter Gradientenabstieg usw.) fĂŒr verschiedene SĂ€tze von EinschrĂ€nkungen (klein) betrachtet werden

-normale Störung, kleine PixelĂ€nderungen usw.). In den folgenden Artikeln werden einige Beispiele aufgefĂŒhrt:
Link1 ,
Link2 ,
Link3 ,
Link4 und
Link5 .
Wie oben erlĂ€utert, arbeiten viele erfolgreiche Methoden zum Generieren bösartiger Beispiele mit einem festen Zielklassifizierer. Die wichtige Frage ist daher: Beeinflussen diese Störungen nicht nur ein bestimmtes Zielmodell? Interessanterweise nein. Bei Verwendung vieler Störungsmethoden werden die resultierenden schĂ€dlichen Stichproben vom Klassifizierer an den Klassifizierer ĂŒbertragen, der mit einem anderen Satz von anfĂ€nglichen Zufallswerten oder unterschiedlichen Modellarchitekturen trainiert wurde. DarĂŒber hinaus können Sie böswillige Beispiele erstellen, die nur eingeschrĂ€nkten Zugriff auf das Zielmodell haben (in diesem Fall handelt es sich manchmal um âBlack-Box-Angriffeâ). Siehe zum Beispiel die folgenden fĂŒnf Artikel:
Link1 ,
Link2 ,
Link3 ,
Link4 und
Link5 .
Nicht nur BilderSchĂ€dliche Proben finden sich nicht nur in der Klassifizierung von Bildern. Ăhnliche PhĂ€nomene sind bei
der Spracherkennung , in
Frage-Antwort-Systemen , beim
verstĂ€rkten Lernen und bei der Lösung anderer Probleme bekannt. Wie Sie bereits wissen, wird die Untersuchung bösartiger Proben seit ĂŒber zehn Jahren durchgefĂŒhrt:

Chronologische Skala des böswilligen maschinellen Lernens (Anfang). Der vollstĂ€ndige MaĂstab ist in Abb. 1 dargestellt. 6 in
dieser Studie .
DarĂŒber hinaus sind sicherheitsrelevante Anwendungen ein natĂŒrliches Medium, um die böswilligen Aspekte des maschinellen Lernens zu untersuchen. Wenn ein Angreifer den Klassifikator austricksen und böswillige Eingaben (z. B. Spam oder Viren) als harmlos weitergeben kann, ist ein Spam-Detektor oder ein auf maschinellem Lernen basierender Antivirenscanner
unwirksam . Es sollte betont werden, dass diese Ăberlegungen nicht rein akademisch sind. Beispielsweise veröffentlichte das Google Safebrowsing-Team 2011 eine
mehrjĂ€hrige Studie darĂŒber, wie Angreifer versuchten, ihre Malware-Erkennungssysteme zu umgehen. Lesen Sie auch diesen
Artikel ĂŒber böswillige Beispiele im Zusammenhang mit der Spam-Filterung in GMail-E-Mails.
Nicht nur SicherheitDie neuesten Arbeiten zur Untersuchung bösartiger Proben sind im Hinblick auf die GewĂ€hrleistung der Sicherheit sehr eindeutig. Dies ist ein vernĂŒnftiger Standpunkt, aber wir glauben, dass solche Stichproben in einem breiteren Kontext betrachtet werden sollten.
ZuverlĂ€ssigkeitZuallererst werfen böswillige Beispiele die Frage nach der ZuverlĂ€ssigkeit des gesamten Systems auf. Bevor wir die Eigenschaften des Klassifikators unter Sicherheitsgesichtspunkten angemessen diskutieren können, mĂŒssen wir sicherstellen, dass der Mechanismus eine hohe Klassifizierungsgenauigkeit bietet. Wenn wir unsere trainierten Modelle in realen Szenarien einsetzen wollen, mĂŒssen sie letztendlich ein hohes MaĂ an ZuverlĂ€ssigkeit aufweisen, wenn Sie die Verteilung der Basisdaten Ă€ndern - unabhĂ€ngig davon, ob diese Ănderungen durch böswillige Interferenzen oder nur durch natĂŒrliche Schwankungen verursacht werden.
In diesem Zusammenhang sind Malware-Beispiele ein nĂŒtzliches Diagnosewerkzeug zur Bewertung der ZuverlĂ€ssigkeit maschineller Lernsysteme. Insbesondere können Sie mit dem Malware-sensitiven Ansatz ĂŒber das Standard-Evaluierungsprotokoll hinausgehen, bei dem der trainierte Klassifikator auf einem sorgfĂ€ltig ausgewĂ€hlten (und normalerweise statischen) Testsatz ausgefĂŒhrt wird.
So können Sie zu erstaunlichen Schlussfolgerungen kommen. Es stellt sich beispielsweise heraus, dass man leicht bösartige Beispiele erstellen kann, ohne auf ausgefeilte Optimierungsmethoden zurĂŒckgreifen zu mĂŒssen. In einem
kĂŒrzlich erschienenen Artikel zeigen wir, dass hochmoderne Bildklassifizierer ĂŒberraschend anfĂ€llig fĂŒr kleine pathologische ĂbergĂ€nge oder Windungen sind. (Weitere Arbeiten zu diesem Thema finden Sie
hier und
hier .)

Selbst wenn wir beispielsweise Störungen durch die dischargeâââ-Entladung keine Bedeutung beimessen, treten daher hĂ€ufig Probleme mit der ZuverlĂ€ssigkeit aufgrund von Rotationen und ĂbergĂ€ngen auf. Im weiteren Sinne ist es notwendig, die ZuverlĂ€ssigkeitsindikatoren unserer Klassifikatoren zu verstehen, bevor sie als wirklich zuverlĂ€ssige Komponenten in gröĂere Systeme integriert werden können.
Das Konzept der KlassifikatorenUm zu verstehen, wie ein ausgebildeter Klassifikator funktioniert, mĂŒssen Sie Beispiele fĂŒr seine eindeutig erfolgreichen oder erfolglosen Operationen finden. In diesem Fall zeigen böswillige Beispiele, dass trainierte neuronale Netze oft nicht unserem intuitiven VerstĂ€ndnis dessen entsprechen, was es bedeutet, ein bestimmtes Konzept zu âlernenâ. Dies ist besonders wichtig beim Deep Learning, wo hĂ€ufig biologisch plausible Algorithmen und Netzwerke beansprucht werden, deren Erfolg dem menschlichen Erfolg nicht unterlegen ist (siehe zum Beispiel
hier ,
hier oder
hier ). Bösartige Proben lassen dies in vielen ZusammenhÀngen deutlich bezweifeln:
- Wenn beim Klassifizieren von Bildern der Pixelsatz minimal geĂ€ndert oder das Bild leicht gedreht wird, wird dies kaum verhindern, dass eine Person es der richtigen Kategorie zuordnet. Trotzdem werden solche Ănderungen von den modernsten Klassifikatoren vollstĂ€ndig abgeschnitten. Wenn Sie Objekte an einem ungewöhnlichen Ort platzieren (z. B. Schafe auf einem Baum ), können Sie auch leicht sicherstellen, dass das neuronale Netzwerk die Szene ganz anders interpretiert als ein Mensch.
- Wenn Sie die erforderlichen Wörter in einer Textpassage ersetzen, können Sie das Frage-Antwort-System ernsthaft verwirren, obwohl sich aus Sicht einer Person die Bedeutung des Textes aufgrund solcher EinfĂŒgungen nicht Ă€ndert.
- In diesem Artikel zeigen sorgfÀltig ausgewÀhlte Textbeispiele die Grenzen von Google Translate.
In allen drei FÀllen helfen böswillige Beispiele dabei, unsere aktuellen Modelle auf StÀrke zu testen und hervorzuheben, in welchen Situationen sich diese Modelle völlig anders verhalten als eine Person.
SicherheitSchlieĂlich stellen böswillige Proben eine Gefahr in Bereichen dar, in denen maschinelles Lernen bereits eine gewisse Genauigkeit bei âharmlosemâ Material erreicht. Noch vor wenigen Jahren wurden Aufgaben wie die Bildklassifizierung noch sehr schlecht ausgefĂŒhrt, sodass das Sicherheitsproblem in diesem Fall zweitrangig schien. Am Ende wird der Sicherheitsgrad eines maschinellen Lernsystems erst dann signifikant, wenn dieses System beginnt, die âharmlosenâ Eingaben mit ausreichender QualitĂ€t zu verarbeiten. Ansonsten können wir ihren Prognosen immer noch nicht vertrauen.
In verschiedenen Themenbereichen hat sich die Genauigkeit solcher Klassifizierer erheblich verbessert, und ihr Einsatz in Situationen, in denen Sicherheitsaspekte kritisch sind, ist nur eine Frage der Zeit. Wenn wir dies verantwortungsbewusst angehen wollen, ist es wichtig, ihre Eigenschaften genau im Kontext der Sicherheit zu untersuchen. Das Thema Sicherheit erfordert jedoch einen ganzheitlichen Ansatz. Das Schmieden einiger Features (z. B. einer Reihe von Pixeln) ist viel einfacher als beispielsweise andere sensorische ModalitÀten, kategoriale Features oder Metadaten. Letztendlich ist es bei der GewÀhrleistung der Sicherheit am besten, sich auf genau die Zeichen zu verlassen, die sich nur schwer oder gar nicht Àndern lassen.
Ergebnisse (ist es zu frĂŒh, um zu scheitern?)Trotz der beeindruckenden Fortschritte beim maschinellen Lernen, die wir in den letzten Jahren gesehen haben, mĂŒssen die Grenzen der FĂ€higkeiten der Werkzeuge, die uns zur VerfĂŒgung stehen, berĂŒcksichtigt werden. Es gibt eine Vielzahl von Problemen (z. B. im Zusammenhang mit Ehrlichkeits-, Datenschutz- oder RĂŒckkopplungseffekten), und die ZuverlĂ€ssigkeit ist von gröĂter Bedeutung. Die Wahrnehmung und das Erkennen des Menschen sind gegen eine Vielzahl von Umweltstörungen im Hintergrund resistent. Böswillige Beispiele zeigen jedoch, dass neuronale Netze noch weit von einer vergleichbaren Ausfallsicherheit entfernt sind.
Wir sind uns also sicher, wie wichtig es ist, böswillige Beispiele zu untersuchen. Ihre Anwendbarkeit beim maschinellen Lernen ist keineswegs auf Sicherheitsprobleme beschrÀnkt, sondern kann als
Diagnosestandard fĂŒr die Bewertung trainierter Modelle dienen. Der Ansatz, bei dem böswillige Stichproben verwendet werden, ist im Vergleich zu Standardbewertungsverfahren und statischen Tests insofern gĂŒnstig, als er potenziell nicht offensichtliche Fehler identifiziert. Wenn wir die ZuverlĂ€ssigkeit des modernen maschinellen Lernens verstehen wollen, sind die neuesten Errungenschaften wichtig, um sie aus der Sicht eines Angreifers zu untersuchen (korrekte Auswahl bösartiger Beispiele).
Solange unsere Klassifikatoren auch bei minimalen Ănderungen zwischen Training und Testverteilung versagen, können wir keine zufriedenstellende garantierte ZuverlĂ€ssigkeit erreichen. Letztendlich bemĂŒhen wir uns, Modelle zu erstellen, die nicht nur zuverlĂ€ssig sind, sondern auch unseren intuitiven Vorstellungen darĂŒber entsprechen, was es bedeutet, ein Problem zu âuntersuchenâ. Dann sind sie sicher, zuverlĂ€ssig und einfach in einer Vielzahl von Umgebungen einzusetzen.