
In den letzten Jahren hat das Interesse an Modellen für maschinelles Lernen zugenommen, auch für die Erkennung visueller Bilder und Gesichter. Obwohl die Technologie alles andere als perfekt ist, können Sie bereits Kriminelle berechnen, Profile in sozialen Netzwerken finden, Änderungen verfolgen und vieles mehr. Simen Thys und Wiebe Van Ranst haben bewiesen, dass durch nur geringfügige Änderungen an den Eingabeinformationen des Faltungsnetzwerks das Endergebnis ersetzt werden kann. In diesem Artikel werden visuelle Patches für die Durchführung von Erkennungsangriffen beschrieben.
Die ersten Angriffe auf Erkennungssysteme waren kleine Änderungen in den Pixeln des Eingabebildes, um den Klassifikator zu täuschen und die falsche Klasse abzuleiten.
Ziel war es, einen Patch zu erstellen, mit dem eine Person erfolgreich vor dem Detektor versteckt werden kann. Das Ergebnis war ein Angriffsschema, mit dem beispielsweise Überwachungssysteme umgangen werden konnten. Angreifer können sich unmerklich schleichen und ein kleines Papptablett mit einem „Patch“ vor sich halten, das auf die Überwachungskamera gerichtet ist.

Die Entwicklung von
Faltungs-Neuronalen Netzen (SNA) hat zu enormen Erfolgen auf dem Gebiet der Bildverarbeitung geführt. Ein datengesteuertes End-to-End-Förderband, in dem SNAs auf Bildern trainiert werden, hat die besten Ergebnisse bei einer Vielzahl von Computer-Vision-Aufgaben gezeigt. Aufgrund der Tiefe dieser Architekturen können neuronale Netze die grundlegendsten Filter am unteren Rand des Netzwerks (wo die Daten eingehen) untersuchen, um am oberen Rand abstrakte Funktionen auf hoher Ebene zu erzielen. Zu diesem Zweck enthält eine typische SNA Millionen von untersuchten Parametern. Obwohl dieser Ansatz zu sehr genauen Modellen führt, wird die Interpretierbarkeit drastisch reduziert.
In der Forschung wurden verschiedene Bilder verwendet, um Überwachungssysteme auszutricksen, darunter abstraktes „Rauschen“ und Unschärfe.

Um einen Patch zu erstellen, wurde das Originalbild verwendet, das die folgenden Transformationen durchlief:
- Drehung um 20 Grad;
- Rauschüberlagerung;
- Unschärfe
- Helligkeitsänderung;
- Kontrastmodifikation.
Forscher haben viele
Inria-Tests durchgeführt , um die beste „Verschleierung“ einer Person festzustellen.

Um den gewünschten Effekt zu erzielen, sollte sich ein Bild von 40 x 40 Zentimetern (das im Expertenbericht durch das Wort "Patch" gekennzeichnet ist) in der Mitte der Erkennungsbox der Kamera befinden und sich ständig in ihrem Sichtfeld befinden. Natürlich hilft diese Methode einer Person nicht, ihr Gesicht zu verbergen. Der Algorithmus zum Erkennen von Personen kann jedoch im Prinzip keine Person im Rahmen erkennen, was bedeutet, dass die spätere Erkennung von Gesichtsmerkmalen ebenfalls nicht gestartet wird.
Als Demonstration veröffentlichten die Forscher eine Videodemonstration der Funktionen visueller Patches:
GitHub- Projektcode.
Forschung .