
In jüngster Zeit befassen sich Experten zunehmend mit dem Thema Sicherheit von Modellen des maschinellen Lernens und bieten verschiedene Schutzmethoden an. Es ist an der Zeit, potenzielle Schwachstellen und Abwehrmechanismen im Kontext gängiger traditioneller Modellierungssysteme wie Linear- und Baummodelle, die auf statischen Datensätzen trainiert wurden, im Detail zu untersuchen. Obwohl der Autor dieses Artikels kein Sicherheitsexperte ist, verfolgt er Themen wie Debugging, Erklärungen, Fairness, Interpretierbarkeit und Datenschutz beim maschinellen Lernen sorgfältig.
In diesem Artikel stellen wir einige wahrscheinliche Angriffsmethoden auf ein typisches maschinelles Lernsystem in einer typischen Organisation vor, bieten vorläufige Lösungen für den Schutz und betrachten einige häufig auftretende Probleme und die vielversprechendsten Praktiken.
1. Angriffe auf Datenkorruption
Datenverzerrung bedeutet, dass jemand Trainingsdaten systematisch ändert, um die Vorhersagen Ihres Modells zu manipulieren (solche Angriffe werden auch als „kausale“ Angriffe bezeichnet). Um Daten zu verzerren, muss ein Angreifer Zugriff auf einige oder alle Ihrer Trainingsdaten haben. Und wenn in vielen Unternehmen keine ordnungsgemäße Kontrolle vorhanden ist, können verschiedene Mitarbeiter, Berater und Auftragnehmer einen solchen Zugang haben. Ein unbefugter Zugriff auf einige oder alle Trainingsdaten kann auch von einem Angreifer außerhalb des Sicherheitsbereichs erhalten werden.
Ein direkter Angriff auf beschädigte Daten kann das Ändern von Dataset-Labels umfassen. Unabhängig von der kommerziellen Verwendung Ihres Modells kann ein Angreifer seine Prognosen verwalten, indem er beispielsweise die Bezeichnungen ändert, sodass Ihr Modell lernen kann, wie man große Kredite, große Rabatte gewährt oder kleine Versicherungsprämien für Angreifer festlegt. Das Erzwingen falscher Vorhersagen durch ein Modell im Interesse eines Angreifers wird manchmal als Verletzung der "Integrität" des Modells bezeichnet.
Ein Angreifer kann Datenkorruption auch verwenden, um Ihr Modell zu trainieren, um eine Gruppe von Personen absichtlich zu diskriminieren und ihnen einen großen Kredit, große Rabatte oder niedrige Versicherungsprämien zu entziehen, auf die sie Anspruch haben. Im Kern ähnelt dieser Angriff DDoS. Das Erzwingen falscher Vorhersagen durch ein Modell, um anderen Schaden zuzufügen, wird manchmal als Verstoß gegen die „Zugänglichkeit“ des Modells bezeichnet.
Obwohl es den Anschein hat, dass es einfacher ist, Daten zu verzerren, als Werte in vorhandenen Zeilen eines Datasets zu ändern, können Sie auch Verzerrungen einführen, indem Sie dem Dataset scheinbar harmlose oder zusätzliche Spalten hinzufügen. Geänderte Werte in diesen Spalten können dann dazu führen, dass sich Modellvorhersagen ändern.
Schauen wir uns nun einige mögliche Schutz- und Expertenlösungen (forensische Lösungen) für den Fall von Datenkorruption an:
- Differenzierte Wirkungsanalyse . Viele Banken führen bereits eine Analyse der unterschiedlichen Auswirkungen für eine faire Kreditvergabe durch, um festzustellen, ob ihr Modell von verschiedenen Personengruppen diskriminiert wird. Viele andere Organisationen sind jedoch noch nicht so weit gekommen. Es gibt mehrere hervorragende Open-Source-Tools zur Erkennung von Diskriminierung und zur Durchführung von Differential Impact Analysis. Zum Beispiel Aequitas, Themis und AIF360 .
- Faire oder private Models . Modelle wie das Lernen fairer Repräsentationen (LFR) und die private Aggregation von Lehrerensembles (PATE) berücksichtigen bei der Erstellung von Prognosen tendenziell weniger die einzelnen demografischen Eigenschaften. Außerdem sind diese Modelle möglicherweise weniger anfällig für diskriminierende Angriffe, um Daten zu verzerren.
- Ablehnung bei negativen Auswirkungen (RONI) . RONI ist eine Methode zum Entfernen von Datenzeilen aus einem Datensatz, die die Vorhersagegenauigkeit verringern. Weitere Informationen zu RONI finden Sie in Abschnitt 8, Sicherheit beim maschinellen Lernen .
- Restanalyse . Suchen Sie nach seltsamen, auffälligen Mustern in den Residuen Ihrer Modellprognosen, insbesondere in Bezug auf Mitarbeiter, Berater oder Auftragnehmer.
- Selbstreflexion . Bewerten Sie Modelle Ihrer Mitarbeiter, Berater und Auftragnehmer, um ungewöhnlich günstige Prognosen zu ermitteln.
Während des Trainings und im Rahmen der Echtzeitüberwachung von Modellen können differenzierte Wirkungsanalysen, Restanalysen und Selbstreflexionen durchgeführt werden.
2. Wasserzeichenangriffe
Ein Wasserzeichen ist ein Begriff aus der Literatur zur Sicherheit des tiefen Lernens, der sich häufig auf das Hinzufügen spezieller Pixel zum Bild bezieht, um das gewünschte Ergebnis aus Ihrem Modell zu erzielen. Dasselbe ist mit Kunden- oder Transaktionsdaten durchaus möglich.
Stellen Sie sich ein Szenario vor, in dem ein Mitarbeiter, Berater, Auftragnehmer oder Angreifer von außerhalb Zugriff auf den Code für die produktive Verwendung Ihres Modells hat, der Echtzeitprognosen erstellt. Eine solche Person kann den Code ändern, um eine seltsame oder unwahrscheinliche Kombination von Eingabevariablenwerten zu erkennen und das gewünschte Vorhersageergebnis zu erhalten. Wie bei der Beschädigung von Daten können Wasserzeichenangriffe verwendet werden, um die Integrität oder Zugänglichkeit Ihres Modells zu verletzen. Um beispielsweise die Integrität zu verletzen, kann ein Angreifer eine „Nutzlast“ in den Bewertungscode für die produktive Verwendung des Modells einfügen, wodurch eine Kombination von 0 Jahren an Adresse 99 erkannt wird, was zu einer positiven Prognose für den Angreifer führt. Um die Verfügbarkeit des Modells zu blockieren, kann er eine künstliche Diskriminierungsregel in den Bewertungscode einfügen, die es dem Modell nicht ermöglicht, für eine bestimmte Personengruppe positive Ergebnisse zu erzielen.
Schutz- und Expertenansätze für Angriffe mit Wasserzeichen können Folgendes umfassen:
- Anomalieerkennung . Autocoders ist ein Betrugserkennungsmodell , das Eingaben identifizieren kann, die komplex und seltsam sind oder anderen Daten nicht ähneln. Potenziell können Auto-Encoder alle Wasserzeichen erkennen, die zum Auslösen bösartiger Mechanismen verwendet werden.
- Einschränkungen der Datenintegrität . Viele Datenbanken erlauben keine seltsamen oder unrealistischen Kombinationen von Eingabevariablen, die möglicherweise Wasserzeichenangriffe verhindern könnten. Der gleiche Effekt kann für Integritätsbeschränkungen für Datenströme gelten, die in Echtzeit empfangen werden.
- Differenzierte Expositionsanalyse : siehe Abschnitt 1 .
- Versionskontrolle . Der Evaluierungscode für die Produktionsanwendung des Modells muss wie jedes andere kritische Softwareprodukt versioniert und gesteuert werden.
Die Erkennung von Anomalien, Einschränkungen der Datenintegrität und die Analyse der unterschiedlichen Auswirkungen können während des Trainings und als Teil der Echtzeitmodellüberwachung verwendet werden.
3. Inversion von Ersatzmodellen
Normalerweise wird „Inversion“ als Abrufen nicht autorisierter Informationen von einem Modell bezeichnet, anstatt Informationen darin zu platzieren. Die Inversion kann auch ein Beispiel für einen „Reverse Engineering-Angriff der Aufklärung“ sein. Wenn ein Angreifer in der Lage ist, viele Vorhersagen über die API Ihres Modells oder eines anderen Endpunkts (Website, Anwendung usw.) zu erhalten, kann er sein eigenes
Ersatzmodell trainieren. Einfach ausgedrückt ist dies eine Simulation Ihres Vorhersagemodells! Theoretisch kann ein Angreifer ein Ersatzmodell zwischen den Eingabedaten, die zum Generieren der empfangenen Prognosen verwendet werden, und den Prognosen selbst trainieren. Abhängig von der Anzahl der Vorhersagen, die empfangen werden können, kann das Ersatzmodell zu einer ziemlich genauen Simulation Ihres Modells werden. Nach dem Training des Ersatzmodells verfügt der Angreifer über eine „Sandbox“, aus der er eine Unpersönlichkeit (dh Nachahmung) oder einen Angriff mit einem Wettbewerbsbeispiel auf die Integrität Ihres Modells planen oder das Potenzial erhalten kann, einige Aspekte Ihrer vertraulichen Trainingsdaten wiederherzustellen. Ersatzmodelle können auch mit externen Datenquellen trainiert werden, die in gewisser Weise mit Ihren Vorhersagen übereinstimmen, wie dies beispielsweise
ProPublica mit dem Rückfallmodell des COMPAS-Autors getan hat.
Um Ihr Modell mithilfe eines Ersatzmodells vor Inversion zu schützen, können Sie sich auf folgende Ansätze verlassen:
- Autorisierter Zugriff . Fordern Sie eine zusätzliche Authentifizierung an (z. B. zwei Faktoren), um eine Prognose zu erhalten.
- Gasvorhersagen Begrenzen Sie eine große Anzahl schneller Prognosen einzelner Benutzer. Betrachten Sie die Möglichkeit, die Vorhersageverzögerungen künstlich zu erhöhen.
- Ersatzmodelle "Weiß" (weißer Hut) . Versuchen Sie als White-Hacker-Übung Folgendes: Trainieren Sie Ihre eigenen Ersatzmodelle zwischen Ihren Eingabe- und Modellvorhersagen für eine Produktionsanwendung und beachten Sie die folgenden Aspekte sorgfältig:
- Genauigkeitsgrenzen verschiedener Arten von "weißen" Ersatzmodellen; Versuchen Sie zu verstehen, inwieweit das Ersatzmodell tatsächlich verwendet werden kann, um unerwünschte Daten über Ihr Modell zu erhalten.
- Arten von Datentrends, die aus Ihrem „weißen“ Ersatzmodell gelernt werden können, z. B. lineare Trends, die durch lineare Modellkoeffizienten dargestellt werden.
- Arten von Segmenten oder demografischen Verteilungen, die untersucht werden können, indem die Anzahl der Personen analysiert wird, die bestimmten Knoten des „weißen“ Ersatzentscheidungsbaums zugeordnet sind.
- die Regeln, die aus dem „weißen“ Ersatzentscheidungsbaum gelernt werden können, zum Beispiel, wie eine Person, die eine positive Prognose erhält, genau dargestellt wird.
4. Rivalitätsangriffe
Theoretisch kann ein engagierter Hacker lernen - beispielsweise Versuch und Irrtum (dh „Intelligenz“ oder „Sensitivitätsanalyse“) - ein Ersatzmodell oder Social Engineering umkehren, wie Sie mit Ihrem Modell spielen, um das gewünschte Vorhersageergebnis zu erhalten, oder das Unerwünschte vermeiden Prognose. Der Versuch, solche Ziele mit einer speziell entwickelten Datenzeichenfolge zu erreichen, wird als gegnerischer Angriff bezeichnet. (manchmal ein Angriff, um die Integrität zu untersuchen). Ein Angreifer kann einen gegnerischen Angriff nutzen, um ein großes Darlehen oder eine niedrige Versicherungsprämie zu erhalten oder um die Verweigerung der Bewährung mit einer hohen Einschätzung des kriminellen Risikos zu vermeiden. Einige Leute nennen die Verwendung von Wettbewerbsbeispielen, um ein unerwünschtes Ergebnis von einer Prognose auszuschließen, „Ausweichen“.
Probieren Sie die unten beschriebenen Methoden aus, um einen Angriff anhand eines Wettbewerbsbeispiels zu verteidigen oder zu erkennen:
- Aktivierungsanalyse . Die Aktivierungsanalyse erfordert, dass Ihre Vorhersagemodelle über vergleichende interne Mechanismen verfügen, z. B. die durchschnittliche Aktivierung von Neuronen in Ihrem neuronalen Netzwerk oder den Anteil der Beobachtungen, die sich auf jeden Endknoten in Ihrem zufälligen Wald beziehen. Anschließend vergleichen Sie diese Informationen mit dem Verhalten des Modells mit realen eingehenden Datenströmen. Einer meiner Kollegen sagte: " Es ist dasselbe, als würde man einen Endknoten in einer zufälligen Gesamtstruktur sehen, der 0,1% der Trainingsdaten entspricht, aber für 75% der Bewertungslinien pro Stunde geeignet ist ."
- Anomalieerkennung . siehe Abschnitt 2 .
- Autorisierter Zugriff . siehe Abschnitt 3 .
- Vergleichsmodelle . Verwenden Sie bei der Auswertung neuer Daten zusätzlich zu einem komplexeren Modell ein Vergleichsmodell mit hoher Transparenz. Interpretierte Modelle sind schwerer zu knacken, weil ihre Mechanismen transparent sind. Vergleichen Sie bei der Auswertung neuer Daten das neue Modell mit einem zuverlässigen transparenten Modell oder einem Modell, das auf verifizierten Daten und einem vertrauenswürdigen Prozess trainiert wurde. Wenn der Unterschied zwischen dem komplexeren und undurchsichtigen Modell und dem interpretierten (oder verifizierten) Modell zu groß ist, kehren Sie zu den konservativen Modellvorhersagen zurück oder verarbeiten Sie die Datenzeile manuell. Nehmen Sie diesen Vorfall auf, es könnte sich um einen Angriff mit einem Wettbewerbsbeispiel handeln.
- Gasvorhersagen : siehe Abschnitt 3 .
- Sensitivitätsanalyse "Weiß" . Verwenden Sie die Sensitivitätsanalyse, um Ihre eigenen Forschungsangriffe durchzuführen und zu verstehen, welche variablen Werte (oder Kombinationen davon) große Schwankungen in den Prognosen verursachen können. Suchen Sie bei der Auswertung neuer Daten nach diesen Werten oder Wertekombinationen. Um eine „weiße“ Forschungsanalyse durchzuführen, können Sie das Open-Source-Paket cleverhans verwenden .
- Weiße Ersatzmodelle: siehe Abschnitt 3 .
Aktivierungsanalysen oder Vergleichsmodelle können während des Trainings und als Teil der Echtzeitüberwachung von Modellen verwendet werden.
5. Unpersönlichkeit
Ein zielgerichteter Hacker kann - wiederum durch Versuch und Irrtum, durch Inversion mit einem Ersatzmodell oder Social Engineering - herausfinden, welche Eingabedaten oder bestimmte Personen das gewünschte Vorhersageergebnis erhalten. Ein Angreifer kann sich dann als diese Person ausgeben, um von der Prognose zu profitieren. Unpersönlichkeitsangriffe werden manchmal als „simulierte“ Angriffe bezeichnet, und aus Sicht des Modells erinnert dies an Identitätsdiebstahl. Wie im Fall eines Beispielangriffs im Wettbewerb werden bei der Unpersönlichkeit die Eingabedaten gemäß Ihrem Modell künstlich geändert. Im Gegensatz zu demselben Angriff mit einem Wettbewerbsbeispiel, bei dem eine potenziell zufällige Kombination von Werten verwendet werden kann, um bei der Unpersönlichkeit die mit diesem Objekttyp verbundene Prognose zu täuschen, Informationen, die mit einem anderen modellierten Objekt (z. B. einem verurteilten Kunden) verknüpft sind , Mitarbeiter, Finanztransaktion, Patient, Produkt usw.). Angenommen, ein Angreifer kann herausfinden, von welchen Merkmalen Ihres Modells die Bereitstellung großer Rabatte oder Vorteile abhängt. Dann kann er die Informationen fälschen, die Sie verwenden, um einen solchen Rabatt zu erhalten. Ein Angreifer kann seine Strategie mit anderen teilen, was zu großen Verlusten für Ihr Unternehmen führen kann.
Wenn Sie ein zweistufiges Modell verwenden, achten Sie auf einen „allergischen“ Angriff: Ein Angreifer kann eine Reihe normaler Eingabedaten für die erste Stufe Ihres Modells simulieren, um die zweite Stufe anzugreifen.
Schutz- und Expertenansätze für Angriffe mit Unpersönlichkeit können Folgendes umfassen:
- Aktivierungsanalyse. siehe Abschnitt 4 .
- Autorisierter Zugriff. siehe Abschnitt 3 .
- Suchen Sie nach Duplikaten. Verfolgen Sie in der Bewertungsphase die Anzahl ähnlicher Datensätze, für die Ihr Modell verfügbar ist. Dies kann in einem reduzierten Dimensionsraum unter Verwendung von Autocodierern, mehrdimensionaler Skalierung (MDS) oder ähnlichen Dimensionsreduktionsmethoden erfolgen. Wenn in einem bestimmten Zeitraum zu viele ähnliche Zeilen vorhanden sind, ergreifen Sie Korrekturmaßnahmen.
- Funktionen zur Benachrichtigung über Bedrohungen. Speichern Sie die Funktion
num_similar_queries
in Ihrer Pipeline. num_similar_queries
Funktion kann unmittelbar nach dem Training oder der Implementierung Ihres Modells unbrauchbar sein, kann jedoch während der Evaluierung (oder während einer zukünftigen Umschulung) verwendet werden, um das Modell oder die Pipeline über Bedrohungen zu informieren. Wenn beispielsweise zum Zeitpunkt der Bewertung der Wert von num_similar_queries
größer als Null ist, kann die Anforderung zur Bewertung zur manuellen Analyse gesendet werden. Wenn Sie das Modell in Zukunft neu trainieren, können Sie ihm beibringen, negative Vorhersageergebnisse für Eingabezeilen mit hohen num_similar_queries
.
Aktivierungsanalyse, doppelte Überprüfung und Benachrichtigung über potenzielle Bedrohungen können während des Trainings und bei der Überwachung von Modellen in Echtzeit verwendet werden.
6. Häufige Probleme
Einige gängige Anwendungen für maschinelles Lernen werfen auch allgemeinere Sicherheitsprobleme auf.
Black Boxes und unnötige Komplexität . Obwohl die jüngsten Fortschritte bei interpretierten Modellen und Modellerklärungen die Verwendung genauer und transparenter nichtlinearer Klassifikatoren und Regressoren ermöglichen, konzentrieren sich viele maschinelle Lernprozesse weiterhin auf Black-Box-Modelle. Sie sind nur eine Art von oft unnötiger Komplexität im Standardworkflow des kommerziellen maschinellen Lernens. Andere Beispiele für potenziell schädliche Komplexität können übermäßig exotische Spezifikationen oder eine große Anzahl von Paketabhängigkeiten sein. Dies kann aus mindestens zwei Gründen ein Problem sein:
- Ein hartnäckiger und motivierter Hacker kann mehr über Ihr übermäßig komplexes Black-Box-Simulationssystem erfahren als Sie oder Ihr Team (insbesondere in dem modernen überhitzten und sich schnell ändernden Markt für die „Analyse“ von Daten). Zu diesem Zweck kann ein Angreifer neben vielen anderen gängigen Hacking-Tools viele neue modellunabhängige Erklärungsmethoden und eine klassische Sensitivitätsanalyse verwenden. Dieses Ungleichgewicht des Wissens kann möglicherweise verwendet werden, um die in den Abschnitten 1 bis 5 beschriebenen Angriffe auszuführen, oder für andere Arten von Angriffen, die noch unbekannt sind.
- Maschinelles Lernen in Forschungs- und Entwicklungsumgebungen hängt stark von einem vielfältigen Ökosystem von Open Source-Softwarepaketen ab. Einige dieser Pakete haben viele Teilnehmer und Benutzer, andere sind hochspezialisiert und werden von einem kleinen Kreis von Forschern und Praktikern benötigt. Es ist bekannt, dass viele Pakete von brillanten Statistikern und Forschern des maschinellen Lernens unterstützt werden, die sich eher auf Mathematik oder Algorithmen als auf Softwareentwicklung und sicherlich nicht auf Sicherheit konzentrieren. Es gibt häufige Fälle, in denen die Pipeline für maschinelles Lernen von Dutzenden oder sogar Hunderten externer Pakete abhängt, von denen jedes gehackt werden kann, um eine böswillige „Nutzlast“ zu verbergen.
Verteilte Systeme und Modelle . Glücklicherweise oder unglücklicherweise leben wir in einem Zeitalter von Big Data. Viele Unternehmen verwenden heute verteilte Datenverarbeitungs- und maschinelle Lernsysteme. Distributed Computing kann ein großes Ziel für Angriffe von innen oder außen sein. Daten können nur auf einem oder mehreren Arbeitsknoten eines großen verteilten Datenspeicher- oder -verarbeitungssystems verzerrt werden. Die Hintertür für Wasserzeichen kann in ein Modell eines großen Ensembles codiert werden. Anstatt ein einfaches Dataset oder Modell zu debuggen, sollten Praktiker jetzt Daten oder Modelle untersuchen, die über große Computercluster verteilt sind.
DDoS-Angriffe (Distributed Denial of Service) . Wenn ein Vorhersagemodellierungsdienst eine Schlüsselrolle bei den Aktivitäten Ihres Unternehmens spielt, stellen Sie sicher, dass Sie mindestens die beliebtesten verteilten DDoS-Angriffe berücksichtigen, wenn Angreifer einen Vorhersagedienst mit einer unglaublich großen Anzahl von Anforderungen angreifen, um Prognosen für legitime Benutzer zu verzögern oder zu beenden.
7. Allgemeine Entscheidungen
Sie können verschiedene gängige, alte und neue, effektivste Methoden verwenden, um Sicherheitslücken in Sicherheitssystemen zu verringern und Fairness, Kontrollierbarkeit, Transparenz und Vertrauen in maschinelle Lernsysteme zu erhöhen.
Prognose für autorisierten Zugang und Frequenzregelung (Drosselung) . Standard-Sicherheitsfunktionen wie zusätzliche Authentifizierung und Anpassung der Vorhersagefrequenz können beim Blockieren einer Reihe von Angriffsvektoren, die in den Abschnitten 1 bis 5 beschrieben sind, sehr effektiv sein.
Vergleichsmodelle . Als Vergleichsmodell zur Bestimmung, ob mit der Prognose Manipulationen vorgenommen wurden, können Sie die alte und bewährte Modellierungspipeline oder ein anderes interpretiertes Prognosewerkzeug mit hoher Transparenz verwenden. Die Manipulation umfasst Datenkorruption, Wasserzeichenangriffe oder Wettbewerbsbeispiele. Wenn der Unterschied zwischen der Prognose Ihres getesteten Modells und der Prognose eines komplexeren und undurchsichtigen Modells zu groß ist, schreiben Sie solche Fälle auf. Senden Sie sie an Analysten oder ergreifen Sie andere Maßnahmen, um die Situation zu analysieren oder zu korrigieren. Es müssen ernsthafte Vorkehrungen getroffen werden, um sicherzustellen, dass Ihr Benchmark und Ihr Förderband sicher und unverändert von ihrem ursprünglichen, zuverlässigen Zustand bleiben.
Interpretierte, faire oder private Modelle . Derzeit gibt es Verfahren (z. B.
monotones GBM (M-GBM), skalierbare Bayes'sche Regellisten (SBRLs) ,
Erklärungen für neuronale Netze (XNNs) ), die sowohl Genauigkeit als auch Interpretierbarkeit bieten. Diese genauen und interpretierbaren Modelle sind einfacher zu dokumentieren und zu debuggen als klassische Black Boxes des maschinellen Lernens. Neuere Arten von fairen und privaten Modellen (z. B. LFR, PATE) können auch darin geschult werden, extern sichtbaren demografischen Merkmalen, die zur Beobachtung zur Verfügung stehen, weniger Aufmerksamkeit zu schenken, indem Social Engineering während eines Angriffs mit einem Wettbewerbsbeispiel verwendet wird, oder Unpersönlichkeit. Denken Sie darüber nach, in Zukunft einen neuen maschinellen Lernprozess zu schaffen? Erwägen Sie, es auf der Grundlage weniger riskant interpretierter privater oder fairer Modelle aufzubauen. Sie sind einfacher zu debuggen und möglicherweise resistent gegen Änderungen der Eigenschaften einzelner Objekte.
Debuggen eines Sicherheitsmodells . Ein neuer Bereich für das
Debuggen von Modellen ist der Erkennung und Korrektur von Fehlern in Mechanismen und Vorhersagen von Modellen für maschinelles Lernen gewidmet. Debugging-Tools wie Ersatzmodelle, Residuenanalyse und Sensitivitätsanalyse können in weißen Studien verwendet werden, um Ihre Schwachstellen zu identifizieren, oder in Analyseübungen, um mögliche Angriffe zu identifizieren, die auftreten können oder können.
Modelldokumentation und Erklärungsmethoden . Die Modelldokumentation ist eine Strategie zur Risikominderung, die seit Jahrzehnten im Bankwesen eingesetzt wird. Sie können Wissen über komplexe Modellierungssysteme speichern und übertragen, wenn sich die Zusammensetzung der Modellbesitzer ändert. Die Dokumentation wurde traditionell für lineare Modelle mit hoher Transparenz verwendet. Mit dem Aufkommen leistungsfähiger, genauer Erklärungswerkzeuge (wie dem
SHAP-Baum und
abgeleiteten Attributen lokaler Funktionen für neuronale Netze) können bereits vorhandene Black-Box-Modell-Workflows zumindest ein wenig erklärt, debuggt und dokumentiert werden. Offensichtlich sollte die Dokumentation jetzt alle Sicherheitsziele enthalten, einschließlich bekannter, behobener oder erwarteter Sicherheitslücken.
Überwachen und verwalten Sie Modelle aus Sicherheitsgründen direkt . Seriöse Praktiker verstehen, dass die meisten Modelle auf statischen "Schnappschüssen" der Realität in Form von Datensätzen trainiert werden und dass die Genauigkeit von Prognosen in Echtzeit abnimmt, da sich der aktuelle Stand der Dinge von den zuvor gesammelten Informationen entfernt. Heutzutage zielt die Überwachung der meisten Modelle darauf ab, eine solche Verzerrung bei der Verteilung der Eingabevariablen zu identifizieren, die letztendlich zu einer Verringerung der Genauigkeit führen wird. Die Modellüberwachung sollte so konzipiert sein, dass die in den Abschnitten 1 bis 5 beschriebenen Angriffe und alle anderen potenziellen Bedrohungen, die beim Debuggen Ihres Modells auftreten, verfolgt werden. Obwohl dies nicht immer direkt mit der Sicherheit zusammenhängt, sollten Modelle auch in Echtzeit auf differenzierte Effekte hin bewertet werden. Zusammen mit der Modelldokumentation müssen alle Modellierungsartefakte, der Quellcode und die zugehörigen Metadaten verwaltet, versioniert und auf Sicherheit sowie die wertvollen kommerziellen Ressourcen überprüft werden, die sie sind.
Funktionen zur Benachrichtigung über Bedrohungen . Funktionen, Regeln und Phasen der vorläufigen oder nachfolgenden Verarbeitung können in Ihren Modellen oder Prozessen enthalten sein, die mit Mitteln zur Benachrichtigung über mögliche Bedrohungen ausgestattet sind: z. B. die Anzahl ähnlicher Zeilen im Modell; ob die aktuelle Zeile einen Mitarbeiter, Auftragnehmer oder Berater darstellt; Entsprechen die Werte in der aktuellen Zeile denen, die mit weißen Angriffen mit einem Wettbewerbsbeispiel erzielt wurden? Diese Funktionen können während des ersten Trainings des Modells benötigt werden oder nicht. Das Einsparen von Platz für sie kann jedoch eines Tages sehr nützlich sein, um neue Daten auszuwerten oder das Modell anschließend neu zu trainieren.
Erkennung von Systemanomalien . Trainieren Sie den Metamode zum Erkennen von Anomalien basierend auf einem Autocoder anhand der Betriebsstatistik Ihres gesamten Vorhersagemodellierungssystems (Anzahl der Prognosen für einen bestimmten Zeitraum, Verzögerungen, CPU-, Speicher- und Festplattenladen, Anzahl der gleichzeitigen Benutzer usw.) und überwachen Sie dieses Metamodell sorgfältig auf Anomalien. Eine Anomalie kann erkennen, ob etwas schief geht. Nachuntersuchungen oder spezielle Mechanismen sind erforderlich, um die Ursache des Problems genau zu verfolgen.
8. Referenzen und Informationen zur weiteren Lektüre
Ein großer Teil der modernen akademischen Literatur zur Sicherheit des maschinellen Lernens konzentriert sich auf adaptives Lernen, tiefes Lernen und Verschlüsselung. Bisher kennt der Autor jedoch nicht die Praktizierenden, die dies alles tatsächlich tun würden. Daher präsentieren wir neben kürzlich veröffentlichten Artikeln und Beiträgen Artikel der 1990er und frühen 2000er Jahre zu Netzwerkverletzungen, Virenerkennung, Spamfilterung und verwandten Themen, die ebenfalls nützliche Quellen waren. Wenn Sie mehr über das faszinierende Thema des Schutzes von Modellen für maschinelles Lernen erfahren möchten, finden Sie hier die wichtigsten Links - aus der Vergangenheit und der Gegenwart -, die zum Schreiben des Beitrags verwendet wurden.
Fazit
Diejenigen, die sich für die Wissenschaft und Praxis des maschinellen Lernens interessieren, sind besorgt darüber, dass die Gefahr des Hackens mit maschinellem Lernen in Verbindung mit der wachsenden Gefahr von Verstößen gegen die Vertraulichkeit und algorithmischer Diskriminierung die wachsende öffentliche und politische Skepsis gegenüber maschinellem Lernen und künstlicher Intelligenz erhöhen kann. Wir alle müssen uns an die schwierigen Zeiten für KI in der jüngeren Vergangenheit erinnern. Sicherheitslücken, Datenschutzverletzungen und algorithmische Diskriminierung könnten möglicherweise kombiniert werden, was zu einer Reduzierung der Mittel für Forschung auf dem Gebiet der Computerschulung oder zu drakonischen Maßnahmen zur Regulierung dieses Bereichs führen könnte. Lassen Sie uns die Diskussion und Lösung dieser wichtigen Fragen fortsetzen, um eine Krise zu verhindern und ihre Folgen nicht zu stören.