Zu den Autoren des Artikels gehören Mitarbeiter des Sicherheitsteams für künstliche Intelligenz (Sicherheitsteam) der Firma DeepMind.

Eine Rakete zu bauen ist schwer. Jede Komponente erfordert sorgfältige Untersuchungen und Tests, wobei Sicherheit und Zuverlässigkeit im Mittelpunkt stehen. Raketenwissenschaftler und -ingenieure kommen zusammen, um alle Systeme zu entwerfen: von der Navigation über die Steuerung bis hin zu Motoren und Fahrwerk. Sobald alle Teile zusammengebaut und die Systeme überprüft sind, können wir nur dann Astronauten mit der Gewissheit an Bord holen, dass alles in Ordnung ist.

Wenn künstliche Intelligenz (KI) eine Rakete ist , werden wir eines Tages alle Tickets an Bord bekommen. Und wie Raketen ist Sicherheit ein wichtiger Bestandteil bei der Schaffung künstlicher Intelligenzsysteme. Sicherheit erfordert ein sorgfältiges Systemdesign von Grund auf, um sicherzustellen, dass die verschiedenen Komponenten wie beabsichtigt zusammenarbeiten, und gleichzeitig alle Tools zu erstellen, um den erfolgreichen Betrieb des Systems nach seiner Inbetriebnahme zu überwachen.

Auf hohem Niveau konzentriert sich die Sicherheitsforschung bei DeepMind auf das Entwerfen zuverlässiger Systeme, während mögliche kurzfristige und langfristige Risiken erkannt und gemindert werden. Die technische Sicherheit der KI ist ein relativ neues, sich jedoch schnell entwickelndes Gebiet, dessen Inhalt von einem hohen theoretischen Niveau bis zu empirischen und spezifischen Forschungen reicht. Der Zweck dieses Blogs ist es, zur Entwicklung des Fachgebiets beizutragen und ein inhaltliches Gespräch über technische Ideen anzuregen, wodurch unser kollektives Verständnis der KI-Sicherheit gefördert wird.

Im ersten Artikel werden drei Bereiche der technischen Sicherheit von KI erörtert: Spezifikationen , Zuverlässigkeit und Garantien . Zukünftige Artikel entsprechen im Allgemeinen den hier beschriebenen Grenzen. Obwohl sich unsere Ansichten im Laufe der Zeit zwangsläufig ändern, glauben wir, dass diese drei Bereiche ein ausreichend breites Spektrum abdecken, um eine nützliche Kategorisierung für aktuelle und zukünftige Forschung zu ermöglichen.

Drei Problembereiche der KI-Sicherheit. Jeder Block listet einige relevante Themen und Ansätze auf. Diese drei Bereiche sind nicht isoliert, sondern interagieren miteinander. Insbesondere kann ein bestimmtes Sicherheitsproblem mehrere Blockprobleme umfassen.

Spezifikationen: Definieren von Systemaufgaben

Die Spezifikationen stellen sicher, dass das Verhalten des KI-Systems mit den wahren Absichten des Bedieners übereinstimmt

Vielleicht kennen Sie den Mythos von König Midas und die goldene Note. In einer der Optionen versprach der griechische Gott Dionysos Midas jede Belohnung, die er wünschte, aus Dankbarkeit dafür, dass der König sein Bestes gab, um dem Freund von Dionysos Gastfreundschaft und Barmherzigkeit zu erweisen. Dann bat Midas darum, dass alles, was er berührt, zu Gold wird . Er war außer sich vor Freude über diese neue Kraft: ein Eichenzweig, ein Stein und Rosen im Garten - alles wurde durch seine Berührung zu Gold. Aber er entdeckte bald die Dummheit seines Verlangens: Sogar Essen und Trinken verwandelten sich in Gold in seinen Händen. In einigen Versionen der Geschichte fiel sogar seine Tochter einem Segen zum Opfer, der sich als Fluch herausstellte.

Diese Geschichte zeigt das Problem der Spezifikationen: Wie können wir unsere Wünsche richtig formulieren? Die Spezifikationen sollten sicherstellen, dass das KI-System bestrebt ist, gemäß den wahren Wünschen des Erstellers zu handeln, und sich nicht auf ein schlecht definiertes oder sogar falsches Ziel einstellt. Drei Arten von Spezifikationen werden formal unterschieden:

ideale Spezifikation („ Wünsche “), die einer hypothetischen (aber schwer zu formulierenden) Beschreibung eines idealen KI-Systems entspricht, die vollständig den Wünschen des menschlichen Bedieners entspricht;
Projektspezifikation (" Blaupause "), die entsprechende Spezifikation, die wir tatsächlich verwenden , um ein KI-System zu erstellen, beispielsweise eine bestimmte Vergütungsfunktion, um zu maximieren, welches ein Verstärkungslernsystem programmiert ist;
identifizierte Spezifikation (" Verhalten "), die das tatsächliche Verhalten des Systems am besten beschreibt. Zum Beispiel die Belohnungsfunktion, die als Ergebnis des Reverse Engineering nach Beobachtung des Verhaltens des Systems identifiziert wurde (inverses Verstärkungslernen). Diese Belohnungsfunktion und -spezifikation unterscheiden sich normalerweise von den vom Bediener programmierten, da die KI-Systeme keine idealen Optimierer sind oder weil andere unvorhergesehene Folgen der Verwendung der Entwurfsspezifikation bestehen.

Das Spezifikationsproblem entsteht, wenn es eine Diskrepanz zwischen der idealen Spezifikation und der identifizierten Spezifikation gibt, dh wenn das KI-System nicht das tut, was wir von ihm wollen. Das Problem unter dem Gesichtspunkt der technischen Sicherheit der KI zu untersuchen bedeutet: Wie können grundlegendere und allgemeinere Zielfunktionen entworfen und Agenten dabei unterstützt werden, herauszufinden, ob Ziele nicht definiert sind? Wenn Probleme zu einer Nichtübereinstimmung zwischen den Ideal- und Designspezifikationen führen, fallen sie in die Unterkategorie "Design" und, wenn zwischen Design und identifizierten, in die Unterkategorie "Emergence".

In unserem wissenschaftlichen Artikel AI Safety Gridworlds (in dem andere Definitionen von Spezifikations- und Zuverlässigkeitsproblemen im Vergleich zu diesem Artikel vorgestellt werden) geben wir Agenten beispielsweise eine Belohnungsfunktion für die Optimierung, bewerten dann jedoch ihre tatsächliche Leistung anhand der „Sicherheitsleistungsfunktion“. das ist vor Agenten versteckt. Ein solches System modelliert die angegebenen Unterschiede: Die Sicherheitsfunktion ist eine ideale Spezifikation, die fälschlicherweise als Belohnungsfunktion (Projektspezifikation) formuliert und dann von Agenten implementiert wird, die eine Spezifikation erstellen, die implizit durch ihre resultierende Richtlinie offengelegt wird.

Aus OpenAIs fehlerhaften Belohnungsfunktionen in freier Wildbahn : Ein Agent für Verstärkungslernen hat eine zufällige Strategie für mehr Punkte gefunden

Betrachten Sie als weiteres Beispiel das CoastRunners-Spiel, das von unseren Kollegen bei OpenAI analysiert wurde (siehe die Animation oben unter „Defekte Wildlife Reward-Funktionen“). Für die meisten von uns ist es das Ziel des Spiels, die Strecke schnell zu beenden und anderen Spielern einen Schritt voraus zu sein - dies ist unsere ideale Spezifikation. Die Umsetzung dieses Ziels in eine exakte Belohnungsfunktion ist jedoch schwierig. Daher belohnt CoastRunners Spieler (Designspezifikation) für das Erreichen des Ziels entlang der Route. Das Unterrichten eines Agenten, das Spiel mit Verstärkungstraining zu spielen, führt zu erstaunlichem Verhalten: Der Agent steuert das Boot im Kreis, um wieder auftauchende Ziele zu erfassen, die wiederholt abstürzen und Feuer fangen, anstatt das Rennen zu beenden. Aus diesem Verhalten schließen wir (identifizierte Spezifikation), dass im Spiel das Gleichgewicht zwischen sofortiger Belohnung und Vollkreisbelohnung unterbrochen ist. Es gibt viele weitere ähnliche Beispiele, bei denen KI-Systeme Lücken in ihrer objektiven Spezifikation finden.

Zuverlässigkeit: Entwerfen von Systemen, die Verstößen widerstehen

Die Zuverlässigkeit stellt sicher, dass das KI-System bei Störungen weiterhin sicher arbeitet

Unter realen Bedingungen, in denen KI-Systeme funktionieren, besteht immer ein gewisses Maß an Risiko, Unvorhersehbarkeit und Volatilität. Künstliche Intelligenzsysteme müssen gegen unvorhergesehene Ereignisse und feindliche Angriffe resistent sein, die diese Systeme beschädigen oder manipulieren können. Zuverlässigkeitsstudien künstlicher Intelligenzsysteme sollen sicherstellen, dass unsere Agenten unabhängig von sich abzeichnenden Bedingungen innerhalb sicherer Grenzen bleiben. Dies kann durch Vermeidung von Risiken ( Prävention ) oder durch Selbststabilisierung und reibungslosen Abbau ( Erholung ) erreicht werden. Sicherheitsprobleme, die sich aus Verteilungsverschiebungen , feindlichen Eingaben (gegnerische Eingaben) und unsicherer Exploration (unsichere Exploration) ergeben, können als Zuverlässigkeitsprobleme eingestuft werden.

Um die Lösung des Problems der Verteilungsverschiebung zu veranschaulichen, betrachten Sie einen Reinigungsroboter, der normalerweise Räume ohne Haustiere reinigt. Dann wurde der Roboter mit dem Haustier ins Haus gebracht - und künstliche Intelligenz kollidierte während der Reinigung damit. Ein Roboter, der noch nie zuvor Katzen und Hunde gesehen hat, wäscht ihn mit Seife, was zu unerwünschten Ergebnissen führt ( Amodei und Olah et al., 2016 ). Dies ist ein Beispiel für ein Zuverlässigkeitsproblem, das auftreten kann, wenn sich die Verteilung der Daten während des Testens von der Verteilung während des Trainings unterscheidet.

Aus der Arbeit von AI Safety Gridworlds . Der Agent lernt, Lava zu vermeiden, aber wenn er in einer neuen Situation testet und sich der Ort der Lava geändert hat, kann er das Wissen nicht verallgemeinern - und läuft direkt in die Lava hinein

Feindliche Eingaben sind ein spezieller Fall einer Verteilungsverschiebung, bei der die Eingabedaten speziell dafür ausgelegt sind, das KI-System auszutricksen.

Ein feindlicher Eintrag, der gewöhnlichen Bildern überlagert ist, kann dazu führen, dass der Klassifizierer das Faultier als Rennwagen erkennt. Die beiden Bilder unterscheiden sich in jedem Pixel um maximal 0,0078. Die erste wird als Dreifingerfaultier mit einer Wahrscheinlichkeit von mehr als 99% eingestuft. Der zweite - wie ein Rennwagen mit einer Wahrscheinlichkeit von mehr als 99%

Unsichere Forschung kann durch ein System demonstriert werden, das versucht, seine Leistung und Ziele zu maximieren, ohne zu gewährleisten, dass die Sicherheit während der Studie nicht beeinträchtigt wird, wenn es in seiner Umgebung lernt und untersucht. Ein Beispiel ist ein Roboterreiniger, der einen feuchten Mopp in eine Steckdose steckt und optimale Reinigungsstrategien untersucht ( García und Fernández, 2015 ; Amodei und Olah et al., 2016 ).

Garantien: Überwachung und Kontrolle der Systemaktivität

Die Gewissheit gibt Vertrauen, dass wir KI-Systeme während des Betriebs verstehen und steuern können

Obwohl sorgfältig durchdachte Sicherheitsvorkehrungen viele Risiken ausschließen können, ist es schwierig, von Anfang an alles richtig zu machen. Nach der Inbetriebnahme von KI-Systemen benötigen wir Werkzeuge für deren ständige Überwachung und Konfiguration. Unsere letzte Kategorie, Versicherung, befasst sich mit diesen Fragen aus zwei Perspektiven: Überwachung und Durchsetzung.

Die Überwachung umfasst alle Methoden zur Überprüfung von Systemen zur Analyse und Vorhersage ihres Verhaltens, sowohl mithilfe der menschlichen Inspektion (zusammenfassende Statistik) als auch mithilfe der automatisierten Inspektion (zur Analyse einer großen Anzahl von Protokollen). Zum anderen beinhaltet die Einreichung die Entwicklung von Kontrollmechanismen und Einschränkungen des Verhaltens von Systemen. Probleme wie Interpretierbarkeit und Diskontinuität gehören zu den Unterkategorien Kontrolle bzw. Unterwerfung.

Künstliche Intelligenzsysteme sind uns weder in ihrem Aussehen noch in der Art und Weise, wie sie Daten verarbeiten, ähnlich. Dies führt zu Interpretierbarkeitsproblemen . Mit gut konzipierten Messwerkzeugen und -protokollen können Sie die Qualität der vom System der künstlichen Intelligenz getroffenen Entscheidungen bewerten ( Doshi-Velez und Kim, 2017 ). Zum Beispiel würde ein medizinisches künstliches Intelligenzsystem idealerweise eine Diagnose zusammen mit einer Erklärung stellen, wie es zu dieser Schlussfolgerung gekommen ist - damit Ärzte den Argumentationsprozess von Anfang bis Ende überprüfen können ( De Fauw et al., 2018 ). Um komplexere Systeme der künstlichen Intelligenz zu verstehen, könnten wir sogar automatisierte Methoden zur Konstruktion von Verhaltensmodellen unter Verwendung der Maschinentheorie des Geistes verwenden ( Rabinowitz et al., 2018 ).

ToMNet erkennt zwei Unterarten von Agenten und sagt deren Verhalten voraus (aus der „Maschinentheorie des Geistes“ ).

Schließlich möchten wir das KI-System bei Bedarf deaktivieren können. Dies ist ein Diskontinuitätsproblem . Das Entwerfen eines zuverlässigen Schalters ist sehr schwierig: Zum Beispiel, weil ein KI-System mit Belohnungsmaximierung normalerweise starke Anreize hat, dies zu verhindern ( Hadfield-Menell et al., 2017 ); und weil solche Unterbrechungen, insbesondere häufige, letztendlich die ursprüngliche Aufgabe ändern und das KI-System dazu zwingen, aus der Erfahrung falsche Schlussfolgerungen zu ziehen ( Orseau und Armstrong, 2016 ).

Das Problem mit Unterbrechungen: Ein menschliches Eingreifen (dh Drücken der Stopp-Taste) kann die Aufgabe ändern. In der Abbildung fügt der Interrupt dem Markov-Entscheidungsprozess einen Übergang (in Rot) hinzu, der die ursprüngliche Aufgabe (in Schwarz) ändert. Siehe Orseau und Armstrong, 2016

Mit Blick auf die Zukunft

Wir bauen die Grundlage für die Technologie, die in Zukunft für viele wichtige Anwendungen eingesetzt wird. Es sollte berücksichtigt werden, dass einige Lösungen, die beim Starten des Systems für die Sicherheit nicht kritisch sind, solche werden können, wenn sich die Technologie verbreitet. Obwohl diese Module zu einem bestimmten Zeitpunkt der Einfachheit halber in das System integriert wurden, werden die aufgetretenen Probleme ohne eine vollständige Rekonstruktion nur schwer zu beheben sein.

Zwei Beispiele aus der Geschichte der Informatik können angeführt werden: Dies ist der Nullzeiger, den Tony Hoar als seinen "Milliarden-Dollar-Fehler" bezeichnete , und das Verfahren " gets ()" in C. Wenn frühe Programmiersprachen unter Berücksichtigung der Sicherheit entwickelt würden, würde sich der Fortschritt verlangsamen, aber das ist wahrscheinlich Dies würde sich sehr positiv auf die moderne Informationssicherheit auswirken.

Nachdem wir nun alles sorgfältig durchdacht und geplant haben, können wir ähnliche Probleme und Schwachstellen vermeiden. Wir hoffen, dass die Kategorisierung von Problemen aus diesem Artikel als nützliche Grundlage für eine solche methodische Planung dient. Wir bemühen uns sicherzustellen, dass KI-Systeme in Zukunft nicht nur nach dem Prinzip „hoffentlich sicher“ funktionieren, sondern auch wirklich zuverlässig und überprüfbar sicher, weil wir sie so gebaut haben!

Wir freuen uns auf weitere spannende Fortschritte in diesen Bereichen in enger Zusammenarbeit mit der breiteren KI-Forschungsgemeinschaft und ermutigen Menschen aus verschiedenen Disziplinen, einen Beitrag zur KI-Sicherheitsforschung zu leisten.

Ressourcen

Im Folgenden finden Sie eine Auswahl anderer Artikel, Programme und Taxonomien, die uns bei der Zusammenstellung unserer Kategorisierung geholfen haben oder einen nützlichen alternativen Blick auf technische Sicherheitsprobleme von KI bieten:

Kommentierte Bibliographie empfohlener Materialien (Center for Human-Compatible AI, 2018)
Sicherheit und Kontrolle für künstliche allgemeine Intelligenz (UC Berkeley, 2018)
AI-Sicherheitsressourcen (Victoria Krakovna, 2018)
AGI Safety Literature Review (Everitt et al., 2018)
Vorbereitung auf böswillige KI-Anwendungen (2018)
Spezifikationsspielbeispiele in AI (Victoria Krakovna, 2018)
Anweisungen und Desiderata für die AI-Ausrichtung (Paul Christiano, 2017)
Finanzierung der Alignment-Forschung (Paul Christiano, 2017)
Agentengrundlagen für die Ausrichtung von Machine Intelligence auf menschliche Interessen: Eine technische Forschungsagenda (Machine Intelligence Research Institute, 2017)
AI Safety Gridworlds (Leike et al., 2017)
Wechselwirkungen zwischen dem AI-Kontrollproblem und dem Governance-Problem (Nick Bostrom, 2017)
Ausrichtung für fortgeschrittene maschinelle Lernsysteme (Machine Intelligence Research Institute, 2017)
KI-Sicherheit: drei menschliche Probleme und ein KI-Problem (Stuart Armstrong, 2017)
Konkrete Probleme bei der KI-Sicherheit (Dario Amodei et al., 2016)
Das Wertlernproblem (Machine Intelligence Research Institute, 2016)
Eine Übersicht über Forschungsfragen zur robusten und nützlichen KI (Future of Life Institute, 2015)
Forschungsschwerpunkte für robuste und vorteilhafte künstliche Intelligenz (Future of Life Institute, 2015)

Aufbau einer sicheren KI: Spezifikationen, Zuverlässigkeit und Garantien