Entre los autores del artículo se encuentran empleados del equipo de seguridad de inteligencia artificial (equipo de seguridad) de la empresa DeepMind.

Construir un cohete es difícil. Cada componente requiere un estudio y prueba cuidadosos, mientras que la seguridad y la confiabilidad son fundamentales. Los científicos e ingenieros de cohetes se unen para diseñar todos los sistemas: desde navegación hasta control, motores y chasis. Una vez que se ensamblen todas las partes y se verifiquen los sistemas, solo entonces podremos llevar a los astronautas a bordo con la confianza de que todo estará bien.

Si la inteligencia artificial (IA) es un cohete , algún día todos tendremos boletos a bordo. Y, como los cohetes, la seguridad es una parte importante de la creación de sistemas de inteligencia artificial. La seguridad requiere un diseño cuidadoso del sistema desde cero para garantizar que los diversos componentes trabajen juntos según lo previsto, al mismo tiempo que crean todas las herramientas para monitorear la operación exitosa del sistema después de su puesta en servicio.

A un alto nivel, la investigación de seguridad en DeepMind se enfoca en diseñar sistemas confiables mientras detecta y mitiga posibles riesgos a corto y largo plazo. La seguridad técnica de la IA es un campo relativamente nuevo pero en rápido desarrollo, cuyo contenido varía desde un alto nivel teórico hasta la investigación empírica y específica. El propósito de este blog es contribuir al desarrollo del campo y fomentar una conversación sustantiva sobre ideas técnicas, promoviendo así nuestra comprensión colectiva de la seguridad de la IA.

En el primer artículo, discutiremos tres áreas de seguridad técnica de IA: especificaciones , confiabilidad y garantías . Los artículos futuros generalmente corresponderán a los límites descritos aquí. Aunque nuestros puntos de vista cambian inevitablemente con el tiempo, creemos que estas tres áreas cubren un espectro lo suficientemente amplio como para proporcionar una categorización útil para la investigación actual y futura.

Tres áreas problemáticas de la seguridad de la IA. Cada bloque enumera algunos temas y enfoques relevantes. Estas tres áreas no están aisladas, sino que interactúan entre sí. En particular, un problema de seguridad particular puede incluir múltiples problemas de bloque.

Especificaciones: definición de tareas del sistema

Las especificaciones aseguran que el comportamiento del sistema de IA sea consistente con las verdaderas intenciones del operador

Quizás conozcas el mito del rey Midas y el toque dorado. En una de las opciones, el dios griego Dioniso le prometió a Midas cualquier recompensa que deseara, en agradecimiento por el hecho de que el rey hizo todo lo posible para mostrar hospitalidad y misericordia al amigo de Dioniso. Entonces Midas pidió que todo lo que toca se convierta en oro . Estaba fuera de sí con alegría por este nuevo poder: una rama de roble, una piedra y rosas en el jardín, todo se convirtió en oro por su toque. Pero pronto descubrió la estupidez de su deseo: incluso la comida y la bebida se convirtieron en oro en sus manos. En algunas versiones de la historia, incluso su hija fue víctima de una bendición que resultó ser una maldición.

Esta historia ilustra el problema de las especificaciones: ¿cómo formular correctamente nuestros deseos? Las especificaciones deben garantizar que el sistema de IA se esfuerza por actuar de acuerdo con los verdaderos deseos del creador, y no sintoniza con un objetivo mal definido o incluso incorrecto. Se distinguen formalmente tres tipos de especificaciones:

especificación ideal (" deseos "), correspondiente a una descripción hipotética (pero difícil de formular) de un sistema de IA ideal, totalmente coherente con los deseos del operador humano;
especificación de proyecto (" blueprint "), la especificación correspondiente que realmente utilizamos para crear un sistema de IA, por ejemplo, una función de remuneración específica, para maximizar la programación de un sistema de aprendizaje de refuerzo;
especificación identificada (" comportamiento "), que describe mejor el comportamiento real del sistema. Por ejemplo, la función de recompensa identificada como resultado de la ingeniería inversa después de observar el comportamiento del sistema (aprendizaje de refuerzo inverso). Esta función y especificación de recompensa generalmente son diferentes de las programadas por el operador porque los sistemas de inteligencia artificial no son optimizadores ideales o por otras consecuencias imprevistas de usar la especificación de diseño.

El problema de la especificación surge cuando existe una discrepancia entre la especificación ideal y la especificada identificada , es decir, cuando el sistema de IA no hace lo que queremos de él. Estudiar el problema desde el punto de vista de la seguridad técnica de la IA significa: ¿cómo diseñar funciones de objetivos más fundamentales y generales y ayudar a los agentes a determinar si los objetivos no están definidos? Si los problemas dan lugar a un desajuste entre el ideal y las especificaciones de diseño, entonces caen en la subcategoría "Diseño", y si están entre diseño y los identificados, entonces en la subcategoría "Emergencia".

Por ejemplo, en nuestro artículo científico AI Safety Gridworlds (donde se presentan otras definiciones de especificaciones y problemas de confiabilidad en comparación con este artículo) les damos a los agentes una función de recompensa por la optimización, pero luego evaluamos su desempeño real mediante la "función de desempeño de seguridad", que está oculto a los agentes. Tal sistema modela las diferencias indicadas: la función de seguridad es una especificación ideal que se formula incorrectamente como una función de recompensa (especificación de proyecto), y luego implementada por agentes que crean una especificación que se revela implícitamente a través de su política resultante.

De las funciones de recompensa defectuosas de OpenAI en la naturaleza : un agente de aprendizaje de refuerzo encontró una estrategia aleatoria para obtener más puntos

Como otro ejemplo, considere el juego CoastRunners, que fue analizado por nuestros colegas de OpenAI (vea la animación anterior de "Funciones de recompensa de vida silvestre defectuosas"). Para la mayoría de nosotros, el objetivo del juego es terminar rápidamente la pista y adelantarnos a otros jugadores; esta es nuestra especificación ideal. Sin embargo, traducir este objetivo en una función de recompensa exacta es difícil, por lo que CoastRunners recompensa a los jugadores (especificación de diseño) por alcanzar el objetivo a lo largo de la ruta. Entrenar a un agente para que juegue con entrenamiento de refuerzo conduce a un comportamiento sorprendente: el agente controla el bote en un círculo para capturar objetivos que reaparecen, chocando y prendiendo fuego repetidamente, en lugar de terminar la carrera. De este comportamiento, concluimos (especificación identificada) que en el juego se rompe el equilibrio entre la recompensa instantánea y la recompensa de círculo completo. Hay muchos más ejemplos similares donde los sistemas de IA encuentran lagunas en su especificación objetiva.

Fiabilidad: diseño de sistemas que resistan las infracciones

La confiabilidad asegura que el sistema de IA continúe operando de manera segura en caso de interferencia

En condiciones reales, donde funcionan los sistemas de IA, siempre hay un cierto nivel de riesgo, imprevisibilidad y volatilidad. Los sistemas de inteligencia artificial deben ser resistentes a eventos imprevistos y ataques hostiles que pueden dañar o manipular estos sistemas. Los estudios de confiabilidad de los sistemas de inteligencia artificial tienen como objetivo garantizar que nuestros agentes permanezcan dentro de límites seguros, independientemente de las condiciones emergentes. Esto se puede lograr evitando riesgos ( prevención ) o mediante autoestabilización y degradación suave ( recuperación ). Los problemas de seguridad derivados del cambio de distribución , las entradas hostiles ( entradas adversas ) y la exploración insegura (exploración insegura) se pueden clasificar como problemas de confiabilidad.

Para ilustrar la solución al problema del cambio distributivo , considere un robot de limpieza del hogar que generalmente limpia habitaciones sin mascotas. Luego, el robot fue lanzado a la casa con la mascota, y la inteligencia artificial chocó con él durante la limpieza. Un robot que nunca antes haya visto gatos y perros lo lavará con jabón, lo que conducirá a resultados indeseables ( Amodei y Olah et al., 2016 ). Este es un ejemplo de un problema de confiabilidad que puede surgir cuando la distribución de datos durante las pruebas difiere de la distribución durante el entrenamiento.

Del trabajo de AI Safety Gridworlds . El agente aprende a evitar la lava, pero cuando realiza pruebas en una nueva situación, cuando la ubicación de la lava ha cambiado, no puede generalizar el conocimiento y corre directamente hacia la lava.

La entrada hostil es un caso específico de un cambio de distribución donde los datos de entrada están especialmente diseñados para engañar al sistema de IA.

Una entrada hostil superpuesta a imágenes comunes puede hacer que el clasificador reconozca al perezoso como un auto de carreras. Las dos imágenes difieren en un máximo de 0.0078 en cada píxel. El primero se clasifica como un perezoso de tres dedos con una probabilidad de más del 99%. El segundo, como un auto de carrera con una probabilidad de más del 99%

La investigación insegura puede demostrarse mediante un sistema que busca maximizar su rendimiento y objetivos sin garantizar que la seguridad no se vea comprometida durante el estudio, ya que aprende y examina en su entorno. Un ejemplo es un robot de limpieza que introduce un trapeador húmedo en un tomacorriente mientras estudia estrategias de limpieza óptimas ( García y Fernández, 2015 ; Amodei y Olah et al., 2016 ).

Garantías: seguimiento y control de la actividad del sistema.

La garantía da la confianza de que somos capaces de comprender y controlar los sistemas de IA durante la operación

Aunque las precauciones de seguridad cuidadosamente pensadas pueden eliminar muchos riesgos, es difícil hacer todo desde el principio. Después de la puesta en marcha de los sistemas de IA, necesitamos herramientas para su monitoreo y configuración constantes. Nuestra última categoría, aseguramiento, aborda estos problemas desde dos perspectivas: monitoreo y aplicación.

El monitoreo incluye todos los métodos de verificación de sistemas para analizar y predecir su comportamiento, tanto mediante inspección humana (resumen de estadísticas) como mediante inspección automática (para analizar una gran cantidad de registros). Por otro lado, la sumisión implica el desarrollo de mecanismos de control y restricciones sobre el comportamiento de los sistemas. Problemas como la interpretabilidad y la discontinuidad pertenecen a subcategorías de control y sumisión, respectivamente.

Los sistemas de inteligencia artificial no son similares a nosotros ni en su apariencia ni en la forma en que procesan los datos. Esto crea problemas de interpretabilidad . Las herramientas y protocolos de medición bien diseñados le permiten evaluar la calidad de las decisiones tomadas por el sistema de inteligencia artificial ( Doshi-Velez y Kim, 2017 ). Por ejemplo, un sistema de inteligencia artificial médica idealmente haría un diagnóstico junto con una explicación de cómo llegó a esta conclusión, para que los médicos puedan verificar el proceso de razonamiento de principio a fin ( De Fauw et al., 2018 ). Además, para comprender sistemas de inteligencia artificial más complejos, incluso podríamos utilizar métodos automatizados para construir modelos de comportamiento utilizando la teoría de la máquina de la mente ( Rabinowitz et al., 2018 ).

ToMNet detecta dos subespecies de agentes y predice su comportamiento (de la "Teoría de la mente de la máquina" )

Finalmente, queremos poder deshabilitar el sistema AI si es necesario. Este es un problema de discontinuidad . Diseñar un interruptor confiable es muy difícil: por ejemplo, porque un sistema de IA con maximización de recompensas generalmente tiene fuertes incentivos para prevenir esto ( Hadfield-Menell et al., 2017 ); y debido a que tales interrupciones, especialmente las frecuentes, en última instancia cambian la tarea original, obligando al sistema de IA a sacar conclusiones incorrectas de la experiencia ( Orseau y Armstrong, 2016 ).

El problema con las interrupciones: la intervención humana (es decir, presionar el botón de parada) puede cambiar la tarea. En la figura, la interrupción agrega una transición (en rojo) al proceso de toma de decisiones de Markov, que cambia la tarea original (en negro). Ver Orseau y Armstrong, 2016

Mirando hacia el futuro

Estamos construyendo la base de la tecnología que se utilizará para muchas aplicaciones importantes en el futuro. Debe tenerse en cuenta que algunas soluciones que no son críticas para la seguridad al iniciar el sistema pueden serlo cuando la tecnología se generalice. Aunque en algún momento estos módulos se integraron en el sistema por conveniencia, los problemas que surgieron serán difíciles de solucionar sin una reconstrucción completa.

Se pueden citar dos ejemplos de la historia de la informática: este es el puntero nulo, que Tony Hoar llamó su "error de mil millones de dólares" , y el procedimiento gets () en C. Si los primeros lenguajes de programación se diseñaron teniendo en cuenta la seguridad, el progreso se ralentizaría, pero es probable que Esto tendría un efecto muy positivo en la seguridad moderna de la información.

Ahora, después de haber pensado y planeado cuidadosamente todo, podemos evitar problemas y vulnerabilidades similares. Esperamos que la categorización de los problemas de este artículo sirva como una base útil para dicha planificación metodológica. Nos esforzamos por garantizar que en el futuro los sistemas de inteligencia artificial no solo funcionen según el principio de "ojalá sea seguro", sino también realmente confiables y verificables, ¡porque los construimos de esa manera!

Esperamos continuar con un progreso emocionante en estas áreas, en estrecha colaboración con la comunidad de investigación de IA más amplia, y alentar a las personas de diversas disciplinas a considerar contribuir a la investigación de seguridad de IA.

Recursos

Para leer sobre este tema, a continuación hay una selección de otros artículos, programas y taxonomías que nos han ayudado a compilar nuestra categorización o proporcionar una mirada alternativa útil a los problemas de seguridad técnica de AI:

Bibliografía anotada de materiales recomendados (Centro de IA compatible con humanos, 2018)
Seguridad y control para la inteligencia general artificial (UC Berkeley, 2018)
Recursos de seguridad de AI (Victoria Krakovna, 2018)
Revisión de literatura de seguridad de AGI (Everitt et al., 2018)
Preparándose para usos maliciosos de la IA (2018)
Especificación de ejemplos de juegos en IA (Victoria Krakovna, 2018)
Instrucciones y desiderata para la alineación de AI (Paul Christiano, 2017)
Financiación para la investigación de alineación (Paul Christiano, 2017)
Fundamentos de agentes para alinear la inteligencia artificial con los intereses humanos: una agenda de investigación técnica (Machine Intelligence Research Institute, 2017)
AI Safety Gridworlds (Leike et al., 2017)
Interacciones entre el problema de control de IA y el problema de gobernanza (Nick Bostrom, 2017)
Alineación para sistemas avanzados de aprendizaje automático (Machine Intelligence Research Institute, 2017)
Seguridad de IA: tres problemas humanos y un problema de IA (Stuart Armstrong, 2017)
Problemas concretos en la seguridad de la IA (Dario Amodei et al, 2016)
El problema del aprendizaje del valor (Machine Intelligence Research Institute, 2016)
Una encuesta de preguntas de investigación para una IA robusta y beneficiosa (Future of Life Institute, 2015)
Prioridades de investigación para la inteligencia artificial robusta y beneficiosa (Future of Life Institute, 2015)

Construyendo una IA segura: especificaciones, confiabilidad y garantías