Entre os autores do artigo estão funcionários da equipe de segurança de inteligência artificial (equipe de segurança) da empresa DeepMind.

Construir um foguete é difícil. Cada componente requer estudo e teste cuidadosos, enquanto a segurança e a confiabilidade estão no centro. Os cientistas e engenheiros de foguetes se reúnem para projetar todos os sistemas: da navegação ao controle, motores e chassi. Depois que todas as peças forem montadas e os sistemas verificados, só então podemos colocar os astronautas a bordo com a certeza de que tudo ficará bem.

Se a inteligência artificial (IA) for um foguete , um dia todos receberemos ingressos a bordo. E, como foguetes, a segurança é uma parte importante da criação de sistemas de inteligência artificial. A segurança requer um projeto cuidadoso do sistema, do zero, para garantir que os vários componentes funcionem juntos como planejado, criando ao mesmo tempo todas as ferramentas para monitorar a operação bem-sucedida do sistema após seu comissionamento.

Em um nível alto, a pesquisa de segurança da DeepMind se concentra no design de sistemas confiáveis, ao mesmo tempo em que detecta e mitiga possíveis riscos a curto e longo prazo. A segurança técnica da IA é um campo relativamente novo, mas de rápido desenvolvimento, cujo conteúdo varia de um alto nível teórico a pesquisas empíricas e específicas. O objetivo deste blog é contribuir para o desenvolvimento do campo e incentivar uma conversa substantiva sobre idéias técnicas, promovendo assim nosso entendimento coletivo da segurança da IA.

No primeiro artigo, discutiremos três áreas de segurança técnica da IA: especificações , confiabilidade e garantias . Os artigos futuros geralmente corresponderão aos limites descritos aqui. Embora nossas visões mudem inevitavelmente ao longo do tempo, acreditamos que essas três áreas abrangem um espectro amplo o suficiente para fornecer uma classificação útil para pesquisas atuais e futuras.

Três áreas problemáticas de segurança da IA. Cada bloco lista alguns problemas e abordagens relevantes. Essas três áreas não são isoladas, mas interagem umas com as outras. Em particular, um problema de segurança específico pode incluir vários problemas de bloco.

Especificações: definindo tarefas do sistema

As especificações garantem que o comportamento do sistema de IA seja consistente com as verdadeiras intenções do operador

Talvez você conheça o mito do rei Midas e o toque de ouro. Em uma das opções, o deus grego Dionísio prometeu a Midas qualquer recompensa que desejasse, em gratidão pelo fato de o rei ter se esforçado ao máximo para mostrar hospitalidade e misericórdia ao amigo de Dionísio. Então Midas pediu que tudo o que tocasse se transformasse em ouro . Ele estava fora de si de alegria com esse novo poder: um galho de carvalho, uma pedra e rosas no jardim - tudo se transformava em ouro por seu toque. Mas ele logo descobriu a estupidez de seu desejo: até comida e bebida se transformavam em ouro em suas mãos. Em algumas versões da história, até a filha foi vítima de uma bênção que acabou sendo uma maldição.

Esta história ilustra o problema das especificações: como formular corretamente nossos desejos? As especificações devem garantir que o sistema de IA se esforce para agir de acordo com os verdadeiros desejos do criador e não sintonize com um destino mal definido ou até incorreto. Três tipos de especificações são formalmente distinguidos:

especificação ideal (“ desejos ”), correspondente a uma descrição hipotética (mas difícil de formular) de um sistema de IA ideal, totalmente consistente com os desejos do operador humano;
especificação do projeto (" blueprint "), a especificação correspondente que realmente usamos para criar um sistema de IA, por exemplo, uma função específica de remuneração, para maximizar a programação de um sistema de aprendizado por reforço;
especificação identificada (" comportamento "), que melhor descreve o comportamento real do sistema. Por exemplo, a função de recompensa identificada como resultado da engenharia reversa após observar o comportamento do sistema (aprendizado de reforço inverso). Essa função e especificação de recompensa geralmente são diferentes daquelas programadas pelo operador porque os sistemas de IA não são otimizadores ideais ou devido a outras consequências imprevistas do uso da especificação de projeto.

O problema de especificação surge quando há uma discrepância entre a especificação ideal e a especificação identificada , ou seja, quando o sistema de IA não faz o que queremos dele. Estudar o problema do ponto de vista da segurança técnica da IA significa: como projetar funções-alvo mais fundamentais e gerais e ajudar os agentes a descobrir se as metas não estão definidas? Se os problemas geram uma incompatibilidade entre as especificações ideais e de design, eles se enquadram na subcategoria "Design" e, entre o design e os identificados, na subcategoria "Emergência".

Por exemplo, em nosso artigo científico AI Safety Gridworlds (onde outras definições de problemas de especificação e confiabilidade são apresentadas em comparação com este artigo), oferecemos aos agentes uma função de recompensa pela otimização, mas avaliamos seu desempenho real pela "função de desempenho de segurança", que está oculto dos agentes. Esse sistema modela as diferenças indicadas: a função de segurança é uma especificação ideal, formulada incorretamente como uma função de recompensa (especificação de design) e, em seguida, é implementada por agentes que criam uma especificação que é divulgada implicitamente por meio da política resultante.

Das funções de recompensa defeituosas da OpenAI em estado selvagem : um agente de aprendizado por reforço encontrou uma estratégia aleatória para obter mais pontos

Como outro exemplo, considere o jogo CoastRunners, que foi analisado por nossos colegas da OpenAI (veja a animação acima em "Funções de recompensa da vida selvagem com defeito"). Para a maioria de nós, o objetivo do jogo é terminar rapidamente a pista e ficar à frente dos outros jogadores - esta é a nossa especificação ideal. No entanto, traduzir esse objetivo em uma função exata de recompensa é difícil, portanto o CoastRunners recompensa os jogadores (especificação de projeto) por atingirem o objetivo ao longo do percurso. Ensinar um agente a jogar com treinamento de reforço leva a um comportamento incrível: o agente controla o barco em círculo para capturar alvos que reaparecem, batendo e pegando fogo repetidamente, em vez de terminar a corrida. A partir desse comportamento, concluímos (especificação identificada) que no jogo o equilíbrio entre recompensa instantânea e recompensa de círculo completo é quebrado. Existem muitos outros exemplos semelhantes nos quais os sistemas de IA encontram brechas em suas especificações objetivas.

Confiabilidade: projetando sistemas que resistem a violações

A confiabilidade garante que o sistema de IA continue a operar com segurança em caso de interferência

Em condições reais, onde os sistemas de IA funcionam, há sempre um certo nível de risco, imprevisibilidade e volatilidade. Os sistemas de inteligência artificial devem ser resistentes a eventos imprevistos e ataques hostis que podem danificar ou manipular esses sistemas. Os estudos de confiabilidade dos sistemas de inteligência artificial visam garantir que nossos agentes permaneçam dentro de limites seguros, independentemente das condições emergentes. Isso pode ser alcançado evitando riscos ( prevenção ) ou auto-estabilização e degradação suave ( recuperação ). Problemas de segurança decorrentes de mudança de distribuição , entradas hostis ( entradas adversárias) e exploração insegura (exploração insegura) podem ser classificados como problemas de confiabilidade.

Para ilustrar a solução para o problema da mudança de distribuição , considere um robô de limpeza doméstica que geralmente limpa salas sem animais de estimação. Em seguida, o robô foi lançado na casa com o animal de estimação - e a inteligência artificial colidiu com ele durante a limpeza. Um robô que nunca viu gatos e cães antes irá lavá-lo com sabão, o que levará a resultados indesejáveis ( Amodei e Olah et al., 2016 ). Este é um exemplo de um problema de confiabilidade que pode surgir quando a distribuição de dados durante o teste difere da distribuição durante o treinamento.

Do trabalho da AI Safety Gridworlds . O agente aprende a evitar lava, mas ao testar em uma nova situação, quando a localização da lava mudou, ele não consegue generalizar o conhecimento - e corre direto para a lava.

A entrada hostil é um caso específico de uma mudança de distribuição em que os dados de entrada são especialmente projetados para enganar o sistema de IA.

Uma entrada hostil sobreposta a imagens comuns pode fazer com que o classificador reconheça a preguiça como um carro de corrida. As duas imagens diferem em um máximo de 0,0078 em cada pixel. O primeiro é classificado como uma preguiça de três dedos com uma probabilidade superior a 99%. O segundo - como um carro de corrida com uma probabilidade superior a 99%

Pesquisas inseguras podem ser demonstradas por um sistema que busca maximizar seu desempenho e objetivos sem garantir que a segurança não seja comprometida durante o estudo, pois aprende e examina em seu ambiente. Um exemplo é um limpador de robô que coloca um esfregão molhado em uma tomada elétrica, estudando estratégias de limpeza ideais ( García e Fernández, 2015 ; Amodei e Olah et al., 2016 ).

Garantias: monitoramento e controle da atividade do sistema

A garantia dá confiança de que somos capazes de entender e controlar os sistemas de IA durante a operação

Embora as precauções de segurança cuidadosamente pensadas possam eliminar muitos riscos, é difícil fazer tudo desde o início. Após o comissionamento dos sistemas de IA, precisamos de ferramentas para seu monitoramento e configuração constantes. Nossa última categoria, garantia, aborda esses problemas de duas perspectivas: monitoramento e aplicação.

O monitoramento inclui todos os métodos de verificação de sistemas para analisar e prever seu comportamento, usando inspeção humana (estatísticas resumidas) e inspeção automática (para analisar um grande número de logs). Por outro lado, a submissão envolve o desenvolvimento de mecanismos de controle e restrições no comportamento dos sistemas. Problemas como interpretabilidade e descontinuidade pertencem às subcategorias de controle e envio, respectivamente.

Os sistemas de inteligência artificial não são semelhantes a nós nem na aparência nem na maneira como processam dados. Isso cria problemas de interpretabilidade . Ferramentas e protocolos de medição bem projetados permitem avaliar a qualidade das decisões tomadas pelo sistema de inteligência artificial ( Doshi-Velez e Kim, 2017 ). Por exemplo, um sistema de inteligência artificial médica idealmente faria um diagnóstico juntamente com uma explicação de como chegou a essa conclusão - para que os médicos possam verificar o processo de raciocínio do começo ao fim ( De Fauw et al., 2018 ). Além disso, para entender sistemas de inteligência artificial mais complexos, podemos usar métodos automatizados para construir modelos de comportamento usando a teoria da máquina da mente ( Rabinowitz et al., 2018 ).

A ToMNet detecta duas subespécies de agentes e prevê seu comportamento (da "Teoria da mente da máquina" )

Finalmente, queremos poder desativar o sistema de IA, se necessário. Este é um problema de descontinuidade . Projetar um switch confiável é muito difícil: por exemplo, porque um sistema de IA com maximização de recompensa geralmente possui fortes incentivos para evitar isso ( Hadfield-Menell et al., 2017 ); e porque essas interrupções, especialmente as frequentes, alteram a tarefa original, forçando o sistema de IA a tirar conclusões incorretas da experiência ( Orseau e Armstrong, 2016 ).

O problema das interrupções: intervenção humana (ou seja, pressionar o botão Parar) pode mudar a tarefa. Na figura, a interrupção adiciona uma transição (em vermelho) ao processo de tomada de decisão de Markov, que altera a tarefa original (em preto). Veja Orseau e Armstrong, 2016

Olhando para o futuro

Estamos construindo a base da tecnologia que será usada para muitas aplicações importantes no futuro. Deve-se ter em mente que algumas soluções que não são críticas à segurança ao iniciar o sistema podem tornar-se assim quando a tecnologia se generaliza. Embora, ao mesmo tempo, esses módulos tenham sido integrados ao sistema por conveniência, os problemas surgidos serão difíceis de resolver sem uma reconstrução completa.

Dois exemplos da história da ciência da computação podem ser citados: esse é o ponteiro nulo, que Tony Hoar chamou de "erro de bilhão de dólares" , e o procedimento gets () em C. Se as linguagens de programação iniciais foram projetadas com segurança em mente, o progresso desaceleraria, mas é provável que isso teria um efeito muito positivo na segurança da informação moderna.

Agora, tendo pensado e planejado tudo cuidadosamente, somos capazes de evitar problemas e vulnerabilidades semelhantes. Esperamos que a categorização dos problemas deste artigo sirva de base útil para esse planejamento metodológico. Nós nos esforçamos para garantir que, no futuro, os sistemas de IA não apenas funcionem com o princípio de “espero que seja seguro”, mas também muito confiável e verificável, porque os construímos dessa maneira!

Esperamos continuar progredindo de maneira empolgante nessas áreas, em estreita colaboração com a comunidade de pesquisa em IA mais ampla, e encorajamos pessoas de várias disciplinas a considerar contribuir para a pesquisa de segurança em IA.

Recursos

Para ler sobre este tópico, abaixo, há uma seleção de outros artigos, programas e taxonomias que nos ajudaram a compilar nossa categorização ou fornecer uma visão alternativa útil dos problemas de segurança técnica da IA:

Bibliografia anotada dos materiais recomendados (Center for Human-Compatible AI, 2018)
Segurança e controle para inteligência geral artificial (UC Berkeley, 2018)
Recursos de segurança da IA (Victoria Krakovna, 2018)
Revisão da Literatura de Segurança AGI (Everitt et al., 2018)
Preparando-se para usos maliciosos da IA (2018)
Exemplos de jogos de especificação em AI (Victoria Krakovna, 2018)
Direções e desiderata para o alinhamento da IA (Paul Christiano, 2017)
Financiamento para pesquisa de alinhamento (Paul Christiano, 2017)
Fundamentos de agentes para alinhar inteligência de máquina com interesses humanos: uma agenda de pesquisa técnica (Machine Intelligence Research Institute, 2017)
Mundos de grade de segurança de IA (Leike et al., 2017)
Interações entre o problema de controle da IA e o problema de governança (Nick Bostrom, 2017)
Alinhamento para sistemas avançados de aprendizado de máquina (Machine Intelligence Research Institute, 2017)
Segurança de IA: três problemas humanos e um problema de IA (Stuart Armstrong, 2017)
Problemas concretos na segurança da IA (Dario Amodei et al, 2016)
O problema do aprendizado de valor (Machine Intelligence Research Institute, 2016)
Uma pesquisa de perguntas de pesquisa para IA robusta e benéfica (Instituto Future of Life, 2015)
Prioridades de pesquisa em inteligência artificial robusta e benéfica (Instituto Future of Life, 2015)

Criando uma IA segura: especificações, confiabilidade e garantias