Trapaceando câmeras de vigilância automatizadas



Nos últimos anos, o interesse em modelos de aprendizado de máquina aumentou, inclusive no reconhecimento de imagens visuais e rostos. Embora a tecnologia esteja longe de ser perfeita, ela já permite calcular criminosos, encontrar perfis nas redes sociais, acompanhar mudanças e muito mais. Simen Thys e Wiebe Van Ranst provaram que, ao fazer apenas pequenas alterações nas informações de entrada da rede neural convolucional, o resultado final pode ser substituído. Neste artigo, veremos as correções visuais para realizar ataques de reconhecimento.

Os primeiros ataques aos sistemas de reconhecimento foram pequenas alterações nos pixels da imagem de entrada para enganar o classificador e derivar a classe errada.

O objetivo era criar um patch que pudesse ocultar com sucesso uma pessoa do detector. O resultado foi um esquema de ataque que poderia ser usado, por exemplo, para ignorar os sistemas de vigilância. Os invasores podem se infiltrar imperceptivelmente, segurando um pequeno tablete de papelão com um “adesivo”, apontado para a câmera de vigilância.



O desenvolvimento de redes neurais convolucionais (SNA) levou a um tremendo sucesso no campo da visão computacional. Um transportador de ponta a ponta orientado a dados no qual os SNAs são treinados em imagens mostrou os melhores resultados em uma ampla gama de tarefas de visão computacional. Devido à profundidade dessas arquiteturas, as redes neurais são capazes de estudar os filtros mais básicos na parte inferior da rede (onde os dados entram) para obter funções abstratas de alto nível na parte superior. Para isso, um SNA típico contém milhões de parâmetros estudados. Embora essa abordagem leve a modelos muito precisos, a interpretabilidade é drasticamente reduzida.

Na pesquisa, uma variedade de imagens foi usada para enganar os sistemas de vigilância, incluindo "ruído" abstrato e desfoque.

imagem

Para criar um patch, foi usada a imagem original, que passou pelas seguintes transformações:

  • rotação em 20 graus;
  • sobreposição de ruído;
  • desfocar
  • modificação de brilho;
  • modificação de contraste.

Os pesquisadores realizaram muitos testes Inria para determinar a melhor "ocultação" de uma pessoa.



Para obter o efeito desejado, uma imagem de 40x40 centímetros (indicada pela palavra patch no relatório do especialista) deve ser localizada no meio da caixa de detecção da câmera e constantemente em seu campo de visão. Obviamente, esse método não ajudará uma pessoa a esconder seu rosto; no entanto, o algoritmo para detectar pessoas em princípio não será capaz de detectar uma pessoa no quadro, o que significa que o reconhecimento subsequente dos recursos faciais também não será iniciado.

Como demonstração, os pesquisadores publicaram um vídeo de demonstração dos recursos dos patches visuais:


Código do projeto GitHub .
Pesquisa .

Source: https://habr.com/ru/post/pt449216/


All Articles