Olho no céu: zangão-patrulha com reconhecimento da violência em multidões e locais públicos


A ilustração à esquerda mostra 14 pontos-chave no corpo humano que o sistema de visão de máquina reconhece: cabeça, pescoço, ombros, cotovelos, pulsos, quadris, joelhos e tornozelos. No canto superior direito está o drone Parrot AR com um sistema de reconhecimento de violência. No canto inferior direito, os elementos fotográficos individuais do conjunto de dados de treinamento com pontos-chave

Atualmente, os UAVs são cada vez mais usados ​​por agências de aplicação da lei e agências de inteligência. Geralmente para espionagem, inteligência, controle de fronteiras etc. A polícia não está usando ativamente drones para patrulhar as ruas da cidade. Mas aqui existe um enorme potencial. Os drones de patrulha podem economizar significativamente os salários dos funcionários. Eles cobrem grandes áreas e enxergam perfeitamente no escuro.

Em conexão com o crescimento do crime e a ameaça de terrorismo em muitos países, as autoridades estão interessadas em fortalecer o controle sobre a população civil. Os drones automáticos com reconhecimento automático da violência são sistemas de nova geração que abrem as portas para sistemas ainda mais autônomos e inteligentes para responder a tumultos de rua e vandalismo.

Anteriormente, os UAVs eram usados ​​principalmente no modo "manual". Portanto, eles estão sob o controle de um operador que rastreia simultaneamente a imagem da câmera de vídeo. Mas esse modo limita bastante o uso em massa de drones, pois cada UAV precisa de um operador separado.

Os sistemas de visão de máquina removem essa limitação. Eles permitem enviar centenas e milhares de drones pelas rotas especificadas e o operador presta atenção apenas aos alarmes que são acionados quando certos sinais são reconhecidos. Tais sistemas já foram desenvolvidos para patrulhamento automático de objetos para detectar incêndios, danos ao oleoduto etc. Em 2010, foi desenvolvido um sistema para órgãos policiais com a identificação de “objetos abandonados”, ou seja, sacolas e pacotes deixados em locais públicos. O reconhecimento automático da violência é o próximo passo lógico, permitindo que você use UAVs para patrulhar multidões e locais públicos.

Em 2009, foi publicado um artigo científico descrevendo um sistema de visão por máquina para reconhecer automaticamente crimes em locais públicos usando análise de movimento. Ela determina com precisão cerca de 85% de ações como pegar uma carteira de um transeunte, sequestrar uma criança etc.

Tais sistemas são muito bem-sucedidos na detecção de vários atos criminosos. Apesar da precisão impressionante (em alguns casos, mais de 90% de precisão), eles têm um escopo muito limitado.

Em 2014, os pesquisadores propuseram o primeiro sistema de VANT para reconhecer automaticamente a violência em locais públicos, o primeiro de seu tipo a usar um modelo de peças deformáveis para avaliar a postura de uma pessoa com a identificação de pessoas suspeitas por suas poses. Esta é uma tarefa de visão de máquina extremamente difícil, pois as fotos e os vídeos do drone podem sofrer alterações na iluminação, sombras, poucos detalhes e desfocagem. Além disso, as pessoas aparecem em diferentes locais do quadro e em diferentes posições. O sistema determinou a violência com uma precisão de cerca de 76%, muito mais baixa que a dos sistemas altamente especializados descritos acima.

O novo desenvolvimento de cientistas da Universidade de Cambridge (Grã-Bretanha), do Instituto Nacional de Tecnologia (Índia) e do Instituto Indiano de Ciência em Bangalore apresenta um sistema aprimorado para reconhecimento autônomo em tempo real da violência usando a rede de pirâmide de recursos (FPN), uma rede híbrida de aprendizado profundo ScatterNet (ScatterNet Aprendizagem Profunda Híbrida (SHDL) e cálculo da orientação entre os membros da pose calculada usando a máquina de vetores de suporte (SVM). A operação do pipeline de reconhecimento é mostrada em detalhes na ilustração.


Um transportador que prevê a postura de uma pessoa que pode ser usado para prever a violência em multidões e locais públicos. A estrutura primeiro reconhece pessoas em quadros fotografados por uma câmera drone. Fragmentos de fotografias com imagens de pessoas são inseridos na rede SHDL, onde o ScatterNet opera no front-end para extrair sinais descritos manualmente das imagens de entrada. As características extraídas de três camadas são combinadas e alimentadas com a entrada de quatro camadas convolucionais da rede de regressão que é executada no back-end.

A precisão média de reconhecer a violência no novo sistema é de 88,8%, incluindo 89% para chutes, 94% para chutes, 82% para tiros, 85% para estrangulamento e 92% para esfaqueamento. Isso é significativamente maior que o sistema anterior em 2014.


O artigo científico foi publicado em 3 de junho de 2018 no site de pré-impressão arXiv.org e será apresentado nos Workshops IEEE de Visão Computacional e Reconhecimento de Padrões (CVPR).

Source: https://habr.com/ru/post/pt413753/


All Articles