Eye in the Sky: patrulla drone con reconocimiento de violencia en multitudes y lugares públicos


La ilustración de la izquierda muestra 14 puntos clave en el cuerpo humano que el sistema de visión artificial reconoce: cabeza, cuello, hombros, codos, muñecas, caderas, rodillas, tobillos. En la parte superior derecha está el dron Parrot AR con un sistema de reconocimiento de violencia. En la parte inferior derecha, los elementos fotográficos individuales del conjunto de datos de entrenamiento con puntos clave

Hoy en día, los UAV son cada vez más utilizados por las agencias de aplicación de la ley y las agencias de inteligencia. Por lo general, para espionaje, inteligencia, control fronterizo, etc. La policía no está utilizando activamente drones para patrullar las calles de la ciudad. Pero aquí yace un enorme potencial. Los drones de patrulla pueden ahorrar significativamente en los salarios del personal. Cubren grandes áreas y se ven perfectamente en la oscuridad.

En relación con el crecimiento del crimen y la amenaza del terrorismo en muchos países, las autoridades están interesadas en fortalecer el control sobre la población civil. Los drones automáticos con reconocimiento automático de violencia son sistemas de nueva generación que abren las puertas a sistemas aún más autónomos e inteligentes para responder a disturbios callejeros y al vandalismo.

Anteriormente, los UAV se usaban principalmente en el modo "manual". Por lo tanto, están bajo el control de un operador que rastrea simultáneamente la imagen de la videocámara. Pero este modo limita en gran medida el uso masivo de drones, ya que cada UAV necesita un operador separado.

Los sistemas de visión artificial eliminan esta limitación. Le permiten enviar cientos y miles de drones a lo largo de las rutas especificadas, y el operador solo presta atención a las alarmas que se activan cuando se reconocen ciertos signos. Dichos sistemas ya se han desarrollado para el patrullaje automático de objetos para detectar incendios, daños a la tubería, etc. En 2010, se desarrolló un sistema para los organismos encargados de hacer cumplir la ley con la identificación de "objetos abandonados" , es decir, bolsas y paquetes que se dejan en lugares públicos. El reconocimiento automático de la violencia es el siguiente paso lógico, que le permite utilizar vehículos aéreos no tripulados para patrullar multitudes y lugares públicos.

En 2009, se publicó un artículo científico que describe un sistema de visión artificial para reconocer automáticamente los delitos en lugares públicos mediante el análisis de movimiento. Ella determina con precisión aproximadamente el 85% de acciones tales como agarrar una billetera de un transeúnte, secuestrar a un niño, etc.

Tales sistemas tienen mucho éxito en la detección de varios actos criminales. A pesar de una precisión impresionante (en algunos casos, más del 90% de precisión) tienen un alcance muy limitado.

En 2014, los investigadores propusieron el primer sistema de vehículos aéreos no tripulados para reconocer automáticamente la violencia en lugares públicos, el primero de su tipo en utilizar un modelo de partes deformables para evaluar la postura de una persona con una identificación adicional de personas sospechosas por sus poses. Esta es una tarea de visión artificial extremadamente difícil porque las fotos y videos de drones pueden sufrir cambios en la iluminación, las sombras, los detalles bajos y el desenfoque. Además, las personas aparecen en diferentes lugares del marco y en diferentes posiciones. El sistema determinó la violencia con una precisión de aproximadamente el 76%, que es mucho más baja que la de los sistemas altamente especializados descritos anteriormente.

El nuevo desarrollo de científicos de la Universidad de Cambridge (Gran Bretaña), el Instituto Nacional de Tecnología (India) y el Instituto Indio de Ciencia en Bangalore presenta un sistema mejorado para el reconocimiento autónomo en tiempo real de la violencia utilizando la red piramidal de características (FPN), una red híbrida de aprendizaje profundo ScatterNet (ScatterNet Aprendizaje profundo híbrido (SHDL) y cálculo de la orientación entre las extremidades de la pose calculada utilizando la máquina de vectores de soporte (SVM). El funcionamiento de la tubería de reconocimiento se muestra en detalle en la ilustración.


Un transportador que predice la postura de una persona que puede usarse para predecir la violencia en multitudes y lugares públicos. El marco reconoce primero a las personas en cuadros tomados por una cámara de dron. Fragmentos de fotografías con imágenes de personas llegan como entrada a la red SHDL, donde ScatterNet opera en la parte frontal para extraer señales descritas manualmente de las imágenes de entrada. Las características extraídas de tres capas se combinan y alimentan a la entrada de cuatro capas convolucionales de la red de regresión que se ejecuta en el backend.

La precisión promedio de reconocer la violencia en el nuevo sistema es 88.8%, incluyendo 89% para patadas, 94% para patadas, 82% para disparos, 85% para estrangulamiento y 92% para apuñalamiento. Esto es significativamente más alto que el sistema anterior en 2014.


El artículo científico se publicó el 3 de junio de 2018 en el sitio de preimpresión de arXiv.org y se presentará en los Talleres de IEEE de Visión por Computadora y Reconocimiento de Patrones (CVPR) de la Conferencia IEEE 2018 sobre Visión por Computadora y Reconocimiento de Patrones.

Source: https://habr.com/ru/post/es413753/


All Articles