El método de interpolación barato no funciona peor que las redes neuronales


Comparación de RAISR con otras técnicas avanzadas de resolución de imagen. Para más ejemplos, vea el artículo científico adjunto .

Aumentar la resolución de las imágenes, es decir, crear fotos de alta resolución basadas en una foto de baja resolución, es un problema científico muy bien estudiado. Es importante para muchas aplicaciones: hacer zoom en fotos y texto, proyectar video en una pantalla grande, etc. Incluso en las películas, los detectives a veces logran mirar el número de un automóvil en un cuadro desde una cámara de vigilancia, "llevando" la foto al límite. Y no solo el número del auto. Todo aquí está limitado por la imaginación y la conciencia del director y guionista. Pueden llevar la fotografía aún más lejos, y ver el reflejo del criminal en el espejo retrovisor o incluso en la cabeza de metal pulido del perno que sujeta la placa de matrícula. A los espectadores les gusta eso.

En la práctica, las capacidades de tales programas son mucho más modestas. Por ejemplo, el 29 de octubre de 2016, GuralHub lanzó el programa Neural Enhance , que aumenta la resolución de las fotos usando una red neuronal. El programa ingresó de inmediato a la lista de los repositorios más populares de la semana.


Un ejemplo del trabajo de Neural Enhance


Otro ejemplo del trabajo del programa Neural Enhance, que está disponible públicamente en GitHub

. Los empleados de Google Research también trabajan en esta dirección: el blog oficial de la compañía habló ayer sobre un método para aumentar la resolución, al que llamaron RAISR (Rapid and Accurate Image Super-Resolution )

Históricamente, los interpoladores simples se han utilizado para interpolar imágenes, que encuentran valores intermedios de nuevos píxeles a partir de un conjunto conocido de valores de píxeles de la imagen original. Se usaron diferentes métodos para calcular los valores promedio: interpolación por el método vecino más cercano, interpolación bileniana, método cúbico, método bicúbico, etc. Todas estas son fórmulas matemáticas bastante simples. Fueron ampliamente utilizados en diversas aplicaciones debido a su simplicidad y sin pretensiones. No se adaptan en absoluto al contenido de la imagen, lo que a menudo conduce a la aparición de artefactos desagradables: fragmentos demasiado borrosos, distorsiones características de alias.

En las últimas décadas, se han desarrollado programas y métodos de interpolación mucho más avanzados que tienen en cuenta explícitamente las características de la imagen original. Son capaces de usar y escalar fragmentos de la imagen original, completar la dispersión, aplicar mezclas gaussianas . Los nuevos métodos han mejorado significativamente la calidad de la interpolación (restauración digital de originales) al aumentar la complejidad de los cálculos.

Los empleados de Google utilizaron el aprendizaje automático en muestras externas. Este método ha ganado gran popularidad en los últimos años y se describe en muchos artículos científicos. El principio básico es "predecir" el contenido de la imagen en alta resolución a partir de su copia reducida. Para dicha capacitación, se utiliza el método estándar de enseñanza por muestras.

Durante el entrenamiento RAISR, se utilizó una base de pares de imágenes generadas simultáneamente en alta y baja calidad. Utilizamos pares de pequeños fragmentos de la imagen para la interpolación estándar de 2x, es decir, fragmentos de 3 × 3 y 6 × 6 píxeles. El algoritmo de aprendizaje y operación RAISR se muestra en el diagrama.





La siguiente ilustración muestra cuatro filtros globales que se permitieron usar durante la fase de entrenamiento. En consecuencia, los programas fueron entrenados para aplicarlos de manera más efectiva, dependiendo del contenido de este fragmento particular de varios píxeles.





Cada tipo de filtro funciona para su propio tipo de píxeles: de P1 a P4, de acuerdo con los tipos de píxeles que utiliza el algoritmo de interpolación bilineal.



De alguna manera, el método de aprendizaje automático RAISR es similar al entrenamiento de las redes neuronales. Pero, de hecho, es una adaptación de varios filtros de interpolación estándar para cada pequeño fragmento individual de la imagen original. Es decir, esta es la misma "interpolación lineal" de siempre, pero como con esteroides, sin sus artefactos inherentes y con adaptación al contenido de la imagen.

Las pruebas comparativas mostraron que, en muchos casos, dicho algoritmo funciona incluso mejor que los métodos modernos de interpolación avanzada basados ​​en redes neuronales (SRCNN en las ilustraciones).



Además, dicho método basado en el hashing requiere mucho menos recursos y es más aceptable en la práctica que el entrenamiento y el uso de una red neuronal. La diferencia en el rendimiento es tan grande (10-100 veces) que este programa puede ejecutarse de manera segura incluso en dispositivos móviles comunes y funcionará en tiempo real. Nada impide la implementación de este filtro en las aplicaciones modernas de interpolación de imágenes en teléfonos inteligentes, incluida la aplicación de cámara en Android, que realiza la interpolación durante el zoom digital. Es posible que Google haga eso en primer lugar. Al menos este es un ejemplo del uso generalizado más extendido de la interpolación en millones de dispositivos.


Izquierda: original de baja resolución. Centro: el resultado de un interpolador bicúbico estándar. Derecha: el resultado de RAISR

Photos será mejor inmediatamente para todos los usuarios de Android.

Por cierto, otra ventaja interesante e importante de RAISR es que durante el proceso de capacitación, este programa puede ser entrenado para eliminar los artefactos de compresión típicos, incluido JPEG. Por ejemplo, en un dispositivo móvil, las fotos pueden almacenarse en forma comprimida con artefactos y mostrarse en la pantalla sin artefactos. O el algoritmo se puede usar en el alojamiento de fotos de Google para mejorar automáticamente las fotos de los usuarios, con la eliminación de los artefactos JPEG que están presentes en casi todas partes.


Izquierda: original de baja resolución con artefactos de alias específicos de JPEG. Derecha: artículo científico de la edición RAISR

El personal de Google Research se publicará próximamente en la revista IEEE Transactions on Computational Imaging. (Nota: el autor principal del artículo era un pasante de Google Research en el momento de escribir este artículo, pero ahora trabaja en el Instituto de Investigación Technion de Israel).

Source: https://habr.com/ru/post/es399119/


All Articles