Aumentarlo! Aumento de la resolución moderna


Ya he dejado de estremecerme y preguntarme cu√°ndo suena el tel√©fono y suena una voz fuerte y segura en el receptor: "¬ŅEs este el capit√°n que te molesta (mayor o menor), ¬Ņpuedes responder un par de preguntas?" ¬ŅPor qu√© no hablar con tu propia polic√≠a ...

Las preguntas son siempre las mismas. "Tenemos un video con el sospechoso, por favor ayude a restaurar la cara" ... "Ayude a aumentar el n√ļmero del DVR" ... "No hay manos humanas aqu√≠, por favor ayude a aumentar" ... Y as√≠ sucesivamente.

Para dejar en claro de qu√© se trata, aqu√≠ hay un ejemplo real de un video muy comprimido enviado donde solicitan restaurar una cara borrosa (cuyo tama√Īo es equivalente a aproximadamente 8 p√≠xeles):


Y bueno, solo los tíos rusos de Stepa molestarían, escriben los Pinkertones occidentales.
Aquí, por ejemplo, hay una carta de la policía de Inglaterra <***** @ *****. Fsnet.co.uk>:
He usado sus filtros en privado durante alg√ļn tiempo para rescatar mis videos pobres de vacaciones familiares, pero me gustar√≠a usar los filtros comerciales para mi trabajo. Actualmente soy un oficial de polic√≠a en una peque√Īa fuerza policial y estamos recibiendo una gran cantidad de video de CCTV, que a veces es de muy baja calidad y puedo ver c√≥mo sus filtros marcar√≠an una verdadera diferencia. ¬ŅMe puede decir el costo y si podr√≠a usarlos?

Gracias

Traducción
Ya utilic√© tus filtros para fines personales para guardar mis videos malos de vacaciones familiares. Pero me gustar√≠a usar filtros comerciales en mi trabajo. Actualmente soy un oficial de polic√≠a en una peque√Īa unidad. Obtenemos una gran cantidad de video de c√°maras CCTV, a veces de muy baja calidad, y sus filtros realmente ayudar√°n. ¬ŅPodr√≠a decirme su costo y puedo usarlos?

Gracias
O aquí hay un policía de Australia que escribe:
Hola
Trabajo para la polic√≠a de Victoria en Australia, en la unidad forense de video y audio. Ocasionalmente, recibimos videos de c√°maras port√°tiles o montadas en veh√≠culos. A menudo, estos capturan im√°genes entrelazadas de eventos de r√°pido movimiento. En particular, el metraje que generalmente tiene m√°s "promesa" es el metraje de las matr√≠culas de los veh√≠culos. A menudo encontramos que el veh√≠culo sujeto se habr√° movido significativamente entre el primer y el √ļltimo campo capturado. Como resultado, tratamos de reconstruir todo el cuadro a partir de los dos campos, con el segundo traducido, a veces rotado, y ocasionalmente el tama√Īo tambi√©n ser√° diferente (a medida que el veh√≠culo se aleja o se dirige hacia la c√°mara). Casar estos dos campos , preferiblemente a una precisi√≥n de subp√≠xel, y reconstruir el marco que contiene la matr√≠cula, puede ser dif√≠cil.
Por lo que he visto de ti desentrelazando im√°genes, puede ser que tu filtro pueda hacer algo, si no todo, de lo que necesitamos. Para ser honesto, como nuestro presupuesto es bastante peque√Īo, es poco probable que podamos pagar una licencia comercial. No vendemos el producto, por supuesto, lo usamos como evidencia en casos policiales. En cualquier caso, pens√© en escribir un correo electr√≥nico y preguntar de todos modos. ¬ŅCu√°nto costar√≠a una licencia? ¬ŅEs posible probar el producto en im√°genes para ver si es apropiado? ¬ŅHace algo de lo que necesitamos? Por √ļltimo, ¬Ņse ha publicado el algoritmo? Trabajar con algoritmos desconocidos es una pr√°ctica peligrosa para un tribunal de justicia. Si la evidencia da como resultado que un hombre vaya a la c√°rcel por 20 a√Īos, ¬°es una buena pr√°ctica saber por qu√©!

Cualquier información que pueda ofrecer sería apreciada.

Saludos
Trabajador social
Unidad Audiovisual
Departamento de servicios forenses de la policía de Victoria

Traducción
Hola
Trabajo para la Polic√≠a de Victoria en Australia en el departamento de video y audio forense. De vez en cuando, recibimos videos de c√°maras de mano y DVR. A menudo, estos videos son disparos entrelazados de objetos que se mueven r√°pidamente. En particular, el material m√°s importante son las matr√≠culas de veh√≠culos. A menudo encontramos que el veh√≠culo en cuesti√≥n se mueve fuertemente entre el primer y el √ļltimo campo capturado. Como resultado, estamos tratando de restaurar un cuadro completo a partir de dos campos, el segundo se desplaza, a veces gira y a veces tiene un tama√Īo diferente (cuando el autom√≥vil viaja hacia o desde la c√°mara). Combinar estos dos campos, preferiblemente con una precisi√≥n de medio p√≠xel, y restaurar un cuadro completo que contenga una placa de matr√≠cula puede ser dif√≠cil.

Veo c√≥mo aplicas el desentrelazado a los marcos, y tal vez tus filtros puedan hacer algo, si no todo lo que necesitamos. Honestamente, es posible que no podamos pagar una licencia comercial, porque nuestro presupuesto es bastante peque√Īo. No vendemos el producto, por supuesto, lo usamos como evidencia en casos policiales. En cualquier caso, pens√© que escribir√≠a una carta y seguir√≠a preguntando. ¬ŅCu√°nto costar√° la licencia? ¬ŅEs posible probar el producto en el material para saber si es adecuado? ¬ŅHace parte de lo que necesitamos? Finalmente, ¬Ņse ha publicado el algoritmo? Trabajar con algoritmos desconocidos es una pr√°ctica peligrosa en los tribunales. Si la evidencia lleva a una persona a ir a prisi√≥n por 20 a√Īos, es √ļtil saber por qu√©.

Agradeceremos cualquier información que nos pueda proporcionar.

Saludos
Investigador
División de Audio y Video
Departamento forense de la policía de Victoria
Tenga en cuenta que la carta es muy cuidadosa, una persona está preocupada por el algoritmo que se publica y por la responsabilidad de una recuperación incorrecta.

A veces, solo en el proceso de correspondencia admiten que son de la policía. Por ejemplo, a los carabinieri de Italia les gustaría ayuda:
Dr. Vatolin
Gracias por la respuesta
La respuesta también vale para las fuerzas policiales (investigación de carabineros
científico para PARMA ITALIA)?
A qué software le han asociado sus algoritmos.
Estaríamos mucho

Traducción
Dr. Batolin
Gracias por la respuesta
¬ŅEs esto adecuado para la polic√≠a (Unidad de Investigaci√≥n de Carabineros para PARMA ITALIA)?
¬ŅEst√°n interesados ‚Äč‚Äčen qu√© software utilizan sus algoritmos?
Estaremos agradecidos
Y, por supuesto, muchos atractivos de la gente com√ļn ...

Aumentarlo! ¬ŅQu√©, sientes pena por presionar el bot√≥n correcto?


Est√° claro que todo este flujo de llamadas no aparece desde cero.

"Culpa" principalmente películas y programas de televisión.

Por ejemplo, aquí, en 3 segundos, el marco del video comprimido aumenta 50 veces y, a partir del reflejo en las gafas, ven evidencia:


Y hay muchos de esos momentos en las películas y series modernas. Por ejemplo, en este video, hemos recopilado episodios absolutamente épicos de un paquete de programas de televisión, no se tome dos minutos para mirar:


Y cuando ves esto en cada pel√≠cula, el √ļltimo erizo se vuelve claro que todo lo que necesitas es tener un genio inform√°tico competente, una combinaci√≥n de algoritmos modernos, y solo queda "¬°DETENERSE!" y "¬°Mejora!" . Y voila! ¬°Un milagro suceder√°!

Sin embargo, los guionistas no se detienen en esta recepci√≥n ya trillada, y su imaginaci√≥n desenfrenada va m√°s all√°. Aqu√≠ hay un ejemplo muy monstruoso. Los valientes detectives para reflejar en la pupila de la v√≠ctima recibieron una foto del delincuente. De hecho, el reflejo en las gafas ya estaba all√≠. Esto es un lugar com√ļn. ¬°Sigamos adelante! Es solo que la resoluci√≥n de la c√°mara CCTV en el hueco de la escalera result√≥ ser bastante aleatoria como el telescopio del Hubble:


En el "Profeta" (00:38:07):

En ‚ÄúAvatar‚ÄĚ (1: 41: 04‚Äď1: 41: 05), el algoritmo de nitidez, por cierto, es algo inusual en comparaci√≥n con otras pel√≠culas: primero se afila en ciertos lugares, y despu√©s de una fracci√≥n de segundo, muestra el resto de la imagen, t .e. primero la mitad izquierda de la boca, y luego la derecha:


En general, en pel√≠culas muy populares que son vistas por cientos de millones, la nitidez de la imagen se realiza con un solo clic. ¬°Todas las personas (en las pel√≠culas) lo hacen! Entonces, ¬Ņpor qu√© ustedes, expertos tan inteligentes, no pueden hacer esto?


"¬°S√© que esto es f√°cil!" ¬°Y definitivamente me dijeron que est√°s haciendo esto! ¬ŅEres demasiado vago para presionar este bot√≥n?

// Oh querido ... Malditos guionistas con su imaginación salvaje ...

- ¬°Entiendo que est√°s ocupado, pero se trata de tu ayuda al estado para resolver un crimen importante!

// Lo entendemos.

- Tal vez se trata del dinero? ¬ŅCu√°nto tienes que pagar?

// Bueno, cómo explicar brevemente que no es que no necesitemos dinero ... Y luego otra vez, y luego otra vez ...

Cualquier coincidencia de las citas anteriores con di√°logos reales es completamente aleatoria, pero, en particular, este texto est√° escrito con el fin de enviar a una persona a leerlo cuidadosamente primero, y solo luego devolver la llamada.
Conclusi√≥n: Debido al hecho de que la escena con la ampliaci√≥n de las im√°genes de las c√°maras de CCTV con un solo clic se ha convertido en un sello del cine moderno, un gran n√ļmero de personas est√° sinceramente convencido de que es muy simple ampliar un fragmento de un marco de una c√°mara barata o una grabadora de video barata. Lo principal es c√≥mo preguntar (bueno, o mandar, as√≠ de afortunado).

¬ŅDe d√≥nde crecen las piernas?


Est√° claro que esta secuencia completa de llamadas no se toma desde cero. Realmente hemos estado involucrados en la mejora del video durante aproximadamente 20 a√Īos, incluidos varios tipos de recuperaci√≥n de video (y hay varios tipos de ellos, por cierto), y nuestros ejemplos ser√°n m√°s bajos en esta secci√≥n.

Un aumento "inteligente" en la resoluci√≥n en art√≠culos cient√≠ficos generalmente se denomina Super Resoluci√≥n (SR para abreviar). Google Scholar a pedido Super Resolution encuentra 2.9 millones de art√≠culos, es decir el tema fue, por as√≠ decirlo, bastante bien desenterrado, y un gran n√ļmero de personas se ocup√≥ de √©l. Si sigues el enlace , entonces hay un mar de resultados, uno m√°s hermoso que el otro. Sin embargo, vale la pena cavar m√°s profundo, la imagen, como de costumbre, se vuelve no tan pastoral. El tema SR tiene dos direcciones:

  • S√ļper resoluci√≥n de video (0,4 millones de art√≠culos): la restauraci√≥n real utilizando fotogramas anteriores (y a veces posteriores),
  • Superresoluci√≥n de imagen (2,2 millones de art√≠culos): aumento "inteligente" de la resoluci√≥n con solo un fotograma. Dado que en el caso de una imagen para tomar informaci√≥n sobre lo que realmente no estaba en ning√ļn lugar en este lugar, los algoritmos est√°n completando (o, relativamente hablando, "completando") la imagen de una manera u otra, lo que podr√≠a estar all√≠. El criterio principal para esto es que el resultado debe verse lo m√°s natural posible, o estar lo m√°s cerca posible del original. Y est√° claro que tales m√©todos no son adecuados para restaurar lo que era "realmente", aunque agrandan la imagen para que se vea mejor, por ejemplo, al imprimir (cuando tiene una foto √ļnica, pero no hay una versi√≥n con mayor resoluci√≥n ) Tales m√©todos son muy posibles.

Como puede ver, 0.4 millones versus 2.2, es decir, 5 veces menos personas participan en la recuperaci√≥n real. Afortunadamente, el tema "hazlo m√°s grande, simplemente hermoso" tiene una gran demanda, incluso en la industria (el notorio zoom digital de tel√©fonos inteligentes y jaboneras digitales). Adem√°s, si profundiza a√ļn m√°s, r√°pidamente queda claro que un n√ļmero significativo de art√≠culos sobre Video Super Resolution tambi√©n es un aumento en la resoluci√≥n de video sin recuperaci√≥n, porque la recuperaci√≥n es dif√≠cil. Como resultado, podemos decir que aquellos que "lo hacen maravillosamente" son aproximadamente 10 veces m√°s que aquellos que realmente est√°n tratando de restaurar. Una situaci√≥n bastante com√ļn en la vida, por cierto.

Vamos a√ļn m√°s profundo. Muy a menudo, los resultados del algoritmo son muy buenos, pero necesita, por ejemplo, 20 cuadros hacia adelante y 20 cuadros hacia atr√°s, y la velocidad de procesamiento de un cuadro es de aproximadamente 15 minutos cuando se usa la GPU m√°s avanzada. Es decir durante 1 minuto, el video necesita 450 horas (casi 19 d√≠as). Oops-ss ... De acuerdo, esto no se parece en nada al instante "¬°Zoom!" del cine Regularmente hay algoritmos que funcionan durante varios d√≠as por fotograma. Para los art√≠culos, un mejor resultado suele ser m√°s importante que el tiempo de funcionamiento, porque la aceleraci√≥n es una tarea dif√≠cil por separado y es m√°s f√°cil comer un elefante grande en partes. Esta es la diferencia entre la vida y el cine ...

La solicitud de algoritmos que se ejecutan en video a una velocidad razonable dio lugar a una direcci√≥n separada de Super Resoluci√≥n R√°pida de Video : 0.18 millones de art√≠culos, incluidos art√≠culos "lentos" que se comparan con los "r√°pidos", es decir. El n√ļmero real de art√≠culos sobre tales m√©todos es exagerado. Tenga en cuenta que entre los enfoques "r√°pidos", el porcentaje de especulaci√≥n, es decir sin recuperaci√≥n real, m√°s alto. En consecuencia, el porcentaje de recuperaci√≥n honesta es menor.

La imagen, como ves, se est√° volviendo clara. Pero esto, por supuesto, est√° lejos de todo.

¬ŅQu√© otros puntos afectan significativamente la obtenci√≥n de un buen resultado?

En primer lugar, el ruido es muy influyente. A continuación se muestra un ejemplo de una doble restauración de la resolución en un video muy ruidoso:


Fuente: materiales del autor.

El principal problema en este fragmento no es ni siquiera con los ruidos habituales, sino con el muaré de color en la camisa, que es difícil de procesar. Algunos podrían decir que los grandes ruidos no son un problema hoy. Esto no es asi. Mire los datos de los DVR de los automóviles y las cámaras de CCTV en la oscuridad (justo cuando tienen más demanda).

Sin embargo, el muaré también puede ocurrir en video relativamente "limpio" en términos de ruido, como la ciudad a continuación (los ejemplos a continuación se basan en nuestro trabajo ):


Fuente: materiales del autor.

En segundo lugar, para una recuperación óptima, se necesita una predicción cercana al ideal del movimiento entre cuadros. Por qué esto es difícil es un gran tema aparte, pero esto explica por qué las escenas con un movimiento de cámara panorámica a menudo se restauran muy bien, y las escenas con un movimiento relativamente caótico son extremadamente difíciles de recuperar, pero con ellas puede obtener un resultado bastante bueno en algunas situaciones:

Fuente: materiales del autor.

Y finalmente, aquí hay un ejemplo de recuperación de texto:


Fuente: materiales del autor.

Aquí, el fondo se mueve con bastante suavidad, y el algoritmo tiene la capacidad de "deambular":



En particular, si comparamos una inscripci√≥n muy peque√Īa a la derecha de la mano, incluida la ampliaci√≥n con la interpolaci√≥n bic√ļbica cl√°sica, entonces la diferencia es muy claramente visible:


Se puede ver que para la interpolaci√≥n bic√ļbica es casi imposible leer el a√Īo, para Lanczos4 , que es amado por aquellos que cambian semi-profesionalmente la resoluci√≥n del video por la nitidez, los bordes son m√°s claros, por supuesto, pero a√ļn es imposible leer el a√Īo. No hacemos comentarios sobre el Topacio comercial, pero leemos claramente la inscripci√≥n y puede ver que probablemente sea 1809.
Conclusiones:

  • Miles de investigadores en el mundo se dedican a aumentar la resoluci√≥n, y se han publicado millones de art√≠culos sobre este tema. Debido a esto, cada tel√©fono inteligente tiene un "zoom digital", que generalmente es objetivamente mejor que los algoritmos para aumentar los programas convencionales, y cada televisor FullHD puede mostrar video SD, a menudo incluso sin artefactos caracter√≠sticos de cambio de resoluci√≥n.
  • La recuperaci√≥n de una imagen real de un video es mucho menos del 10% de los involucrados en la S√ļper Resoluci√≥n, adem√°s, la mayor√≠a de los algoritmos de recuperaci√≥n son extremadamente lentos (hasta varios d√≠as de c√°lculos por cuadro).
  • En la mayor√≠a de los casos, la recuperaci√≥n est√° dise√Īada para garantizar que las altas frecuencias en el video se conserven m√°s o menos y, por lo tanto, no funcionen en video con artefactos de compresi√≥n significativos. Y dado que en la configuraci√≥n de las c√°maras de CCTV, la relaci√≥n de compresi√≥n a menudo se elige en funci√≥n del deseo de ahorrar m√°s horas (es decir, el video se comprime m√°s fuertemente y las altas frecuencias se "matan"), se hace casi imposible restaurar dicho video.

Cómo se ve SR en la industria


Para ser justos, observamos que hoy en d√≠a todos los algoritmos de resoluci√≥n de resoluci√≥n (y al menos comprados) est√°n disponibles para todos los fabricantes de televisores (necesita hacer im√°genes HD a partir de im√°genes SD sobre la marcha), para todos los fabricantes de tel√©fonos inteligentes (lo que se llama "zoom digital" en publicidad), etc. .d. Hablaremos sobre los resultados de Google (y no solo). En primer lugar, porque Google es muy agradable y sin mucho pathos y marketing describe los resultados en su blog, y esto es extremadamente agradable. En segundo lugar, porque los fabricantes de tel√©fonos inteligentes (por ejemplo, una empresa coreana muy conocida) no reh√ļsan usar, por ejemplo, Photoshop en la publicidad de sus tecnolog√≠as (cu√°l es la diferencia, la gente todav√≠a se traga), y esto es desagradable. En general, hablemos de aquellos que describen su tecnolog√≠a con bastante honestidad.

En 2016, Google publicó resultados bastante interesantes del algoritmo RAISR (Superresolución de imagen rápida y precisa) utilizado en el teléfono inteligente Pixel 2. En las imágenes más exitosas, el resultado se veía genial:


Fuente: Blog de Google AI

El algoritmo fue un conjunto de filtros utilizados despu√©s de la clasificaci√≥n ML, y en comparaci√≥n con la interpolaci√≥n bic√ļbica (ni√Īo de azotes tradicional), el resultado complaci√≥:


En orden: original, interpolaci√≥n bic√ļbica, RAISR

Pero fue la Interpolación de un solo cuadro, y en ejemplos "infructuosos", como el follaje de abajo, la imagen se distorsionó muy desagradablemente, después de la ampliación la imagen se volvió notablemente "sintética". Mostró exactamente el efecto por el cual no le gusta el zoom digital de los teléfonos inteligentes modernos:


El milagro, de hecho, no sucedió, y Google honesta e inmediatamente publicó un contraejemplo, es decir. Inmediatamente describió los límites de aplicabilidad de su enfoque y salvó a las personas de expectativas excesivas (típico del marketing convencional).

Sin embargo, menos de dos a√Īos despu√©s, se public√≥ la continuaci√≥n del trabajo utilizado en Google Pixel 3 y mejora dr√°sticamente la calidad de su disparo, que ya es una s√ļper resoluci√≥n honesta de m√ļltiples cuadros, es decir. algoritmo de recuperaci√≥n de resoluci√≥n de m√ļltiples cuadros:


Fuente: Blog de Google AI

La imagen de arriba muestra una comparaci√≥n de los resultados de Pixel 2 y Pixel 3, y los resultados se ven muy bien: la imagen realmente se volvi√≥ mucho m√°s clara y se puede ver claramente que esto no est√° "pensando", sino realmente restaurando los detalles. Adem√°s, un lector profesional atento tendr√° preguntas sobre dos tubos gemelos verticales a la izquierda. La resoluci√≥n ha aumentado claramente, mientras que el paso de alias (un signo de resoluci√≥n real) parece extra√Īamente cercano. Que fue eso

En pocas palabras, analizaremos el algoritmo. Los colegas pasaron de cambiar la interpolación del patrón de Bayer :


El hecho es que 2/3 de la información en una imagen real es en realidad información interpolada. Es decir su imagen YA está borrosa y "borrosa", pero con un nivel de ruido real esto no es tan significativo. Por cierto, la capacidad de utilizar algoritmos de interpolación más sofisticados ha hecho que los programas populares de conversión RAW de la más alta calidad para fotografías (la diferencia entre el algoritmo simple integrado en cada cámara y el algoritmo complejo de un programa especializado generalmente se note a simple vista cuando la imagen se amplía).

Los colegas de Google usan el hecho de que la gran mayoría de las fotos de teléfonos inteligentes se toman con las manos, es decir, la cámara temblará ligeramente:


Fuente: Blog de Google AI (imagen de varios cuadros alineada a nivel de píxel para mostrar el desplazamiento de subpíxel)

Como resultado, si toma unos pocos cuadros y eval√ļa el cambio (y el hierro, que puede construir un mapa de estimaci√≥n de movimiento con una precisi√≥n de un cuarto de p√≠xel, est√° en cualquier tel√©fono inteligente con soporte H.264), obtenemos un mapa de cambio. Fiel a la animaci√≥n anterior, se ve claramente que con un nivel de ruido real, construir un mapa de desplazamiento con precisi√≥n de subp√≠xeles es una tarea muy poco trivial, pero han aparecido muy buenos algoritmos en esta √°rea durante los √ļltimos 20 a√Īos. Por supuesto, a veces, y les cuesta mucho. Por ejemplo, en el ejemplo anterior, algo parpadea en un marco en la parte superior de la barandilla de la escalera. Y esto sigue siendo una escena est√°tica, no hay objetos en movimiento que a veces no solo se muevan, sino que giren, cambien de forma, se muevan r√°pidamente, dejando grandes √°reas de apertura (cuyo bucle no debe ser visible despu√©s del procesamiento). El siguiente ejemplo muestra claramentequ√© sucede con los objetos que se mueven r√°pidamente, si desactiva el procesamiento especial de tales casos (deshabilitado a la izquierda, habilitado a la derecha, si hace clic, los bloques de procesamiento son claramente visibles):


Fuente: Blog de Google AI (se recomienda hacer clic y ver en alta resolución)

Ejemplos duros son las llamas, las ondas, el resplandor del sol en el agua, etc. En general, incluso en el problema "simple" de determinar el cambio, hay muchos momentos no triviales que complican significativamente la vida del algoritmo. Sin embargo, ahora no se trata de eso.

Curiosamente, incluso si la cámara está completamente estacionaria (por ejemplo, montada en un trípode), puede hacer que el sensor se mueva a través del control del módulo de estabilización óptica (OIS - Estabilización óptica de imagen). Como resultado, obtenemos los cambios de subpíxeles deseados. En Pixel 3, se implementa la compatibilidad con OIS, y puede presionar el teléfono contra el cristal y observar con interés cómo OIS comienza a mover la imagen a lo largo de una elipse (aproximadamente, como este enlace), es decir, incluso en este caso de montaje en un trípode, difícil para él, la Super Resolución podrá resolver y mejorar la calidad. Sin embargo, la mayor parte de los disparos desde teléfonos inteligentes son disparos manuales.

Como resultado, tenemos información adicional para construir una foto de mayor resolución:


Como se mencionó anteriormente, la consecuencia directa de SR es una disminución significativa en el nivel de ruido, en algunos casos es muy notable:


Fuente: Blog de Google AI

Tenga en cuenta que la recuperaci√≥n tambi√©n significa la restauraci√≥n por el n√ļmero de bits por componente. Es decirAl resolver formalmente el problema de aumentar la resoluci√≥n, el mismo motor en ciertas condiciones no solo puede suprimir el ruido, sino tambi√©n convertir el marco en HDR. Est√° claro que hoy HDR rara vez se usa, pero esto, como puede ver, es una buena ventaja.

El siguiente ejemplo muestra una comparación de imágenes obtenidas al disparar en el Pixel 2 y en el Pixel 3 después de SR con una calidad de sensor comparable. La diferencia en el ruido y la diferencia en la claridad son claramente visibles:


Para aquellos a quienes les gusta ver los detalles, hay un √°lbum en el que se puede apreciar la s√ļper resoluci√≥n de Google (nombre comercial Super Res Zoom) en todo su esplendor en el espectro de la escala de zoom de la imagen en un tel√©fono inteligente (cambio de FoV ): c√≥mo escriben modestamente: dieron un paso m√°s cerca de la calidad de disparo de los tel√©fonos inteligentes a la calidad de las c√°maras profesionales. Para ser justos, observamos que las c√°maras profesionales tampoco se quedan quietas. Otra cosa es que con ventas m√°s peque√Īas, las mismas tecnolog√≠as le costar√°n m√°s al usuario. Sin embargo, SR ya est√° apareciendo en c√°maras profesionales. UPD: Como ejemplo (el √ļltimo enlace es una comparaci√≥n):










:

  • Super Resolution , , .
  • SR: Image Super Resolution ‚ÄĒ ( ), .
  • Los principales beneficios de los algoritmos de recuperaci√≥n son la reducci√≥n de ruido, el refinamiento de los detalles, el HDR "m√°s honesto", una calidad de imagen claramente visible y m√°s alta en televisores de pantalla grande.
  • Toda esta magnificencia fue posible gracias a un aumento cardinal (aproximadamente 3 √≥rdenes de magnitud en n√ļmero de operaciones) en la complejidad de los algoritmos de procesamiento de fotos, o m√°s precisamente, un cuadro de video.

Resultados Yandex


Como todav√≠a preguntar√°n en los comentarios, dir√© algunas palabras sobre Yandex, que public√≥ su versi√≥n de Super Resolution el a√Īo pasado:


Fuente: https://yandex.ru/blog/company/oldfilms

Y aquí hay algunos ejemplos de dibujos animados:


Fuente: https://yandex.ru/blog/company/soyuzmultfilm

Que fue eso Yandex repitió la tecnología de Google en 2016 ?

En la página de descripción de tecnología de Yandex (nombre comercial DeepHD) solo se vincula a Image Super Resolution. Esto significa que obviamente hay contraejemplos en los que el algoritmo estropea la imagen y son más comunes que los algoritmos de recuperación honestos. Pero alrededor del 80% de los artículos están dedicados al tema y el algoritmo es más fácil de implementar.

Esta tecnolog√≠a tambi√©n se describi√≥ en un centro (es interesante que el autor del art√≠culo sea un graduado de nuestro laboratorio), pero, como puede ver en los comentarios, los autores no respondieron ninguna de mis preguntas, mientras que respondieron las otras. Y estos, m√°s bien, no son los autores de los villanos, sino la pol√≠tica de la compa√Ī√≠a (en otras publicaciones, si se mira de cerca, a menudo tampoco hay respuestas a las preguntas de los expertos). Para los blogs de empresas de tecnolog√≠a son reacios a profundizar en la discusi√≥n de la implementaci√≥n o los detalles tecnol√≥gicos. Especialmente si esto crea una mejor impresi√≥n de la tecnolog√≠a / producto. O los competidores pueden cortar lo mismo m√°s r√°pido. Una vez m√°s, el marketing es responsable de las publicaciones, y este es su trabajo directo: crear una impresi√≥n favorable de los productos de la compa√Ī√≠a, independientemente de la calidad de los productos mismos. De ah√≠ la frecuente desconfianza de la informaci√≥n proveniente del marketing.

En general, vale la pena ser muy esc√©ptico sobre las im√°genes de las compa√Ī√≠as de la serie "c√≥mo hicimos todo bien" por las siguientes razones:

  • Los autores de algoritmos de procesamiento son conscientes de que pr√°cticamente no hay algoritmos que en algunos casos no generar√≠an artefactos. Y, de hecho, una de las tareas clave del desarrollador es reducir el porcentaje de tales casos (o la visibilidad de los artefactos en tales casos) mientras se mantiene la calidad en otros casos. Y muy a menudo esto NO tiene √©xito:

    • O los artefactos son tan fuertes y dif√≠ciles de arreglar que se rechaza todo el enfoque. En realidad este es el caso, quiz√°s (¬°sorpresa-sorpresa!), De la mayor√≠a de los art√≠culos. Im√°genes divinas en algunos casos (que fueron puestas a tierra) y "no funciona en absoluto" en el resto.
    • O (y esta es una situaci√≥n com√ļn para las empresas de tecnolog√≠a pr√°ctica), tiene que sacrificar algo de calidad en promedio para que se puedan tolerar los artefactos en los peores casos.

En consecuencia, cuando no se publican malos ejemplos (cl√°sicos para empresas) o se publican de forma limitada y con valores predeterminados (cl√°sicos para art√≠culos), este es el caso m√°s com√ļn de enga√Īar a las personas sobre las propiedades de una tecnolog√≠a / algoritmo.

  • Otro concepto err√≥neo com√ļn con respecto a los algoritmos de procesamiento es el uso de par√°metros (incluidos los par√°metros internos) del algoritmo. Sucedi√≥ que los algoritmos tienen par√°metros, y los usuarios, y esta es tambi√©n la norma, prefieren tener a lo sumo un bot√≥n de "habilitar". E incluso si hay configuraciones, el usuario masivo no las usa. Es por eso que, cuando compran tecnolog√≠a, "se detienen cien veces", vuelven a preguntar: "¬ŅEs esta una m√°quina completa?" y pide muchos ejemplos.

    • En consecuencia, una historia com√ļn es la publicaci√≥n de un resultado que se obtuvo con ciertos par√°metros. Afortunadamente, el desarrollador los conoce bien, e incluso cuando hay cincuenta de ellos (¬°la situaci√≥n real!), Los recoge muy r√°pidamente para que la imagen sea m√°gica. Exactamente estas im√°genes a menudo van a la publicidad.
    • Adem√°s, el desarrollador puede incluso estar en contra. Marketing ve los nuevos ejemplos enviados y dice: "no hay nada visible en ellos, ¬°en la √ļltima presentaci√≥n tuvo ejemplos normales!" Y luego pueden tratar de explicarles que los nuevos ejemplos son lo que la gente realmente ve, y en la √ļltima presentaci√≥n, se mostraron resultados potenciales que pueden lograrse mediante estudios preliminares del inicio del proyecto. Esto no molesta a nadie. La gente obtendr√° la imagen "donde puedes ver". En algunos casos, incluso las grandes empresas usan Photoshop. ¬°El l√≠o est√° servido, caballeros! )

  • Adem√°s, cuando se trata de video, abre simplemente grandes espacios abiertos para la m√°quina ... ¬° buen marketing! Por lo general, los cuadros se presentan y la calidad del video comprimido siempre oscila y depende de la masa de los par√°metros. Nuevamente, varias tecnolog√≠as pueden aplicarse correctamente, el tiempo de procesamiento, nuevamente, puede ser diferente. Y eso no es todo, el alcance es excelente.

    • La publicidad de Yandex afirma que la tecnolog√≠a DeepHD funciona en tiempo real, por lo que hoy puede ver canales de televisi√≥n us√°ndola . Se explic√≥ anteriormente que la velocidad de operaci√≥n es el tal√≥n de Aquiles de Super Resoluci√≥n. La ventaja de las redes neuronales, por supuesto, es que al estudiar durante mucho tiempo, pueden funcionar muy r√°pidamente en algunos casos, pero a√ļn as√≠ (con gran inter√©s profesional) buscar√≠a en qu√© resoluci√≥n y calidad funciona el algoritmo en tiempo real. Por lo general, se crean varias modificaciones del algoritmo y a altas resoluciones en tiempo real, muchos "chips" (cr√≠ticos para la calidad) tienen que ser desactivados. Demasiados
    • En ejemplos en blanco y negro , una mirada m√°s cercana revela que el brillo local est√° cambiando. Dado que el SR correcto no cambia el brillo, parece que alg√ļn otro algoritmo funcion√≥, tal vez no uno (los resultados muestran que esto no es Procesamiento de un solo cuadro, o m√°s bien, parece que no solo). Si observa una pieza m√°s grande (al menos 100 cuadros), la imagen ser√° clara. Sin embargo, medir la calidad del video es un tema separado y muy importante.

Conclusiones:

  • Debe comprender que los especialistas en marketing a menudo usan sus trucos precisamente porque funciona (¬°y c√≥mo!). La gran mayor√≠a de las personas no leen el centro Lo que regularmente conduce a todo tipo de distorsiones. ¬°Deseo que todos se anuncien menos, especialmente cuando la narraci√≥n de cuentos est√° en su mejor momento y realmente querr√° creer en un milagro!
  • Y, por supuesto, es muy bueno que Yandex tambi√©n trabaje en el tema y haga su propio SR (m√°s precisamente, su propia familia SR).

Perspectivas


Volvamos a donde empezamos. ¬ŅQu√© hacer para aquellos que desean aumentar el video comprimido? ¬ŅEs todo esto malo?

Como se describió anteriormente, incluso un ligero cambio en la imagen en la región, literalmente en el nivel de ruido, es crítico para los algoritmos de recuperación "honesta". Es decir, las altas frecuencias en la imagen y su cambio entre cuadros son críticos.

En este caso, lo principal debido a que se realiza la compresión de video es la eliminación del ruido entre cuadros. En el ejemplo a continuación, la diferencia entre cuadros de un video ruidoso antes de la compensación de movimiento, después de la compensación (con compresión débil) y después de una compresión notable: sienta la diferencia (el contraste se eleva aproximadamente 6 veces para que se puedan ver los detalles):

Fuente: conferencias del autor sobre algoritmos de compresión.

Se puede ver claramente que desde el punto de vista del códec, el área ideal es el área en la que el movimiento en el que se compensó por completo y en el que no es necesario gastar más bits. Bueno, se puede gastar un poco, algo mínimamente corregido. Y puede haber bastantes áreas de este tipo. Por lo tanto, Super Resolution pierde su "pan principal": información sobre lo que hay en este lugar en otros cuadros, teniendo en cuenta el desplazamiento de subpíxeles.

Si mira los art√≠culos, incluso para un JPEG relativamente simple, la restauraci√≥n de jpeg contiene 26 mil resultados, y para la recuperaci√≥n de jpeg : 52 mil, y esto junto con la restauraci√≥n de archivos rotos, etc. Para el video, la situaci√≥n es peor que la restauraci√≥n de MPEG : 22 mil, es decir El trabajo, por supuesto, est√° en marcha, pero la escala del trabajo en Super Resoluci√≥n no es comparable. Hay aproximadamente un orden de magnitud menos trabajo que restaurar la resoluci√≥n de video y dos √≥rdenes de magnitud menos que la Superresoluci√≥n de imagen. Dos pedidos es mucho. Tambi√©n hicimos un acercamiento al proyectil (ya que hemos estado haciendo compresi√≥n y procesamiento durante mucho tiempo), hay algo con lo que trabajar, especialmente si la calidad es oscilante o se usa algo como M-JPEG (m√°s recientemente, una imagen com√ļn en video vigilancia). Pero todos estos ser√°n casos especiales.

Los resultados de los art√≠culos de los enlaces anteriores tambi√©n muestran que los resultados a veces son muy hermosos, pero se obtienen para casos muy especiales. Es decir ma√Īana, en todos los tel√©fonos inteligentes, esta funci√≥n, por desgracia, no aparecer√°. Estas son malas noticias. Bien, pasado ma√Īana y en una computadora con una buena GPU, aparecer√° con seguridad.

Razones:

  • Los dispositivos de almacenamiento (tarjetas SD para registradores, discos para c√°maras de CCTV, etc.) se est√°n volviendo gradualmente m√°s baratos y la tasa de bits promedio para guardar video est√° aumentando.
  • Adem√°s, durante la compresi√≥n, cambian gradualmente a los est√°ndares de las pr√≥ximas generaciones (por ejemplo, en HEVC), lo que significa una mejora notable en la calidad con la misma tasa de bits. Los √ļltimos 2 puntos significan que gradualmente la calidad del video ser√° m√°s alta y, a partir de cierto punto, los algoritmos de Superresoluci√≥n de video bien desarrollados comenzar√°n a funcionar.
  • Finalmente, se est√°n mejorando los algoritmos. Los logros de los algoritmos basados ‚Äč‚Äčen el aprendizaje autom√°tico en los √ļltimos 4 a√Īos son especialmente buenos. En este sentido, con alta probabilidad podemos esperar algo como esto:



Es decir el algoritmo usará explícitamente la información de movimiento recibida del códec, y luego estos datos se enviarán a una red neuronal capacitada para recuperar artefactos específicos de códecs específicos. Tal esquema actualmente parece bastante factible.

Pero en cualquier caso, debe comprender claramente que la recuperaci√≥n actual es, por regla general, un aumento de 2 veces en la resoluci√≥n. Con menos frecuencia, en algunos casos, cuando el material de origen no se comprimi√≥ o casi no se comprimi√≥, podemos hablar de 3 a 4 veces. Como puede ver, esto ni siquiera es cerca de 100-1000 veces el aumento de las pel√≠culas, cuando 1,5 p√≠xeles de una grabaci√≥n nocturna con ruido se convierten en un n√ļmero de autom√≥vil de excelente calidad. Al g√©nero de "ciencia ficci√≥n" se le debe asignar, de hecho, un mayor porcentaje de pel√≠culas y programas de televisi√≥n.

Y, por supuesto, habr√° intentos de hacer algo universal, en el marco de la tendencia de la moda "lo principal es cortar m√°s capas". Y aqu√≠ vale la pena advertir contra las reacciones de "aplausos" a los materiales publicitarios sobre este tema. Las redes neuronales son el marco m√°s conveniente para demostrar milagros y todo tipo de especulaciones. Lo principal es elegir correctamente la muestra de entrenamiento y los ejemplos finales. Y voila! ¬°Mira el milagro! Muy conveniente en t√©rminos de apresurar a los inversores, por cierto. Es decir, es extremadamente importante que la eficiencia de las tecnolog√≠as sea confirmada por alguien independiente en una gran cantidad de ejemplos heterog√©neos, lo que rara vez se demuestra. Para las empresas, incluso dar uno o dos ejemplos cuando la tecnolog√≠a no funciona, hoy se equipara a una haza√Īa civil.

Bueno, para que la vida no parezca cari√Īo, te recordar√© que la llamada transcodificaci√≥n es popular hoy en d√≠a, cuando de hecho tienes que trabajar con un video que originalmente fue reducido por un algoritmo y luego reducido por otro, mientras se usan otros vectores de movimiento, los altos se destruyen nuevamente. frecuencias etc. Y el hecho de que una persona vea todo bien all√≠ no significa que el algoritmo que procesa tal video realmente haga milagros. No ser√° posible restaurar videos muy pellizcados, aunque en general la Super Resoluci√≥n se desarrollar√° r√°pidamente en los pr√≥ximos 10 a√Īos.

Conclusiones:

  • Recuerda que lo que ves en las pel√≠culas y c√≥mo es en la vida real es muy diferente. ¬°Y no solo en t√©rminos de recuperaci√≥n de video altamente comprimido!
  • Por lo general, los algoritmos modernos aumentan las resoluciones 2 veces, con menos frecuencia, un poco m√°s, es decir No 50 veces, conocido por las pel√≠culas, pronto tendr√° que esperar.
  • El √°rea de Superresoluci√≥n est√° en auge y puede esperar el desarrollo activo de Video Restoration en los pr√≥ximos a√Īos, incluida la recuperaci√≥n despu√©s de la compresi√≥n.
  • Pero lo primero que veremos es todo tipo de especulaciones sobre el tema, cuando los resultados demostrados exagerar√°n en gran medida las capacidades reales de los algoritmos. Ten cuidado
A finales del a√Īo pasado, dimos una conferencia "Redes neuronales en el procesamiento de video: mitos y realidad". Quiz√°s podamos ponerla aqu√≠.

Estén atentos!

Agradecimientos


Me gustaría agradecerle cordialmente:

  • Laboratorio de Computaci√≥n Gr√°fica VMK Universidad Estatal de Mosc√ļ MV Lomonosov para potencia inform√°tica y no solo
  • nuestros colegas del grupo de videos, gracias a quienes se crearon los algoritmos anteriores, y especialmente a Karen Simonyan, la autora del art√≠culo cuyos resultados se mostraron anteriormente y que ahora trabaja en Google DeepMind,
  • personalmente Konstantin Kozhemyakov, quien hizo mucho para hacer este art√≠culo mejor y m√°s visual,
  • Google por un excelente blog y descripciones relativamente correctas de las tecnolog√≠as creadas, y Yandex por competir muy bien en un frente amplio: Google es pr√°cticamente el √ļnico ejemplo exitoso en un pa√≠s donde los servicios de Google no est√°n prohibidos,
  • Habrovchan denisshabr , JamboJet e iMADik por la sugerencia y los enlaces a c√°maras profesionales SR de fotogramas m√ļltiples,
  • y finalmente, muchas gracias a Vyacheslav Napadovsky, Evgeny Kuptsov, Stanislav Grokholsky, Ivan Molodetsky, Alexei Soloviev, Evgeny Lyapustin, Yegor Sklyarov, Denis Kondranin, Alexandra Anzina, Roman Kazantsev y Gleb Ishelev por esta gran cantidad de comentarios √ļtiles. mejor!

Source: https://habr.com/ru/post/439766/


All Articles