Ya he dejado de estremecerme y preguntarme cuándo suena el teléfono y suena una voz fuerte y segura en el receptor: "¿Es este el capitán que te molesta (mayor o menor), ¿puedes responder un par de preguntas?" ¿Por qué no hablar con tu propia policía ...
Las preguntas son siempre las mismas. "Tenemos un video con el sospechoso, por favor ayude a restaurar la cara" ... "Ayude a aumentar el número del DVR" ... "No hay manos humanas aquí, por favor ayude a aumentar" ... Y así sucesivamente.
Para dejar en claro de qué se trata, aquí hay un ejemplo real de un video muy comprimido enviado donde solicitan restaurar una cara borrosa (cuyo tamaño es equivalente a aproximadamente 8 píxeles):
Y bueno, solo los tíos rusos de Stepa molestarían, escriben los Pinkertones occidentales.
Aquí, por ejemplo, hay una carta de la policía de Inglaterra <***** @ *****. Fsnet.co.uk>:
He usado sus filtros en privado durante algún tiempo para rescatar mis videos pobres de vacaciones familiares, pero me gustaría usar los filtros comerciales para mi trabajo. Actualmente soy un oficial de policía en una pequeña fuerza policial y estamos recibiendo una gran cantidad de video de CCTV, que a veces es de muy baja calidad y puedo ver cómo sus filtros marcarían una verdadera diferencia. ¿Me puede decir el costo y si podría usarlos?
Gracias
TraducciónYa utilicé tus filtros para fines personales para guardar mis videos malos de vacaciones familiares. Pero me gustaría usar filtros comerciales en mi trabajo. Actualmente soy un oficial de policía en una pequeña unidad. Obtenemos una gran cantidad de video de cámaras CCTV, a veces de muy baja calidad, y sus filtros realmente ayudarán. ¿Podría decirme su costo y puedo usarlos?
Gracias
O aquí hay un policía de Australia que escribe:
Hola
Trabajo para la policía de Victoria en Australia, en la unidad forense de video y audio. Ocasionalmente, recibimos videos de cámaras portátiles o montadas en vehículos. A menudo, estos capturan imágenes entrelazadas de eventos de rápido movimiento. En particular, el metraje que generalmente tiene más "promesa" es el metraje de las matrículas de los vehículos. A menudo encontramos que el vehículo sujeto se habrá movido significativamente entre el primer y el último campo capturado. Como resultado, tratamos de reconstruir todo el cuadro a partir de los dos campos, con el segundo traducido, a veces rotado, y ocasionalmente el tamaño también será diferente (a medida que el vehículo se aleja o se dirige hacia la cámara). Casar estos dos campos , preferiblemente a una precisión de subpíxel, y reconstruir el marco que contiene la matrícula, puede ser difícil.
Por lo que he visto de ti desentrelazando imágenes, puede ser que tu filtro pueda hacer algo, si no todo, de lo que necesitamos. Para ser honesto, como nuestro presupuesto es bastante pequeño, es poco probable que podamos pagar una licencia comercial. No vendemos el producto, por supuesto, lo usamos como evidencia en casos policiales. En cualquier caso, pensé en escribir un correo electrónico y preguntar de todos modos. ¿Cuánto costaría una licencia? ¿Es posible probar el producto en imágenes para ver si es apropiado? ¿Hace algo de lo que necesitamos? Por último, ¿se ha publicado el algoritmo? Trabajar con algoritmos desconocidos es una práctica peligrosa para un tribunal de justicia. Si la evidencia da como resultado que un hombre vaya a la cárcel por 20 años, ¡es una buena práctica saber por qué!
Cualquier información que pueda ofrecer sería apreciada.
Saludos
Trabajador social
Unidad Audiovisual
Departamento de servicios forenses de la policía de Victoria
TraducciónHola
Trabajo para la Policía de Victoria en Australia en el departamento de video y audio forense. De vez en cuando, recibimos videos de cámaras de mano y DVR. A menudo, estos videos son disparos entrelazados de objetos que se mueven rápidamente. En particular, el material más importante son las matrículas de vehículos. A menudo encontramos que el vehículo en cuestión se mueve fuertemente entre el primer y el último campo capturado. Como resultado, estamos tratando de restaurar un cuadro completo a partir de dos campos, el segundo se desplaza, a veces gira y a veces tiene un tamaño diferente (cuando el automóvil viaja hacia o desde la cámara). Combinar estos dos campos, preferiblemente con una precisión de medio píxel, y restaurar un cuadro completo que contenga una placa de matrícula puede ser difícil.
Veo cómo aplicas el desentrelazado a los marcos, y tal vez tus filtros puedan hacer algo, si no todo lo que necesitamos. Honestamente, es posible que no podamos pagar una licencia comercial, porque nuestro presupuesto es bastante pequeño. No vendemos el producto, por supuesto, lo usamos como evidencia en casos policiales. En cualquier caso, pensé que escribiría una carta y seguiría preguntando. ¿Cuánto costará la licencia? ¿Es posible probar el producto en el material para saber si es adecuado? ¿Hace parte de lo que necesitamos? Finalmente, ¿se ha publicado el algoritmo? Trabajar con algoritmos desconocidos es una práctica peligrosa en los tribunales. Si la evidencia lleva a una persona a ir a prisión por 20 años, es útil saber por qué.
Agradeceremos cualquier información que nos pueda proporcionar.
Saludos
Investigador
División de Audio y Video
Departamento forense de la policía de Victoria
Tenga en cuenta que la carta es muy cuidadosa, una persona está preocupada por el algoritmo que se publica y por la responsabilidad de una recuperación incorrecta.
A veces, solo en el proceso de correspondencia admiten que son de la policía. Por ejemplo, a los carabinieri de Italia les gustaría ayuda:
Dr. Vatolin
Gracias por la respuesta
La respuesta también vale para las fuerzas policiales (investigación de carabineros
científico para PARMA ITALIA)?
A qué software le han asociado sus algoritmos.
Estaríamos mucho
TraducciónDr. Batolin
Gracias por la respuesta
¿Es esto adecuado para la policía (Unidad de Investigación de Carabineros para PARMA ITALIA)?
¿Están interesados en qué software utilizan sus algoritmos?
Estaremos agradecidos
Y, por supuesto, muchos atractivos de la gente común ...
Aumentarlo! ¿Qué, sientes pena por presionar el botón correcto?
Está claro que todo este flujo de llamadas no aparece desde cero.
"Culpa" principalmente películas y programas de televisión.
Por ejemplo, aquí, en 3 segundos, el marco del video comprimido aumenta 50 veces y, a partir del reflejo en las gafas, ven evidencia:
Y hay muchos de esos momentos en las películas y series modernas. Por ejemplo, en este video, hemos recopilado episodios absolutamente épicos de un paquete de programas de televisión, no se tome dos minutos para mirar:
Y cuando ves esto en cada película, el último erizo se vuelve claro que todo lo que necesitas es tener un genio informático competente, una combinación de algoritmos modernos, y solo queda
"¡DETENERSE!" y "¡Mejora!" . Y voila! ¡Un milagro sucederá!
Sin embargo, los guionistas no se detienen en esta recepción ya trillada, y su imaginación desenfrenada va más allá. Aquí hay un ejemplo muy monstruoso. Los valientes detectives para reflejar en la pupila de la víctima recibieron una foto del delincuente. De hecho, el reflejo en las gafas ya estaba allí. Esto es un lugar común. ¡Sigamos adelante! Es solo que la resolución de la cámara CCTV en el hueco de la escalera resultó ser bastante aleatoria como el telescopio del Hubble:
En el "Profeta" (00:38:07):
En “Avatar” (1: 41: 04–1: 41: 05), el algoritmo de nitidez, por cierto, es algo inusual en comparación con otras películas: primero se afila en ciertos lugares, y después de una fracción de segundo, muestra el resto de la imagen, t .e. primero la mitad izquierda de la boca, y luego la derecha:
En general, en películas muy populares que son vistas por cientos de millones, la nitidez de la imagen se realiza con un solo clic.
¡Todas las personas (en las películas) lo hacen! Entonces, ¿por qué ustedes, expertos tan inteligentes, no pueden hacer esto?
"¡Sé que esto es fácil!" ¡Y definitivamente me dijeron que estás haciendo esto! ¿Eres demasiado vago para presionar este botón?
// Oh querido ... Malditos guionistas con su imaginación salvaje ...- ¡Entiendo que estás ocupado, pero se trata de tu ayuda al estado para resolver un crimen importante!
// Lo entendemos.- Tal vez se trata del dinero? ¿Cuánto tienes que pagar?
// Bueno, cómo explicar brevemente que no es que no necesitemos dinero ... Y luego otra vez, y luego otra vez ...
Cualquier coincidencia de las citas anteriores con diálogos reales es completamente aleatoria, pero, en particular, este texto está escrito con el fin de enviar a una persona a leerlo cuidadosamente primero, y solo luego devolver la llamada.
Conclusión: Debido al hecho de que la escena con la ampliación de las imágenes de las cámaras de CCTV con un solo clic se ha convertido en un sello del cine moderno, un gran número de personas está sinceramente convencido de que es muy simple ampliar un fragmento de un marco de una cámara barata o una grabadora de video barata. Lo principal es cómo preguntar (bueno, o mandar, así de afortunado).
¿De dónde crecen las piernas?
Está claro que esta secuencia completa de llamadas no se toma desde cero. Realmente hemos estado involucrados en la mejora del video durante aproximadamente 20 años, incluidos varios tipos de recuperación de video (y hay varios tipos de ellos, por cierto), y nuestros ejemplos serán más bajos en esta sección.
Un aumento "inteligente" en la resolución en artículos científicos generalmente se denomina Super Resolución (SR para abreviar). Google Scholar a pedido
Super Resolution encuentra 2.9 millones de artículos, es decir el tema fue, por así decirlo, bastante bien desenterrado, y un gran número de personas se ocupó de él. Si sigues
el enlace , entonces hay un mar de resultados, uno más hermoso que el otro. Sin embargo, vale la pena cavar más profundo, la imagen, como de costumbre, se vuelve no tan pastoral. El tema SR tiene dos direcciones:
- Súper resolución de video (0,4 millones de artículos): la restauración real utilizando fotogramas anteriores (y a veces posteriores),
- Superresolución de imagen (2,2 millones de artículos): aumento "inteligente" de la resolución con solo un fotograma. Dado que en el caso de una imagen para tomar información sobre lo que realmente no estaba en ningún lugar en este lugar, los algoritmos están completando (o, relativamente hablando, "completando") la imagen de una manera u otra, lo que podría estar allí. El criterio principal para esto es que el resultado debe verse lo más natural posible, o estar lo más cerca posible del original. Y está claro que tales métodos no son adecuados para restaurar lo que era "realmente", aunque agrandan la imagen para que se vea mejor, por ejemplo, al imprimir (cuando tiene una foto única, pero no hay una versión con mayor resolución ) Tales métodos son muy posibles.
Como puede ver, 0.4 millones versus 2.2, es decir, 5 veces menos personas participan en la recuperación real. Afortunadamente, el tema "hazlo más grande, simplemente hermoso" tiene una gran demanda, incluso en la industria (el notorio zoom digital de teléfonos inteligentes y jaboneras digitales). Además, si profundiza aún más, rápidamente queda claro que un número significativo de artículos sobre
Video Super Resolution también es un aumento en la resolución de video sin recuperación, porque la recuperación es difícil. Como resultado, podemos decir que aquellos que "lo hacen maravillosamente" son aproximadamente 10 veces más que aquellos que realmente están tratando de restaurar. Una situación bastante común en la vida, por cierto.
Vamos aún más profundo. Muy a menudo, los resultados del algoritmo son muy buenos, pero necesita, por ejemplo, 20 cuadros hacia adelante y 20 cuadros hacia atrás, y la velocidad de procesamiento de un cuadro es de aproximadamente
15 minutos cuando se usa la GPU más avanzada. Es decir durante 1 minuto, el video necesita 450 horas (casi 19 días). Oops-ss ... De acuerdo, esto no se parece en nada al instante "¡Zoom!" del cine Regularmente hay algoritmos que funcionan durante varios días por fotograma. Para los artículos, un mejor resultado suele ser más importante que el tiempo de funcionamiento, porque la aceleración es una tarea difícil por separado y es más fácil comer un elefante grande en partes. Esta es la diferencia entre la vida y el cine ...
La solicitud de algoritmos que se ejecutan en video a una velocidad razonable dio lugar a una dirección separada de
Super Resolución Rápida de Video : 0.18 millones de artículos, incluidos artículos "lentos" que se comparan con los "rápidos", es decir. El número real de artículos sobre tales métodos es exagerado. Tenga en cuenta que entre los enfoques "rápidos", el porcentaje de especulación, es decir sin recuperación real, más alto. En consecuencia, el porcentaje de recuperación honesta es menor.
La imagen, como ves, se está volviendo clara. Pero esto, por supuesto, está lejos de todo.
¿Qué otros puntos afectan significativamente la obtención de un buen resultado?
En primer lugar, el ruido es muy influyente. A continuación se muestra un ejemplo de una doble restauración de la resolución en un video muy ruidoso:
Fuente: materiales del autor.El principal problema en este fragmento no es ni siquiera con los ruidos habituales, sino con el
muaré de color en la camisa, que es difícil de procesar. Algunos podrían decir que los grandes ruidos no son un problema hoy. Esto no es asi. Mire los datos de los DVR de los automóviles y las cámaras de CCTV en la oscuridad (justo cuando tienen más demanda).
Sin embargo, el muaré también puede ocurrir en video relativamente "limpio" en términos de ruido, como la ciudad a continuación (los ejemplos a continuación se
basan en nuestro trabajo ):
Fuente: materiales del autor.En segundo lugar, para una recuperación óptima, se necesita una predicción cercana al ideal del movimiento entre cuadros. Por qué esto es difícil es un gran tema aparte, pero esto explica por qué las escenas con un movimiento de cámara panorámica a menudo se restauran muy bien, y las escenas con un movimiento relativamente caótico son extremadamente difíciles de recuperar, pero con ellas puede obtener un resultado bastante bueno en algunas situaciones:
Fuente: materiales del autor.Y finalmente, aquí hay un ejemplo de recuperación de texto:
Fuente: materiales del autor.Aquí, el fondo se mueve con bastante suavidad, y el algoritmo tiene la capacidad de "deambular":
En particular, si comparamos una inscripción muy pequeña a la derecha de la mano, incluida la ampliación con la
interpolación bicúbica clásica, entonces la diferencia es muy claramente visible:
Se puede ver que para la interpolación bicúbica es casi imposible leer el año, para
Lanczos4 , que es amado por aquellos que cambian semi-profesionalmente la resolución del video por la nitidez, los bordes son más claros, por supuesto, pero aún es imposible leer el año. No hacemos comentarios sobre el Topacio comercial, pero leemos claramente la inscripción y puede ver que probablemente sea 1809.
Conclusiones:
- Miles de investigadores en el mundo se dedican a aumentar la resolución, y se han publicado millones de artículos sobre este tema. Debido a esto, cada teléfono inteligente tiene un "zoom digital", que generalmente es objetivamente mejor que los algoritmos para aumentar los programas convencionales, y cada televisor FullHD puede mostrar video SD, a menudo incluso sin artefactos característicos de cambio de resolución.
- La recuperación de una imagen real de un video es mucho menos del 10% de los involucrados en la Súper Resolución, además, la mayoría de los algoritmos de recuperación son extremadamente lentos (hasta varios días de cálculos por cuadro).
- En la mayoría de los casos, la recuperación está diseñada para garantizar que las altas frecuencias en el video se conserven más o menos y, por lo tanto, no funcionen en video con artefactos de compresión significativos. Y dado que en la configuración de las cámaras de CCTV, la relación de compresión a menudo se elige en función del deseo de ahorrar más horas (es decir, el video se comprime más fuertemente y las altas frecuencias se "matan"), se hace casi imposible restaurar dicho video.
Cómo se ve SR en la industria
Para ser justos, observamos que hoy en día todos los algoritmos de resolución de resolución (y al menos comprados) están disponibles para todos los fabricantes de televisores (necesita hacer imágenes HD a partir de imágenes SD sobre la marcha), para todos los fabricantes de teléfonos inteligentes (lo que se llama "zoom digital" en publicidad), etc. .d. Hablaremos sobre los resultados de Google (y no solo). En primer lugar, porque Google es muy agradable y sin mucho pathos y marketing describe los resultados en su blog, y esto es extremadamente agradable. En segundo lugar, porque los fabricantes de teléfonos inteligentes (por ejemplo, una empresa coreana muy conocida) no rehúsan usar, por ejemplo, Photoshop en la publicidad de sus tecnologías (cuál es la diferencia, la gente todavía se traga), y esto es desagradable. En general, hablemos de aquellos que describen su tecnología con bastante honestidad.
En
2016, Google publicó resultados bastante interesantes del algoritmo
RAISR (Superresolución de imagen rápida y precisa) utilizado en el teléfono inteligente Pixel 2. En las imágenes más exitosas, el resultado se veía genial:
Fuente: Blog de Google AIEl algoritmo fue un conjunto de filtros utilizados después de la clasificación ML, y en comparación con la interpolación bicúbica (niño de azotes tradicional), el resultado complació:
En orden: original, interpolación bicúbica, RAISRPero fue la Interpolación de un solo cuadro, y en ejemplos "infructuosos", como el follaje de abajo, la imagen se distorsionó muy desagradablemente, después de la ampliación la imagen se volvió notablemente "sintética". Mostró exactamente el efecto por el cual no le gusta el zoom digital de los teléfonos inteligentes modernos:
El milagro, de hecho, no sucedió, y Google honesta e inmediatamente publicó un contraejemplo, es decir. Inmediatamente describió los límites de aplicabilidad de su enfoque y salvó a las personas de expectativas excesivas (típico del marketing convencional).
Sin embargo, menos de dos años después,
se publicó la
continuación del trabajo utilizado en Google Pixel 3 y mejora drásticamente la calidad de su disparo, que ya es una súper resolución honesta de múltiples cuadros, es decir. algoritmo de recuperación de resolución de múltiples cuadros:
Fuente: Blog de Google AILa imagen de arriba muestra una comparación de los resultados de Pixel 2 y Pixel 3, y los resultados se ven muy bien: la imagen realmente se volvió mucho más clara y se puede ver claramente que esto no está "pensando", sino realmente restaurando los detalles. Además, un lector profesional atento tendrá preguntas sobre dos tubos gemelos verticales a la izquierda. La resolución ha aumentado claramente, mientras que el paso de
alias (un signo de resolución real) parece extrañamente cercano. Que fue eso
En pocas palabras, analizaremos el algoritmo. Los colegas pasaron de cambiar la interpolación del
patrón de Bayer :
El hecho es que 2/3 de la información en una imagen real es en realidad información interpolada. Es decir su imagen YA está borrosa y "borrosa", pero con un nivel de ruido real esto no es tan significativo. Por cierto, la capacidad de utilizar algoritmos de interpolación más sofisticados ha hecho que los programas populares de conversión RAW de la más alta calidad para fotografías (la diferencia entre el algoritmo simple integrado en cada cámara y el algoritmo complejo de un programa especializado generalmente se note a simple vista cuando la imagen se amplía).
Los colegas de Google usan el hecho de que la gran mayoría de las fotos de teléfonos inteligentes se toman con las manos, es decir, la cámara temblará ligeramente:
Fuente: Blog de Google AI (imagen de varios cuadros alineada a nivel de píxel para mostrar el desplazamiento de subpíxel)Como resultado, si toma unos pocos cuadros y evalúa el cambio (y el hierro, que puede construir un mapa de estimación de movimiento con una precisión de un cuarto de píxel, está en cualquier teléfono inteligente con soporte H.264), obtenemos un mapa de cambio. Fiel a la animación anterior, se ve claramente que con un nivel de ruido real, construir un mapa de desplazamiento con precisión de subpíxeles es una tarea muy poco trivial, pero han aparecido muy buenos algoritmos en esta área durante los últimos 20 años. Por supuesto, a veces, y les cuesta mucho. Por ejemplo, en el ejemplo anterior, algo parpadea en un marco en la parte superior de la barandilla de la escalera. Y esto sigue siendo una escena estática, no hay objetos en movimiento que a veces no solo se muevan, sino que giren, cambien de forma, se muevan rápidamente, dejando grandes áreas de apertura (cuyo bucle no debe ser visible después del procesamiento). El siguiente ejemplo muestra claramentequé sucede con los objetos que se mueven rápidamente, si desactiva el procesamiento especial de tales casos (deshabilitado a la izquierda, habilitado a la derecha, si hace clic, los bloques de procesamiento son claramente visibles):
Fuente: Blog de Google AI (se recomienda hacer clic y ver en alta resolución)Ejemplos duros son las llamas, las ondas, el resplandor del sol en el agua, etc. En general, incluso en el problema "simple" de determinar el cambio, hay muchos momentos no triviales que complican significativamente la vida del algoritmo. Sin embargo, ahora no se trata de eso.Curiosamente, incluso si la cámara está completamente estacionaria (por ejemplo, montada en un trípode), puede hacer que el sensor se mueva a través del control del módulo de estabilización óptica (OIS - Estabilización óptica de imagen). Como resultado, obtenemos los cambios de subpíxeles deseados. En Pixel 3, se implementa la compatibilidad con OIS, y puede presionar el teléfono contra el cristal y observar con interés cómo OIS comienza a mover la imagen a lo largo de una elipse (aproximadamente, como este enlace), es decir, incluso en este caso de montaje en un trípode, difícil para él, la Super Resolución podrá resolver y mejorar la calidad. Sin embargo, la mayor parte de los disparos desde teléfonos inteligentes son disparos manuales.Como resultado, tenemos información adicional para construir una foto de mayor resolución:Como se mencionó anteriormente, la consecuencia directa de SR es una disminución significativa en el nivel de ruido, en algunos casos es muy notable:Fuente: Blog de Google AITenga en cuenta que la recuperación también significa la restauración por el número de bits por componente. Es decir
Al resolver formalmente el problema de aumentar la resolución, el mismo motor en ciertas condiciones no solo puede suprimir el ruido, sino también convertir el marco en HDR. Está claro que hoy HDR rara vez se usa, pero esto, como puede ver, es una buena ventaja.El siguiente ejemplo muestra una comparación de imágenes obtenidas al disparar en el Pixel 2 y en el Pixel 3 después de SR con una calidad de sensor comparable. La diferencia en el ruido y la diferencia en la claridad son claramente visibles:Para aquellos a quienes les gusta ver los detalles, hay un álbum en el que se puede apreciar la súper resolución de Google (nombre comercial Super Res Zoom) en todo su esplendor en el espectro de la escala de zoom de la imagen en un teléfono inteligente (cambio de FoV ): cómo escriben modestamente: dieron un paso más cerca de la calidad de disparo de los teléfonos inteligentes a la calidad de las cámaras profesionales. Para ser justos, observamos que las cámaras profesionales tampoco se quedan quietas. Otra cosa es que con ventas más pequeñas, las mismas tecnologías le costarán más al usuario. Sin embargo, SR ya está apareciendo en cámaras profesionales. UPD: Como ejemplo (el último enlace es una comparación):
- Testing Sony's New Pixel Shift Feature in the a7R III , 2 ( , ),
- Olympus E-M5 Mark II 16 40 ,
- Super Resolution Pentax K-1 ,
- : Pixel-Shift Shootout: Olympus vs. Pentax vs. Sony vs. Panasonic — Pentax K-1, Sony a7R III, Olympus OM-D E-M1 Mark II Panasonic Lumix DC-G9. , , , Pentax K-1.
:
- Super Resolution , , .
- SR: Image Super Resolution — ( ), .
- Los principales beneficios de los algoritmos de recuperación son la reducción de ruido, el refinamiento de los detalles, el HDR "más honesto", una calidad de imagen claramente visible y más alta en televisores de pantalla grande.
- Toda esta magnificencia fue posible gracias a un aumento cardinal (aproximadamente 3 órdenes de magnitud en número de operaciones) en la complejidad de los algoritmos de procesamiento de fotos, o más precisamente, un cuadro de video.
Resultados Yandex
Como todavía preguntarán en los comentarios, diré algunas palabras sobre Yandex, que publicó su versión de Super Resolution el año pasado:Fuente: https://yandex.ru/blog/company/oldfilmsY aquí hay algunos ejemplos de dibujos animados:Fuente: https://yandex.ru/blog/company/soyuzmultfilmQue fue eso Yandex repitió la
tecnología de Google en 2016 ?
En
la página de descripción de tecnología de Yandex (nombre comercial DeepHD) solo se vincula a Image Super Resolution. Esto significa que obviamente hay contraejemplos en los que el algoritmo estropea la imagen y son más comunes que los algoritmos de recuperación honestos. Pero alrededor del 80% de los artículos están dedicados al tema y el algoritmo es más fácil de implementar.
Esta tecnología
también se describió en un centro (es interesante que el autor del artículo sea un graduado de nuestro laboratorio), pero, como puede ver en los comentarios, los autores no respondieron ninguna de mis preguntas, mientras que respondieron las otras. Y estos, más bien, no son los autores de los villanos, sino la política de la compañía (en otras publicaciones, si se mira de cerca, a menudo tampoco hay respuestas a las preguntas de los expertos). Para los blogs de empresas de tecnología son reacios a profundizar en la discusión de la implementación o los detalles tecnológicos. Especialmente si esto crea una mejor impresión de la tecnología / producto. O los competidores pueden cortar lo mismo más rápido. Una vez más, el marketing es responsable de las publicaciones, y este es su trabajo directo: crear una impresión favorable de los productos de la compañía, independientemente de la calidad de los productos mismos. De ahí la frecuente desconfianza de la información proveniente del marketing.
En general, vale la pena ser muy escéptico sobre las imágenes de las compañías de la serie "cómo hicimos todo bien" por las siguientes razones:
- Los autores de algoritmos de procesamiento son conscientes de que prácticamente no hay algoritmos que en algunos casos no generarían artefactos. Y, de hecho, una de las tareas clave del desarrollador es reducir el porcentaje de tales casos (o la visibilidad de los artefactos en tales casos) mientras se mantiene la calidad en otros casos. Y muy a menudo esto NO tiene éxito:
- O los artefactos son tan fuertes y difíciles de arreglar que se rechaza todo el enfoque. En realidad este es el caso, quizás (¡sorpresa-sorpresa!), De la mayoría de los artículos. Imágenes divinas en algunos casos (que fueron puestas a tierra) y "no funciona en absoluto" en el resto.
- O (y esta es una situación común para las empresas de tecnología práctica), tiene que sacrificar algo de calidad en promedio para que se puedan tolerar los artefactos en los peores casos.
En consecuencia, cuando no se publican malos ejemplos (clásicos para empresas) o se publican de forma limitada y con valores predeterminados (clásicos para artículos), este es el caso más común de engañar a las personas sobre las propiedades de una tecnología / algoritmo.
- Otro concepto erróneo común con respecto a los algoritmos de procesamiento es el uso de parámetros (incluidos los parámetros internos) del algoritmo. Sucedió que los algoritmos tienen parámetros, y los usuarios, y esta es también la norma, prefieren tener a lo sumo un botón de "habilitar". E incluso si hay configuraciones, el usuario masivo no las usa. Es por eso que, cuando compran tecnología, "se detienen cien veces", vuelven a preguntar: "¿Es esta una máquina completa?" y pide muchos ejemplos.
- En consecuencia, una historia común es la publicación de un resultado que se obtuvo con ciertos parámetros. Afortunadamente, el desarrollador los conoce bien, e incluso cuando hay cincuenta de ellos (¡la situación real!), Los recoge muy rápidamente para que la imagen sea mágica. Exactamente estas imágenes a menudo van a la publicidad.
- Además, el desarrollador puede incluso estar en contra. Marketing ve los nuevos ejemplos enviados y dice: "no hay nada visible en ellos, ¡en la última presentación tuvo ejemplos normales!" Y luego pueden tratar de explicarles que los nuevos ejemplos son lo que la gente realmente ve, y en la última presentación, se mostraron resultados potenciales que pueden lograrse mediante estudios preliminares del inicio del proyecto. Esto no molesta a nadie. La gente obtendrá la imagen "donde puedes ver". En algunos casos, incluso las grandes empresas usan Photoshop. ¡El lío está servido, caballeros! )
- Además, cuando se trata de video, abre simplemente grandes espacios abiertos para la
máquina ... ¡ buen marketing! Por lo general, los cuadros se presentan y la calidad del video comprimido siempre oscila y depende de la masa de los parámetros. Nuevamente, varias tecnologías pueden aplicarse correctamente, el tiempo de procesamiento, nuevamente, puede ser diferente. Y eso no es todo, el alcance es excelente.
- La publicidad de Yandex afirma que la tecnología DeepHD funciona en tiempo real, por lo que hoy puede ver canales de televisión usándola . Se explicó anteriormente que la velocidad de operación es el talón de Aquiles de Super Resolución. La ventaja de las redes neuronales, por supuesto, es que al estudiar durante mucho tiempo, pueden funcionar muy rápidamente en algunos casos, pero aún así (con gran interés profesional) buscaría en qué resolución y calidad funciona el algoritmo en tiempo real. Por lo general, se crean varias modificaciones del algoritmo y a altas resoluciones en tiempo real, muchos "chips" (críticos para la calidad) tienen que ser desactivados. Demasiados
- En ejemplos en blanco y negro , una mirada más cercana revela que el brillo local está cambiando. Dado que el SR correcto no cambia el brillo, parece que algún otro algoritmo funcionó, tal vez no uno (los resultados muestran que esto no es Procesamiento de un solo cuadro, o más bien, parece que no solo). Si observa una pieza más grande (al menos 100 cuadros), la imagen será clara. Sin embargo, medir la calidad del video es un tema separado y muy importante.
Conclusiones:
- Debe comprender que los especialistas en marketing a menudo usan sus trucos precisamente porque funciona (¡y cómo!). La gran mayoría de las personas
no leen el centro Lo que regularmente conduce a todo tipo de distorsiones. ¡Deseo que todos se anuncien menos, especialmente cuando la narración de cuentos está en su mejor momento y realmente querrá creer en un milagro!
- Y, por supuesto, es muy bueno que Yandex también trabaje en el tema y haga su propio SR (más precisamente, su propia familia SR).
Perspectivas
Volvamos a donde empezamos. ¿Qué hacer para aquellos que desean aumentar el video comprimido? ¿Es todo esto malo?
Como se describió anteriormente, incluso un ligero cambio en la imagen en la región, literalmente en el nivel de ruido, es crítico para los algoritmos de recuperación "honesta". Es decir, las altas frecuencias en la imagen y su cambio entre cuadros son críticos.
En este caso, lo principal debido a que se realiza la compresión de video es la eliminación del ruido entre cuadros. En el ejemplo a continuación, la diferencia entre cuadros de un video ruidoso antes de la compensación de movimiento, después de la compensación (con compresión débil) y después de una compresión notable: sienta la diferencia (el contraste se eleva aproximadamente 6 veces para que se puedan ver los detalles):
Fuente: conferencias del autor sobre algoritmos de compresión.Se puede ver claramente que desde el punto de vista del códec, el área ideal es el área en la que el movimiento en el que se compensó por completo y en el que no es necesario gastar más bits. Bueno, se puede gastar un poco, algo mínimamente corregido. Y puede haber bastantes áreas de este tipo. Por lo tanto, Super Resolution pierde su "pan principal": información sobre lo que hay en este lugar en otros cuadros, teniendo en cuenta el desplazamiento de subpíxeles.
Si mira los artículos, incluso para un JPEG relativamente simple, la
restauración de jpeg contiene 26 mil resultados, y para la
recuperación de jpeg : 52 mil, y esto junto con la restauración de archivos rotos, etc. Para el video, la situación es peor que la
restauración de MPEG : 22 mil, es decir El trabajo, por supuesto, está en marcha, pero la escala del trabajo en Super Resolución no es comparable. Hay aproximadamente un orden de magnitud menos trabajo que restaurar la resolución de video y dos órdenes de magnitud menos que la Superresolución de imagen. Dos pedidos es mucho. También hicimos un acercamiento al proyectil (ya que hemos estado haciendo compresión y procesamiento durante mucho tiempo), hay algo con lo que trabajar, especialmente si la calidad es oscilante o se usa algo como M-JPEG (más recientemente, una imagen común en video vigilancia). Pero todos estos serán casos especiales.
Los resultados de los artículos de los enlaces anteriores también muestran que los resultados a veces son muy hermosos, pero se obtienen para casos muy especiales. Es decir mañana, en todos los teléfonos inteligentes, esta función, por desgracia, no aparecerá. Estas son malas noticias. Bien, pasado mañana y en una computadora con una buena GPU, aparecerá con seguridad.
Razones:
- Los dispositivos de almacenamiento (tarjetas SD para registradores, discos para cámaras de CCTV, etc.) se están volviendo gradualmente más baratos y la tasa de bits promedio para guardar video está aumentando.
- Además, durante la compresión, cambian gradualmente a los estándares de las próximas generaciones (por ejemplo, en HEVC), lo que significa una mejora notable en la calidad con la misma tasa de bits. Los últimos 2 puntos significan que gradualmente la calidad del video será más alta y, a partir de cierto punto, los algoritmos de Superresolución de video bien desarrollados comenzarán a funcionar.
- Finalmente, se están mejorando los algoritmos. Los logros de los algoritmos basados en el aprendizaje automático en los últimos 4 años son especialmente buenos. En este sentido, con alta probabilidad podemos esperar algo como esto:

Es decir el algoritmo usará explícitamente la información de movimiento recibida del códec, y luego estos datos se enviarán a una red neuronal capacitada para recuperar artefactos específicos de códecs específicos. Tal esquema actualmente parece bastante factible.
Pero en cualquier caso, debe comprender claramente que la recuperación actual es, por regla general, un aumento de 2 veces en la resolución. Con menos frecuencia, en algunos casos, cuando el material de origen no se comprimió o casi no se comprimió, podemos hablar de 3 a 4 veces. Como puede ver, esto ni siquiera es cerca de 100-1000 veces el aumento de las películas, cuando 1,5 píxeles de una grabación nocturna con ruido se convierten en un número de automóvil de excelente calidad. Al género de "ciencia ficción" se le debe asignar, de hecho, un mayor porcentaje de películas y programas de televisión.
Y, por supuesto, habrá intentos de hacer algo universal, en el marco de la tendencia de la moda "lo principal es cortar más capas". Y aquí vale la pena advertir contra las reacciones de "aplausos" a los materiales publicitarios sobre este tema. Las redes neuronales son el marco más conveniente para demostrar milagros y todo tipo de especulaciones. Lo principal es elegir correctamente la muestra de entrenamiento y los ejemplos finales. Y voila! ¡Mira el milagro! Muy conveniente en términos de apresurar a los inversores, por cierto. Es decir, es extremadamente importante que la eficiencia de las tecnologías sea confirmada por alguien independiente en una gran cantidad de ejemplos heterogéneos, lo que rara vez se demuestra. Para las empresas, incluso dar uno o dos ejemplos cuando la tecnología no funciona, hoy se equipara a una hazaña civil.
Bueno, para que la vida no parezca cariño, te recordaré que la llamada transcodificación es popular hoy en día, cuando de hecho tienes que trabajar con un video que originalmente fue reducido por un algoritmo y luego reducido por otro, mientras se usan otros vectores de movimiento, los altos se destruyen nuevamente. frecuencias etc. Y el hecho de que una persona vea todo bien allí no significa que el algoritmo que procesa tal video realmente haga milagros. No será posible restaurar videos muy pellizcados, aunque en general la Super Resolución se desarrollará rápidamente en los próximos 10 años.
Conclusiones:
- Recuerda que lo que ves en las películas y cómo es en la vida real es muy diferente. ¡Y no solo en términos de recuperación de video altamente comprimido!
- Por lo general, los algoritmos modernos aumentan las resoluciones 2 veces, con menos frecuencia, un poco más, es decir No 50 veces, conocido por las películas, pronto tendrá que esperar.
- El área de Superresolución está en auge y puede esperar el desarrollo activo de Video Restoration en los próximos años, incluida la recuperación después de la compresión.
- Pero lo primero que veremos es todo tipo de especulaciones sobre el tema, cuando los resultados demostrados exagerarán en gran medida las capacidades reales de los algoritmos. Ten cuidado
A finales del año pasado, dimos una conferencia "Redes neuronales en el procesamiento de video: mitos y realidad". Quizás podamos ponerla aquí.
Estén atentos!
Agradecimientos
Me gustaría agradecerle cordialmente:
- Laboratorio de Computación Gráfica VMK Universidad Estatal de Moscú MV Lomonosov para potencia informática y no solo
- nuestros colegas del grupo de videos, gracias a quienes se crearon los algoritmos anteriores, y especialmente a Karen Simonyan, la autora del artículo cuyos resultados se mostraron anteriormente y que ahora trabaja en Google DeepMind,
- personalmente Konstantin Kozhemyakov, quien hizo mucho para hacer este artículo mejor y más visual,
- Google por un excelente blog y descripciones relativamente correctas de las tecnologías creadas, y Yandex por competir muy bien en un frente amplio: Google es prácticamente el único ejemplo exitoso en un país donde los servicios de Google no están prohibidos,
- Habrovchan denisshabr , JamboJet e iMADik por la sugerencia y los enlaces a cámaras profesionales SR de fotogramas múltiples,
- y finalmente, muchas gracias a Vyacheslav Napadovsky, Evgeny Kuptsov, Stanislav Grokholsky, Ivan Molodetsky, Alexei Soloviev, Evgeny Lyapustin, Yegor Sklyarov, Denis Kondranin, Alexandra Anzina, Roman Kazantsev y Gleb Ishelev por esta gran cantidad de comentarios útiles. mejor!