Aumente isso! Aumento da resolução moderna


Eu já parei de tremer e me perguntar quando o telefone toca e uma voz forte e confiante toca no receptor: "É este o capitão que está incomodando você (major e tal), você pode responder a algumas perguntas?" Por que não falar com sua própria polícia ...

As perguntas são sempre as mesmas. "Temos um vídeo com o suspeito, por favor, ajude a restaurar o rosto" ... "Ajude a aumentar o número do DVR" ... "Não há mãos humanas aqui, por favor, ajude a aumentar" ... E assim por diante.

Para deixar claro o que é isso, aqui está um exemplo real de um vídeo altamente compactado enviado onde eles pedem para restaurar um rosto desfocado (cujo tamanho é equivalente a cerca de 8 pixels):


E tudo bem, apenas os tios russos de Stepa perturbariam, escrevem os Western Pinkertones.
Aqui, por exemplo, está uma carta da polícia da Inglaterra <***** @ *****. Fsnet.co.uk>:
Eu uso seus filtros em particular há algum tempo para resgatar meus vídeos ruins de férias em família, mas gostaria de usar os filtros comerciais para o meu trabalho. Atualmente, sou policial de uma pequena força policial e estamos recebendo muitos vídeos de CFTV, que em algum momento são de péssima qualidade e posso ver como seus filtros fariam uma diferença real. Você pode me dizer o custo e se eu poderia usá-los.

Obrigada

Tradução
Eu já usei seus filtros para fins pessoais para salvar meus vídeos ruins de férias em família. Mas eu gostaria de usar filtros comerciais no meu trabalho. Atualmente sou policial em uma pequena unidade. Recebemos um grande número de vídeos das câmeras de CFTV, às vezes de qualidade muito baixa, e seus filtros realmente ajudarão. Você poderia me dizer o custo deles e posso usá-los?

Obrigada
Ou aqui está um policial da Austrália:
Oi
Trabalho para a polícia de Victoria, na Austrália, na unidade forense de vídeo e áudio. Ocasionalmente, recebemos vídeos de câmeras portáteis ou montadas em veículos. Geralmente, eles capturam imagens entrelaçadas de eventos em movimento rápido. Em particular, a filmagem que geralmente tem mais "promessa" é filmagem das chapas de matrícula dos veículos. Frequentemente, descobrimos que o veículo em questão se moveu significativamente entre o primeiro e o último campo capturado. Como resultado, tentamos reconstruir todo o quadro a partir dos dois campos, com o segundo sendo traduzido, às vezes girado e, ocasionalmente, o tamanho também será diferente (conforme o veículo estiver se afastando ou em direção à câmera). Casando esses dois campos , de preferência com precisão de sub-pixel, e a reconstrução do quadro que contém a chapa de matrícula, pode ser difícil.
Pelo que vi de você desentrelaçar as cenas, pode ser que seu filtro possa fazer parte, se não tudo, do que precisamos. Para ser sincero, como nosso orçamento é bastante pequeno, é improvável que possamos comprar uma licença comercial. Nós não vendemos o produto, é claro, nós o usamos como evidência em casos policiais. De qualquer forma, pensei em escrever um e-mail e perguntar de qualquer maneira. Quanto custaria uma licença? É possível testar o produto em filmagens, para ver se é apropriado? Faz parte do que precisamos? Por fim, o algoritmo foi publicado? Trabalhar com algoritmos desconhecidos é uma prática perigosa para um tribunal. Se a evidência resultar em um homem que fica preso por 20 anos, é uma boa prática saber o porquê!

Qualquer informação que você possa oferecer seria apreciada.

Atenciosamente,
Caseworker
Audio Visual Unit
Departamento de Serviços Forenses da Polícia de Victoria

Tradução
Oi
Trabalho para a polícia de Victoria, na Austrália, no departamento de áudio e vídeo forense. De tempos em tempos, recebemos vídeos de câmeras portáteis e DVRs. Geralmente, esses vídeos são filmagens entrelaçadas de objetos em movimento rápido. Em particular, o material mais importante são as placas dos veículos. Frequentemente, descobrimos que o veículo em questão se move fortemente entre o primeiro e o último campo capturado. Como resultado, estamos tentando restaurar um quadro inteiro de dois campos, o segundo sendo deslocado, às vezes girado e às vezes diferente em tamanho (quando o carro está viajando para ou da câmera). Combinar esses dois campos, de preferência com precisão de meio pixel, e restaurar um quadro inteiro contendo uma placa de carro pode ser difícil.

Vejo como você aplica o desentrelaçamento aos quadros, e talvez seus filtros possam fazer algo, se não tudo o que precisamos. Honestamente, talvez não consigamos pagar uma licença comercial, porque nosso orçamento é bastante pequeno. Nós não vendemos o produto, é claro, nós o usamos como evidência em casos policiais. De qualquer forma, pensei em escrever uma carta e ainda perguntar. Quanto custará a licença? É possível testar o produto no material para descobrir se é adequado? Ele faz parte do que precisamos? Finalmente, o algoritmo foi publicado? .. Trabalhar com algoritmos desconhecidos é uma prática perigosa em tribunal. Se a evidência leva uma pessoa a ir para a prisão por 20 anos, é útil saber o porquê.

Seremos gratos por qualquer informação que você possa nos fornecer.

Atenciosamente
Investigador
Divisão de Áudio e Vídeo
Departamento Forense da Polícia de Victoria
Observe que a carta é muito atenciosa, uma pessoa está preocupada com o algoritmo sendo publicado e com a responsabilidade pela recuperação incorreta.

Às vezes, eles apenas no processo de correspondência admitem que são da polícia. Por exemplo, os carabinieri da Itália gostariam de ajuda:
Dr. Vatolin
Obrigado pela resposta.
A resposta vale também para as forças policiais (investigação Carabinieri
científico para a PARMA ITÁLIA)?
Para qual software eles associam seus algoritmos a você.
Seríamos muito.

Tradução
Dr. Batolin
Obrigado pela resposta.
Isso é adequado para a polícia (unidade de investigação Carabinieri para o PARMA ITÁLIA)?
Eles estão interessados ​​em qual software seus algoritmos usam?
Seremos gratos.
E, claro, muitos apelos das pessoas comuns ...

Aumente isso! Você sente muito pelo botão certo para pressionar?


É claro que todo esse fluxo de chamadas não aparece do zero.

"Culpar" principalmente filmes e programas de TV.

Por exemplo, aqui em 3 segundos o quadro do vídeo compactado é aumentado em 50 vezes e pelo reflexo nos óculos eles veem evidências:


E existem muitos desses momentos em filmes e séries modernos. Por exemplo, neste vídeo, coletamos esses episódios de maneira épica de um pacote de programas de TV, não demore dois minutos para assistir:


E quando você vê isso em todos os filmes, então o último porco-espinho fica claro que tudo o que você precisa é ter um gênio da computação competente, uma combinação de algoritmos modernos e resta apenas "PARAR!" e "Aprimore!" . E pronto! Um milagre vai acontecer!

No entanto, os roteiristas não param nesta recepção já hackeada e sua imaginação desenfreada vai além. Aqui está um exemplo muito monstruoso. Detetives corajosos para refletir no aluno da vítima receberam uma foto do agressor. De fato, o reflexo nos óculos já estava lá. Isso é comum. Vamos seguir em frente! Só que a resolução da câmera de CCTV na escada acabou sendo bastante aleatória como o telescópio do Hubble:


No "Profeta" (00:38:07):

Em “Avatar” (1: 41: 04–1: 41: 05), o algoritmo de nitidez, a propósito, é um tanto incomum em comparação com outros filmes: ele primeiro afia em certos lugares e depois de uma fração de segundo puxa o restante da imagem, t .e. primeiro a metade esquerda da boca e depois a direita:


Em geral, em filmes muito populares que são assistidos por centenas de milhões, a nitidez da imagem é feita em um clique. Todas as pessoas (nos filmes) fazem isso! Então, por que você, especialistas tão espertos, não pode fazer isso ???


"Eu sei que isso é fácil!" E me disseram definitivamente que você está fazendo isso! Você está com preguiça de pressionar este botão?

// Oh querido ... Roteiristas malditos com sua imaginação selvagem ...

- Entendo que você está ocupado, mas trata-se de sua ajuda ao estado na solução de um crime importante!

// Nós entendemos.

- Talvez seja sobre o dinheiro? Quanto você precisa pagar?

// Bem, como explicar brevemente que não é que não precisamos de dinheiro ... E então novamente, e novamente ...

Qualquer coincidência das citações acima com diálogos reais é completamente aleatória, mas, em particular, este texto é escrito para enviar uma pessoa a lê-lo cuidadosamente primeiro e só depois retornar a ligação.
Conclusão: Devido ao fato de que a cena com o aumento de imagens das câmeras de CFTV em um clique se tornou um selo do cinema moderno, um grande número de pessoas está sinceramente convencido de que é muito simples ampliar um fragmento de um quadro de uma câmera barata ou de um gravador de vídeo barato. O principal é como perguntar (bem, ou comandar, é assim que acontece).

De onde as pernas crescem


É claro que todo esse fluxo de chamadas não é obtido do zero. Estamos realmente envolvidos na melhoria de vídeo há cerca de 20 anos, incluindo vários tipos de recuperação de vídeo (a propósito, existem vários tipos), e nossos exemplos serão mais baixos nesta seção.

Um aumento "inteligente" na resolução de artigos científicos é geralmente chamado de Super Resolução (SR, abreviado). O Google Scholar, mediante solicitação, Super Resolution encontra 2,9 milhões de artigos, ou seja, o tópico foi, por assim dizer, bastante bem desenterrado, e um grande número de pessoas lidou com ele. Se você seguir o link , haverá um mar de resultados, um mais bonito que o outro. No entanto, vale a pena aprofundar, o quadro, como sempre, não se torna tão pastoral. O tema SR tem duas direções:

  • Super-resolução de vídeo (0,4 milhão de artigos) - a restauração real usando quadros anteriores (e às vezes subsequentes),
  • Super-resolução de imagem (2,2 milhões de artigos) - aumento "inteligente" na resolução usando apenas um quadro. Como no caso de uma figura para obter informações sobre o que realmente não estava em lugar nenhum, os algoritmos de uma maneira ou de outra completam a figura (ou, relativamente falando, “pensam”) a figura - o que poderia estar lá. O principal critério para isso é que o resultado seja o mais natural possível ou o mais próximo possível do original. E é claro que esses métodos não são adequados para restaurar o que era “realmente”, apesar de ampliar a imagem para que pareça melhor, por exemplo, ao imprimir (quando você tem uma foto exclusiva, mas não há versão em alta resolução) ) Tais métodos são muito possíveis.

Como você pode ver, 0,4 milhão versus 2,2 - ou seja, 5 vezes menos pessoas estão envolvidas na recuperação real. Felizmente, o tópico “faça maior, apenas bonito” é muito procurado, inclusive no setor (o notório zoom digital de smartphones e saboneteiras digitais). Além disso, se você se aprofundar ainda mais, fica claro rapidamente que um número significativo de artigos sobre a super resolução de vídeo também é um aumento na resolução do vídeo sem recuperação, porque a recuperação é difícil. Como resultado, podemos dizer que aqueles que "fazem lindamente" são cerca de 10 vezes mais do que aqueles que realmente estão tentando restaurar. A propósito, uma situação bastante comum na vida.

Nós vamos ainda mais fundo. Muitas vezes, os resultados do algoritmo são muito bons, mas são necessários, por exemplo, 20 quadros para a frente e 20 quadros para trás, e a velocidade de processamento de um quadro é de cerca de 15 minutos ao usar a GPU mais avançada. I.e. por 1 minuto, o vídeo precisa de 450 horas (quase 19 dias). Ops-ss ... Concordo, isso não é nada parecido com o instante “Zoom it!” dos filmes. Regularmente, existem algoritmos que funcionam por vários dias por quadro. Para artigos, um resultado melhor geralmente é mais importante que o tempo de trabalho, porque a aceleração é uma tarefa difícil separada e é mais fácil comer um elefante grande em partes. Essa é a diferença entre vida e cinema ...

A solicitação de algoritmos em execução no vídeo a uma velocidade razoável deu origem a uma direção separada de Super resolução rápida de vídeo - 0,18 milhão de artigos, incluindo artigos "lentos" que são comparados com os "rápidos", ou seja, o número real de artigos sobre esses métodos é exagerado. Observe que, entre as abordagens "rápidas", a porcentagem de especulativas, ou seja, sem recuperação real, maior. Consequentemente, a porcentagem de recuperação honesta é menor.

A imagem, você vê, está ficando clara. Mas isso, é claro, está longe de tudo.

Que outros pontos afetam significativamente a obtenção de um bom resultado?

Em primeiro lugar, o ruído é muito influente. Abaixo está um exemplo de uma restauração dupla da resolução em um vídeo muito barulhento:


Fonte: materiais do autor

O principal problema neste fragmento não é mesmo com os ruídos habituais, mas com o moiré colorido na camisa, que é difícil de processar. Alguns podem dizer que grandes ruídos não são um problema hoje. Isto não é verdade. Observe os dados dos DVRs e câmeras de CFTV do carro no escuro (exatamente quando eles são mais procurados).

No entanto, moiré também pode ocorrer relativamente "limpo" em termos de ruído de vídeo, como na cidade abaixo (os exemplos abaixo são baseados em nosso trabalho ):


Fonte: materiais do autor

Em segundo lugar, para uma recuperação ideal, é necessária uma previsão de movimento próxima ao ideal entre os quadros. Por que isso é difícil é um grande tópico separado, mas isso explica por que as cenas com um movimento panorâmico da câmera são muitas vezes restauradas muito bem e as cenas com um movimento relativamente caótico são extremamente difíceis de recuperar, mas com elas você pode obter um bom resultado em algumas situações:

Fonte: materiais do autor

E, finalmente, aqui está um exemplo de recuperação de texto:


Fonte: materiais do autor

Aqui, o plano de fundo se move bastante bem e o algoritmo tem a capacidade de "vagar":



Em particular, se compararmos uma inscrição muito pequena à direita da mão, incluindo a ampliação com interpolação bicúbica clássica, a diferença será claramente visível:


Pode-se ver que para a interpolação bicúbica é quase impossível ler o ano, para Lanczos4 , que é amado por quem muda semiprofissionalmente a resolução do vídeo para obter nitidez, as bordas são mais nítidas, é claro, mas ainda é impossível ler o ano. Não comentamos o Topázio comercial, mas lemos claramente a inscrição e você pode ver que é provável que isso seja 1809.
Conclusões:

  • Milhares de pesquisadores no mundo estão empenhados em aumentar a resolução e milhões de artigos foram publicados sobre esse assunto. Devido a isso, cada smartphone possui um “zoom digital”, que geralmente é objetivamente melhor do que os algoritmos para aumentar os programas convencionais, e cada TV FullHD pode exibir vídeo SD, geralmente mesmo sem artefatos característicos da alteração da resolução.
  • A recuperação de uma imagem real de um vídeo é muito inferior a 10% dos envolvidos na Super Resolução. Além disso, a maioria dos algoritmos de recuperação é extremamente lenta (até vários dias de cálculos por quadro).
  • Na maioria dos casos, a recuperação é projetada para garantir que as altas frequências do vídeo sejam mais ou menos preservadas e, portanto, não funcionem no vídeo com artefatos de compactação significativos. E, como nas configurações das câmeras de CFTV, a taxa de compactação geralmente é escolhida com base no desejo de economizar mais horas (ou seja, o vídeo é compactado com mais força e as altas frequências são “mortas”), torna-se quase impossível restaurar esse vídeo.

Como é o SR no setor


Para ser sincero, observamos que hoje todos os algoritmos de aumento de resolução (ou pelo menos comprados) estão disponíveis para todos os fabricantes de TV (você precisa criar imagens HD a partir de imagens SD em tempo real), para todos os fabricantes de smartphones (o que é chamado de “zoom digital” em publicidade) etc. .d. Falaremos sobre os resultados do Google (e não apenas). Primeiro, porque o Google é muito bom e sem muito patos e marketing descreve os resultados em seu blog - e isso é extremamente bom. Em segundo lugar, porque os fabricantes de smartphones (por exemplo, uma empresa coreana muito conhecida) não evitam usar, digamos, o Photoshop na publicidade de suas tecnologias (qual é a diferença - as pessoas ainda engolem) - e isso é desagradável. Em geral, vamos falar sobre aqueles que descrevem sua tecnologia com bastante honestidade.

Em 2016, o Google publicou resultados bastante interessantes do algoritmo RAISR (Rapid and Accurate Image Super Resolution) usado no smartphone Pixel 2. Nas imagens de maior sucesso, o resultado foi ótimo:


Fonte: Blog do Google AI

O algoritmo foi um conjunto de filtros usados ​​após a classificação do ML, e comparado com a interpolação bicúbica (chicote tradicional), o resultado foi o seguinte:


Em ordem: interpolação bicúbica original, RAISR

Mas foi a interpolação de quadro único e, em exemplos "malsucedidos", como a folhagem abaixo, a imagem ficou muito desagradável - depois de ampliada, a imagem tornou-se visivelmente "sintética". Ele mostrou exatamente o efeito pelo qual o zoom digital dos smartphones modernos não é apreciado:


O milagre, na verdade, não aconteceu, e o Google publicou honestamente e imediatamente um contra-exemplo, ou seja, imediatamente delineou os limites de aplicabilidade de sua abordagem e salvou as pessoas de expectativas excessivas (típicas do marketing convencional).

No entanto, menos de dois anos depois, a continuação do trabalho usado no Google Pixel 3 foi publicada e melhora drasticamente a qualidade de suas filmagens, que já é uma super resolução honesta com vários quadros, ou seja. algoritmo de recuperação de resolução de vários quadros:


Fonte: Blog do Google AI

A imagem acima mostra uma comparação dos resultados do Pixel 2 e Pixel 3, e os resultados parecem muito bons - a imagem realmente ficou muito mais clara e é claramente visto que isso não está "pensando", mas realmente restaurando detalhes. Além disso, um leitor profissional atencioso terá perguntas sobre dois tubos duplos verticais à esquerda. A resolução aumentou claramente, enquanto a etapa de alias (um sinal de resolução real) parece estranhamente próxima. O que foi aquilo?

Em poucas palavras, analisaremos o algoritmo. Os colegas mudaram a interpolação do padrão Bayer :


O fato é que 2/3 das informações em uma imagem real são realmente interpoladas. I.e. sua foto JÁ está desfocada e “desfocada”, mas com um nível de ruído real, isso não é tão significativo. A propósito, a capacidade de usar algoritmos de interpolação mais complexos criou programas populares com a conversão RAW da mais alta qualidade para fotografias (a diferença entre o algoritmo simples incorporado em cada câmera e o algoritmo complexo de um programa especializado é geralmente perceptível a olho nu quando a imagem é ampliada).

Os colegas do Google usam o fato de que a grande maioria das fotos de smartphones é tirada com as mãos, ou seja, a câmera treme levemente:


Fonte: Blog do Google AI (imagem de vários quadros alinhada no nível do pixel para mostrar a mudança de subpixels)

Como resultado, se você tirar alguns quadros e avaliar a mudança (e o ferro, capaz de construir um mapa de estimativa de movimento com precisão de um quarto de pixel, estiver em qualquer smartphone com suporte a H.264), obteremos um mapa de mudança. Fiel à animação acima, é claramente visto que, com um nível de ruído real, a construção de um mapa de deslocamento com precisão de subpixel é uma tarefa muito não trivial, mas algoritmos muito bons apareceram nessa área nos últimos 20 anos. Claro, às vezes, e eles têm dificuldade. Por exemplo, no exemplo acima, algo pisca em um quadro na parte superior do corrimão da escada. E ainda é uma cena estática, não há objetos em movimento que às vezes não se movem, mas giram, mudam de forma, se movem rapidamente, deixando grandes áreas de abertura (cujo loop não deve ser visível após o processamento). O exemplo abaixo mostra claramenteo que acontece com objetos em movimento rápido, se você desativar o processamento especial desses casos (desativado à esquerda, ativado à direita, se você clicar em, os blocos de processamento serão claramente visíveis):


Fonte: Blog do Google AI (recomendado para clicar e ver em alta resolução)

Exemplos difíceis são chamas, ondulações, brilho do sol na água, etc. Em geral, mesmo no problema "simples" de determinar a mudança, há muitos momentos não triviais que complicam significativamente a vida do algoritmo. No entanto, agora não se trata disso.

Curiosamente, mesmo que a câmera esteja completamente estacionária (por exemplo, montada em um tripé), você pode fazer o sensor se mover através do controle do módulo de estabilização óptica (OIS - Optical Image Stabilization). Como resultado, obtemos as mudanças de subpixel desejadas. No Pixel 3, o suporte ao OIS é implementado, e você pode pressionar o telefone contra o vidro e observar com interesse como o OIS começa a mover a imagem ao longo de uma elipse (aproximadamente, como este link), ou seja, mesmo neste caso de montagem em um tripé, difícil para ele, a Super Resolução poderá trabalhar e melhorar a qualidade. No entanto, a maior parte das filmagens de smartphones é na mão.

Como resultado, temos informações adicionais para criar uma foto com resolução maior:


Como mencionado acima, a consequência direta do SR é uma diminuição significativa no nível de ruído; em alguns casos, é muito perceptível:


Fonte: Blog do Google AI

Observe que recuperação também significa restauração pelo número de bits por componente. I.e.resolvendo formalmente o problema de aumentar a resolução, o mesmo mecanismo sob certas condições pode não apenas suprimir o ruído, mas também transformar o quadro em HDR. É claro que hoje o HDR raramente é usado, mas isso, como vê, é um bom bônus.

O exemplo abaixo mostra uma comparação de imagens obtidas ao fotografar no Pixel 2 e no Pixel 3 após SR com qualidade de sensor comparável. A diferença de ruído e a diferença de clareza são claramente visíveis:


Para quem gosta de ver os detalhes, há um álbum no qual a Super Resolution do Google (nome de marketing Super Res Zoom) pode ser apreciada em toda a sua glória no espectro da escala de zoom da imagem em um smartphone (mudança de FoV ): como eles escrevem modestamente - eles deram um passo mais perto da qualidade de fotografia dos smartphones à qualidade das câmeras profissionais. Para ser sincero, observamos que as câmeras profissionais também não param. Outra coisa é que, com vendas menores, as mesmas tecnologias custarão mais para o usuário. No entanto, o SR já está aparecendo em câmeras profissionais. UPD: Como exemplo (o último link é uma comparação):










:

  • Super Resolution , , .
  • SR: Image Super Resolution — ( ), .
  • Os principais bônus dos algoritmos de recuperação são redução de ruído, refinamento de detalhes, HDR “mais honesto”, qualidade de imagem claramente mais visível em televisores de tela grande.
  • Toda essa magnificência foi possível graças a um aumento cardinal (em cerca de 3 ordens de grandeza no número de operações) na complexidade dos algoritmos de processamento de fotos ou, mais precisamente, em um quadro de vídeo.

Resultados Yandex


Como eles ainda perguntam nos comentários, vou dizer algumas palavras sobre o Yandex, que publicou sua versão da Super Resolução no ano passado:


Fonte: https://yandex.ru/blog/company/oldfilms

E aqui estão alguns exemplos de desenhos animados:


Fonte: https://yandex.ru/blog/company/soyuzmultfilm

O que foi aquilo? Yandex repetiu a tecnologia do Google em 2016 ?

Na página de descrição da tecnologia da Yandex (nome de marketing DeepHD), é vinculado apenas à Super Resolução de Imagem. Isso significa que obviamente existem contra-exemplos nos quais o algoritmo estraga a imagem e eles são mais comuns do que para algoritmos honestos de recuperação. Mas cerca de 80% dos artigos são dedicados ao tópico e o algoritmo é mais fácil de implementar.

Essa tecnologia também foi descrita em um hub (é interessante que o autor do artigo tenha se formado em nosso laboratório), mas, como você pode ver nos comentários, os autores não responderam a nenhuma das minhas perguntas enquanto responderam às outras. E esses não são os autores dos vilões, mas a política da empresa (em outros posts, se você olhar de perto, também muitas vezes não há respostas para perguntas de especialistas). Para os blogs de empresas de tecnologia, relutam em aprofundar a discussão sobre detalhes de implementação ou tecnologia. Especialmente se isso criar uma melhor impressão da tecnologia / produto. Ou os concorrentes podem cortar a mesma coisa mais rapidamente. Novamente, o marketing é responsável pelas postagens, e esse é o trabalho direto delas - criando uma impressão favorável dos produtos da empresa, independentemente da qualidade dos próprios produtos. Daí a desconfiança frequente das informações provenientes do marketing.

Em geral, vale a pena ser muito cético em relação às fotos das empresas da série "como fizemos tudo bem" pelas seguintes razões:

  • Os autores dos algoritmos de processamento estão cientes de que praticamente não existem algoritmos que, em alguns casos, não gerariam artefatos. E, de fato, uma das principais tarefas do desenvolvedor é reduzir a porcentagem desses casos (ou a visibilidade dos artefatos nesses casos), mantendo a qualidade em outros casos. E muitas vezes isso NÃO tem êxito:

    • Ou os artefatos são tão fortes e difíceis de corrigir que toda a abordagem é rejeitada. Na verdade, esse é o caso, talvez (surpresa-surpresa!), Da maioria dos artigos. Imagens divinas em alguns casos (que foram gravadas) e “não funciona” no restante.
    • Ou (e essa é uma situação comum para empresas de tecnologia práticas), é necessário sacrificar em média alguma qualidade para que os artefatos nos piores casos possam ser tolerados.

Assim, quando exemplos ruins não são publicados (clássicos para empresas) ou publicados de forma limitada e com padrões (clássicos para artigos) - esse é o caso mais comum de pessoas enganosas sobre as propriedades de uma tecnologia / algoritmo.

  • Outro equívoco comum sobre algoritmos de processamento é o uso de parâmetros (incluindo parâmetros internos) do algoritmo. Os algoritmos, por acaso, têm parâmetros e usuários - e esta também é a norma - como ter no máximo um botão "ativar". E mesmo se houver configurações, o usuário em massa não as utiliza. É por isso que, ao comprar tecnologia, "para cem" vezes, eles perguntam novamente: "Isso com certeza é uma máquina completa?" e peça muitos exemplos.

    • Assim, uma história comum é a publicação de um resultado obtido com determinados parâmetros. Felizmente, o desenvolvedor os conhece bem, e mesmo quando existem cinquenta (a situação real!), Ele os pega muito rapidamente, para que a imagem seja mágica. Exatamente essas fotos costumam ser anunciadas.
    • Além disso, o desenvolvedor pode até ser contra. O marketing vê os novos exemplos enviados e diz: "nada é visível neles, na última apresentação você teve exemplos normais!" E então eles podem tentar explicar a eles que novos exemplos são o que as pessoas realmente veem e, na última apresentação, foram mostrados resultados potenciais que podem ser alcançados por estudos preliminares do início do projeto. Isso não incomoda ninguém. As pessoas terão a imagem "onde você pode ver". Em alguns casos, até grandes empresas usam o photoshop. Brincar é servido, senhores! )

  • Além disso, quando se trata de vídeo - ele abre espaços enormes para a máquina ... bom marketing! Como regra geral, os quadros são dispostos e a qualidade do vídeo compactado sempre oscila e depende da massa de parâmetros. Novamente - várias tecnologias podem ser aplicadas corretamente, o tempo de processamento pode ser diferente. E isso não é tudo, o escopo é ótimo.

    • A publicidade da Yandex afirma que a tecnologia DeepHD funciona em tempo real, então hoje você pode assistir canais de televisão usando-a . Foi explicado acima que a velocidade de operação é o calcanhar de Aquiles da Super Resolução. A vantagem das redes neurais, é claro, é que, durante muito tempo estudando, elas podem funcionar muito rapidamente em alguns casos, mas ainda assim eu procuraria (com grande interesse profissional) em que resolução e qualidade o algoritmo funciona em tempo real. Geralmente, várias modificações do algoritmo são criadas e em altas resoluções em tempo real, muitos "chips" (críticos para a qualidade) precisam ser desativados. Demais.
    • Nos exemplos em preto e branco , uma análise mais detalhada revela que o brilho local está mudando. Como o SR correto não altera o brilho, parece que algum outro algoritmo funcionou, possivelmente não um (os resultados mostram que esse não é o processamento de quadro único, ou melhor, parece não apenas). Se você olhar para uma peça maior (pelo menos 100 quadros), a imagem ficará nítida. No entanto, medir a qualidade do vídeo é um tópico muito grande e separado.

Conclusões:

  • Você precisa entender que os profissionais de marketing costumam usar seus truques precisamente porque funcionam (e como!). A esmagadora maioria das pessoas não lê o hub O que regularmente leva a todos os tipos de distorções. Desejo que todos menos sejam anunciados, especialmente quando a narrativa está no seu melhor e realmente quer acreditar em um milagre!
  • E, claro, é muito bom que o Yandex também trabalhe no tópico e crie seu próprio SR (mais precisamente, sua própria família SR).

Perspectivas


Vamos voltar para onde começamos. O que fazer para quem deseja aumentar o vídeo compactado? Isso é tudo ruim?

Como descrito acima, mesmo uma ligeira mudança na imagem na região, literalmente no nível do ruído, é crítica para os algoritmos de recuperação "honesta". Ou seja, as altas frequências na imagem e sua mudança entre os quadros são críticas.

Nesse caso, a principal coisa pela qual a compactação de vídeo é realizada é a remoção do ruído entre os quadros. No exemplo abaixo, a diferença entre quadros de um vídeo barulhento antes da compensação de movimento, após compensação (com compactação fraca) e após compactação perceptível - sente a diferença (o contraste é aumentado cerca de 6 vezes para que os detalhes possam ser vistos):

Fonte: palestras do autor sobre algoritmos de compressão

Pode-se ver claramente que, do ponto de vista do codec, a área ideal é a área na qual o movimento foi totalmente compensado e na qual não é necessário gastar mais bits. Bem, um pouco pode ser gasto, algo minimamente corrigido. E pode haver algumas dessas áreas. Portanto, a Super Resolução perde seu “pão principal” - informações sobre o que há neste local em outros quadros, levando em consideração a mudança do subpixel.

Se você olhar para os artigos, mesmo para um JPEG relativamente simples, a restauração jpeg contém 26 mil resultados e a recuperação jpeg - 52 mil, e isso juntamente com a restauração de arquivos quebrados, etc. Para o vídeo, a situação é pior que a restauração mpeg - 22 mil, ou seja, Obviamente, o trabalho está em andamento, mas a escala da escala do trabalho em Super Resolução não é comparável. Há cerca de uma ordem de magnitude menos trabalhosa do que restaurar a resolução de vídeo e duas ordens de magnitude menores que a Super-resolução de Imagem. Duas ordens é muito. Também fizemos uma abordagem ao projétil (já que fazemos compressão e processamento há muito tempo), há algo com o que trabalhar, especialmente se a qualidade estiver oscilando ou usando algo como M-JPEG (mais recentemente, uma imagem comum em vigilância por vídeo). Mas todos serão casos especiais.

Os resultados dos artigos dos links acima também mostram que os resultados às vezes são muito bonitos, mas obtidos em casos muito especiais. I.e. amanhã, em todos os smartphones, essa função, infelizmente, não aparecerá. Esta é uma má notícia. Bom - depois de amanhã e em um computador com uma boa GPU - aparecerá com certeza.

Razões:

  • Os dispositivos de armazenamento (cartões SD para registradores, discos para câmeras de CFTV, etc.) estão gradualmente ficando mais baratos e a taxa de bits média para salvar vídeos está aumentando.
  • Além disso, durante a compactação, eles mudam gradualmente para os padrões das próximas gerações (por exemplo, no HEVC), o que significa uma melhoria notável na qualidade com a mesma taxa de bits. Os dois últimos pontos significam que gradualmente a qualidade do vídeo será mais alta e, a partir de algum momento, algoritmos de super-resolução de vídeo bem desenvolvidos começarão a funcionar.
  • Finalmente, os algoritmos estão sendo aprimorados. As realizações dos algoritmos baseados em aprendizado de máquina nos últimos 4 anos são especialmente boas. Nesse sentido, com alta probabilidade, podemos esperar algo como isto:



I.e. o algoritmo usará explicitamente as informações de movimento recebidas do codec e, em seguida, esses dados serão alimentados a uma rede neural treinada para recuperar artefatos específicos para codecs específicos. Atualmente, esse esquema parece bastante viável.

Mas, em qualquer caso, você precisa entender claramente que a recuperação atual é, via de regra, um aumento de duas vezes na resolução. Menos comumente, em alguns casos, quando o material de origem não foi compactado ou quase não foi compactado, podemos falar de 3 a 4 vezes. Como você pode ver, isso não é nem perto de 100 a 1000 vezes a ampliação dos filmes, quando 1,5 pixels de uma gravação noturna silenciosa se transforma em um número de carro de excelente qualidade. O gênero de "ficção científica" deve ser atribuído de fato a uma porcentagem maior de filmes e programas de TV.

E, é claro, haverá tentativas de fazer algo universal, dentro da estrutura da tendência da moda "o principal é cortar mais camadas". E aqui vale a pena advertir contra reações de "aplausos" aos materiais publicitários sobre esse tópico. As redes neurais são a estrutura mais conveniente para demonstrar milagres e todo tipo de especulação. O principal é escolher corretamente a amostra de treinamento e os exemplos finais. E pronto! Veja o milagre! Muito conveniente em termos de investidores, a propósito. Ou seja, é extremamente importante que a eficiência das tecnologias seja confirmada por alguém independente em um grande número de exemplos heterogêneos, o que raramente é demonstrado. Para as empresas, mesmo dando um ou dois exemplos quando a tecnologia não funciona, hoje é equiparado a um feito civil.

Bem, para que a vida não pareça mel, lembro que a chamada transcodificação é popular hoje em dia, quando na verdade você precisa trabalhar com um vídeo que originalmente foi encolhido por um algoritmo e depois encima por outro, enquanto outros vetores de movimento são usados, outros altos são destruídos novamente frequências etc. E o fato de uma pessoa ver tudo bem lá não significa que o algoritmo que processa esse vídeo realmente fará milagres. Não será possível restaurar vídeos pesados, embora em geral a Super Resolução se desenvolva rapidamente nos próximos 10 anos.

Conclusões:

  • Lembre-se de que o que você vê nos filmes e como é na vida real é muito diferente. E não apenas em termos de recuperação de vídeo altamente compactado!
  • Geralmente, os algoritmos modernos aumentam as resoluções em 2 vezes, com menos frequência - um pouco mais, ou seja, não 50 vezes, familiar nos filmes, logo tem que esperar.
  • A área de Super Resolução está crescendo e você pode esperar um desenvolvimento ativo da Restauração de Vídeo nos próximos anos, incluindo recuperação após a compactação.
  • Mas a primeira coisa que veremos é todo o tipo de especulações sobre o tópico, quando os resultados demonstrados exageram bastante as reais capacidades dos algoritmos. Cuidado!
No final do ano passado, demos uma palestra “Redes neurais no processamento de vídeo - mitos e realidade”. Talvez possamos colocá-la aqui.

Fique atento!

Agradecimentos


Gostaria de agradecer cordialmente:

  • Laboratório de Computação Gráfica VMK Moscow State University MV Lomonosov para poder de computação e não apenas
  • nossos colegas do grupo de vídeos, graças a quem os algoritmos acima foram criados, e especialmente Karen Simonyan, autora do artigo cujos resultados foram mostrados acima e que agora trabalha no Google DeepMind,
  • pessoalmente Konstantin Kozhemyakov, que fez muito para tornar este artigo melhor e mais visual,
  • Google para um excelente blog e descrições relativamente corretas das tecnologias criadas, e Yandex por competir muito bem em uma ampla frente - o Google é praticamente o único exemplo de sucesso em um país onde os serviços do Google não são proibidos,
  • Habrovchan denisshabr , JamboJet e iMADik pela dica e links para câmeras profissionais de quadros múltiplos SR,
  • e finalmente, muito obrigado a Vyacheslav Napadovsky, Evgeny Kuptsov, Stanislav Grokholsky, Ivan Molodetsky, Alexei Soloviev, Evgeny Lyapustin, Yegor Sklyarov, Denis Kondranin, Alexandra Anzina, Roman Kazantsev e Gleb Ishelev por esta grande quantidade de comentários úteis melhor!

Source: https://habr.com/ru/post/pt439766/


All Articles