O método de interpolação barato não funciona pior do que as redes neurais


Comparação do RAISR com outras técnicas avançadas de resolução de imagem. Para mais exemplos, consulte o artigo científico que o acompanha .

Aumentar a resolução das imagens, isto é, criar fotos de alta resolução com base em uma foto de baixa resolução, é um problema científico muito bem estudado. É importante para muitas aplicações: ampliar fotos e texto, projetar vídeo em uma tela grande, etc. Mesmo em filmes, os detetives às vezes conseguem olhar para o número de um carro em um quadro de uma câmera de vigilância, “levando” a foto ao limite. E não apenas o número do carro. Tudo aqui é limitado pela imaginação e consciência do diretor e roteirista. Eles podem levar a fotografia ainda mais longe - e ver o reflexo do criminoso no espelho retrovisor ou mesmo na cabeça de metal polido do parafuso que prende a placa. Espectadores assim.

Na prática, as capacidades de tais programas são muito mais modestas. Por exemplo, em 29 de outubro de 2016, o GuralHub lançou o programa Neural Enhance , que aumenta a resolução das fotos usando uma rede neural. O programa entrou imediatamente na lista dos repositórios mais populares da semana.


Um exemplo do trabalho do Neural Enhance


Outro exemplo do trabalho do programa Neural Enhance, disponível publicamente nos

funcionários do GitHub Google Research também trabalha nessa direção - o blog oficial da empresa falou ontem sobre um método de aumentar a resolução, que eles chamaram de RAISR (Super-Resolution Rapid and Accurate Image Super-Resolution )

Historicamente, interpoladores simples têm sido usados ​​para interpolar imagens, que encontram valores intermediários de novos pixels a partir de um conjunto conhecido de valores de pixels da imagem original. Métodos diferentes foram utilizados para calcular os valores médios: interpolação pelo método vizinho mais próximo, interpolação bilenniana, método cúbico, método bicúbico, etc. Todas essas são fórmulas matemáticas bastante simples. Eles foram amplamente utilizados em várias aplicações devido à sua simplicidade e despretensão. Eles não se adaptam ao conteúdo da imagem, o que muitas vezes leva ao aparecimento de artefatos desagradáveis ​​- fragmentos muito embaçados, distorções características de alias.

Nas últimas décadas, foram desenvolvidos programas e métodos de interpolação muito mais avançados, que explicitamente levam em consideração as características da imagem original. Eles são capazes de usar e dimensionar fragmentos da imagem original, preencher escassez, aplicar misturas gaussianas . Novos métodos melhoraram significativamente a qualidade da interpolação (restauração digital de originais) aumentando a complexidade dos cálculos.

Os funcionários do Google usaram o aprendizado de máquina em amostras externas. Este método ganhou grande popularidade nos últimos anos e é descrito em muitos trabalhos científicos. O princípio básico é "prever" o conteúdo da imagem em alta resolução a partir de sua cópia reduzida. Para esse treinamento, é utilizado o método padrão de ensino por amostras.

Durante o treinamento RAISR, foi usada uma base de pares de imagens gerados simultaneamente em alta e baixa qualidade. Utilizamos pares de pequenos fragmentos da imagem para interpolação 2x padrão, ou seja, fragmentos de 3 × 3 e 6 × 6 pixels. O algoritmo de aprendizado e operação RAISR é mostrado no diagrama.





A ilustração a seguir mostra quatro filtros globais que podem ser usados ​​durante a fase de treinamento. Consequentemente, os programas foram treinados para aplicá-los com mais eficiência, dependendo do conteúdo desse fragmento específico de vários pixels.





Cada tipo de filtro opera para seu próprio tipo de pixels: de P1 a P4, de acordo com os tipos de pixels usados ​​pelo algoritmo de interpolação bilinear.



De certa forma, o método de aprendizado de máquina RAISR é semelhante ao treinamento de redes neurais. Mas, de fato, é uma adaptação de vários filtros de interpolação padrão para cada pequeno fragmento individual da imagem original. Ou seja, é a mesma "interpolação linear" antiga, mas como se estivesse usando esteróides - sem seus artefatos inerentes e com adaptação ao conteúdo da imagem.

Testes comparativos mostraram que, em muitos casos, esse algoritmo funciona ainda melhor do que os métodos modernos de interpolação avançada baseados em redes neurais (SRCNN nas ilustrações).



Além disso, esse método baseado em hash é muito menos intensivo em recursos e mais aceitável na prática do que em treinar e usar uma rede neural. A diferença de desempenho é tão grande (10 a 100 vezes) que esse programa pode ser executado com segurança mesmo em dispositivos móveis comuns e funcionará em tempo real. Nada impede a implementação desse filtro em aplicativos modernos de interpolação de imagem em smartphones, incluindo o aplicativo de câmera no Android, que executa interpolação durante o zoom digital. É possível que o Google faça exatamente isso em primeiro lugar. Pelo menos, este é um exemplo do uso mais generalizado de interpolação em milhões de dispositivos.


Esquerda: Baixa resolução original. Centro: o resultado de um interpolador bicúbico padrão. Certo: o resultado do RAISR

Photos será melhor imediatamente para todos os usuários do Android.

A propósito, outra vantagem interessante e importante do RAISR é que, durante o processo de treinamento, este programa pode ser treinado para eliminar artefatos de compactação típicos, incluindo JPEG. Por exemplo, em um dispositivo móvel, as fotos podem ser armazenadas em formato compactado com artefatos e exibidas na tela sem artefatos. Ou o algoritmo pode ser usado na hospedagem de fotos do Google para melhorar automaticamente as fotos dos usuários, com a eliminação dos artefatos JPEG presentes em quase todos os lugares.


Esquerda: original de baixa resolução com artefatos de aliasing específicos para JPEG. Direito - Artigo Científico da RAISR Issue

A equipe de pesquisa do Google será publicada em breve na revista IEEE Transactions on Computational Imaging. (Nota: o principal autor do artigo era estagiário de Pesquisa do Google no momento em que escrevia, mas agora trabalha no Instituto de Pesquisa Technion de Israel).

Source: https://habr.com/ru/post/pt399119/


All Articles