Uma lente incomum para uma câmera comum ou como parar de pensar em foco

Quase dois séculos de existência da câmera não deveriam ter dado aos engenheiros a chance de adicionar "outra coisa". As câmeras modernas gravam vídeos de alta qualidade, enviam fotos para a nuvem e tiram etiquetas geográficas. Podemos tirar panoramas e 360 ​​°, observar as estrelas e diminuir o tempo. Mas o progresso não pára, mas corre para o futuro, alimentado por mentes questionadoras.

teste de imagem

A tecnologia que será discutida hoje não é nova por natureza. Mas a maneira como é implementada definitivamente vale a pena considerar. Será uma lente de campo de luz interessante que pode ser usada com qualquer câmera DSLR.

O que é um campo Ligh e com o que ele come?


O termo campo de luz propriamente dito foi proposto pelo físico soviético Gershun em 1936 em seu trabalho sobre as propriedades radiométricas da luz.

Um campo de luz é uma função vetorial que descreve a passagem da luz em qualquer direção através de um ponto no espaço. imagem Um raio de luz (ou melhor, sua direção) para um determinado ponto no espaço pode ser descrito por cinco parâmetros (a chamada função 5D-plenóptica): coordenadas x , y , z e dois ângulos θ e ϕ . Ao integrar os vetores de campo obtidos de vários pontos de vista, obtemos o valor total da iluminação. E, com uma descrição completa dos raios de luz no espaço, podemos determinar com precisão, por exemplo, como é um objeto de qualquer ponto de vista.

Qual é a aplicação prática da teoria do campo de luz? Uma das áreas mais interessantes são as câmeras de campo de luz. Ao contrário das câmeras clássicas, registrando a intensidade da luz nos pontos de um objeto, a câmera do campo de luz também leva em consideração a direção dos raios, a saída e esses pontos. Em outras palavras, capturamos os raios de luz "individuais" que emanam do objeto. E isso, por sua vez, permite obter as coordenadas físicas dos objetos no espaço e um mapa de profundidade.

Como as câmeras do campo de luz são organizadas?


Já sabemos que uma câmera desse tipo deve registrar não apenas a intensidade, mas também a direção dos raios de luz que emanam do objeto. Uma maneira de implementar isso é usar um conjunto de lentes na frente do sensor óptico. Essas lentes coletam raios de luz de um objeto localizado em uma parte específica da cena e os concentram no sensor.

É importante entender que, nesse caso, a lente principal da lente não focaliza mais a imagem no sensor. Em vez disso, os raios são projetados no plano do conjunto de lentes (em câmeras clássicas, o sensor está localizado exatamente nesse plano), o conjunto de lentes passa e só então cai no sensor, formando uma imagem em mosaico de várias partes da cena.

imagem

A figura mostra um diagrama simplificado da operação dessa lente. Graças à organização astuta do sistema óptico, no final, obtemos não uma, mas muitas imagens do objeto, e cada uma dessas imagens cria uma representação única do objeto a partir de seu ângulo de visão único.

No entanto, esse esquema apresenta várias desvantagens, como o alto custo de fabricação, a complexidade da calibração, o controle de abertura e outros parâmetros do sistema. Um dos exemplos mais famosos dessas câmeras é o produto da Lytro - câmera Lytro Illum (o projeto parece estar congelado)

Você pode facilitar?


Você pode. A lente sobre a qual quero falar neste artigo não contém uma variedade de micro-lentes. Em vez disso, é utilizado um sistema, que é um “canal” de espelho com uma seção retangular (caixa de espelho), onde, graças à reflexão múltipla, é formada a chamada imagem caleidoscópica, que é gravada pelo sensor da câmera da maneira usual.

imagem

Uma pequena empresa alemã está se desenvolvendo. A lente está no estágio de um protótipo totalmente funcional e o princípio de sua operação é bastante simples.

As imagens obtidas pelo sistema são mais ou menos assim:

imagem

Os elementos aqui são espelhados. Uma imagem caleidoscópica tão incomum é uma consequência do reflexo dos raios no "canal do espelho".

E é assim que a diferença absoluta do par de elementos recuperados se parece (pixels brilhantes significam uma diferença maior nos valores):

imagem

Em outras palavras, não temos nada além de um par estéreo. Ou melhor, estéreo nove (elementos 3x3). Alterando os parâmetros geométricos do canal, podemos obter dimensões 5x5 e até grandes, o que, no entanto, não faz sentido na vida real e até prejudica.

Portanto, temos um conjunto de imagens formando uma imagem caleidoscópica. O que vem depois?

É aqui que o hardware óptico analógico quente termina e o soft digital frio começa.

Calibração


Independentemente do aplicativo, as imagens devem ser restauradas (é necessário calibrar todo o sistema óptico e aplicar os dados de calibração obtidos às imagens). O processo é bastante tedioso, mas importante, uma vez que os vários elementos da imagem caleidoscópica devem necessariamente ser "coordenados" entre si (mesmo insignificantes / vários pixels / discrepâncias dos elementos podem estragar muito o resultado e a impressão). Existem muitos trabalhos sobre o tópico calibração, portanto, não faz sentido revelar detalhes. Você só precisa se lembrar que a calibração é muito importante para qualquer aplicação estéreo.

Mapa de profundidade


Depois de receber fotos "pares", podemos construir um mapa de profundidade.
Esta é talvez a parte mais importante e difícil do pipeline. A qualidade da aplicação final depende da qualidade do mapa de profundidade. E a qualidade do mapa de profundidade, por sua vez, depende da qualidade da calibração, do algoritmo selecionado e da "complexidade" da cena.

Mas, independentemente do algoritmo, a tarefa é sempre a mesma - encontrar os pontos correspondentes das imagens esquerda e direita (e, no nosso caso, mais 7 imagens) e calcular a distância (disparidade) entre elas. O valor da distância será o inverso do valor da profundidade para um determinado pixel.

Por que usar 9 imagens se você pode se dar bem com duas? Obviamente, usando mais imagens, temos mais informações sobre a cena e podemos resolver parcialmente alguns problemas dos algoritmos existentes para estimar o mapa de profundidade.

Entre os problemas clássicos de tais algoritmos:

  • Superfícies monótonas e de uma cor sem textura - o algoritmo simplesmente não tem nada para "capturar" no processo de encontrar correspondências
  • Objetos sobrepostos (visíveis de um canto e invisíveis de outro)
  • Sombras e reflexos em superfícies espelhadas ou brilhantes
  • Estruturas regulares, como células e faixas, apresentam problemas, pois nem sempre é claro qual célula da imagem A corresponde à célula da imagem B.
  • Bordas das imagens - um problema semelhante ao problema da sobreposição de objetos. Nas fronteiras das imagens, a informação é inevitavelmente perdida de qualquer ângulo.

Existem muitos algoritmos de qualidade e não muito para a construção de um mapa de profundidade. Os desenvolvimentos mais promissores estão agora no campo das abordagens híbridas, usando métodos clássicos e várias técnicas de aprendizado de máquina (CNN, DNN). Como sempre, a escolha do algoritmo é um compromisso entre velocidade e qualidade. Felizmente, na fotografia, podemos dar um passo atrás em tempo real e obter um mapa de profundidade melhor.

Para o nosso exemplo, o mapa de profundidade é mais ou menos assim:

imagem


Pós-foco


Temos um mapa das profundezas, o que fazer com isso agora? Informações sobre a distância de objetos geralmente são úteis. Um aplicativo popular é o pós-foco.

Sair de foco é um dos problemas dos fotógrafos. Você notou que na imagem original toda a cena estava em foco? É assim que a pós-focagem é baseada em um mapa de profundidade:

imagem

Deve-se notar que, com essa abordagem, na verdade nos livramos das propriedades físicas do sistema óptico. Isso permite, por exemplo, criar algoritmos uma imagem com vários truques. Ou altere programaticamente a profundidade de um espaço bem representado (Profundidade de campo).

Outras aplicações


O pós-foco é o principal, mas ainda não é o único aplicativo. Em geral, essa lente pode ser considerada como um conjunto de câmeras virtuais (9 pcs). Portanto, é aplicável a todos os aplicativos que você pode imaginar para uma matriz de câmeras, por exemplo:

  • Filtros de polarização - cada um dos 9 elementos da imagem possui seu próprio filtro de polarização com uma determinada direção. Isso permite que você obtenha 9 imagens com diferentes polarizações de uma só vez e até crie uma série de vídeos com uma suave mudança de direção da polarização
  • HDR (High-Dynamic-Range) - o mesmo princípio: 9 filtros diferentes + algoritmo para a "combinação" ideal de brilho
  • Mudança de perspectiva
  • Edição baseada em profundidade - permite aplicar vários filtros em diferentes profundidades. Por exemplo, torne o plano de fundo preto e branco, destacando o primeiro plano.
  • Segmentação - seleção de objetos localizados a uma certa distância
  • Medição de distância - uma régua para fotos. Funciona especialmente bem em cenas "rasas", para as quais é mais fácil calcular a disparidade.
  • Aplicações para a indústria - várias maneiras de avaliar a qualidade e o monitoramento da produção

Conclusão


A questão do custo final dessa lente ainda está em aberto, mas alguns parâmetros físicos já foram determinados. Sabe-se que o comprimento não deve exceder 20 cm, e a massa - 800 g. Afirma-se que este dispositivo será compatível principalmente com as câmeras Sony, Canon e Nikon.

Fora do artigo, havia tópicos importantes como o uso prático de câmeras padrão com visores, restauração da resolução (super-resolução), algoritmos de processamento e integração com editores gráficos. Eu vou falar sobre isso na próxima vez.

Obrigado pela atenção!

Source: https://habr.com/ru/post/pt414877/


All Articles