Nova ciência de olhar ao virar da esquina

Pesquisadores da visão computacional descobriram o mundo oculto dos sinais visuais à nossa disposição, onde existem movimentos imperceptíveis que revelam o que foi dito e imagens borradas do que está ao virar da esquina




O especialista em visão computacional Antonio Torralba , descansando na costa da Espanha em 2012, notou sombras aleatórias na parede de seu quarto de hotel que nada parecia lançar. No final, Torralba percebeu que os pontos descoloridos na parede não eram sombras, mas imagens opacas e invertidas do pátio do lado de fora. A janela funcionava como um buraco de alfinete - o tipo mais simples de câmera em que os raios de luz passam por um pequeno buraco e formam uma imagem invertida do outro lado. Na parede iluminada pelo sol, essa imagem dificilmente poderia ser discernida. Mas Torralba percebeu que nosso mundo está cheio de informações visuais que nossos olhos não percebem.

"Essas imagens estão escondidas de nós", disse ele, "mas constantemente nos cercam".

A experiência adquirida permitiu que ele e seu colega, Bill Freeman , também professor do Instituto de Tecnologia de Massachusetts, percebessem que o mundo está cheio de "câmeras aleatórias", como as chamam: janelas, cantos, plantas domésticas e outros objetos comuns que criam imagens ocultas do ambiente. Essas imagens são 1000 vezes menos vivas do que qualquer outra coisa e, geralmente, não são visíveis a olho nu. "Nós descobrimos maneiras de isolar essas imagens e torná-las visíveis", explicou Freeman.

Eles aprenderam quanta informação visual está escondida na frente de todos. No primeiro trabalho, eles mostraram que, ao fotografar com um iPhone comum, as mudanças na luz na parede da sala, a partir do vídeo recebido, é possível recriar a cena fora da janela. No outono passado, eles e seus colegas relataram que você pode encontrar uma pessoa se movendo em uma esquina filmando uma câmera perto da esquina. Neste verão, eles demonstraram que podem gravar uma planta doméstica em vídeo e recriar uma imagem tridimensional de toda a sala com base nas sombras projetadas pelas folhas da planta. Ou eles podem transformar folhas em um " microfone visual " , aumentando suas vibrações e reconhecendo a fala.


1) O pátio do lado de fora do quarto de hotel onde Antonio Torralba notou que a janela funciona como um buraco de alfinete. 2) Imagem borrada do pátio na parede; 3) ele pode ser afiado cobrindo a maior parte da janela com papelão para reduzir o tamanho do buraco. 4) Se você virar de cabeça para baixo, poderá ver a cena de fora.

“Nossa Mary tinha um carneiro”, diz o homem na gravação de áudio, recriado dos movimentos de um saco vazio de chips que os cientistas dispararam através de uma janela à prova de som em 2014 (estas são as primeiras palavras gravadas por Thomas Edison em 1877 em um fonógrafo).

A pesquisa sobre olhar em esquinas e fazer suposições sobre objetos que não são diretamente visíveis, ou “construir imagens que não estão diretamente à vista”, começou em 2012 com o trabalho de Torralba e Freeman em uma câmera aleatória e com outro trabalho crucial realizado por um grupo separado de cientistas. do MIT liderado por Ramesh Raskar . Em 2016, em particular, e graças a seus resultados, a Agência de Projetos de Pesquisa Avançada do Departamento de Defesa dos EUA (DARPA) lançou o programa REVEAL de US $ 27 milhões (aprimoramento revolucionário da visibilidade através da exploração de campos de luz ativos - uma melhoria revolucionária na visibilidade usando campos de luz ativos). O programa financia laboratórios emergentes em todo o país. Desde então, o fluxo de novas idéias e truques matemáticos torna a geração de imagens fora da linha de visão cada vez mais poderosa e prática.



Além do uso óbvio para fins militares e de inteligência, os pesquisadores estudam a aplicação da tecnologia em veículos robóticos, visão robótica, fotografia médica, astronomia, exploração espacial e missões de resgate.

Torralba disse que ele e Freeman, no início do trabalho, não tinham idéias sobre a aplicação prática da tecnologia. Eles apenas descobriram o básico da formação de imagens e o que é uma câmera, a partir da qual um estudo mais completo do comportamento da luz e sua interação com objetos e superfícies se desenvolveu naturalmente. Eles começaram a ver coisas que ninguém conseguia pensar. Pesquisas psicológicas, segundo Torralb, mostram que “as pessoas são terrivelmente pobres na interpretação das sombras. Talvez uma das razões para isso seja que muitas das coisas que vemos não são sombras. E no final, meus olhos tentaram compreendê-los. "

Câmeras aleatórias


Os raios de luz que carregam a imagem do mundo para fora do nosso campo de visão caem constantemente nas paredes e outras superfícies, após o que são refletidos e caem em nossos olhos. Mas por que esses resíduos visuais são tão fracos? É que muitos raios vão em muitas direções e as imagens ficam embaçadas.

Para formar uma imagem, é necessário limitar seriamente os raios incidentes na superfície e ver apenas um determinado conjunto deles. É isso que a câmera pinhole faz. A idéia original de Torralba e Freeman em 2012 era que, em nosso ambiente, existem muitos objetos e várias propriedades que limitam naturalmente os raios de luz e formam imagens fracas que um computador pode reconhecer.

Quanto menor a abertura do orifício, mais nítida será a imagem, pois cada ponto do objeto em estudo emitirá apenas um feixe de luz no ângulo reto, capaz de passar pelo orifício. A janela do hotel Torralba era muito grande para que a imagem ficasse nítida, e ele e Freeman perceberam que as câmeras aleatórias geralmente úteis eram muito raras. No entanto, eles perceberam que as câmaras anti-furo (pin-point), constituídas por qualquer objeto pequeno que bloqueia a luz, formam imagens em abundância.


Bill freeman


Antonio Torralba

Imagine que você está removendo a parede interna de uma sala através de uma abertura nas persianas. Você não verá muito. De repente, uma mão aparece no seu campo de visão. A comparação da intensidade da luz na parede na presença e ausência de uma mão fornece informações úteis sobre a cena. Um conjunto de feixes de luz incidentes em uma parede no primeiro quadro é momentaneamente bloqueado pela mão no próximo. Subtraindo os dados do segundo quadro dos dados do primeiro, como diz Freeman, "você pode calcular o que a mão bloqueou" - um conjunto de raios de luz representando a imagem de uma parte da sala. “Se você estudar o que bloqueia a luz e o que a deixa passar”, ele disse, “você pode expandir a gama de locais onde pode encontrar câmeras pinhole”.

Juntamente com o estudo de câmeras aleatórias que percebem pequenas mudanças de intensidade, Freeman e colegas desenvolveram algoritmos que determinam e ampliam pequenas alterações de cor - como uma alteração na cor do rosto de uma pessoa quando o sangue corre ou diminui e pequenos movimentos - é por isso que você pode gravar uma conversa pegando um saco de batatas fritas. Agora eles podem perceber facilmente o movimento de um centésimo de pixel, que em condições normais seria simplesmente afogado em ruído. Seu método converte matematicamente imagens em uma configuração de onda senoidal. No espaço resultante, o ruído não domina o sinal, uma vez que os sinusóides representam os valores médios assumidos em muitos pixels, de modo que o ruído é distribuído sobre eles. Graças a isso, os pesquisadores podem determinar as mudanças de sinusóides de um quadro do vídeo para outro, amplificar essas mudanças e depois converter os dados novamente.

Agora eles começaram a combinar todos esses truques para extrair informações visuais ocultas. Um estudo descrito em outubro passado por Katie Bowman (então uma estudante liderada por Freeman e agora uma cientista do Centro Astrofísico Harvard-Smithsonian) mostrou que os cantos das construções funcionam como câmeras, criando uma imagem aproximada do que está ao virar da esquina.


Colocando a penumbra no chão, perto da esquina (1), você pode obter informações sobre objetos localizados na esquina (2). Quando objetos invisíveis começam a se mover, a luz e as sombras deles se movem em ângulos diferentes em relação à parede. Pequenas mudanças de intensidade e cor geralmente não podem ser distinguidas a olho nu (3), mas podem ser aprimoradas usando algoritmos. Vídeos primitivos com luz indo em ângulos diferentes da penumbra revelam a presença de uma pessoa em movimento (4) e duas (5) na esquina.

Facetas e cantos, como buracos nas câmeras pontuais, impedem a passagem da luz solar. Usando câmeras comuns, o mesmo iPhone, à luz do dia, Bowman e colegas filmaram sombra parcial na esquina do prédio - uma área com sombras iluminadas por um subconjunto de raios de luz vindos de uma área oculta na esquina. Se, por exemplo, um homem de camisa vermelha passar por lá, essa camisa enviará uma pequena quantidade de luz vermelha para a penumbra, e essa luz se moverá ao longo da penumbra enquanto a pessoa caminha, invisível aos olhos comuns, mas detectada após o pós-processamento.

Em um trabalho revolucionário publicado em junho, Freeman e colegas recriaram o "campo de luz" da sala - uma imagem da intensidade e direção dos raios de luz em uma sala - das sombras projetadas por uma planta decídua ao lado da parede. As folhas funcionavam como câmeras pontuais, cada uma das quais bloqueava seu próprio conjunto de raios de luz. A comparação da sombra de cada folha com o restante das sombras produziu esse conjunto de raios que faltava e permitiu obter uma imagem de uma parte da cena oculta. Dada a paralaxe, os pesquisadores conseguiram reunir todas essas imagens.

Essa abordagem fornece imagens muito mais nítidas do que o trabalho anterior com câmeras aleatórias, porque o algoritmo pré-adquiriu conhecimento sobre o mundo. Conhecendo a forma da planta, assumindo que as imagens naturais deveriam ser suaves, e levando em consideração várias outras suposições, os pesquisadores foram capazes de tirar certas conclusões sobre os sinais contendo ruído, o que ajudou a tornar a imagem final mais nítida. A tecnologia de trabalhar com um campo de luz "requer conhecimento do mundo circundante para criar reconstrução, mas também fornece muita informação", disse Torralba.

Luz dispersa


Enquanto isso, Freeman, Torralba e seu protegido estão revelando imagens escondidas em outros lugares do campus do MIT, Ramesh Raskar, especialista em visão computacional que falou no TED, pretende "mudar o mundo" e escolher uma abordagem chamada "imagem ativa". Ele usa sistemas de câmera a laser especializados e caros para criar imagens de alta resolução que exibem o que está ao virar da esquina.


Ramesh Raskar

Em 2012, como parte da implementação de uma ideia que o visitou há cinco anos, Raskar e sua equipe criaram uma tecnologia pela qual é necessário liberar pulsos de laser na parede. Uma pequena parte da luz dispersa será capaz de contornar o obstáculo. E pouco tempo depois de cada pulso, eles usam uma "câmera flash" que registra fótons individuais a uma taxa de bilhões de quadros por segundo para detectar fótons que ricocheteiam na parede. Ao medir o tempo gasto pelos fótons no retorno, os pesquisadores podem descobrir a que distância eles voaram e, em detalhes, recriar a geometria tridimensional dos objetos escondidos atrás do obstáculo, nos quais os fótons se espalharam. Uma das dificuldades é que, para a formação de uma imagem tridimensional, é necessário realizar uma varredura raster da parede com um laser. Digamos que uma pessoa esteja escondida na esquina. "Então a luz refletida de um ponto específico na cabeça, de um ponto específico no ombro e de um ponto específico no joelho pode chegar à câmera ao mesmo tempo", disse Raskar. Mas se você colocar o laser um pouco em outro lugar, a luz desses três pontos não chegará mais à câmera ao mesmo tempo. ” É necessário combinar todos os sinais e resolver o "problema inverso" para recriar a geometria tridimensional oculta.

O algoritmo Raskar original para resolver o problema inverso exigia muitos recursos de computação, e o próprio dispositivo custou meio milhão de dólares. Mas um trabalho sério foi feito para simplificar a matemática e reduzir custos. Em março, a revista Nature publicou um trabalho que estabeleceu um novo padrão para a construção eficiente e econômica de imagens tridimensionais de um objeto - a figura de um coelho na esquina foi recriada no trabalho. Os autores, Matthew O'Toole , David Lindel e Gordon Wetstein, da Universidade de Stanford, desenvolveram um novo algoritmo poderoso para resolver o problema inverso e usaram câmeras SPAD relativamente baratas - dispositivos semicondutores cuja taxa de quadros é menor que a das câmeras flash. Raskar, que anteriormente trabalhou como curador de dois autores do trabalho, chamou-o de "muito engenhoso" e "um dos meus favoritos".





Os algoritmos anteriores estavam afundando em detalhes: os pesquisadores geralmente tentavam detectar fótons retornados que não eram refletidos do ponto na parede em que o laser estava brilhando, para que a câmera pudesse evitar a coleta da luz dispersa. Mas, direcionando o laser e a câmera para quase o mesmo ponto, os pesquisadores foram capazes de mapear os fótons de entrada e saída de um " cone de luz ". Dispersando da superfície, a luz forma uma esfera de fótons em expansão, que forma um cone, propagando-se no espaço-tempo. O'Toole (que desde então mudou seu trabalho de Stanford para Carnegie Mellon University) traduziu a física dos cones de luz - desenvolvida pelo professor alemão Minkowski de Albert Einstein, no início do século 20 - em uma expressão lacônica que conecta o tempo de voo do fóton com o local das superfícies dispersas. Ele chamou sua tradução de "transformação do cone de luz".

Os robomobiles já estão usando os sistemas LIDAR para criar imagens diretas, e pode-se imaginar que algum dia eles conseguirão que o SPAD olhe ao virar da esquina. "No futuro próximo, esses sensores também estarão disponíveis em formato portátil", prevê Andreas Welten , o primeiro autor do trabalho inicial de Raskar em 2012, que agora lidera a equipe envolvida na construção de imagens ativas na Universidade de Wisconsin. O desafio agora é “lidar com cenas mais complexas” e cenários realistas, disse Welten, “e não apenas criar cuidadosamente uma cena com um objeto branco e um fundo preto. Precisamos de tecnologia para direcionar o dispositivo e pressionar o botão ".

Onde estão as coisas


Pesquisadores do grupo Freeman começaram a combinar abordagens passivas e ativas. O trabalho, conduzido sob a orientação do pesquisador Christos Trumpulidis, mostrou que, ao construir ativamente imagens usando um laser, uma câmera em forma de ponto de forma conhecida, localizada em torno de um ângulo, pode ser usada para recriar uma cena oculta sem usar informações sobre o tempo de vôo do fóton. "E isso deve funcionar para nós com a ajuda de uma matriz CCD convencional", disse Trampulidis.

As imagens fora da linha de visão um dia ajudarão as equipes de resgate e os robôs autônomos. Welten colabora com o Laboratório de Propulsão a Jato da NASA, trabalhando em um projeto destinado a construir imagens à distância de objetos dentro das cavernas da lua. Mas Raskar e a empresa usam sua abordagem para ler as primeiras páginas de um livro fechado e para ver no meio do nevoeiro.

Além das reconstruções de áudio, o algoritmo de aprimoramento de movimento de Freeman pode ajudar a criar dispositivos médicos e sistemas de segurança, bem como pequenos detectores de movimento astronômicos. Esse algoritmo é "uma ideia muito boa", disse David Hogg, astrônomo e cientista de dados da Universidade de Nova York e do Flatiron Institute. "Eu pensei - nós apenas temos que usá-lo em astronomia."

Em relação às questões de privacidade levantadas por descobertas recentes, Freeman se volta para sua experiência. "Pensei muito neste problema ao longo da minha carreira", diz ele. Um homem de óculos, um entusiasta de câmeras que esteve envolvido em fotografia a vida toda, Freeman disse que, no início de sua carreira, não queria trabalhar em nada que tivesse qualquer tipo de potencial militar ou de espionagem. Mas com o tempo, ele começou a pensar que “a tecnologia é uma ferramenta que pode ser usada de diferentes maneiras. Se você tentar evitar tudo o que possa ter pelo menos algum uso militar, não poderá pensar em nada útil. " Ele diz que, mesmo no caso dos militares, “há uma gama muito ampla de possibilidades para usar as coisas. Você pode ajudar alguém a sobreviver. E, em princípio, saber onde estão as coisas é útil. ”

Mas ele ficou muito satisfeito não com as capacidades tecnológicas, mas simplesmente com a descoberta de um fenômeno oculto à vista de todos. "Parece-me que o mundo está cheio de tudo o que resta a ser descoberto", disse ele.

Source: https://habr.com/ru/post/pt424389/


All Articles