À esquerda, duas pessoas apertam as mãos, uma delas atrás da parede da câmera. À direita, um homem no escuro joga um objeto para a pessoa que está chamando. Abaixo está o modelo esquelético gerado e a previsão de ações.A visão de rádio da equipe do CSAIL (Laboratório de Ciência da Computação e Inteligência Artificial) já estava escrita em Habré ( uma e duas vezes ), hoje existem novos detalhes.
O algoritmo usa ondas de rádio em vez de luz visível para determinar o que as pessoas estão fazendo sem mostrar como elas se parecem.
A visão de máquina tem um histórico impressionante. Tem uma capacidade sobre-humana de reconhecer pessoas, rostos e objetos. Pode até reconhecer vários tipos de ações, embora não tão bem quanto os humanos.
Mas seu desempenho é limitado. A visão de máquina é especialmente difícil quando pessoas, rostos ou objetos estão parcialmente fechados. E quando o nível de luz cai para 0, eles, como as pessoas, são praticamente cegos.
Mas há outra parte do espectro eletromagnético que não é tão limitada. As ondas de rádio enchem nosso mundo, seja de noite ou de dia. Eles facilmente atravessam paredes, são transmitidos e refletidos por corpos humanos. De fato, os pesquisadores desenvolveram várias maneiras de usar sinais de rádio Wi-Fi para ver a portas fechadas.
Mas esses sistemas de visão por rádio têm algumas desvantagens. Sua resolução é baixa, as imagens são barulhentas e cheias de reflexões perturbadoras, o que dificulta a compreensão do que está acontecendo.
Nesse sentido, imagens de rádio e imagens sob luz visível têm suas vantagens e desvantagens adicionais. E isso aumenta a probabilidade de usar os pontos fortes de um para superar as deficiências do outro.
Conheça Tianhong Li e seus colegas do MIT, que encontraram uma maneira de ensinar o sistema de rádio a reconhecer as ações das pessoas, ensinando-o usando imagens sob luz visível. O novo sistema de visão por rádio permite que você veja o que as pessoas estão fazendo em uma ampla variedade de situações em que a visualização sob luz visível é impossível.
"Estamos introduzindo um modelo de rede neural que pode detectar ações humanas através de paredes e oclusões, bem como em más condições de iluminação ", disseram Lee and Co.
Mapa de calor de radiofrequência e imagem RGB gravada em paralelo.A equipe usa um truque complicado. A idéia principal é gravar imagens de vídeo da mesma cena usando luz visível e ondas de rádio. Os sistemas de visão de máquina já são capazes de reconhecer ações humanas a partir de imagens sob luz visível. Portanto, o próximo passo é correlacionar essas imagens com as imagens de rádio da mesma cena.
Arquitetura de ação de RF. O RF-Action identifica atividades humanas por sinal sem fio. Recupera o "esqueleto 3D" para cada pessoa do fluxo bruto do sinal sem fio (caixa amarela). Em seguida, ações das seqüências extraídas de "esqueletos" (campo verde) são detectadas e reconhecidas. O Action Detection Framework também pode aceitar esqueletos tridimensionais gerados a partir de dados visuais como entrada (um retângulo azul), que permite treinar esqueletos gerados por radiofrequências, bem como em bancos de dados existentes com ações reconhecidas.No entanto, a dificuldade reside em garantir que o processo de aprendizado se concentre no movimento humano, e não em outras coisas, como o pano de fundo. Portanto, Lee e a equipe introduzem um estágio intermediário no qual a máquina gera modelos 3D de figuras que reproduzem as ações das pessoas.
"Ao traduzir dados em uma representação intermediária baseada em um esqueleto, nosso modelo pode aprender com os conjuntos de dados visuais e de radiofrequência e permite que ambas as tarefas se ajudem ", disse Lee e a equipe.
Assim, o sistema aprende a reconhecer ações na luz visível e, em seguida, reconhece as mesmas ações que ocorrem no escuro ou atrás das paredes usando ondas de rádio. "Mostramos que nosso modelo atinge precisão comparável aos sistemas de reconhecimento de visão com base na visão em cenários visíveis e continua a funcionar com precisão quando as pessoas não são visíveis", afirmam os pesquisadores.
Este é um trabalho interessante que tem um potencial significativo. A aplicação óbvia ocorre em cenários em que as imagens sob luz visível são impossíveis - em condições de pouca luz e a portas fechadas.
Mas existem outras situações. Um dos problemas com imagens visíveis é que as pessoas são reconhecíveis, o que causa problemas de privacidade.
Mas o sistema de rádio não tem a capacidade de reconhecer rostos. A identificação de ações sem reconhecimento facial não levanta as mesmas preocupações em relação à confidencialidade.
"Ele pode levar a tecnologia para as casas das pessoas e integrá-la aos sistemas domésticos inteligentes ", afirma Lee e companhia. Isso pode ser usado, por exemplo, para monitorar a casa de uma pessoa idosa e notificar os serviços relevantes sobre uma queda. E isso aconteceria sem muito risco à privacidade.
Isso vai além das capacidades dos sistemas modernos baseados em visão.
Resultados
O resultado do trabalho em vários cenários. Cenas visíveis:


Sobreposição parcial ou completa do campo de visão e pouca iluminação. Os esqueletos são mostrados na forma de projeções bidimensionais do modelo 3D gerado:



Sobre o ITELMASomos uma grande empresa de componentes
automotivos . A empresa emprega cerca de 2.500 funcionários, incluindo 650 engenheiros.
Talvez seja o centro de competência mais poderoso da Rússia para o desenvolvimento de eletrônicos automotivos na Rússia. Agora estamos crescendo ativamente e abrimos muitas vagas (cerca de 30, inclusive nas regiões), como engenheiro de software, engenheiro de design, engenheiro de desenvolvimento líder (programador DSP), etc.
Temos muitos desafios interessantes das montadoras e preocupações que impulsionam o setor. Se você deseja crescer como especialista e aprender com os melhores, teremos o maior prazer em vê-lo em nossa equipe. Também estamos prontos para compartilhar conhecimentos, a coisa mais importante que acontece no setor automotivo. Faça-nos todas as perguntas, responderemos, discutiremos.
Leia artigos mais úteis: