Recentemente,
falamos sobre como somos analisados nos cinemas usando a tecnologia de visão computacional: emoções, gestos e isso é tudo. Hoje estamos publicando uma conversa com nosso colega da Microsoft Research. Ele está envolvido na criação dessa mesma visão. Sob o corte, detalhes sobre o desenvolvimento da tecnologia, um pouco sobre o GDPR, bem como as áreas de aplicação. Inscreva-se agora!

Do ponto de vista técnico, os especialistas em visão computacional "criam algoritmos e sistemas para analisar automaticamente imagens e extrair informações do mundo visível". Do ponto de vista de um leigo, eles criam máquinas que podem ver. É isso que o pesquisador-chefe e chefe do departamento de pesquisa, Dr. Gang Hua, e uma equipe de especialistas em visão computacional fazem. Para dispositivos como robôs pessoais, veículos não tripulados e drones, que encontramos cada vez mais na vida cotidiana, a visão é muito importante.
Hoje, o Dr. Hua nos dirá como os recentes avanços na IA e no aprendizado de máquina ajudaram a melhorar o reconhecimento de imagem e as tecnologias de "entendimento" de vídeo, além de terem contribuído para o desenvolvimento da arte. Ele também explicará a essência da abordagem do conjunto distribuído à aprendizagem ativa, na qual pessoas e máquinas trabalham juntas no laboratório para criar sistemas de visão computacional que podem ver e reconhecer o mundo aberto.
Gang Hua, Pesquisador Principal e Chefe de Pesquisa. Foto cedida por Maryatt Photography.A entrevista
Se olharmos para trás, de dez a quinze anos, veremos que havia mais diversidade na comunidade de especialistas em visão computacional. Para considerar o problema de diferentes ângulos e encontrar sua solução, vários métodos de aprendizado de máquina e conhecimentos de vários campos, como física e óptica, foram aplicados. Enfatizamos a importância da diversidade em todas as áreas de atividade, por isso acho que a comunidade científica se beneficiará se tivermos pontos de vista mais diferentes.
Apresentamos a você a pesquisa avançada em tecnologia e os cientistas por trás dela.
Do ponto de vista técnico, os especialistas em visão computacional "criam algoritmos e sistemas para analisar automaticamente imagens e extrair informações do mundo visível". Do ponto de vista de um leigo, eles criam máquinas que podem ver. É isso que o pesquisador-chefe e chefe do departamento de pesquisa, Dr. Gang Hua, e uma equipe de especialistas em visão computacional fazem. Para dispositivos como robôs pessoais, veículos não tripulados e drones, que encontramos cada vez mais na vida cotidiana, a visão é muito importante.
Hoje, o Dr. Hua nos dirá como os recentes avanços na IA e no aprendizado de máquina ajudaram a melhorar o reconhecimento de imagem e as tecnologias de "entendimento" de vídeo, além de contribuir para o desenvolvimento da arte. Ele também explicará a essência da abordagem do conjunto distribuído à aprendizagem ativa, na qual pessoas e máquinas trabalham juntas no laboratório para criar sistemas de visão computacional que podem ver e reconhecer o mundo aberto. Sobre isso e muito mais - na nova versão do podcast da Microsoft Research.
Você é o pesquisador-chefe e chefe do departamento de pesquisa da MSR (Microsoft Research) e sua especialidade é a visão computacional.Sim
Em termos gerais, por que um especialista em visão computacional acorda de manhã? Qual é o seu principal objetivo?A visão computacional é uma área de pesquisa relativamente jovem. Em resumo, estamos tentando criar máquinas que possam ver o mundo e percebê-lo da mesma maneira que uma pessoa. Em uma linguagem mais técnica, as informações que entram no computador na forma de imagens e vídeos simples podem ser representadas como uma sequência de números. Queremos extrair desses números algumas estruturas que descrevem o mundo, algumas informações semânticas. Por exemplo, posso dizer que parte da imagem corresponde a um gato. E a outra parte corresponde à máquina, quero dizer uma interpretação desse tipo. Aqui está, o objetivo da visão por computador. Isso parece uma tarefa simples para as pessoas, no entanto, para ensinar computadores a respeito, tivemos que trabalhar muito nos últimos 10 anos. No entanto, a visão computacional como campo de pesquisa já tem 50 anos. No entanto, ainda temos que resolver muitos problemas.
Sim Há cinco anos, você disse o seguinte, refiz a frase: "Por que, após 30 anos de pesquisa, ainda estamos trabalhando no problema do reconhecimento facial?" Conte-nos como você respondeu a essa pergunta e o que mudou durante esse período.Se respondermos da perspectiva de cinco anos atrás, eu diria que nos 30 anos que se passaram desde o início da pesquisa no campo da visão computacional e reconhecimento facial, conseguimos muito. Mas, na maioria das vezes, estamos falando de um ambiente controlado em que, ao capturar rostos, você pode ajustar a iluminação, a câmera, as decorações e similares. Há cinco anos, quando começamos a trabalhar mais in vivo, em um ambiente não controlado, verificou-se que havia uma enorme lacuna na precisão do reconhecimento. No entanto, nos últimos cinco anos, nossa comunidade fez grandes progressos através do uso de métodos mais avançados de aprendizado profundo. Mesmo no campo do reconhecimento facial in vivo, fizemos progressos e realmente chegamos ao ponto em que foi possível usar essas tecnologias para vários fins comerciais.
Acontece que o aprendizado profundo tornou realmente possível obter grande sucesso nos campos da visão computacional e do reconhecimento de imagens nos últimos anos.Certo.
Quando conversamos sobre a diferença de condições em um ambiente completamente controlado e imprevisível, lembrei-me de vários cientistas, convidados do podcast, que observaram que os computadores falham quando os dados não estão completos o suficiente ... por exemplo, a sequência "cachorro, cachorro, cachorro, cachorro com três pernas" "- o computador começa a duvidar se o último também é um cachorro?Sim
É verdade? Então, o que exatamente, métodos de aprendizado profundo anteriormente inacessíveis, permitem que você faça hoje no campo do reconhecimento?Esta é uma ótima pergunta. Do ponto de vista da pesquisa, o aprendizado profundo abre várias possibilidades. Primeiramente, você pode realizar um treinamento abrangente para determinar a representação correta da imagem semântica. Por exemplo, de volta ao cachorro. Suponha que vejamos várias fotografias de cães, por exemplo, imagens de 64 × 64 pixels, em que cada pixel pode ter cerca de duzentos e cinquenta valores diferentes. Se você pensar bem, esse é um grande número de combinações. Mas se falarmos sobre o cachorro como um modelo, onde os pixels se correlacionam, o número de combinações correspondentes ao "cachorro" será muito menor.
Usando métodos abrangentes de aprendizado profundo, você pode ensinar o sistema a determinar a representação numérica correta de um "cachorro". Graças à profundidade das estruturas, podemos criar modelos verdadeiramente complexos que podem dominar uma grande quantidade de dados para treinamento. Portanto, se meus dados de treinamento abrangem todas as opções e representações possíveis do modelo, no final, poderei reconhecê-lo em um contexto mais amplo, porque considerei quase todas as combinações possíveis. Este é o primeiro.
Outra oportunidade de aprendizado profundo é um tipo de comportamento composicional. Há uma camada de estrutura e uma camada de apresentação, portanto, quando informações ou imagens caem em redes profundas e a extração de imagens primitivas de baixo nível começa, então gradualmente o modelo pode coletar estruturas semânticas de maior e mais alta complexidade a partir dessas imagens primitivas. Os algoritmos de aprendizado profundo identificam padrões menores que correspondem a padrões maiores e os unem para formar o padrão final. Portanto, é uma ferramenta muito poderosa, especialmente para tarefas de reconhecimento visual.
Portanto, o principal tópico da conferência CVPR é o reconhecimento de padrões com visão computacional.Sim está certo.
E o reconhecimento de padrões é o que a tecnologia realmente busca.
Sim claro. De fato, o objetivo da visão por computador é capturar o significado em pixels. Falando de um ponto de vista técnico, o computador precisa entender qual é a imagem e obtemos um determinado resultado numérico ou simbólico. Por exemplo, um resultado numérico pode ser uma nuvem de pontos tridimensional que descreve a estrutura do espaço ou a forma de um objeto. Também pode ser associado a alguns rótulos semânticos, como "cachorro" ou "gato", como eu disse anteriormente.
Eu vejo. Então, vamos falar um pouco sobre tags. Uma característica interessante e importante do processo de aprendizado de máquina é o fato de o computador precisar fornecer pixels e etiquetas.Sim claro.
Você falou sobre três coisas que são mais interessantes para você no contexto da visão por computador. Vídeo, rostos, arte e multimídia. Vamos falar sobre cada um deles individualmente e começar com sua pesquisa atual, o que você chama de "entendimento" do vídeo.Sim A expressão "vídeo de compreensão" fala por si. Como entrada, usamos vídeo em vez de imagens. Aqui é importante não apenas reconhecer os pixels, mas também levar em conta como eles se movem. Para visão computacional, o reconhecimento de imagem é um problema espacial. No caso do vídeo, ele se torna espaço-temporal porque uma terceira dimensão - temporal - aparece. E se você observar as muitas tarefas reais associadas ao streaming de vídeo, sejam câmeras de vigilância interna ou câmeras rodoviárias na rodovia, a conclusão é que o objeto está se movendo em um fluxo constante de quadros. E precisamos extrair informações desse fluxo.
Essas câmeras criam uma enorme quantidade de material de vídeo. Câmeras de segurança que disparam 24 horas por dia em supermercados e similares. Que benefícios para as pessoas você pode obter com esses registros?Minha equipe está trabalhando em um projeto de incubação, no qual criamos uma tecnologia fundamental. Como parte deste projeto, estamos tentando analisar o tráfego nas estradas. Um grande número de câmeras rodoviárias foi instalado nas cidades, mas a maior parte do vídeo gravado é desperdiçada. No entanto, essas câmeras podem ser úteis. Vejamos um exemplo: você deseja controlar os semáforos com mais eficiência. Normalmente, a alteração dos sinais vermelho e verde é determinada pela programação definida. No entanto, se eu visse que muito menos carros estavam se movendo em uma direção do que em outras, para otimizar o movimento, eu poderia manter a cor verde por mais tempo em direções sobrecarregadas. Esta é apenas uma aplicação.
Por favor, traduza esta ideia!Vamos tentar!
Qual de nós não estava no semáforo vermelho, embora quase ninguém dirigisse no verde na outra direção?Aqui está!
Você se pergunta: por que tenho que esperar?
Eu concordo Essa tecnologia também pode ser aplicada em outros casos, por exemplo, quando acumulamos grandes arquivos de gravações de vídeo. Suponha que os cidadãos pedissem ciclovias extras. Poderíamos usar os vídeos, analisar os dados de tráfego e decidir se daria uma ciclovia neste local. Com a introdução dessa tecnologia, poderíamos afetar significativamente os fluxos de tráfego e ajudar as cidades a tomar essas decisões.
Eu acho que é uma ótima idéia, porque na maioria dos casos tomamos essas decisões com base em nossas próprias idéias, e não em dados, olhando para o que poderíamos dizer: “Ei, você sabe, aqui a ciclovia teria sido muito a propósito. E aqui isso apenas complicará o movimento ".Isso mesmo. Às vezes, outros sensores são usados para isso. Eles contratam uma empresa que instala equipamentos especiais nas estradas. Mas é economicamente ineficiente. Mas as câmeras rodoviárias já estão instaladas e ficam por aqui. Fluxos de vídeo já estão disponíveis. Certo? Então, por que não tirar proveito disso?
Eu concordo Este é um ótimo exemplo de como o aprendizado de máquina e a compreensão de vídeo podem ser aplicados.Exatamente.
Portanto, outra área importante de aplicação é o reconhecimento facial. Voltamos novamente à pergunta "Por que ainda estamos trabalhando no problema do reconhecimento facial?".Isso mesmo.
A propósito, essas tecnologias em alguns casos podem ser aplicadas de uma maneira muito interessante. Conte-nos o que está acontecendo no campo do reconhecimento facial. Quem faz isso e o que há de novo?Olhando para trás, a tecnologia de reconhecimento de rosto foi estudada pela Microsoft quando eu ainda estava trabalhando no Live Labs Research. Em seguida, criamos a primeira biblioteca de reconhecimento facial que vários grupos de desenvolvimento de produtos poderiam usar. Esta tecnologia foi introduzida pela primeira vez no Xbox. Em seguida, os desenvolvedores tentaram usar o reconhecimento facial para fazer login automaticamente no sistema. Eu acho que esse foi o primeiro caso. Com o tempo, o centro para o estudo do reconhecimento facial mudou para a Microsoft Research Asia, onde ainda temos um grupo de pesquisadores com os quais colaboro.
Estamos constantemente tentando expandir os limites do possível. Agora estamos trabalhando com serviços técnicos para nos ajudar a coletar mais dados. Com base nesses dados, treinamos modelos mais avançados. Recentemente, nos concentramos na direção da pesquisa, que chamamos de "síntese de rostos com preservação do reconhecimento". A comunidade de especialistas em aprendizado profundo também teve muito sucesso. Eles usam redes profundas para treinar modelos generativos que podem simular a distribuição de imagens para que os dados possam ser extraídos, ou seja, sintetizar a imagem. Assim, você pode criar redes profundas que criam imagens.
Mas queremos dar um passo adiante. Queremos sintetizar rostos. Ao mesmo tempo, queremos manter o reconhecimento desses indivíduos. Nossos algoritmos não devem apenas criar um conjunto arbitrário de faces sem nenhum significado semântico. Suponha que queremos recriar o rosto de Brad Pitt. Você precisa criar um rosto que realmente se pareça com ele. Se você precisar recriar o rosto da pessoa que conheço, o resultado deverá ser preciso.
Ou seja, você deseja manter o reconhecimento da pessoa que você está tentando recriar?Certo.
A propósito, eu me pergunto se essa tecnologia funcionará por um longo tempo, à medida que uma pessoa envelhece, ou será necessário atualizar constantemente o banco de dados com indivíduos?Esta é uma pergunta muito boa. Atualmente, estamos realizando pesquisas para resolver esse problema. No nível atual da tecnologia, ainda é necessário atualizar o banco de dados de tempos em tempos. Especialmente se o rosto mudou muito. Por exemplo, se a cirurgia plástica foi realizada, o sistema moderno não será capaz de produzir o resultado correto.
Espere, não é você.Sim, é completamente diferente. Esse problema pode ser abordado de vários lados. Os rostos humanos não mudam muito entre 17 e 18 anos e cerca de 50 anos. Mas o que acontece imediatamente após o nascimento? O rosto das crianças muda muito, porque os ossos crescem e o formato do rosto e da pele também muda. Mas assim que uma pessoa cresce e passa para o estágio de maturidade, as mudanças começam a ocorrer muito lentamente. Agora estamos realizando pesquisas, no âmbito do qual estamos desenvolvendo modelos do processo de envelhecimento. Eles ajudarão a criar um sistema de reconhecimento facial melhorado com base na idade. De fato, esta é uma tecnologia muito útil que pode ser aplicada na aplicação da lei, por exemplo, para reconhecer crianças sequestradas há muitos anos que ...
Eles parecem muito diferentes.Sim, eles parecem diferentes. Se algoritmos de reconhecimento de rosto inteligente pudessem considerar a foto original ...
E para dizer, como eles seriam aos 14 anos se fossem sequestrados muito antes, ou algo assim?Sim, exatamente.
Esta é uma ótima aplicação. Vamos falar sobre outra área que você está explorando ativamente - multimídia e arte. Conte-nos como a ciência se cruza com a arte e, especialmente, sobre seu trabalho no campo da profunda transferência de estilo artístico.Bom Dê uma olhada nas necessidades das pessoas. Primeiro de tudo, precisamos de comida, água e sono, certo? Uma vez satisfeitas as necessidades básicas, a pessoa tem um forte desejo de arte ...
E o desejo de criar.E crie objetos de arte. Como parte dessa área de pesquisa, queremos conectar a visão computacional aos objetos de arte da multimídia e da arte. Podemos usar a visão computacional para proporcionar às pessoas prazer artístico. Como parte de um projeto de pesquisa separado em que trabalhamos nos últimos dois anos, criamos uma sequência de algoritmos com os quais você pode criar uma imagem em qualquer estilo artístico, se forem fornecidas amostras desse estilo. Por exemplo, podemos criar uma imagem no estilo de Van Gogh.
Van Gogh?Sim, ou qualquer outro artista ...
Renoir ou Monet ... ou Picasso.Sim, qualquer um deles. Qualquer um que você se lembrar ...
Interessante. Usando pixels?Sim, usando pixels. Isso também está sendo criado por redes profundas, usando algumas das tecnologias de aprendizado profundo que desenvolvemos.
Esta pesquisa parece exigir conhecimento de muitas áreas. Onde você encontra profissionais capazes de ...Eu diria que, em certo sentido, nosso objetivo é ... Você sabe, obras de arte nem sempre estão disponíveis para todos. Algumas das obras de arte são realmente muito caras. Com a ajuda de tais tecnologias digitais, estamos tentando tornar esse trabalho acessível às pessoas comuns.
Democratize-os.Sim, democratize a arte, como você diz.
Isso é impressionante.Nosso algoritmo permite criar um modelo numérico claro de cada estilo. E podemos até misturá-los, se quisermos criar novos estilos. Isso lembra a criação de um espaço artístico, onde podemos estudar opções intermediárias e observar como as técnicas mudam ao passar de um artista para outro. E podemos até olhar mais profundamente e tentar entender o que exatamente determina o estilo de um artista em particular.
De particular interesse para mim é o fato de, por um lado, estarmos falando sobre trabalhar com números: ciência da computação, algoritmos e matemática. Por outro lado, falar de arte é uma categoria muito mais metafísica. E ainda assim você os combinou, e isso mostra que o cérebro de um cientista pode ter um lado artístico.Exatamente. Penso que a ferramenta mais importante que usamos para ajudar a juntar tudo é a estatística.
Interessante..
, … – - MSR, – . , ?. , , -. … . , - . - , , . . .
, , Amazon Mechanical Turk. . , . . , . -, , . -, , .
. . . , . , , . .
, . . , , ?, . , , . ( ), , , -, .
, .. , , , , , . . , NIH, - (co-robots).
- ?-. . , . , . , . , . , . , - , , .
, , . , , ? , , ? . . , , , .
Microsoft Research ?Microsoft . , 2006-2009 Live Labs. . . , . Nokia Research, IBM Research …
-, ?, -, . Microsoft Research 2015 . , 2017 .
. ?. Microsoft Research — . . — . . . . , , , Intelligent Group , .
.Sim
, , . - , ? -, ?, , . . : . , , , , , - . . , , , , . , .
… , : , , ? , , , ?Microsoft (GDPR). , , , , . , . - -, . . , - . , ? , , . . , , , …
, . : « . ».Sim está certo.
, , . ? 10 ?. , . . , . . , .
, , «» . , - , . - , ? . — . , . , , . , . , . . . , …
.
. . . 10-15 , , . , , . , , , .
. , , , .Sim exatamente!Para saber mais sobre o Dr. Gang Hua, além de incríveis avanços na visão computacional, visite nosso site: Microsoft.com/research