Nosso post é uma oportunidade para aprender sobre pesquisas na nova divisão da Samsung Research - o Centro de Inteligência Artificial (AI) em Moscou. Foi inaugurado em maio de 2018 e em um ano e meio reuniu os melhores profissionais na área de aprendizado de máquina.

Abaixo estão mini-entrevistas com a equipe do centro - palestrantes do Fórum anual sobre inteligência artificial, realizado no Centro em dezembro do ano passado. Entrevistamos colegas de dois laboratórios: um laboratório de visão computacional e modelagem visual e um laboratório de análise de dados multimodal.

Sobre o Samsung AI Center

A Samsung investe em pesquisa e desenvolvimento ~ 8% da receita anual de vendas - este é um dos principais indicadores do mundo. A empresa possui o maior portfólio de patentes ativas nos EUA e apresentou pedidos para a maioria das tecnologias mais quentes da Europa. Nos próximos três anos, a Samsung investirá US $ 22 bilhões no desenvolvimento de 5G e tecnologia no campo da inteligência artificial.

A Samsung Research, uma divisão de pesquisa da Samsung Electronics, reúne 21 centros de pesquisa em todo o mundo:

Unidades de pesquisa da Samsung no mapa do mundo (em https://research.samsung.com/ )

Entre eles, 7 são centros especializados apenas em IA. O Moscow AI Center foi aberto em 29 de maio de 2018, os seis restantes estão em Seul, Montreal, Toronto, Nova York, Cambridge e Mountain View.

A principal área de pesquisa do Samsung AI AI Center em Moscou é o aprendizado de máquina, uma abordagem que foi aplicada com sucesso em reconhecimento de fala, visão por computador e análise de dados. O diretor do Centro é Viktor Lempitsky, Ph.D., professor associado do Instituto de Ciência e Tecnologia Skolkovo, o cientista russo mais citado em sua categoria em 2018, vencedor do Scopus Award Russia em 2018 por sua contribuição ao desenvolvimento da indústria.

Os arquitetos e designers que projetaram o escritório do Moscow AI Center foram inspirados na idéia do infinito digital. O conceito de escritório foi criado para criar um espaço que maximize a criatividade em um ambiente confortável: móveis móveis e divisórias multifuncionais móveis, com as quais você pode combinar várias salas de reuniões e criar a configuração necessária do espaço de trabalho.

Palestra de Mikhail Romanov (engenheiro sênior do Visual Understanding Lab) para estudantes do Samsung AI Bootcamp 2018 na sala de reuniões Matrix

As salas de reuniões exibem os nomes dos filmes sobre inteligência artificial (Matrix, The Terminator, The Bicentennial Man, From The Car, etc.), cada uma com telas nos dois lados e você pode escrever nas paredes com marcadores. Os tablets fixados na porta das salas de reunião usando a tecnologia de reconhecimento de rosto permitem que você descubra o tempo livre e reserve uma sala.

Espaço aberto com móveis ergonômicos: mesas móveis, cadeiras especialmente projetadas

O AI Center possui áreas de esportes e recreação, onde você pode jogar tênis de mesa em uma sala especial com absorção sonora, fazer yoga e fitness, tomar banho e trocar de roupa. E mesmo existem algumas cápsulas para um sono curto!

Todos os anos, o Samsung AI Forum acontece no Moscow AI Center. O objetivo do Fórum de Inteligência Artificial é a comunicação e a interação de cientistas destacados da Rússia e do exterior. No local do evento, eles podem compartilhar seus conhecimentos e experiências, oferecer idéias para resolver os problemas mais prementes no campo da IA. Em dezembro do ano passado, no âmbito do segundo Fórum anual, foram apresentados os resultados de pesquisas de colegas de Moscou, que podem ser usados para criar serviços completos baseados em tecnologias de IA, além de desenvolver aplicativos e componentes para os produtos da empresa.

Laboratório de Visão Computacional e Modelagem Visual

O chefe do laboratório é Anton Konushin, Ph.D., professor associado da HSE e da VMK Moscow State University, onde também é o chefe do laboratório conjunto da Samsung e da Moscow State University.

Mikhail Romanov e Igor Slinko, autores do curso "Redes Neurais e Visão Computacional", também trabalham no laboratório de visão computacional e modelagem visual. Este é o primeiro curso gratuito em massa gratuito que a Samsung Research lançou na Rússia em 2019, e os caras são nossos pioneiros. O curso fala sobre o uso de redes neurais na análise de imagens básicas, não requer conhecimento especializado, apenas conhecimentos básicos no campo de matemática e estatística mais altas e disponibilidade para programar em Python. O curso já conta com 24.000 alunos matriculados. E o principal recurso: a perspectiva de emprego - várias pessoas já se tornaram funcionários do Centro após entrevistas.

Danila Rukhovich

Com 25 anos, ele se formou na Universidade Estadual Mechmath de Moscou, está estudando na faculdade com um diploma em "Fundamentos Teóricos da Ciência da Computação". Ele trabalhou na IBM Research, Angry Developers, SMTDP Tech. No Samsung AI Forum, Danila Rukhovich e Danil Galeev apresentaram o relatório “Adaptação de domínio MixMatch: solução vencedora de prêmios para ambas as faixas do desafio VisDA 2019 ” ( código fonte ).

Temos dois grandes grupos em nosso laboratório: o primeiro está envolvido na estimativa de profundidade (medição da profundidade da imagem), o segundo é o SLAM (pelo método de localização simultânea e construção de mapas). E há equipes pequenas com tarefas diferentes, por exemplo, meu colega Danil Galeev e eu costumávamos participar da GAN (redes geradoras competitivas) e agora adaptação de domínio.

A adaptação de domínio é quando treinamos um modelo de rede neural em um domínio (domínio) e, em seguida, testamos em outro domínio. Os dois domínios mais comuns são dados sintéticos e dados reais. É essa afirmação do problema que é mais relevante, porque dados sintéticos podem ser gerados o quanto você quiser, e são baratos. Por exemplo, você pode gerar muitas imagens das cidades e treinar um carro não tripulado nelas, o que é muito mais fácil do que dirigir um carro real nas ruas de cidades reais e coletar dados reais.

É claro que se treinarmos a rede neural em dados sintéticos e apenas a transferirmos para dados reais, ela não funcionará muito bem. Como reduzir essa diferença? Você pode gerar e usar muitos dados sintéticos rotulados para treinar uma rede neural neles. E, em seguida, use muitos dados reais não alocados (ou seja, os recursos foram gastos, mas apenas para a coleta de dados e não para sua marcação). E, assim, combinando dados rotulados e não alocados, estamos obtendo um aumento significativo na precisão dos modelos de redes neurais.

Exemplos de domínios diferentes no conjunto de dados DomainNet: clipart, infográficos, pintura, esboço, foto, gráficos. O objeto é o mesmo, mas os domínios são diferentes.

Konstantin Sofiyuk

25 anos, formado pela VMK Moscow State University. Ele gosta de correr, praticar snowboard e visão computacional.
Konstantin falou no Samsung AI Forum com o relatório "AdaptIS: Adaptive Instance Selection Network" .

Estou interessado em lidar com algoritmos que ajudarão a resolver problemas reais. Por exemplo, automatize as tarefas rotineiras diárias. O trabalho humano é o mais caro. Portanto, estou interessado em fazer as coisas que podem ser convertidas para beneficiar as pessoas.

Na minha opinião, a inteligência artificial tem dois caminhos de desenvolvimento: será "forte" e algo como o "Santo Graal" será revelado. O surgimento de uma IA “forte” mudará tudo em nossas vidas; Acho difícil prever o que vai acontecer. Ou será possível falar sobre uma IA "fraca", então a robótica é provavelmente a direção mais interessante. Um veículo não tripulado pertence à mesma direção, porque é essencialmente um robô de estrada. A substituição de drivers por robôs levanta a questão: que consequências sociais trará? Todos vivemos em uma sociedade, e a tecnologia pode trazer mudanças sociais globais. Eu reflito sobre esse tópico.

Um dos meus últimos artigos é dedicado ao tópico Segmentação de instância - pesquisando e destacando na imagem todos os objetos de que precisamos. Nós os selecionamos usando uma máscara de pixel por pixel, ou seja, em cada ponto é indicado se esse pixel pertence ou não ao objeto. Isso se encaixa bem no conceito de Entendimento visual de cena, porque o primeiro passo para entender uma imagem é entender quais objetos estão presentes nela. Existem algoritmos de detecção de objetos que resolvem esse problema, mas cada objeto é destacado com um retângulo e os objetos se sobrepõem fortemente: isso fornece uma aproximação muito simples e muito aproximada de onde o objeto está. Se você observar como são as cenas internas comuns (não estou falando de salas de design ideais, onde são limpas e arrumadas), os apartamentos reais terão a seguinte aparência: um sofá, travesseiros, outras coisas.

Quando iniciei esta tarefa, me deparei com o fato de que os algoritmos existentes não lidam bem com esses casos. Chegamos a um novo algoritmo que apresentamos em nosso trabalho. Permite selecionar objetos com qualquer complexidade de interseções: o principal é que pelo menos um pixel do objeto esteja visível. O algoritmo é baseado na hipótese segundo a qual você sempre pode encontrar um pixel em uma imagem que pertence a um objeto específico. Se não houver um único pixel do objeto na imagem, não haverá objeto. E se existe um objeto, se uma pessoa vê o objeto, existe um pixel que pertence a ele. Consequentemente, o algoritmo permite encontrar esses pixels e selecionar a máscara inteira do objeto através desses pixels.

Agora, estamos lidando com o tópico da segmentação interativa, e essa também é uma tarefa muito importante. Voltando à tarefa anterior: para treinar a segmentação de instância, você precisa de uma marcação de pixel por pixel de alta qualidade de todos os objetos nas imagens, e isso é uma coisa cara, porque é banal ficar sentado e selecionar o contorno de cada objeto manualmente no Photoshop por um longo tempo. E a segmentação interativa permite automatizar essa marcação. Marcamos cada objeto não selecionando o polígono desse objeto, mas simplesmente uma pessoa clica no objeto - faz o chamado clique positivo. O objeto é selecionado no primeiro clique ou, se não funcionou (por exemplo, algumas partes do objeto foram ignoradas ou, pelo contrário, algo desnecessário caiu), colocamos um clique negativo.

Como resultado, em vez de selecionar o objeto inteiro com um contorno pixel por pixel, reduzimos o problema ao fato de que essa área deve ou não ser selecionada com um simples clique. A prática mostra que, na maioria das fotos em dez cliques, você pode selecionar objetos com alta precisão. Essa é uma enorme diferença, a marcação de dados será acelerada às vezes.

A máscara que o algoritmo exibe se você selecionar um ponto do objeto

Laboratório de Análise de Dados Multimodal

O chefe do laboratório é Sergey Nikolenko, Ph.D., pesquisador sênior da filial de São Petersburgo do Instituto V. A. Steklov de Matemática (POMI RAS), professor associado da Escola Superior de Economia de São Petersburgo, co-autor do livro “Deep Learning. Imersão no mundo das redes neurais " .

Gleb Sterkin

Gleb tem 25 anos e se formou no Departamento de Física da Universidade Estadual de Moscou. Engenheiro e gerente de projetos em um laboratório de análise de dados multimodal. "Sem hobbies, sem hobbies, povoados por robôs."
No Samsung AI Forum, Gleb fez uma apresentação sobre tradução diurna de alta resolução sem rótulos de domínio

Meu laboratório está envolvido em modelos generativos, fotografia computacional. Existem várias tarefas para a restauração de estruturas tridimensionais, ou seja, quando várias fotografias precisam recriar a forma tridimensional de um objeto complexo. Além disso, essas são as tarefas associadas à obtenção de representações universais para figuras ou objetos em figuras. Isso tudo, em geral, gira em torno de redes neurais. Do ponto de vista aplicado, as aplicações são impressionantes quando uma pessoa interage com modelos generativos, de efeitos implícitos a casos em que o modelo atua como uma ferramenta para uma pessoa, por exemplo, na síntese da música.

Trato principalmente de modelos generativos combinados à interação homem-máquina. Isso é interessante! Algo complicado, como uma rede neural, se transforma em uma ferramenta como uma câmera, aplicável para obter prazer momentâneo ou alguma experiência sensorial: apertei três botões, obtive algo bacana, sem pensar muito em como funciona, mas compreendendo aproximadamente o que acontecerá como resultado, embora às vezes aconteça e algo inesperado.

Nosso estudo resolve uma tarefa bastante simples, à primeira vista. O algoritmo, tendo recebido uma fotografia de paisagem na entrada, alimenta um conjunto de fotografias da mesma paisagem em diferentes momentos do dia. Por exemplo, se na entrada houver uma foto de uma cidade diurna, como ficaria à noite, à noite, de manhã e nos períodos entre essas horas do dia para criar um vídeo bonito e suave? Essa tecnologia funciona em alta resolução até 4K.

Trabalhamos com paisagens, porque nas paisagens a mudança de dia ou estação será a mais óbvia. O interior dos edifícios não muda muito durante o dia, exceto talvez algumas reflexões, reflexos, que dependem de vários fatores - como as grades e persianas estão localizadas nas janelas. Tudo fica claro nas paisagens: você tem o sol, o céu, um grande espaço que precisa ser iluminado de maneira diferente, para desenhar algo nele. Se o algoritmo faz a transição da noite para o dia, você precisa esticar as áreas escuras e, do dia para a noite, precisa escurecer tudo corretamente.

Vendo a paisagem, não é muito difícil para uma pessoa imaginar exatamente como ela mudará dependendo da hora do dia ou do ano. Foi muito interessante simular a percepção essencialmente humana, sem gastar muito tempo coletando imagens e vídeos reais para cada paisagem.

Dmitry Nikulin

25 anos. Em 2017, ele se formou no Departamento de Álgebra da Universidade Estadual de São Petersburgo. Ele estagiou no Google London, onde aprimorou o sistema de verificação de usuários no Google My Business, depois estagiou na Yandex Research e trabalhou para a Serokell, uma empresa especializada em consultoria e terceirização na área de programação em Haskell. Ao mesmo tempo, ele se formou na ShAD e agora está ajudando a fazer um curso de RL lá. A Samsung tem pouco mais de um ano. Ele aprende idiomas: além do inglês, ele conhece um pouco de francês, espanhol e esperanto.

Dmitry apresentou dois relatórios no Samsung AI Forum: “Saliência de almoço grátis por meio da atenção em agentes Atari” e “Redes de gradiente perceptivo”.

A principal área de pesquisa em laboratório para a análise de dados multimodais são as tarefas associadas à geração e processamento de imagens e, no último ano, consegui trabalhar em dois projetos nessa área. Na primeira metade do ano, participei do Aprendizado por Reforço (RL) - esta é uma das tecnologias de aprendizado de máquina nas quais o sistema de teste (agente) aprende interagindo com um determinado ambiente. Simplificando, o processo de aprendizagem pode ser pensado como um jogo: encoraje ações que levem a recompensas e evitem levar ao fracasso.

Meu projeto foi sobre o entendimento de quais partes da imagem uma rede neural está implementando agentes na RL. I.e. precisávamos entender como funciona e o que conseguimos ensinar no final, para isso construímos uma rede de “algo” nela, mostrando quais partes da imagem original ela está visualizando. Meu primeiro relatório no fórum foi sobre como passamos por várias maneiras diferentes de incorporar essa peça em uma rede neural. O problema era incorporar de forma que nada mais fosse quebrado. Parece que conseguimos, mas com algumas falhas - a visualização do mapa da importância de partes da imagem não é muito clara. Experimentamos para aumentar a clareza, mas, infelizmente, os agentes começaram a trabalhar pior com isso.

Esquerda: imagem nítida, agente fraco. Direita: imagem aproximada, agente forte.

O segundo relatório foi chamado de "Redes Perceptivas de Gradiente", tratava-se de otimizar a perda perceptiva - é uma função de perda usada quase em todos os lugares onde há geração de imagens por redes neurais. Para usar a perda de percepção, os desenvolvedores primeiro passam pela rede neural para frente e depois para trás. Voltar é computacionalmente complexo. Queríamos nos livrar de uma passagem dupla e substituí-la por outra rede neural, através da qual tudo pode ser feito em uma passagem adiante, isso aumenta a velocidade e diminui os requisitos de memória. Agora, estamos trabalhando para melhorar a arquitetura dessa segunda rede, nos esforçando para reduzir radicalmente os custos de memória sem prejudicar a qualidade.

Estou interessado em tudo relacionado ao aprendizado por reforço, porque essa é a área mais próxima da inteligência artificial geral (IA geral). As demais áreas, como visão computacional, reconstrução da postura humana, análise sonora, são mais altamente especializadas. Eles certamente são mais úteis em um futuro próximo, já podem ser levados e construídos em carros drone ou em buscas. Sobre a RL, com algumas exceções, isso não pode ser dito, mas com ela, tarefas que não são mais resolvidas de todo podem ser resolvidas. Por exemplo, as pessoas graças a essas tecnologias aprenderam a jogar jogos de computador muito complexos, como DotA e StarCraft, muito bem. Em geral, a RL é um método para otimizar qualquer coisa para os objetivos que você definir.

Conclusão

Se você chegar ao final do artigo e ainda estiver interessado, embora a maioria dos termos não seja clara, a boa notícia é que a Samsung tem cursos Stepik online gratuitos para os quais convidamos você. Escrevemos sobre eles anteriormente no blog ( 1 , 2 ).

E para aqueles que estão longe de serem novos no que nossos colegas falaram, os trabalhos abertos da Samsung Research podem ser interessantes. No momento, existem vagas para Data Scientist (2 pessoas), Machine Learning Engineer (2 pessoas), Deep Learning Engineer.

Samsung Moscow Center for Artificial Intelligence nas histórias de funcionários