Rede neural prevê 1 segundo do futuro na fotografia
A rede neural adversária generativa otimizada para processamento de vídeo é capaz de mostrar o que acontecerá no próximo segundo.Acapacidade de prever o futuro próximo é uma habilidade importante para qualquer pessoa. A velocidade da reação humana não é suficiente para reagir a eventos circundantes em tempo real, portanto, nós os prevemos em um modo constante, com uma probabilidade próxima de 100%. Os atletas sabem para onde a bola voará. Os empresários sabem quando o interlocutor procura um aperto de mão. Prevemos a trajetória dos carros na estrada e as próximas ações das pessoas em expressões faciais e objetos em suas mãos.A inteligência artificial também precisa conhecer o futuro. Ele deve entender quais eventos levarão a que resultado, a fim de evitar omissões óbvias e planejar suas ações. Um grupo de pesquisadores deO Laboratório de Ciência da Computação e Inteligência Artificial do Instituto de Tecnologia de Massachusetts (CSAIL) ensina a rede neural a prever o futuro , treinando-a em milhões de vídeos.Uma rede neural treinada em um único quadro estático (fotografias) está tentando prever eventos futuros. O programa é limitado por um tamanho de quadro de 64 × 64 pixels e uma duração de previsão de 32 quadros, ou seja, cerca de um segundo no futuro.Conhecer o futuro torna possível entender melhor o presente. Essa é a habilidade básica que qualquer robô que funcione no mundo real deve possuir. Observando uma pessoa na frente de um prato de comida com um garfo e uma faca nas mãos, deve-se prever claramente que essa pessoa começará a comer em breve. Sem esse entendimento, o robô não pode funcionar de maneira eficiente - você não quer que o robô pegue e mova a cadeira para o lado quando você se senta em uma cadeira? Não, ele deve entender o que acontecerá em um segundo e não tocar em nada. Ou vice-versa, mova rapidamente a cadeira exatamente para o local onde a pessoa se senta.No momento, mesmo os sistemas de IA mais avançados não têm a capacidade básica de prever o futuro próximo. Portanto, este estudo é tão importante. Um trabalho semelhante é realizado por grupos de pesquisa da Universidade de Nova York e do Facebook, mas suas redes neurais produzem apenas alguns quadros no futuro ou o mostram muito embaçado.O programa desenvolvido na CSAIL prevê com bastante precisão os eventos mais banais e óbvios. Por exemplo, a partir de uma fotografia de um trem em uma plataforma, ela prevê seu movimento.Exemplos de previsão de eventos a partir de fotografias. Amostras do movimento de pessoas, animais, fenômenos naturais, transporteEm um estudo científico, os desenvolvedores resolvem o problema fundamental de estudar o cenário de como os eventos no quadro se desdobram com o tempo. Obviamente, essa tarefa é muito difícil para anotação formal. Portanto, a rede neural foi treinada diretamente no material final - em milhões de vídeos sem anotações semânticas. Essa abordagem tem certas vantagens, porque a IA pode aprender offline, apenas assistindo o que está acontecendo e processando uma enorme quantidade de material de vídeo na Internet.A rede neural treinada foi encarregada de gerar pequenos vídeos em um único quadro estático. Para alcançar um resultado realista, os autores do estudo usaram uma rede adversativa generativa (GAN). Uma rede neural gera vídeo, e a segunda rede discriminadora aprende a distinguir vídeo falso do real e bloqueia falsificações. Como o discriminador aprende, o gerador de rede precisa gerar vídeos cada vez mais realistas para passar no teste.
O modelo generativo usa dois fluxos que simulam separadamente o primeiro plano e o plano de fundo para separá-los um do outro e distinguir claramente o movimento do objeto.
Com o tempo, esse programa poderá ajudar mais efetivamente uma pessoa em diferentes situações. Por exemplo, um robô pode prever quando uma pessoa cairá - e evitar que caia. O assistente digital no carro aprenderá a prever as ações do motorista pelo movimento das mãos e dos olhos para evitar um acidente.Todos os vídeos nos quais a rede neural foi treinada, bem como o código fonte do programa, são publicados em domínio público . O código da rede neural contraditória generativa está no GitHub . Usando os dados para treinamento (aproximadamente 10,5 terabytes de material de vídeo), você pode repetir o experimento você mesmo. Como alternativa, modelos já treinados estão disponíveis para download (1 GB no arquivo).Vídeos de treinamento foram tirados da hospedagem de fotos e vídeos do Flickr, onde estão sob uma licença gratuita. São cenas temáticas: eventos na praia, partidas de golfe, estações de trem e bebês em hospitais.
Dois milhões de vídeos são apenas dois anos de filmagem. "Isso é muito pequeno comparado à quantidade de informações de vídeo que passaram pelo cérebro de uma criança de 10 anos ou comparada à quantidade de informações processadas durante o processo evolutivo de desenvolvimento da vida na Terra", admite Carl Vondrick, um dos autores da pesquisa científica. trabalhoMas isso é apenas o começo, a IA dá os primeiros passos, mas você precisa começar em algum lugar. No futuro, a rede neural será treinada em fragmentos mais longos do vídeo. Os autores esperam que a IA comece gradualmente a limitar a escolha de opções possíveis para o futuro, dadas as limitações das leis da física e as propriedades dos objetos. Experimentos mostram que a rede neural é capaz de absorvê-los. Gradualmente, o programa aprenderá a prever um futuro mais distante, e não apenas 1 segundo. É provável que outros módulos estejam conectados a ele, como reconhecimento de personalidade, leitura labial, previsão de crime no rosto de uma pessoa etc.Artigo científico publicadono site do Instituto de Tecnologia de Massachusetts. O estudo continua graças ao financiamento da National Science Foundation dos EUA e do Google para dois dos três membros da equipe de pesquisa. O relatório foi preparado para a 29ª conferência sobre sistemas de processamento de neuroinformação (NIPS 2016), que será realizada de 5 a 10 de dezembro em Barcelona.Source: https://habr.com/ru/post/pt399667/
All Articles