Google ensina robôs a realizar novas tarefas no "jardim de infância"
No jardim de infância, os robôs aprendem a abrir portas, e a
capacidade de aprendizado é uma das mais importantes para os robôs. Se eles começarem a aprender, acumulando as informações necessárias ao longo do tempo, poderão ser usados para executar tarefas complexas que não foram pré-programadas. As tarefas podem ser muito diferentes - desde cuidar de idosos e pacientes em hospitais até limpar as instalações. É verdade que, se você precisar treinar cada robô individualmente, levará uma quantidade enorme de tempo. Mas e se os robôs ensinarem robôs? E se grupos de robôs começarem a aprender juntos?Este problema está longe de ser novo: foi descrito mais de uma vez por escritores de ficção científica. Especialistas em robótica e inteligência artificial também estão tentando resolver esse problema. Google mais que outrosEla está interessada em aprender com robôs. Provavelmente, uma das maneiras mais fáceis de conseguir o que você deseja é criar um banco de dados de conhecimento comum de robôs, onde as informações coletadas por cada uma das máquinas serão coletadas.Todos os robôs devem estar conectados a esta base. Se um robô aprende alguma coisa, todo mundo imediatamente obtém conhecimento e experiência. Os funcionários do Google testaram essa idéia (também não é nova) na prática e obtiveram bons resultados. Em particular, as ações executadas por um dos robôs imediatamente se tornaram propriedade de seus "colegas".Os robôs podem executar a mesma ação de maneiras muito diferentes. Às vezes é melhor, às vezes pior. Qualquer informação sobre essas ações é capturada e enviada ao servidor, onde é processada usando uma rede neural. O sistema cognitivo avalia as ações de cada máquina e seleciona apenas informações sobre a experiência positiva, descartando dados de tentativas malsucedidas de concluir uma ou outra tarefa. Os robôs carregam dados processados por uma rede neural com uma certa frequência. E a cada novo download, eles estão se tornando mais eficazes. No vídeo abaixo, o robô estuda o processo de abertura de uma porta.Após várias horas de treinamento, a máquina transmite informações sobre suas ações para uma rede comum. No processo de dominar a abertura de uma porta, os robôs estudam os detalhes desse procedimento, “compreendendo” gradualmente qual o papel da maçaneta e o que precisa ser feito para abrir a porta o mais rápido possível.O processo de aprendizado de tentativa e erro é bom, mas não perfeito. Pessoas e animais, por exemplo, também podem analisar os elementos do ambiente, avaliando seu possível impacto em suas ações. À medida que pessoas e animais crescem, uma certa imagem do mundo é formada. É claro que nos seres humanos é muito mais complicado do que na maioria dos animais, mas existem elementos semelhantes nos dois casos.Portanto, os engenheiros do Google decidiram mostrar aos robôs como as leis da física afetam suas ações. Em um experimento, o robô foi instruído a estudar vários objetos comuns a qualquer casa ou escritório. Estes são lápis, canetas, livros e outros itens. Os robôs aprenderam rapidamente e passaram as informações para seus "colegas". Toda a equipe de robôs em pouco tempo recebeu o conceito das consequências de suas ações.
Em um novo experimento, os engenheiros instruíram o robô a mover um objeto específico para um determinado ponto. No entanto, o sistema não recebeu nenhuma instrução sobre a natureza do objeto. Os objetos estão mudando constantemente. Pode ser uma garrafa de água, uma lata de cerveja, uma caneta ou um livro. Como se viu, os robôs concluíram essa tarefa usando dados de experiências anteriores sobre interação com o mundo real. Eles foram capazes de calcular as consequências de mover o objeto na superfície para o ponto desejado.Mas e o homem?
Dois experimentos anteriores foram realizados com a participação apenas de robôs, sem ajuda humana. Segundo o Google, o treinamento de sistemas robóticos pode ser muito mais rápido se uma pessoa ajudar a máquina. Afinal, uma pessoa pode calcular rapidamente o que resultará do desempenho de algumas ações. Por exemplo, em um experimento, uma pessoa ajudou diferentes robôs a abrir diferentes tipos de portas. Cada sistema recebeu uma porta e uma fechadura exclusivas.Como resultado, uma estratégia conjunta foi desenvolvida para todos os robôs, denominada "política". Todas as ações dos robôs foram processadas usando uma rede neural profunda. Ela processou as imagens das câmeras registrando as ações dos robôs e transferiu as informações já processadas para o servidor central, já na forma de uma política.Os robôs aprimoraram consistentemente suas “políticas” usando tentativa e erro. Cada robô tentou abrir a porta usando a política atual mais recente. As ações do robô ainda eram processadas pela rede neural e carregadas no servidor. Com o tempo, os robôs começaram a trabalhar com muito mais eficiência do que a primeira vez.Depois que os robôs começaram a agir com sucesso, cada um dos instrutores que trabalhavam com os robôs alterou as condições da tarefa. As mudanças foram fortes (a posição da porta, o ângulo de abertura etc.), mas suficientes para que a política desenvolvida anteriormente não fosse inteiramente adequada para solucionar um novo problema. Os robôs gradualmente aprenderam a lidar com as novas condições e, posteriormente, aprenderam a executar as tarefas mais difíceis de abrir portas e fechaduras diferentes. O experimento final mostrou a eficácia desse tipo de treinamento: os robôs conseguiram abrir a porta e trancar, o que eles ainda não encontraram.Os autores do projeto afirmam que a interação dos robôs entre si e o data warehouse central os ajudou a aprender com mais rapidez e eficiência. E o uso de uma rede neural melhorou significativamente os resultados preliminares.Infelizmente, até agora a lista de tarefas que os robôs podem executar é extremamente limitada. Eles dificilmente recebem os movimentos e tarefas mais simples, como abrir portas ou levantar vários objetos. O homem ainda é forçado a dizer ao robô o que fazer e como agir. Mas os algoritmos estão melhorando gradualmente e as redes neurais deixaram de ser algo surpreendente. Portanto, há esperança de que, no futuro próximo, os robôs ainda possam executar tarefas complexas. Talvez o futuro já esteja aqui. Source: https://habr.com/ru/post/pt398013/
All Articles