Um macaco (chimpanzé) tira cupins de um cupim usando um graveto. Na segunda foto, o gorila usa um graveto para coletar a grama de que precisa.Os desenvolvedores dos Estados Unidos
criaram um algoritmo especializado para robôs , que possibilitou ao último usar ferramentas adicionais para concluir a tarefa. E é relativamente simples - de certa maneira, mover um objeto do ponto A para o ponto B.
O algoritmo consiste em duas partes. O primeiro permite que o robô mova objetos aleatoriamente, realizando uma espécie de experimentação. A segunda parte possibilita avaliar as consequências de uma ação específica usando uma rede neural. Como se viu, os robôs, trabalhando de acordo com o algoritmo, efetivamente usavam ferramentas auxiliares sem treinamento.




Uma pessoa usa muitas ferramentas adicionais todos os dias. Os animais também são capazes disso - papagaios, corvos, macacos e algumas outras criaturas vivas podem usar gravetos, pedras, espinhos para realizar as tarefas desejadas (por exemplo, extrair uma larva de besouro de debaixo da casca).
Para nós, o uso de uma faca para fatiar pão é bastante óbvio. Mas para um robô que precisa explicar todas as ações na forma de uma linguagem de máquina - de maneira alguma.


Cientistas da Universidade da Califórnia em Berkeley desenvolveram uma maneira de treinar robôs para usar ferramentas auxiliares e tomar decisões sobre sua aplicação em uma determinada situação. O algoritmo "visualiza" a tarefa, mostrando o robô em que direção o exemplo deve ser movido. E o robô (este é um manipulador robótico comum) já pega um instrumento e move um objeto. Todos os movimentos são rastreados na câmera.

O algoritmo é baseado em uma rede neural. Um programa especializado calcula diferentes seqüências de ações para um robô que são "alimentadas" a uma rede neural. Isso gera um vídeo que mostra o que acontecerá como resultado da execução de uma ação específica.
O manipulador recebe um comando para executar uma ação. Se o resultado real coincidir com o planejado, a tarefa é contada. No decorrer do trabalho, várias opções de vídeo são comparadas com a imagem fornecida pelo usuário e exibem o resultado final da tarefa. Depois que a sequência ideal de ações é encontrada, o robô prossegue para resolver o problema.


Este projeto combina abordagens de aprendizado de máquina, como
aprendizado não demonstrativo e treinamento em simulação . No primeiro caso, o robô seleciona opções aleatoriamente. Como resultado, é gerada uma amostra significativa de dados, o que ajuda a alcançar um resultado ideal. No segundo, os desenvolvedores mostraram claramente ao robô como usar a ferramenta em um caso ou outro. É nessa situação que a solução de referência é gravada na câmera com a qual o robô compara as conseqüências de suas ações.
Em alguns casos, o robô "entende" que é melhor concluir a tarefa sem elementos auxiliares - e o faz. As ferramentas são usadas sem treinamento, mesmo que o robô não tenha sido mostrado antes.

