Após 11.500 acidentes, um quadrocopter da IA ​​aprendeu a voar dentro de casa

Se antes de voar voa sem parar pela janela - não faça uma conclusão prematura de que é estúpido. Talvez este seja um robô em miniatura com um sistema de IA no modo de auto-aprendizado.


Um UAV colidiu 11 500 vezes com os objetos ao redor, voando por caminhos selecionados aleatoriamente

Como ensinar um veículo aéreo não tripulado a se mover por uma determinada rota, evitando obstáculos? É possível ficar sem um mapa 3D digital quando se trata de navegação interna? Para resolver esse problema, existem várias tecnologias adequadas, incluindo treinamento em simulação , nas quais o “professor” ensina o drone a voar por diferentes trajetórias, corrigindo suas ações, se necessário. Gradualmente, o UAV aprende rotas. Mas essa abordagem é claramente limitada pelo conjunto de dados de entrada: o professor não pode acompanhar infinitamente o drone.

Nos últimos anos, os sistemas de aprendizado de máquina sem professor começaram a se desenvolver rapidamente (auto-supervisão).
aprendizagem). Eles provaram ser excelentes em várias tarefas: navegação , pegar objetos (em robótica) e tarefas de "empurrar / puxar" (física intuitiva). Mas os sistemas de autoaprendizagem são capazes de dominar uma tarefa tão complexa como a navegação interna - e superar as limitações do treinamento em simulação?

Estudos anteriores mostraram que esses sistemas são realmente capazes de aprender sem um professor em um simulador e que o conhecimento treinado pode ser transferido para o mundo real. Mas, na prática, outra questão é mais relevante: a autoeducação no mundo real funciona em uma sala arbitrária, sem simulador e mapa pré-compilado? Afinal, é precisamente essa tarefa que cada um de nós enfrentará quando comprar um robô e o levar para casa. Ele deve estudar a situação de forma independente e começar a navegar em qualquer casa (antes é melhor remover todos os objetos frágeis das salas e se esconder também).

Pesquisadores da Universidade Carnegie Mellon (EUA) definiram a tarefa mais difícil, colocando um quadrocóptero com uma rede neural para auto-treinamento na sala mais difícil de navegar, com um grande número de salas e móveis. Os autores enfatizam que outros estudos tentam simplificar o ambiente para evitar colisões. Eles, pelo contrário, queriam empurrar o UAV para o número máximo de colisões e acidentes, para que o robô pudesse aprender com essa experiência. Os cientistas projetaram um sistema de auto-estudo que leva em conta essa experiência negativa, bem como a experiência positiva de um vôo bem-sucedido ao longo de trajetórias.

O quadcopter AR Drone 2.0, sob o controle de um sistema de aprendizado de máquina, foi testado em 20 salas da casa - e, como resultado, aprendeu a evitar efetivamente colisões em cada uma dessas salas. Duração do treinamento - 40 horas de vôo. Os pesquisadores dizem que o custo das peças do drone é pequeno e fácil de substituir, portanto a probabilidade de acidentes catastróficos pode ser negligenciada.

Todas as colisões foram completamente aleatórias. Os UAVs foram colocados em um ponto arbitrário no espaço - e ele voou em uma direção aleatória. Após o acidente, ele voltou ao ponto de partida - e novamente voou em uma direção aleatória, até que novamente caiu em algum lugar.


A câmera quadrocopter dispara a 30 quadros / se, após o acidente, todos os quadros são divididos em duas partes: os quadros com um bom caminho são colocados no grupo positivo e os quadros tirados imediatamente antes da colisão no grupo negativo. No processo de treinamento, o drone colidiu com objetos ao redor de 11.500 vezes - e montou uma das maiores bases de acidentes com VANT do mundo. Essa "experiência negativa" contém informações sobre todas as maneiras possíveis que um quadrocopter pode travar em algum lugar.

Grupos de experiências positivas e negativas foram transmitidos como entrada para a rede neural, que aprendeu a fazer previsões sobre se uma experiência positiva específica da trajetória atual levaria ao aparecimento de experiências negativas da amostra de colisão. Ou seja, a rede neural começou a prever para onde voar.

O diagrama da rede neural é mostrado na ilustração abaixo. O peso das camadas convolucionais (cinza) foi calculado previamente de acordo com a classificação ImageNet, mas nas camadas conectadas (laranja) os pesos foram escolhidos aleatoriamente, e os valores mais ótimos foram assimilados durante o processo de autoaprendizagem, com base inteiramente em dados de acidentes. A ilustração mostra os quadros de dados de entrada da câmera (esquerda) e os dados de saída da rede neural (a decisão de voar em linha reta, virar à esquerda ou à direita).



O diagrama a seguir mostra um campo de testes - um edifício de quatro andares onde o treinamento com drones automáticos ocorreu.



O resultado foi um sistema de navegação surpreendentemente eficaz para drones. Uma abordagem bastante simples do auto-aprendizado é muito eficaz, especificamente para salas com um grande número de obstáculos, incluindo obstáculos em movimento, como pessoas.

Testes comparativos mostraram que este sistema de navegação é 2-10 vezes mais eficaz que os sistemas de auto-estudo com uma estimativa de distância monocular . Especialmente a diferença aparece ao lado das paredes de vidro e paredes sem marcas de identificação, que tradicionalmente complicam o trabalho das últimas.



O trabalho científico foi publicado em 19 de abril de 2017 no site de pré-impressão arXiv.org (arXiv: 1704.05588v2).

Source: https://habr.com/ru/post/pt403855/


All Articles