Si, avant de voler, vous volez sans cesse par la fenêtre, ne concluez pas prématurément que c'est stupide. Il s'agit peut-être d'un robot miniature avec un système d'IA en mode d'auto-apprentissage.
Un drone s'est écrasé 11 500 fois sur les objets environnants, volant le long de chemins choisis au hasardComment apprendre à un véhicule aérien sans pilote à se déplacer le long d'un itinéraire donné, en évitant les obstacles? Est-il possible de se passer d'une carte 3D numérique en matière de navigation intérieure? Pour résoudre ce problème, il existe plusieurs technologies adaptées, dont la
formation par simulation , dans lesquelles le "professeur" apprend au drone à voler sur différentes trajectoires, corrigeant ses actions si nécessaire. Petit à petit, l'UAV apprend les itinéraires. Mais cette approche est clairement limitée par l'ensemble des données d'entrée: l'enseignant ne peut pas accompagner sans fin le drone.
Ces dernières années, les systèmes d'apprentissage automatique sans enseignant ont commencé à se développer rapidement
apprentissage). Ils se sont avérés excellents dans un certain nombre de tâches:
navigation ,
saisie d'objets (en robotique) et
tâches «push / pull» (physique intuitive). Mais les systèmes d'auto-apprentissage sont-ils capables de maîtriser une tâche aussi complexe que la navigation intérieure - et de surmonter les limites de la formation par simulation?
Des études antérieures ont montré que de tels systèmes sont vraiment capables d'apprendre sans professeur dans un simulateur et que les connaissances formées peuvent être transférées dans le monde réel. Mais en pratique, une autre question est plus pertinente: l'auto-éducation dans le monde réel fonctionne-t-elle dans une pièce arbitraire, sans simulateur et sans carte pré-compilée? Après tout, c'est précisément une telle tâche que chacun d'entre nous devra affronter lorsqu'il achètera un robot et le ramènera chez lui. Il doit étudier la situation de manière indépendante et commencer à naviguer dans n'importe quelle maison (auparavant, il vaut mieux retirer tous les objets fragiles des pièces et se cacher aussi).
Des chercheurs de l'Université Carnegie Mellon (États-Unis) ont fixé la tâche la plus difficile en plaçant un quadricoptère avec un réseau de neurones pour l'auto-formation dans la salle de navigation la plus difficile avec un grand nombre de pièces et de meubles. Les auteurs soulignent que d'autres études tentent de simplifier l'environnement afin d'éviter les collisions. Au contraire, ils voulaient pousser l'UAV au maximum de collisions et d'accidents, afin que le robot puisse apprendre de cette expérience. Les scientifiques ont conçu un système d'auto-apprentissage qui prend en compte cette expérience négative, ainsi que l'expérience positive d'un vol réussi le long de trajectoires.
Le quadricoptère AR Drone 2.0 sous le contrôle d'un système d'apprentissage automatique a été testé dans 20 pièces de la maison - et, par conséquent, a appris à éviter efficacement les collisions dans chacune de ces pièces. Durée de la formation - 40 heures de vol. Les chercheurs disent que le coût des pièces de drone est petit et facile à remplacer, de sorte que la probabilité d'accidents catastrophiques pourrait être négligée.
Toutes les collisions étaient complètement aléatoires. Les drones ont été placés à un point arbitraire de l'espace - et il a volé dans une direction aléatoire. Après l'accident, il est revenu au point de départ - et a de nouveau volé dans une direction aléatoire, jusqu'à ce qu'il s'écrase à nouveau quelque part.
La caméra quadricoptère tire à 30 images / s, et après l'accident, toutes les images sont divisées en deux parties: les images avec une bonne trajectoire sont placées dans le groupe positif et les images prises immédiatement avant la collision sont placées dans le groupe négatif. En cours de formation, le drone s'est écrasé sur les objets environnants 11 500 fois - et a assemblé l'une des plus grandes bases d'accidents d'UAV au monde. Cette «expérience négative» contient des informations sur toutes les manières possibles dont un quadricoptère peut se bloquer quelque part.
Des groupes d'expériences positives et négatives ont été transmis en tant qu'entrée au réseau neuronal, qui a appris à faire des prédictions quant à savoir si une expérience positive particulière de la trajectoire actuelle conduirait à l'apparition d'une expérience négative de l'échantillon de collision. Autrement dit, le réseau neuronal a commencé à prédire où voler.
Le schéma du réseau neuronal est illustré dans l'illustration ci-dessous. Le poids des couches convolutives (gris) a été calculé à l'avance selon la classification ImageNet, mais dans les couches connectées (orange), les poids ont été choisis au hasard et les valeurs les plus optimales ont été assimilées au cours du processus d'auto-apprentissage, entièrement basé sur des données d'accident. L'illustration montre les données d'entrée - les trames de la caméra (à gauche) et les données de sortie du réseau neuronal (la décision de voler tout droit, de tourner à gauche ou à droite).

Le diagramme suivant montre un terrain d'essai - un bâtiment de quatre étages où a eu lieu une formation sur les drones.

La sortie était un système de navigation étonnamment efficace pour les drones. Une approche assez simple de l'auto-apprentissage est très efficace spécifiquement pour les pièces avec un grand nombre d'obstacles, y compris des obstacles mobiles tels que des personnes.
Des tests comparatifs ont montré que ce système de navigation est 2 à 10 fois plus efficace que
les systèmes d'
auto-apprentissage avec une estimation de distance monoculaire . Surtout la différence apparaît à côté des murs de verre et des murs sans marques d'identification, ce qui complique traditionnellement le travail de ces derniers.

Les travaux scientifiques ont été
publiés le 19 avril 2017 sur le site de préimpression arXiv.org (arXiv: 1704.05588v2).