Un singe (chimpanzé) enlève les termites d'un termite à l'aide d'un bâton. Sur la deuxième photo, le gorille utilise un bâton pour ramasser l'herbe dont il a besoin.Des développeurs américains ont
créé un algorithme spécialisé pour les robots , qui a permis à ces derniers d'utiliser des outils supplémentaires pour achever la tâche. Et c'est relativement simple - d'une certaine manière de déplacer un objet du point A au point B.
L'algorithme se compose de deux parties. Le premier permet au robot de déplacer des objets de façon aléatoire, effectuant une sorte d'expérimentation. La deuxième partie permet d'évaluer les conséquences d'une action particulière à l'aide d'un réseau neuronal. Il s'est avéré que les robots, fonctionnant selon l'algorithme, utilisaient efficacement des outils auxiliaires sans formation.




Une personne utilise quotidiennement de nombreux outils supplémentaires. Les animaux sont également capables de cela - les perroquets, les corbeaux, les singes et certaines autres créatures vivantes peuvent utiliser des bâtons, des cailloux, des épines pour accomplir les tâches souhaitées (par exemple, extraire une larve de scarabée sous l'écorce).
Pour nous, l'utilisation d'un couteau pour trancher le pain est assez évidente. Mais pour un robot qui a besoin d'expliquer chaque action sous la forme d'un langage machine - pas du tout.


Des scientifiques de l'Université de Californie à Berkeley ont développé un moyen de former des robots à utiliser des outils auxiliaires et de prendre des décisions sur leur application dans une situation donnée. L'algorithme «visualise» la tâche, montrant au robot dans quelle direction l'exemple doit être déplacé. Et déjà le robot (c'est un manipulateur robotique ordinaire) prend un instrument et déplace un objet. Tous les mouvements sont suivis par la caméra.

L'algorithme est basé sur un réseau neuronal. Un programme spécialisé calcule différentes séquences d'actions pour un robot qui sont "alimentées" à un réseau neuronal. Cela génère une vidéo qui montre ce qui se passera à la suite de l'exécution d'une action particulière.
Le manipulateur reçoit une commande pour effectuer une action. Si le résultat réel coïncide avec celui prévu, la tâche est comptée. Au cours du travail, différentes options vidéo sont comparées à l'image fournie par l'utilisateur et affiche le résultat final de la tâche. Une fois la séquence d'actions optimale trouvée, le robot procède à la résolution du problème.


Ce projet combine des approches d'apprentissage automatique telles que l'
apprentissage sans démonstration et la formation par simulation . Dans le premier cas, le robot sélectionne les options au hasard. En conséquence, un échantillon important de données est généré, ce qui permet d'obtenir un résultat optimal. Dans le second, les développeurs ont clairement montré au robot comment utiliser l'outil dans un cas ou un autre. C'est dans cette situation que la solution de référence est enregistrée sur la caméra avec laquelle le robot compare les conséquences de ses actions.
Dans certains cas, le robot "comprend" qu'il est préférable de terminer la tâche sans éléments auxiliaires - et il le fait. Les outils sont utilisés sans formation, même si le robot n'a pas été montré auparavant.

