Google apprend aux robots à effectuer de nouvelles tâches dans le "jardin d'enfants"
Ă€ la maternelle, les robots apprennent Ă ouvrir les portes. La
capacité d'apprentissage est l'une des plus importantes pour les robots. S'ils commencent à apprendre, accumulant les informations dont ils ont besoin au fil du temps, ils peuvent être utilisés pour effectuer des tâches complexes qui n'ont pas été préprogrammées. Les tâches peuvent être très différentes - de la prise en charge des personnes âgées et des patients dans les hôpitaux au nettoyage des locaux. Certes, si vous devez entraîner chaque robot individuellement, cela prendra beaucoup de temps. Et si les robots enseignaient aux robots? Et si des groupes de robots commencent à apprendre ensemble?Ce problème est loin d'être nouveau, il a été décrit plus d'une fois par des auteurs de science-fiction. Des spécialistes de la robotique et de l'intelligence artificielle tentent également de résoudre ce problème. Google plus que d'autresElle souhaite apprendre des robots. L'un des moyens les plus simples de réaliser ce que vous voulez est probablement de créer une base de données de connaissances communes sur les robots, où les informations collectées par chacune des machines seront collectées.Tous les robots doivent être connectés à cette base. Si un robot apprend quelque chose, tout le monde acquiert immédiatement des connaissances et de l'expérience. Les employés de Google ont testé cette idée (également pas nouvelle) dans la pratique et ont obtenu de bons résultats. En particulier, les actions effectuées par l'un des robots sont immédiatement devenues la propriété de ses «collègues».Les robots peuvent effectuer la même action de manières très différentes. Parfois c'est mieux, parfois pire. Toute information sur ces actions est capturée et envoyée au serveur, où elle est traitée à l'aide d'un réseau de neurones. Le système cognitif évalue les actions de chaque machine et sélectionne uniquement les informations sur l'expérience positive, en rejetant les données sur les tentatives infructueuses de terminer l'une ou l'autre tâche. Les robots chargent des données traitées par un réseau de neurones avec une certaine fréquence. Et à chaque nouveau téléchargement, ils deviennent plus efficaces. Dans la vidéo ci-dessous, le robot étudie le processus d'ouverture d'une porte.Après plusieurs heures de formation, la machine transmet des informations sur ses actions à un réseau commun. En train de maîtriser l'ouverture d'une porte, les robots étudient les détails de cette procédure, «comprenant» progressivement le rôle de la poignée de porte et ce qui doit être fait pour ouvrir la porte le plus rapidement possible.Le processus d'apprentissage par essais et erreurs est bon, mais pas parfait. Les personnes et les animaux, par exemple, peuvent également analyser les éléments de l'environnement, évaluer leur impact possible sur leurs actions. Au fur et à mesure que les gens et les animaux grandissent, une certaine image du monde se forme. Il est clair que chez l'homme c'est beaucoup plus compliqué que chez la plupart des animaux, mais il y a des éléments similaires dans les deux cas.Par conséquent, les ingénieurs de Google ont décidé de montrer aux robots comment les lois de la physique affectent leurs actions. Dans une expérience, le robot a été chargé d'étudier divers objets communs à n'importe quelle maison ou bureau. Ce sont des crayons, des stylos, des livres et d'autres objets. Les robots ont rapidement appris et transmis les informations à leurs «collègues». Toute l'équipe de robots a reçu en peu de temps le concept des conséquences de leurs actions.
Dans une nouvelle expérience, les ingénieurs ont demandé au robot de déplacer un objet spécifique vers un point donné. Cependant, le système n'a reçu aucune instruction sur la nature de l'objet. Les objets changent constamment. Il peut s'agir d'une bouteille d'eau, d'une canette de bière, d'un stylo ou d'un livre. Il s'est avéré que les robots ont accompli cette tâche en utilisant des données d'expérience précédente sur l'interaction avec le monde réel. Ils ont pu calculer les conséquences du déplacement de l'objet sur la surface jusqu'au point souhaité.Mais qu'en est-il de l'homme?
Deux expériences précédentes ont été réalisées avec la participation de robots uniquement, sans aide humaine. Selon Google, la formation des systèmes robotiques peut aller beaucoup plus vite si une personne aide la machine. Après tout, une personne peut calculer rapidement ce qui résultera de l'exécution de certaines actions. Par exemple, dans une expérience, une personne a aidé différents robots à ouvrir différents types de portes. Chaque système a reçu une porte et une serrure uniques.En conséquence, une stratégie commune a été développée pour tous les robots, qui a été appelée «politique». Toutes les actions des robots ont été traitées à l'aide d'un réseau neuronal profond. Elle a traité les images des caméras enregistrant les actions des robots et a transféré les informations déjà traitées au serveur central déjà sous la forme d'une politique.Les robots ont constamment amélioré leurs «politiques» à l'aide d'essais et d'erreurs. Chaque robot a tenté d'ouvrir la porte en utilisant la dernière politique actuelle. Les actions des robots étaient toujours traitées par le réseau de neurones et téléchargées sur le serveur. Au fil du temps, les robots ont commencé à fonctionner beaucoup plus efficacement que la première fois.Après que les robots ont commencé à agir avec succès, chacun des instructeurs qui ont travaillé avec les robots a quelque peu changé les conditions de la tâche. Les changements ont été forts (position de la porte, angle d'ouverture, etc.), mais suffisants pour que la politique élaborée précédemment ne soit pas entièrement adaptée à la résolution d'un nouveau problème. Les robots ont progressivement appris à faire face à de nouvelles conditions pour eux-mêmes et ont ensuite appris à effectuer les tâches les plus difficiles d'ouverture de différentes portes et serrures. L'expérience finale a montré l'efficacité de ce type de formation: des robots ont pu ouvrir la porte et la serrure, qu'ils n'ont pas encore rencontrés.Les auteurs du projet affirment que l'interaction des robots entre eux et l'entrepôt de données central les a aidés à apprendre plus rapidement et plus efficacement. Et l'utilisation d'un réseau neuronal a considérablement amélioré les résultats préliminaires.Malheureusement, jusqu'à présent, la liste des tâches que les robots peuvent effectuer est extrêmement limitée. On ne leur confie guère les mouvements et les tâches les plus simples, comme ouvrir des portes ou soulever divers objets. L'homme est toujours obligé de dire au robot quoi faire et comment agir. Mais les algorithmes s'améliorent progressivement et les réseaux de neurones ont cessé d'être quelque chose de surprenant. Par conséquent, il est à espérer que dans un avenir proche, les robots pourront encore effectuer des tâches complexes. Peut-être que l'avenir est déjà là . Source: https://habr.com/ru/post/fr398013/
All Articles