Apprentissage par renforcement ou stratégies évolutives? - À la fois cela et un autre

Bonjour, Habr!

Nous décidons rarement de publier ici des traductions de textes il y a deux ans, sans code et avec une orientation clairement académique - mais aujourd'hui nous allons faire une exception. Nous espérons que le dilemme dans le titre de l'article préoccupe beaucoup de nos lecteurs, et que vous avez déjà lu l'ouvrage original ou lirez l'ouvrage fondamental sur les stratégies évolutives avec lesquelles ce post est polémique. Bienvenue au chat!



En mars 2017, OpenAI a fait beaucoup de bruit dans la communauté du deep learning en publiant l'article « Evolution Strategies as a Scalable Alternative to Reinforcement Learning ». Dans ce travail, des résultats impressionnants ont été décrits en faveur du fait que la lumière n'a pas convergé dans la formation avec renforcement (RL), et il est conseillé d'essayer d'autres méthodes lors de la formation de réseaux neuronaux complexes. Ensuite, une discussion a éclaté sur l'importance du renforcement de l'apprentissage et à quel point il mérite le statut de technologie «obligatoire» pour apprendre à résoudre des problèmes. Ici, je veux parler du fait que vous ne devriez pas considérer ces deux technologies comme concurrentes, dont l'une est clairement meilleure que l'autre; au contraire, ils se complètent finalement. En effet, si vous pensez un peu à ce qui est nécessaire pour créer une IA commune et de tels systèmes qui, tout au long de leur existence, seraient capables d'apprendre, de juger et de planifier, alors nous arriverons presque certainement à la conclusion que telle ou telle solution combinée sera nécessaire . Soit dit en passant, c'est la nature qui est venue à une solution combinée, dotée de l'intelligence complexe des mammifères et des autres animaux supérieurs au cours de l'évolution.

Stratégies évolutives


La thèse principale de l'article OpenAI était qu'au lieu d'utiliser l'apprentissage par renforcement combiné à la rétropropagation traditionnelle, ils ont réussi à former le réseau neuronal à résoudre des problèmes complexes en utilisant la soi-disant «stratégie évolutive» (ES). Une telle approche ES consiste à maintenir la distribution des valeurs de poids sur une échelle de réseau, de nombreux agents travaillant en parallèle et utilisant des paramètres sélectionnés dans cette distribution. Chaque agent opère dans son propre environnement et à la fin d'un nombre donné d'épisodes ou d'étapes d'un épisode, l'algorithme renvoie une récompense totale, exprimée sous forme de score de fitness. Compte tenu de cette valeur, la distribution des paramètres peut être déplacée vers des agents plus performants, privant les moins performants. Des millions de fois en répétant une telle opération impliquant des centaines d'agents, il est possible de déplacer la distribution des poids dans un espace qui nous permettra de formuler une politique qualité pour que les agents résolvent leur tâche. En effet, les résultats présentés dans l'article sont impressionnants: il est démontré que si vous exécutez un millier d'agents en parallèle, alors le mouvement anthropomorphique sur deux jambes peut être étudié en moins d'une demi-heure (alors que même les méthodes RL les plus avancées nécessitent plus d'une heure). Pour une revue plus détaillée, je recommande de lire un excellent article des auteurs de l'expérience, ainsi que l' article scientifique lui-même.



Différentes stratégies d'apprentissage pour la posture verticale anthropomorphe, étudiées à l'aide de la méthode ES d'OpenAI.

Boîte noire


Le grand avantage de cette méthode est qu'elle est facile à paralléliser. Alors que les méthodes RL, par exemple A3C, nécessitent l'échange d'informations entre les workflows et le serveur de paramètres, ES n'a besoin que d'estimations de validité et d'informations générales sur la distribution des paramètres. Grâce à une telle simplicité, cette méthode contourne les méthodes RL modernes en termes d'évolutivité. Cependant, tout cela n'est pas vain: il faut optimiser le réseau sur le principe d'une boîte noire. Dans ce cas, la «boîte noire» signifie que pendant la formation, la structure interne du réseau est complètement ignorée, et seul le résultat global (récompense pour l'épisode) est utilisé, et cela dépend si les poids d'un réseau particulier seront hérités par les générations futures. Dans les situations où nous n'obtenons pas de rétroaction prononcée de l'environnement - et dans la résolution de nombreuses tâches traditionnelles liées au RL, le flux de récompense est très raréfié - le problème passe d'une «boîte partiellement noire» à une «boîte complètement noire». Dans ce cas, il est possible d'augmenter sérieusement la productivité, donc, bien sûr, un tel compromis est justifié. "Qui a besoin de gradients s'ils sont toujours désespérément bruyants?" - c'est l'opinion générale.

Cependant, dans les situations où la rétroaction est plus active, les problèmes ES commencent à mal tourner. L'équipe OpenAI décrit comment le réseau de classification simple MNIST a été formé en utilisant ES, et cette fois la formation a été 1000 fois plus lente. Le fait est que le signal de gradient dans la classification des images est extrêmement instructif sur la façon d'enseigner au réseau une meilleure classification. Ainsi, le problème n'est pas tant associé à la technique RL qu'à des récompenses clairsemées dans des environnements qui produisent des gradients bruyants.

Solution trouvée par nature


Si vous essayez d'apprendre de l'exemple de la nature, en réfléchissant aux moyens de développer l'IA, dans certains cas, l'IA peut être représentée comme une approche orientée vers les problèmes . En fin de compte, la nature fonctionne dans des limites que les informaticiens n'ont tout simplement pas. Il existe une opinion selon laquelle une approche purement théorique pour résoudre un problème particulier peut fournir des solutions plus efficaces que des alternatives empiriques. Néanmoins, je pense toujours qu'il conviendrait de vérifier comment un système dynamique fonctionnant dans des conditions de certaines restrictions (Terre) a formé des agents (animaux, en particulier des mammifères), capables d'un comportement flexible et complexe. Bien que certaines de ces limitations ne soient pas applicables dans les mondes simulés de la science des données, d'autres sont tout simplement très bonnes.

Après avoir examiné le comportement intellectuel des mammifères, nous voyons qu'il est formé à la suite de l'interaction complexe de deux processus étroitement liés: apprendre de l'expérience des autres et apprendre de notre propre expérience . Le premier est souvent identifié à l'évolution due à la sélection naturelle, mais ici j'utilise un terme plus large pour prendre en compte l'épigénétique, les microbiomes et d'autres mécanismes qui assurent l'échange d'expérience entre des organismes qui ne sont pas génétiquement liés les uns aux autres. Le deuxième processus, l'apprentissage de première main, est toute l'information qu'un animal parvient à assimiler tout au long de sa vie, et cette information est directement liée à l'interaction de cet animal avec le monde extérieur. Cette catégorie comprend tout, de l'apprentissage de la reconnaissance des objets à la maîtrise de la communication inhérente au processus éducatif.

En gros, ces deux processus se produisant dans la nature peuvent être comparés à deux options pour optimiser les réseaux de neurones. Les stratégies évolutives, où les informations de gradient sont utilisées pour mettre à jour les informations sur le corps, sont proches de l'apprentissage de l'expérience de quelqu'un d'autre. De même, les méthodes de gradient, où la réception d'une expérience particulière conduit à l'un ou l'autre changement dans le comportement de l'agent, sont comparables à l'apprentissage par l'expérience. Si vous pensez aux variétés de comportements intellectuels ou aux capacités que chacune de ces deux approches développe chez les animaux, une telle comparaison est plus prononcée. Dans les deux cas, les «méthodes évolutives» contribuent à l'étude des comportements réactifs qui permettent le développement d'une certaine forme physique (suffisante pour rester en vie). Apprendre à marcher ou à échapper à la captivité dans de nombreux cas équivaut à des comportements plus «instinctifs» qui sont «câblés» chez de nombreux animaux au niveau génétique. De plus, cet exemple confirme que les méthodes évolutives sont applicables dans les cas où le signal-récompense est extrêmement rare (comme, par exemple, le fait d'élever avec succès un petit). Dans un tel cas, il est impossible de corréler la récompense avec un ensemble spécifique d'actions qui pourraient avoir été commises plusieurs années avant le début de ce fait. D'un autre côté, si nous considérons le cas où l'ES échoue, à savoir la classification des images, les résultats seront remarquablement comparables avec les résultats de la formation animale réalisée au cours d'innombrables expériences psychologiques comportementales menées sur plus de cent ans.

Entraînement des animaux


Les méthodes utilisées dans l'apprentissage par renforcement sont dans de nombreux cas directement tirées de la littérature psychologique sur le conditionnement opérant , et le conditionnement opérant a été étudié sur la base de la psychologie animale. Soit dit en passant, Richard Sutton, l'un des deux fondateurs de la formation en renforcement, détient un baccalauréat en psychologie. Dans le contexte du conditionnement opérant, les animaux apprennent à associer récompense ou punition à des schémas comportementaux spécifiques. Les formateurs et les chercheurs peuvent en quelque sorte manipuler une telle association avec des récompenses, incitant les animaux à faire preuve d'ingéniosité ou de certains comportements. Cependant, le conditionnement opérant utilisé dans l'étude des animaux n'est rien de plus qu'une forme plus prononcée de ce conditionnement, sur la base duquel les animaux sont entraînés tout au long de la vie. Nous recevons constamment des signaux de renforcement positifs de l'environnement et ajustons notre comportement en conséquence. En fait, de nombreux neurophysiologistes et scientifiques cognitifs pensent qu'en fait, les gens et les autres animaux agissent même d'un niveau plus haut et apprennent constamment à prédire les résultats de leur comportement dans des situations futures, en comptant sur les récompenses potentielles.

Le rôle central de la prévision dans l'auto-étude change la dynamique décrite ci-dessus de la manière la plus significative. Le signal qui était auparavant considéré comme très raréfié (récompense épisodique) est très dense. Théoriquement, la situation est approximativement la suivante: à chaque instant, le cerveau des mammifères calcule les résultats sur la base d'un flux complexe de stimuli et d'actions sensorielles, tandis que l'animal est simplement immergé dans ce flux. Dans ce cas, le comportement final de l'animal donne un signal dense, qui doit être guidé par la correction des prévisions et le développement du comportement. Le cerveau utilise tous ces signaux afin d'optimiser les prévisions (et, par conséquent, la qualité des actions entreprises) à l'avenir. Un aperçu de cette approche est donné dans l'excellent livre « Surfing Uncertainty » du scientifique et philosophe cognitif Andy Clark. Si nous extrapolons de tels arguments à la formation d'agents artificiels, alors la formation par renforcement révèle un défaut fondamental: le signal utilisé dans ce paradigme est désespérément faible par rapport à ce qu'il pourrait être (ou devrait être). Dans les cas où il est impossible d'augmenter la saturation du signal (peut-être parce qu'il est par définition faible ou associé à une réactivité de bas niveau) - il est probablement préférable de préférer une méthode d'apprentissage bien parallélisée, par exemple ES.

Meilleur apprentissage des réseaux de neurones


Sur la base des principes d'une activité nerveuse plus élevée inhérente au cerveau des mammifères, qui est constamment engagé dans la prévision, il a été possible récemment d'obtenir certains succès dans la formation de renforcement, qui tient désormais compte de l'importance de telles prévisions. Je peux vous recommander deux travaux similaires:


Dans ces deux articles, les auteurs complètent les politiques de réseau de neurones par défaut typiques avec des résultats prévisionnels concernant les conditions environnementales futures. Dans le premier article, la prévision est appliquée à une variété de variables de mesure et dans le second, aux changements de l'environnement et du comportement de l'agent en tant que tel. Dans les deux cas, le signal clairsemé associé au renforcement positif devient beaucoup plus saturé et informatif, fournissant à la fois un apprentissage accéléré et l'assimilation de modèles comportementaux plus complexes. De telles améliorations ne sont disponibles que lorsque vous travaillez avec des méthodes qui utilisent le signal de gradient, mais pas avec des méthodes qui fonctionnent sur le principe de la "boîte noire", comme, par exemple, ES.

De plus, l'apprentissage de première main et les méthodes de gradient sont beaucoup plus efficaces. Même dans les cas où il était possible d'étudier un problème particulier par la méthode ES plutôt que d'utiliser une formation de renforcement, le gain a été obtenu en raison du fait que plusieurs fois plus de données étaient impliquées dans la stratégie ES qu'avec RL. En réfléchissant dans ce cas aux principes de l'apprentissage chez les animaux, nous notons que le résultat de la formation sur un exemple étranger se manifeste après plusieurs générations, alors que parfois un seul événement vécu dans notre propre expérience suffit pour que l'animal apprenne la leçon pour toujours. Bien qu'une telle formation sans exemples ne s'intègre pas encore pleinement dans les méthodes de gradient traditionnelles, elle est beaucoup plus intelligible que ES. Il existe, par exemple, des approches telles que le contrôle neuronal épisodique , où les valeurs Q sont stockées pendant le processus de formation, après quoi le programme est vérifié avec elles avant d'effectuer des actions. Il s'avère que la méthode du gradient vous permet d'apprendre à résoudre les problèmes beaucoup plus rapidement qu'auparavant. Dans l'article sur le contrôle neuronal épisodique, les auteurs mentionnent l'hippocampe humain, qui est capable de stocker des informations sur l'événement même après une expérience une fois vécue et, par conséquent, joue un rôle essentiel dans le processus de rappel. De tels mécanismes nécessitent un accès à l'organisation interne de l'agent, ce qui est également par définition impossible dans le paradigme ES.

Alors pourquoi ne pas les combiner?


La plupart de cet article aurait probablement pu donner l'impression que je préconisais des méthodes RL. Cependant, en fait, je pense qu'à long terme, la meilleure solution serait une combinaison des deux méthodes, de sorte que chacune soit utilisée dans les situations où elle est la mieux adaptée. De toute évidence, dans le cas de nombreuses politiques réactives ou dans des situations avec des signaux de renforcement positif très clairsemés, ES l'emporte, surtout si vous avez la puissance de calcul à laquelle vous pouvez exécuter une formation parallèle en masse. D'un autre côté, les méthodes de gradient utilisant un apprentissage renforcé ou une formation des enseignants seront utiles lorsque nous disposerons de nombreux commentaires et que la résolution du problème doit être apprise rapidement et avec moins de données.

En ce qui concerne la nature, nous constatons que la première méthode, en substance, jette les bases de la seconde. C'est pourquoi, au cours de l'évolution, les mammifères ont développé un cerveau qui permet un apprentissage extrêmement efficace de la matière des signaux complexes provenant de l'environnement. La question reste donc ouverte. Peut-être que les stratégies évolutives nous aideront à inventer des architectures d'apprentissage efficaces qui seront utiles pour les méthodes d'apprentissage à gradient. Après tout, la solution trouvée par la nature est en effet très réussie.

Source: https://habr.com/ru/post/fr456160/


All Articles