WTM (Waveform temporal memory) - un modèle de réseau neuronal pour résoudre le problème du comportement adaptatif



Je présente aux utilisateurs du réseau un modèle de réseau neuronal destiné à résoudre le problème du comportement adaptatif (et ses sous-tâches: reconnaissance et prédiction de séquences).

Préface


Je suis entré dans ce domaine (AI et voisins) par hasard: un article à ma guise, un autre, un troisième, un livre, quelques livres de plus, une monographie, etc. Alors que je passais de la littérature populaire aux publications universitaires actuelles, la pensée «pourquoi font-ils cela mal?» (Les manières d'IA et les systèmes adaptatifs sont plus modestes). Ensuite, j'ai pensé que les idées fondamentales qu'ils mettent dans leurs modèles sont incorrectes (elles ne conduisent pas aux résultats espérés par l'auteur). La connaissance des «mauvais» modèles s'est poursuivie, l'indignation s'est accumulée. Beaucoup plus tard, j'ai trouvé de «vraies» idées dans les œuvres des autres, mais il était trop tard, l'idée s'est formée - les pensées accumulées doivent être combinées en un modèle. À son sujet et sera discuté.

Présentation


L'article est divisé en deux grandes parties: théorie et implémentation de WTM.

Le concept d'adaptabilité

L'adaptabilité sera appelée la capacité d'un système de contrôle (CS) d'un certain objet autonome à acquérir des connaissances sur les propriétés du système «environnement - objet de contrôle - système de contrôle», à accumuler ces connaissances dans sa mémoire et à utiliser ces connaissances pour un contrôle approprié de l'objet de contrôle (OS).

Zone de raffinement
. , , – , . - «» , , . -, , , - , ; , . -, , ; , , – , , – - , , – ad hoc. , . , , . , , , .. , , – , , .

Modèles existants

Une grande liste de modèles et d'informations connexes sous le nom général de modèles cognitifs peut être trouvée ici et ici .

Principes du comportement adaptatif

Pour ma part, j'ai identifié l'ensemble minimal de principes nécessaires pour que SU soit appelé adaptatif.

  • SU devrait s'adapter en permanence aux événements environnementaux.
  • SU devrait avoir un ensemble minimal d'actes ou de réflexes comportementaux innés. Sur la base de cet ensemble de SU, le processus d'adaptation commencera.
  • SU devrait avoir la capacité de généraliser son expérience à d'autres situations environnementales.

Partie théorique


Comme exemple de travail, nous considérerons le problème du comportement adaptatif. Au cours du texte, l'abréviation WTM est utilisée dans le sens «d'une instance du modèle de mémoire temporaire d'onde».

L'adaptation

Le principe de l'adaptation continue signifie qu'au fil du temps, la faisabilité des réactions SU devrait augmenter. Ici, nous sommes confrontés à une fourchette, qui doit être considérée plus en détail. Le processus d '«accroissement de l'opportunité» est différent pour les systèmes de contrôle actifs et réactifs.

Les systèmes actifs ont un élément chargé d'évaluer son fonctionnement. Il contient les critères d'opportunité, par lesquels les actions effectuées par le SU sont évaluées. Sur la base de ces estimations, des décisions sont prises et le comportement du système est modifié pour augmenter les indicateurs de faisabilité.

La différence entre les modèles réactifs est qu'il n'y a pas d'unité d'évaluation comportementale en eux. De ce fait, la réalisation d'une augmentation de l'opportunité du comportement dans de tels systèmes est impossible par les mêmes moyens que dans les systèmes actifs. Par conséquent, il est nécessaire d'utiliser d'autres moyens de parvenir à l'opportunité.

Pour mieux comprendre cette différence, considérons plus en détail la définition de l'adaptabilité. Il peut être divisé en deux parties:

  1. En cours de fonctionnement, le SU augmente continuellement la couverture de nombreux événements environnementaux avec des réactions appropriées.
  2. En cours de fonctionnement, le système de contrôle remplace en permanence les réactions existantes par d'autres, plus appropriées

Dans le premier paragraphe, il n'y a pas de différence entre les systèmes actifs et réactifs. Dans les deux cas, l'augmentation de la couverture se réduit à une généralisation de l'expérience existante à de nouvelles situations environnementales. La différence réside dans le deuxième paragraphe. Les systèmes réactifs en sont fondamentalement incapables, car ils ne peuvent évaluer la pertinence des actions.

Il existe deux façons alternatives de réaliser l'opportunité.

  1. le choix d'un tel ensemble initial d'actes comportementaux, après la généralisation duquel les situations environnementales de base pour l'OS auraient des réactions appropriées.
  2. la formation des comportements appropriés des SU à travers l'environnement extérieur (éducation). Dans ce cas, l'environnement agit comme un agent actif qui crée ses effets sur le système d'exploitation afin que les modèles de comportement requis soient formés.

Bien que les deux méthodes aient le même objectif, elles sont très différentes à la fois dans les actions nécessaires et dans les coûts de main-d'œuvre.

La première méthode est utilisée pour créer un ensemble de réactions. Algorithme général:

  1. Effectuer une analyse approfondie de l'environnement futur du système d'exploitation, afin d'identifier les situations clés nécessitant des réponses appropriées.
  2. Trouvez les réactions appropriées aux situations trouvées.
  3. Créez une instance d'un système réactif dans lequel l'ensemble des réactions de base consistait en les paires situation-réaction obtenues.

La deuxième méthode est utilisée pour créer une réaction. Algorithme général:

  1. Il est nécessaire pour le développeur de créer une incitation complexe, dont la réponse serait le comportement souhaité
  2. En cours de fonctionnement, lorsque la situation nécessaire se produit, le développeur doit agir sur l'OS avec l'incitation créée pour que le SU effectue la réaction requise.
  3. Répétez l'étape 2 jusqu'à ce que l'effet soit fixe.

L'avantage de la deuxième méthode est qu'elle peut être utilisée à tout moment par les robots du système de contrôle, tandis que la première méthode ne peut être appliquée qu'au stade de la création de l'instance de modèle. La condition pour que la deuxième méthode fonctionne - le développeur doit connaître l'ensemble des réactions du système de contrôle

La formation

L'apprentissage chez WTM est un processus en deux parties: mettre en évidence les modèles environnementaux et maintenir la séquence de réponses CS à ces modèles. Sinon, l'apprentissage est le processus d'accumulation de paires du type [régularité de l'environnement - réaction].

Le motif du milieu est une séquence fréquemment répétée de signaux environnementaux. La fréquence de répétition de la séquence nécessaire à la mémorisation est fixée dans le WTM par le développeur au stade de la création du système (plus précisément, au point «Implémentation»).

Conservation des séquences de réactions SU

Pour les conserver, le mécanisme des relations associatives est utilisé.

La connexion associative est un phénomène dans lequel l'activité d'un élément de la mémoire (ES) provoque l'activation d'un autre ES. On notera A → B, où A et B sont des éléments de mémoire. La transition associative est le processus de mise en œuvre de la communication associative. Pour l'association A → B, une transition associative signifie le début de l'activité B après l'activité A.

Un élément de mémoire (EP) est un modèle (ou modèle) d'activité de réseau neuronal. L'activation peut se produire en réponse à un signal de l'environnement, ainsi qu'en raison d'une transition associative. Il convient de noter que chaque réaction d'un réseau neuronal est un ES, mais tous les ES ne sont pas une réaction d'un réseau. Par l'activité de l'EP, nous comprenons l'activité des neurones qui y pénètrent.

Le pouvoir de la communication associative est une valeur numérique caractérisant la capacité de la communication associative à activer son EP final. Pour l'association A → B, la force de liaison sera la capacité de A → B à activer B. Elle prend des valeurs réelles dans la plage [0, 1], et signifie le rapport du nombre de neurones activés B au nombre de tous les neurones B. La valeur n'est pas utilisée dans la mise en œuvre, mais nécessaire pour comprendre le modèle .

Le processus de conservation des séquences de réactions de SU consiste en la création continue de liens associatifs entre les réactions successives du réseau aux signaux environnementaux. Lors de la création d'une connexion associative, la valeur initiale de la force de communication lui est affectée. Avec chaque occurrence répétée d'EP, la force de la connexion associative augmente conformément à la fonction de mémorisation.

Isolement des motifs

L'identification des modèles est basée sur l'interaction des fonctions de mémorisation et d'oubli. WTM se souvient de tout. Plus un motif se produit souvent, plus il devient fort (plus les connexions associatives sont fortes dans sa composition). En même temps, les motifs sont oubliés. Moins un motif est courant, plus il s'affaiblit (plus les connexions associatives sont fortes dans sa composition). De la corrélation des fonctions de mémoire et d'oubli, il s'ensuit quelles associations resteront en mémoire et lesquelles seront oubliées.

Ici, il ne sera pas inutile de donner un exemple de corrélation des fonctions de mémorisation et d'oubli. Nous considérons deux cas extrêmes. Le premier cas - se souvenir l'emporte sur l'oubli. Ce cas conduit à:

  • mémorisation extrêmement détaillée des motifs
  • taux de remplissage de mémoire le plus élevé

Si l'oubli l'emporte sur la mémorisation, tout est exactement le contraire:

  • seuls les modèles les plus généraux sont mémorisés
  • vitesse de remplissage minimale

À l'heure actuelle, la sélection de fonctions de mémorisation et d'oubli appropriées est l'une des étapes les plus importantes de la création d'une instance WTM, car dans l'état actuel, le WTM a une taille de mémoire limitée et n'a aucun mécanisme pour l'augmenter.

Actes comportementaux de base

Dans l'ensemble de réactions de base, en plus des réactions propices, il devrait y avoir une autre classe de réactions - la base fonctionnelle du système. Les éléments de la base fonctionnelle correspondent aux actes comportementaux de base de l'OS (lever la tête, plier le premier doigt dans la deuxième phalange, etc.). Tout comportement sera une combinaison d'actes comportementaux de base (seulement eux).

Au niveau du réseau neuronal, les éléments de la base fonctionnelle sont des séquences d'EP. Des influences environnementales appropriées sont sélectionnées pour eux. Après cela, nous obtenons beaucoup de paires [régularité environnementale - réaction], correspondant à la base fonctionnelle sélectionnée.

Comportement dans les modèles réactifs

De nombreuses sources reflètent l'idée de systèmes réactifs en tant que réalisations du principe [stimulus -> réaction]. Dans de tels systèmes, on pense que le stimulus et la réaction sont séparés par un intervalle de temps minimum (lire le temps mis pour passer l'arc réflexe ou des structures similaires). Une telle définition découle du principe de base des systèmes réactifs - le déterminisme. Cependant, ce n'est pas entièrement vrai. Un schéma plus précis ressemble à ceci [stimulus -> réaction interne; changement déterministe des états internes; état interne -> activité externe (le mot réaction est remplacé par activité parce que dans un tel système, le comportement dépend de nombreux stimuli et non d'un seul)] (voir Fig. 1). La différence entre cette définition est la présence d'un modèle d'état interne. La propagation du signal est également un processus strictement déterministe,cependant, SU n'est plus un automate avec une réponse instantanée aux stimuli. Dans un tel modèle, le stimulus peut avoir une réaction externe ou non. De plus, le stimulus et la réaction externe peuvent être éloignés l'un de l'autre au fil du temps sur une grande distance. Les réseaux de neurones (WTM en particulier) appartiennent précisément à cette classe de systèmes (les réseaux de neurones dynamiques sont impliqués).



Première partie du schéma (Fig. 1.b.1), la réaction interne dans WTM est simplement la réaction du réseau au stimulus. Le mécanisme des associations est responsable de la deuxième partie du schéma (Fig. 1.b.2). À chaque cycle, le WTM a un état. Pour cette condition, il peut exister des relations associatives appropriées. Alors le processus de transition d'état déterminé est un processus de transition continue à travers des relations associatives. En d'autres termes, il s'agit du processus de reproduction de motifs mémorisés précédemment. La troisième partie du schéma (Fig. 1.b.3) découle de la seconde. Une activité externe aura lieu s'il y avait une activité externe dans des schémas reproductibles.

Généralisation

La généralisation est le processus de transfert d'une réaction comportementale d'un événement environnemental à un autre événement, qui est une abstraction du premier (l'abstraction est un objet qui n'a pas un ensemble de propriétés par rapport à un autre objet (il est appelé l'original ou un cas spécial).

Comme nous le savons déjà, la séquence de réactions de SU stocké dans le WTM dans les chaînes EP associatives liées ensuite en termes de motifs abstraits WTM -.. une chaîne de l' EPO et des relations associatives, dans laquelle le Parlement européen d' origine et les associations sont remplacées par leurs abstractions

Abstraction P - est le PE, de l'ensemble des neurones qui a été saisi des neurones association Abstraction -. Cette association entre les abstractions force du PE des captages d'association peut être inférieure ou égale à la force du haut - parleur d' origine ..

Nous obtenons que, compte tenu du principe de construction de réseaux de neurones (un neurone - une propriété), les abstractions de ES et AS font partie des ES et AS originaux. Par conséquent, pour que la généralisation se produise, il est nécessaire que les EP de la nouvelle chaîne soient suffisamment proches des EP de la chaîne généralisée. Plus d'informations sur la «proximité suffisante» seront décrites plus loin.

En raison de l'intégration du principe de généralisation dans les réseaux de neurones, il s'avère que dans WTM, il n'est pas présent comme un mécanisme séparé, mais n'est qu'une partie du processus de propagation du signal à travers le réseau.

Stabilité de reconnaissance aux déformations. Contexte situationnel

Les séquences de réaction mémorisées incorporent des liaisons associatives avec différentes forces de liaison. Un cas extrême est une régularité ayant toutes les forces égales à 1. Il sera parfaitement reproduit au total à partir de l'apparition de 1 de son élément. Cependant, c'est un cas extrême. Les séquences de la «bande médiane» se caractérisent par une situation différente. Ils ne peuvent être reproduits efficacement que si les événements environnementaux leur correspondent exactement.

Autrement dit, pour l'utilisation normale des séquences mémorisées, les séquences actuelles doivent coïncider avec elles au rythme du rythme. Cet état de fait n'est pas bon, et donc WTM a un mécanisme pour le contexte situationnel. Le problème décrit n'est pas le seul. Les principaux types de déformation 3:

  1. réorganiser les événements dans une séquence.
  2. l'apparition d'une séquence de nouveaux événements entre des éléments adjacents.
  3. sauter des éléments de séquence

Donc, le mécanisme du contexte situationnel. Il se compose de deux parties:

  1. nous modifions chaque EP en y ajoutant son contexte
  2. on change le rapport des fonctions de mémorisation et d'oubli dans le sens du renforcement de l'oubli. Cela fait que WTM se souvient de moins de détails. Compensation de la taille du faisceau d'électrons.

Le contexte situationnel est une description concise des événements à proximité. L'intervalle de temps considéré à proximité détermine le développeur. Vous pouvez l'imaginer comme un stockage temporaire à partir duquel des informations sur l'événement le plus ancien sont extraites à chaque cycle WTM et des informations sur le nouveau sont ajoutées.

Le contexte ne dépend pas fortement de l'ordre des événements (dépend de l'implémentation). Ainsi, pour une transition associative réussie (lire une reconnaissance réussie), il est nécessaire de ne pas répéter plus de détails dans l'ES actuel, mais de répéter les mêmes événements précédents.

Pour les séquences, cela signifie que plus la reproduction de la séquence va loin, plus il est probable que la lecture continue.

L'inertie

Le mécanisme du contexte situationnel augmente l'inertie de la reconnaissance WTM. L'inertie de reconnaissance fait référence à la tendance du WTM à poursuivre la reconnaissance des formes.

Groupes de contexte

Selon la relation entre la taille du contexte et l'EP initial, les propriétés du WTM varient considérablement. Si la taille sélectionnée du contexte situationnel est supérieure à la taille de l'ES, alors le comportement WTM sera plus inerte. Le comportement du WTM consistera principalement en des séquences de réaction incorporant des éléments du contexte actuel (si l'intervalle de couverture du contexte est grand, alors le taux de changement est petit et le rapport des changements à la taille totale est petit). Ainsi, nous pouvons dire que les séquences réactionnelles sont divisées en groupes selon le contexte situationnel général. La division en groupes est également soutenue par le fait que lors de la reproduction d'une séquence de réactions d'un certain groupe, nous ajoutons cette régularité au contexte, le mettant ainsi à jour, le maintenant dans le même état.

Implémentation


Pour tous les concepts considérés dans la partie théorique, des descriptions de leur implémentation en termes de réseaux de neurones seront données.

Structure générale

  • WTM est un réseau neuronal multicouche avec des neurones impulsionnels.
  • Le réseau a à la fois direct et rétroaction.
  • La nature des liaisons entre les couches est locale (c'est-à-dire non entièrement connectée) à la fois dans les directions avant et arrière.
  • Le fonctionnement du réseau est divisé en temps. Pour une horloge, la propagation du signal entre les couches adjacentes du réseau.
  • Les couches ont des nombres entiers commençant à 1.
  • Entre les neurones, une distance égale à la distance entre les couches contenant ces neurones est fixée.
  • Le réseau reçoit des signaux d'entrée après une période de temps prédéterminée T (période de fonctionnement du réseau) T est mesuré en ticks.
  • Les signaux sont envoyés au réseau à une fréquence de cycle d'entrée prédéterminée. Tinput est un multiple de T.
  • WTM . . . 1 .



Et maintenant quelques définitions.

En raison de la similitude du processus de propagation du signal à travers le réseau avec les ondes, le modèle a reçu une partie de son nom - onde. La partie "mémoire temporaire" a été empruntée au Jeff Hawkins HTM (mémoire hiérarchique temporaire) en raison de la similitude entre les modèles.

Dans la partie théorique, l'EP est représenté comme un objet statique. Pour comprendre le WTM, cette approche convient. Dans une implémentation WFM, un ES est un objet dynamique. Cet ES est prolongé dans le temps, et à tout moment de sa durée, seule une partie de l'ES est active.
Les ES en cours de propagation à travers le réseau seront appelés ondes. Le «front d'onde» (une couche avec une activité neuronale) est la partie très active du PE.

Mémorisation du PE

L'EP est stocké en utilisant la règle de plasticité synaptique Hebb. La règle de Hebb stipule que si l'activité d'un neurone est impliquée dans l'excitation d'un autre neurone, alors la force de la connexion synaptique entre eux devrait augmenter.

Relation associative

Les AS entre les ES sont créés à l'aide de rétroactions présentes dans le réseau. AS relie deux vagues consécutives d'activité. Pour cela, la longueur de retour est choisie égale à T / 2 (période de fonctionnement du réseau). Les connexions synaptiques qui composent les haut-parleurs obéissent également à la règle Hebb. Le processus de formation des locuteurs:

  1. un signal a été reçu au niveau des neurones d'entrée, provoquant la propagation d'une onde d'activité
  2. après le temps T, un deuxième signal est arrivé, a provoqué la propagation d'une onde d'activité
  3. à partir de la première onde, le signal de rétroaction se déplace dans la direction de la deuxième onde
  4. /2 /2
  5. /2.

S'il n'y a pas de deuxième vague, seule elle créera une activité après la première vague. Dans la partie théorique, cela a été appelé une transition associative (ainsi que la reconnaissance). L'activité neuronale résultant de la transition associative dans la partie théorique s'appelle l'EP créé par la connexion associative.

Le pouvoir de la communication associative. Au niveau de la mise en œuvre, il s'agit d'une valeur numérique caractérisant la capacité d'une vague d'activité à recréer une autre vague à travers ses rétroactions. Le processus de conservation des séquences réactionnelles consiste en la création continue de liens associatifs entre les vagues successives d'activité, ainsi que la conservation des vagues elles-mêmes.

La fonction mémoire est une fonction en fonction de laquelle les valeurs des coefficients de pondération sont augmentées au cours de leur paramétrage. Dépend du poids actuel de la synapse. La fonction d'oubli est une fonction selon laquelle les valeurs des coefficients de pondération diminuent dans le temps. Dépend du poids actuel de la synapse.

Comportement

La généralisation est le processus de transfert d'une réaction comportementale d'un événement environnemental à un autre événement, qui est une abstraction du premier. Au niveau du réseau neuronal, cela signifie maintenir la force des connexions associatives d'une certaine régularité à un niveau suffisant, lors du remplacement de ses éléments de mémoire par certaines de leurs abstractions.

Contexte situationnel

Un contexte situationnel est une caractéristique compressée des événements voisins, qui est ajoutée au PE actuel pour augmenter la qualité de la généralisation des modèles. Pour sa mise en œuvre, un mécanisme supplémentaire pour le fonctionnement des neurones est introduit - une diminution du seuil d'activation.

Le mécanisme d'abaissement du seuil d'activation: après que le neurone est dans un état actif, le seuil d'activation du neurone doit être réduit. Au fil du temps, la valeur seuil revient à sa valeur initiale. La réduction se produit conformément à la fonction de réduction du seuil. La valeur de la fonction dépend de la valeur seuil actuelle.

Prenons un exemple. Supposons qu'une séquence de signaux a été appliquée à un WTM avec un mécanisme de réduction de seuil. Après chaque vague, une partie des neurones diminuera le seuil d'activation. Cela conduira au fait que dans les prochaines vagues, il y aura une activité qui ne sera pas sans abaisser le seuil. Cette activité sera notre brève caractéristique de la situation.

L'essentiel est que lors de la répétition des mêmes signaux, une activité supplémentaire sera également répétée.

Cette mise en œuvre du mécanisme de contexte a été choisie en raison de sa simplicité et d'un effet secondaire, ce qui correspond à l'objectif d'introduire le mécanisme de contexte en tant que tel.

Effet lui-même: après la propagation d'une certaine onde le long du WTM, sa propagation répétée est simplifiée. De plus, la propagation des ondes contenant les mêmes neurones (lus dans le même groupe de contexte) est simplifiée. Cet effet peut être appelé mémoire à court terme WTM. Cela correspond à l'objectif d'introduire un mécanisme de contexte - pour augmenter l'inertie de reconnaissance.

Plan d'instance WTM

  1. Sur la base des tâches définies pour WTM, pour distinguer les événements environnementaux qui nécessitent des réactions externes.
  2. Mettez en évidence la base fonctionnelle de WTM.
  3. Choisissez des réactions adéquates (appropriées). Ces réactions seront appelées basiques.
  4. Créez un WTM qui correspond à l'ensemble sélectionné de réactions de base.
  5. Fournissez une formation supplémentaire pour WTM en utilisant des effets sur l'ampli op à travers le support.

Conclusion


Il s'agit actuellement d'une description presque complète de WTM. Autres domaines de travail:

  1. tester les applications du modèle (elles étaient avant, mais après cela le modèle a subi des modifications, donc tout est nouveau).
  2. détermination des schémas de sélection des caractéristiques du réseau (longueur du réseau, nombre de neurones dans une couche, nombre de connexions directes et de rétroaction, ...) et des fonctions internes (mémorisation, oubli, réduction du seuil d'activation, ...). Plus précisément, leurs relations mutuelles, qui donneraient au réseau les propriétés nécessaires (capacité mémoire, détail des motifs alloués, durée de stockage, niveau de généralisation, ...).
  3. Ajout de fonctionnalités de croissance du réseau au WTM pour surmonter les limitations de mémoire.

Je me ferai un plaisir de formuler des critiques constructives, et en général des connaissances et de l'expérience sur ce sujet et sur des sujets connexes.

Source: https://habr.com/ru/post/fr389877/


All Articles