WTM (memoria temporal de forma de onda): un modelo de red neuronal para resolver el problema del comportamiento adaptativo



Les presento a los usuarios de la red un modelo de red neuronal diseñado para resolver el problema del comportamiento adaptativo (y sus subtareas: reconocimiento y predicción de secuencias).

Prólogo


Entré en esta área (IA y las vecinas) por casualidad: un artículo en mi tiempo libre, otro, tercero, un libro, un par de libros más, una monografía, etc. Al pasar de la literatura popular a las publicaciones académicas actuales, pensé "¿por qué están haciendo esto mal?" (Los modales de IA y los sistemas adaptativos son más modestos). Luego pensé que las ideas fundamentales que ponen en sus modelos son incorrectas (no conducen a los resultados que el autor espera). El conocimiento de los modelos "incorrectos" continuó, la indignación se acumuló. Mucho más tarde, encontré ideas "verdaderas" en las obras de otras personas, pero ya era demasiado tarde, se formó la idea: los pensamientos acumulados deben combinarse en un modelo. Sobre ella y será discutido.

Introduccion


El artículo está dividido en dos grandes partes: teoría e implementación de WTM.

El concepto de adaptabilidad.

La adaptabilidad se denominará la capacidad de un sistema de control (CS) de un determinado objeto autónomo para obtener conocimiento sobre las propiedades del sistema "entorno - objeto de control - sistema de control", acumular este conocimiento en su memoria y usar este conocimiento para el control apropiado del objeto de control (OS).

Área de refinamiento
. , , – , . - «» , , . -, , , - , ; , . -, , ; , , – , , – - , , – ad hoc. , . , , . , , , .. , , – , , .

Modelos existentes

Una lista grande de modelos e información relacionada bajo el nombre general de modelos cognitivos se puede encontrar aquí y aquí .

Principios de comportamiento adaptativo

Por mi parte, he identificado el conjunto mínimo de principios necesarios para que la SU se llame adaptativa.

  • SU debe adaptarse continuamente a los eventos ambientales.
  • SU debe tener un conjunto mínimo de actos o reflejos de comportamiento innatos. Basado en este conjunto de SU, comenzará el proceso de adaptación.
  • SU debería tener la capacidad de generalizar su experiencia a otras situaciones ambientales.

Parte teórica


Como ejemplo de trabajo, consideraremos el problema del comportamiento adaptativo. En el curso del texto, la abreviatura WTM se usa en el sentido de "una instancia del modelo de memoria temporal de onda".

Adaptación

El principio de adaptación continua significa que con el tiempo la viabilidad de las reacciones SU debería aumentar. Aquí nos enfrentamos a un tenedor, que debe considerarse con más detalle. El proceso de "mayor conveniencia" es diferente para los sistemas de control activo y reactivo.

Los sistemas activos tienen un elemento responsable de evaluar su funcionamiento. Contiene los criterios de conveniencia, mediante los cuales se evalúan las acciones realizadas por el SU. En base a estas estimaciones, se toman decisiones y se cambia el comportamiento del sistema para aumentar los indicadores de viabilidad.

La diferencia entre los modelos reactivos es que no hay una unidad de evaluación del comportamiento en ellos. Debido a esto, el logro de un aumento en la conveniencia del comportamiento en tales sistemas es imposible por los mismos medios que en los activos. Por lo tanto, es necesario utilizar otras formas de lograr la conveniencia.

Para una mejor comprensión de esta diferencia, consideremos con más detalle la definición de adaptabilidad. Se puede dividir en dos partes:

  1. En el proceso de funcionamiento, la SU aumenta continuamente la cobertura de muchos eventos ambientales con reacciones apropiadas.
  2. En el proceso de funcionamiento, el sistema de control reemplaza continuamente las reacciones existentes por otras más apropiadas.

En el primer párrafo, no hay diferencias entre los sistemas activos y reactivos. En ambos casos, un aumento en la cobertura se reduce a una generalización de la experiencia existente a nuevas situaciones ambientales. La diferencia radica en el segundo párrafo. Los sistemas reactivos son fundamentalmente incapaces de hacerlo, ya que no pueden evaluar la idoneidad de las acciones.

Hay dos formas alternativas de lograr la conveniencia.

  1. la elección de un conjunto inicial de actos de comportamiento, después de la generalización de que las situaciones ambientales básicas para el sistema operativo tendrían reacciones apropiadas.
  2. Capacitación del comportamiento adecuado de la UB a través del entorno externo (educación) En este caso, el entorno actúa como un agente activo que desarrolla sus efectos en el sistema operativo para que se formen los modelos de comportamiento necesarios.

Aunque ambos métodos tienen el mismo objetivo, son muy diferentes tanto en las acciones necesarias como en los costos laborales.

El primer método se usa para crear un conjunto de reacciones. Algoritmo general:

  1. Lleve a cabo un análisis en profundidad del entorno futuro del sistema operativo para identificar situaciones clave que requieran respuestas apropiadas.
  2. Encuentre las reacciones apropiadas para las situaciones encontradas.
  3. Cree una instancia de un sistema reactivo en el que el conjunto de reacciones básicas consistiera en los pares situación-reacción obtenidos.

El segundo método se usa para crear una reacción. Algoritmo general:

  1. Es necesario que el desarrollador cree un incentivo complejo, cuya respuesta sería el comportamiento deseado
  2. En el proceso de funcionamiento, cuando ocurre la situación necesaria, el desarrollador debe actuar sobre el sistema operativo con el incentivo creado para que la SU lleve a cabo la reacción requerida.
  3. Repita el paso 2 hasta que se repare el efecto.

La ventaja del segundo método es que puede ser utilizado en cualquier momento por los robots del sistema de control, mientras que el primer método solo puede aplicarse en la etapa de creación de la instancia del modelo. La condición para que funcione el segundo método: el desarrollador debe conocer el conjunto de reacciones

Entrenamiento

Aprender en WTM es un proceso de dos partes: identificar patrones ambientales y mantener la secuencia de respuestas de CS a estos patrones. De lo contrario, el aprendizaje es el proceso de acumulación de pares del tipo [regularidad del entorno - reacción].

El patrón del medio es una secuencia repetida con frecuencia de señales ambientales. El desarrollador establece la frecuencia de repetición de la secuencia necesaria para la memorización en el WTM en la etapa de creación del sistema (más precisamente, en el punto "Implementación").

Preservación de secuencias de reacciones SU

Para preservarlos, se utiliza el mecanismo de las relaciones asociativas.

La conexión asociativa es un fenómeno en el que la actividad de un elemento de memoria (ES) provoca la activación de otro ES. Denotaremos A → B, donde A y B son elementos de memoria. La transición asociativa es el proceso de implementación de la comunicación asociativa. Para la asociación A → B, una transición asociativa significa el comienzo de la actividad B después de la actividad A.

Un elemento de memoria (EP) es un patrón (o patrón) de actividad de la red neuronal. La activación puede ocurrir en respuesta a una señal del entorno, así como debido a una transición asociativa. Cabe señalar que cada reacción de una red neuronal es un ES, pero no todos los ES son una reacción de una red. Por la actividad de EP, entendemos la actividad de las neuronas que ingresan.

El poder de la comunicación asociativa es un valor numérico que caracteriza la capacidad de la comunicación asociativa para activar su EP final. Para la asociación A → B, la fuerza de unión será la capacidad de A → B para activar B. Toma valores reales en el rango [0, 1], y significa la relación entre el número de neuronas activadas B y el número de todas las neuronas B. El valor no se usa en la implementación, pero es necesario para comprender el modelo .

El proceso de preservar secuencias de reacciones de SU consiste en la creación continua de enlaces asociativos entre reacciones sucesivas de la red a señales ambientales. Al crear una conexión asociativa, se le asigna el valor inicial de la fuerza de comunicación. Con cada aparición repetida de EP, la fuerza de la conexión asociativa aumenta de acuerdo con la función de memorización.

Aislamiento de patrones

La identificación de patrones se basa en la interacción de las funciones de memorización y olvido. WTM recuerda todo. Cuanto más a menudo ocurre un patrón, más fuerte se vuelve (más fuertes son las conexiones asociativas en su composición). Al mismo tiempo, los patrones se olvidan. Cuanto menos común es un patrón, más débil se vuelve (más fuertes son las conexiones asociativas en su composición). De la correlación de las funciones de recordar y olvidar, se deduce qué asociaciones permanecerán en la memoria y cuáles serán olvidadas.

Aquí no estará mal dar un ejemplo de la correlación de las funciones de memorización y olvido. Consideramos dos casos extremos. El primer caso: recordar prevalece sobre olvidar. Este caso lleva a:

  • memorización extremadamente detallada de patrones
  • velocidad de llenado de memoria más alta

Si el olvido prevalece sobre la memorización, todo es exactamente lo contrario:

  • solo se recuerdan los patrones más generales
  • velocidad mínima de llenado

Por el momento, la selección de las funciones adecuadas de memorización y olvido es una de las etapas más importantes en la creación de una instancia de WTM, ya que en el estado actual, el WTM tiene un tamaño de memoria limitado y no tiene mecanismos para aumentarlo.

Actos básicos de comportamiento

En el conjunto básico de reacciones, además de las reacciones que proporcionan conveniencia, debería haber una clase más de reacciones: la base funcional del sistema. Los elementos de la base funcional corresponden a los actos conductuales básicos del sistema operativo (levantar la cabeza, doblar el primer dedo en la segunda falange, etc.). Todo comportamiento será una combinación de actos conductuales básicos (solo ellos).

A nivel de la red neuronal, los elementos de la base funcional son secuencias de EP. Las influencias ambientales adecuadas se seleccionan para ellos. Después de eso, obtenemos muchos pares [regularidad ambiental - reacción], correspondientes a la base funcional seleccionada.

Comportamiento en modelos reactivos.

Muchas fuentes reflejan la idea de los sistemas reactivos como realizaciones del principio [estímulo -> reacción]. En tales sistemas, se cree que el estímulo y la reacción están separados por un intervalo de tiempo mínimo (lea el tiempo necesario para pasar el arco reflejo o estructuras similares). Tal definición se deriva del principio básico de los sistemas reactivos: el determinismo. Sin embargo, no es del todo cierto. Un esquema más preciso se ve así [estímulo -> reacción interna; cambio determinista de estados internos; estado interno -> actividad externa (la palabra reacción se reemplaza por actividad porque en tal sistema el comportamiento depende de muchos estímulos, y no de uno)] (ver Fig. 1). La diferencia entre esta definición es la presencia de un modelo de estado interno. La propagación de señales también es un proceso estrictamente determinista,sin embargo, SU ya no es un autómata con respuesta instantánea a estímulos. En tal modelo, el estímulo puede tener una reacción externa o no. Además, el estímulo y la reacción externa pueden ser distantes entre sí a lo largo del tiempo en una gran distancia. Las redes neuronales (WTM en particular) pertenecen precisamente a esta clase de sistemas (las redes neuronales dinámicas están implícitas).



La primera parte del esquema (Fig. 1.b.1), la reacción interna en WTM es simplemente la reacción de la red al estímulo. El mecanismo de asociaciones es responsable de la segunda parte del esquema (Fig. 1.b.2). En cada ciclo, el WTM tiene un estado. Para esta condición, puede haber relaciones asociativas adecuadas. Entonces, el proceso de transición de estado determinado es un proceso de transición continua a través de relaciones asociativas. En otras palabras, este es el proceso de reproducción de patrones previamente recordados. La tercera parte del esquema (Fig. 1.b.3) se desprende de la segunda. La actividad externa tendrá lugar si hubo actividad externa en patrones reproducibles.

Generalización

La generalización es el proceso de transferir una reacción conductual de un evento ambiental a otro evento, que es una abstracción del primero (la abstracción es un objeto que no tiene un conjunto de propiedades en comparación con otro objeto (se llama el original, o un caso especial).

Como ya sabemos, la secuencia de reacciones de SU almacena en la WTM en cadenas EP asociativa relacionada Luego, en términos de modelos abstractos WTM -.. una cadena de EPO y las relaciones asociativas, en el que el EP y asociaciones originales son reemplazados por sus abstracciones

abstracción P - es el EP, desde el conjunto de neuronas que fue ocupándose de la neuronas asociación Abstracción -. Esta asociación entre abstracciones fuerza EP de abstracciones asociación puede ser menor que o igual a la fuerza de la bocina original, ..

Obtenemos que, en vista del principio de construir redes neuronales (una neurona - una propiedad), las abstracciones de ES y AS son parte de los ES y AS originales. Por lo tanto, para que ocurra la generalización, es necesario que los EP en la nueva cadena estén lo suficientemente cerca de los EP en la cadena generalizada. Más adelante se describirá más sobre "suficiente proximidad".

Debido a la integración del principio de generalización en redes neuronales, resulta que en WTM no está presente como un mecanismo separado, sino que es solo una parte del proceso de propagación de señales a través de la red.

Estabilidad de reconocimiento a deformaciones. Contexto situacional

Las secuencias de reacción memorizadas incorporan enlaces asociativos con diferentes fuerzas de enlace. Un caso extremo es una regularidad que tiene todas las fuerzas iguales a 1. Se reproducirá perfectamente en total a partir de la aparición de 1 de su elemento. Sin embargo, este es un caso extremo. Las secuencias de la "banda media" se caracterizan por una situación diferente. Solo se pueden reproducir de manera efectiva si los eventos ambientales se corresponden exactamente con ellos.

Es decir, para el uso normal de secuencias memorizadas, las actuales deben coincidir con ellas al tacto al ritmo. Este estado de cosas no es bueno y, por lo tanto, WTM tiene un mecanismo para el contexto situacional. El problema descrito no es el único. Los principales tipos de deformación 3:

  1. reordenando eventos en una secuencia.
  2. La aparición de una secuencia de nuevos eventos entre elementos adyacentes.
  3. saltar elementos de secuencia

Entonces, el mecanismo del contexto situacional. Consta de dos partes:

  1. modificamos cada EP, añadiéndole su contexto
  2. cambiamos la proporción de las funciones de memorización y olvido en la dirección de fortalecer el olvido. Esto hace que WTM recuerde menos detalles. Compensación del tamaño del haz de electrones.

El contexto situacional es una descripción concisa de los eventos cercanos. El intervalo de tiempo que se considera cercano determina el desarrollador. Puede imaginarlo como un almacenamiento temporal, del cual se extrae información sobre el evento más antiguo en cada ciclo WTM, y se agrega información sobre el nuevo.

El contexto no depende en gran medida del orden de los eventos (depende de la implementación). Por lo tanto, para una transición asociativa exitosa (leer reconocimiento exitoso), es necesario no repetir más detalles en el ES actual, sino repetir los mismos eventos anteriores.

Para las secuencias, esto significa que cuanto más avanza la reproducción de la secuencia, más probable es que la reproducción continúe.

Inercia

El mecanismo del contexto situacional aumenta la inercia del reconocimiento WTM. La inercia de reconocimiento se refiere a la tendencia de WTM a continuar el reconocimiento de patrones.

Grupos de contexto

Dependiendo de la relación entre el tamaño del contexto y el EP inicial, las propiedades de WTM varían mucho. Si el tamaño seleccionado del contexto situacional es mayor que el tamaño del ES, entonces el comportamiento WTM será más inerte. El comportamiento de WTM consistirá principalmente en secuencias de reacción que incorporan elementos del contexto actual (si el intervalo de cobertura del contexto es grande, entonces la tasa de cambio es pequeña y la proporción de cambios al tamaño total es pequeña). Por lo tanto, podemos decir que las secuencias de reacción se dividen en grupos de acuerdo con el contexto situacional general. La división en grupos también está respaldada por el hecho de que al reproducir una secuencia de reacciones de un determinado grupo, agregamos esta regularidad al contexto, actualizándola, manteniéndola en el mismo estado.

Implementación


Para todos los conceptos considerados en la parte teórica, se darán descripciones de su implementación en términos de redes neuronales.

Estructura general

  • WTM es una red neuronal multicapa con neuronas de impulso.
  • La red tiene tanto directa como retroalimentación.
  • La naturaleza de los enlaces entre las capas es local (es decir, no está completamente conectada) tanto en las direcciones hacia adelante como hacia atrás.
  • La operación de la red se divide en latidos. Para un reloj, la propagación de la señal entre capas adyacentes de la red.
  • Las capas tienen números enteros que comienzan en 1.
  • Entre las neuronas, se establece una distancia igual a la distancia entre las capas que contienen estas neuronas.
  • La red recibe señales de entrada después de un período predeterminado de tiempo T (período de operación de la red) T se mide en tics.
  • Las señales se alimentan a la red a una frecuencia de ciclo de Tinput predeterminada. Tinput es un múltiplo de T.
  • WTM . . . 1 .



Y ahora algunas definiciones.

Debido a la similitud del proceso de propagación de la señal a través de la red con las ondas, el modelo recibió una parte de su nombre: onda. La parte de "memoria temporal" se tomó prestada de Jeff Hawkins HTM (memoria jerárquica temporal) debido a las similitudes entre los modelos.

En la parte teórica, el EP se representa como un objeto estático. Para entender WTM, este enfoque es adecuado. En una implementación WFM, un ES es un objeto dinámico. Ese ES se extiende en el tiempo, y en cualquier momento de su período de duración solo una parte del ES está activa.
Los ES en el proceso de propagación a través de la red se denominarán ondas. El "frente de onda" (una capa con actividad neuronal) es la parte muy activa del EP.

Memorización EP

EP se almacena utilizando la regla de plasticidad sináptica de Hebb. La regla de Hebb establece que si la actividad de una neurona está involucrada en la excitación de otra neurona, entonces la fuerza de la conexión sináptica entre ellas debería aumentar.

Relación asociativa

AS entre ES se crean utilizando retroalimentaciones presentes en la red. AS conecta dos ondas consecutivas de actividad. Para esto, la longitud de retroalimentación se elige igual a T / 2 (período de operación de la red). Las conexiones sinápticas que componen los altavoces también obedecen la regla de Hebb. El proceso de formación de hablantes:

  1. se recibió una señal en las neuronas de entrada, provocando la propagación de una onda de actividad
  2. después del tiempo T llegó una segunda señal, causó la propagación de una onda de actividad
  3. desde la primera ola, la señal de retroalimentación se mueve en la dirección de la segunda ola
  4. /2 /2
  5. /2.

Si no hay una segunda ola, solo creará actividad después de la primera ola. En la parte teórica, esto se llamó transición asociativa (así como reconocimiento). La actividad neuronal que surgió como resultado de la transición asociativa en la parte teórica se llamó EP creada por la conexión asociativa.

El poder de la comunicación asociativa. A nivel de implementación, este es un valor numérico que caracteriza la capacidad de una ola de actividad para recrear otra ola a través de sus retroalimentaciones. El proceso de preservar las secuencias de reacción consiste en la creación continua de vínculos asociativos entre sucesivas ondas de actividad, así como la conservación de las propias ondas.

La función de memoria es una función de acuerdo con la cual los valores de los coeficientes de peso se incrementan en el proceso de establecerlos. Depende del peso actual de la sinapsis. La función de olvido es una función de acuerdo con la cual los valores de los coeficientes de ponderación disminuyen con el tiempo. Depende del peso actual de la sinapsis.

Comportamiento

La generalización es el proceso de transferir una reacción conductual de un evento ambiental a otro evento, que es una abstracción del primero. A nivel de la red neuronal, esto significa mantener la fuerza de las conexiones asociativas de cierta regularidad en un nivel suficiente, al reemplazar sus elementos de memoria con algunas de sus abstracciones.

Contexto situacional

Un contexto situacional es una característica comprimida de eventos cercanos, que se agrega al EP actual para aumentar la calidad de generalización de patrones. Para su implementación, se introduce un mecanismo adicional para el funcionamiento de las neuronas: una disminución en el umbral de activación.

El mecanismo para reducir el umbral de activación: después de que la neurona esté en un estado activo, el umbral de activación de la neurona debe reducirse. Con el tiempo, el valor umbral vuelve a su valor inicial. La reducción se produce de acuerdo con la función de reducción del umbral. El valor de la función depende del valor umbral actual.

Considera un ejemplo. Suponga que se aplica una secuencia de señales a un WTM con un mecanismo de reducción de umbral. Después de cada onda, parte de las neuronas disminuirá el umbral de activación. Esto conducirá al hecho de que en las próximas olas habrá actividad que no sería sin reducir el umbral. Esta actividad será nuestra breve característica de la situación.

Lo principal es que al repetir las mismas señales, también se repetirá actividad adicional.

Esta implementación del mecanismo de contexto se eligió debido a su simplicidad y un efecto secundario, que corresponde al objetivo de introducir el mecanismo de contexto como tal.

Efecto en sí: después de la propagación de una determinada onda a lo largo del WTM, se simplifica su propagación repetida. Además, se simplifica la propagación de ondas que contienen las mismas neuronas (leídas del mismo grupo de contexto). Este efecto se puede llamar memoria a corto plazo WTM. Corresponde al objetivo de introducir un mecanismo de contexto: aumentar la inercia de reconocimiento.

Plan de instancias de WTM

  1. Basado en las tareas establecidas para WTM, para distinguir eventos ambientales que requieren reacciones externas.
  2. Resalte la base funcional de WTM.
  3. Elija reacciones adecuadas (apropiadas). Estas reacciones se llamarán básicas.
  4. Cree un WTM que coincida con el conjunto seleccionado de reacciones básicas.
  5. Proporcione capacitación adicional para WTM usando efectos en el opamp a través del medio.

Conclusión


Esta es actualmente una descripción casi completa de WTM. Otras áreas de trabajo:

  1. probar las aplicaciones del modelo (lo eran antes, pero después de eso el modelo ha sufrido cambios, por lo que todo es nuevo).
  2. determinación de patrones de selección de características de red (longitud de red, número de neuronas en una capa, número de conexiones directas y de retroalimentación, ...) y funciones internas (memorización, olvido, reducción del umbral de activación, ...). Más precisamente, sus relaciones mutuas, que le darían a la red las propiedades necesarias (capacidad de memoria, detalle de patrones asignados, duración de almacenamiento, nivel de generalización, ...).
  3. Agregar funciones de crecimiento de red al WTM para superar las limitaciones de memoria.

Me alegrará recibir críticas constructivas y, en general, conocimiento y experiencia sobre este y otros temas relacionados.

Source: https://habr.com/ru/post/es389877/


All Articles