WTM (Waveform temporal memory) - um modelo de rede neural para resolver o problema do comportamento adaptativo



Apresento aos usuários da rede um modelo de rede neural projetado para resolver o problema do comportamento adaptativo (e suas subtarefas: reconhecimento e previsão de seqüências).

Prefácio


Entrei nessa área (IA e áreas vizinhas) por acaso: um artigo à vontade, outro, terceiro, um livro, mais alguns livros, uma monografia e assim por diante. Ao passar da literatura popular para as publicações acadêmicas atuais, o pensamento "por que eles estão fazendo isso errado?" (As maneiras de IA e os sistemas adaptativos são mais modestos). Então eu pensei que as idéias fundamentais que eles colocaram em seus modelos estão incorretas (elas não levam aos resultados que o autor espera). O conhecimento dos modelos "errados" continuou, a indignação acumulada. Muito mais tarde, encontrei idéias "verdadeiras" nos trabalhos de outras pessoas, mas era tarde demais, a idéia foi formada - os pensamentos acumulados devem ser combinados em um modelo. Sobre ela e será discutido.

1. Introdução


O artigo está dividido em duas grandes partes: teoria e implementação do WTM.

O conceito de adaptabilidade

A adaptabilidade será chamada de capacidade de um sistema de controle (CS) de algum objeto autônomo de obter conhecimento sobre as propriedades do sistema “ambiente - objeto de controle - sistema de controle”, acumular esse conhecimento em sua memória e usar esse conhecimento para o controle apropriado do objeto de controle (SO).

Área de refinamento
. , , – , . - «» , , . -, , , - , ; , . -, , ; , , – , , – - , , – ad hoc. , . , , . , , , .. , , – , , .

Modelos existentes

Uma grande lista de modelos e informações relacionadas sob o nome geral de modelos cognitivos pode ser encontrada aqui e aqui .

Princípios de comportamento adaptativo

Para mim, identifiquei o conjunto mínimo de princípios necessários para que a SU seja chamada de adaptativa.

  • A SU deve se adaptar continuamente a eventos ambientais.
  • A SU deve ter um conjunto mínimo de atos ou reflexos comportamentais inatos. Com base nesse conjunto de SU, o processo de adaptação começará.
  • A SU deve ter a capacidade de generalizar sua experiência para outras situações ambientais.

Parte teórica


Como exemplo de trabalho, consideraremos o problema do comportamento adaptativo. No decorrer do texto, a abreviatura WTM é usada no sentido de "uma instância do modelo de memória temporária de onda".

Adaptação

O princípio da adaptação contínua significa que, com o tempo, a viabilidade das reações de SU deve aumentar. Aqui nos deparamos com um garfo, que precisa ser considerado com mais detalhes. O processo de "aumentar a conveniência" é diferente para sistemas de controle ativo e reativo.

Os sistemas ativos têm um elemento responsável por avaliar seu funcionamento. Ele contém os critérios de conveniência, pelos quais as ações executadas pela SU são avaliadas. Com base nessas estimativas, são tomadas decisões e o comportamento do sistema é alterado para aumentar os indicadores de viabilidade.

A diferença entre modelos reativos é que não há uma unidade de avaliação comportamental neles. Por isso, a obtenção de um aumento na conveniência de comportamento em tais sistemas é impossível pelos mesmos meios que nos ativos. Portanto, é necessário usar outras formas de obter conveniência.

Para uma melhor compreensão dessa diferença, vamos considerar com mais detalhes a definição de adaptabilidade. Pode ser dividido em duas partes:

  1. No processo de funcionamento, a SU aumenta continuamente a cobertura de muitos eventos ambientais com reações apropriadas.
  2. No processo de funcionamento, o sistema de controle substitui continuamente as reações existentes por outras, mais apropriadas.

No primeiro parágrafo, não há diferenças entre sistemas ativos e reativos. Nos dois casos, um aumento na cobertura é reduzido a uma generalização da experiência existente para novas situações ambientais. A diferença está no segundo parágrafo. Os sistemas reativos são fundamentalmente incapazes disso, pois não podem avaliar a adequação das ações.

Existem duas maneiras alternativas de obter conveniência.

  1. a escolha de um conjunto inicial de atos comportamentais, após a generalização de quais situações ambientais básicas para o sistema operacional teriam reações apropriadas.
  2. treinamento do comportamento adequado da SU através do ambiente externo (educação). Nesse caso, o ambiente atua como um agente ativo que cria seus efeitos no sistema operacional para que os modelos de comportamento necessários sejam formados.

Embora ambos os métodos tenham o mesmo objetivo, eles são muito diferentes nas ações necessárias e nos custos de mão-de-obra.

O primeiro método é usado para criar um conjunto de reações. Algoritmo geral:

  1. Realize uma análise aprofundada do futuro ambiente do sistema operacional, a fim de identificar situações-chave que exijam respostas apropriadas.
  2. Encontre reações apropriadas para as situações encontradas.
  3. Crie uma instância de um sistema reativo no qual o conjunto de reações básicas consistisse nos pares situação-reação obtidos.

O segundo método é usado para criar uma reação. Algoritmo geral:

  1. É necessário que o desenvolvedor crie um incentivo complexo, cuja resposta seria o comportamento desejado
  2. No processo de funcionamento, quando a situação necessária ocorre, o desenvolvedor deve atuar no sistema operacional com o incentivo criado, para que a SU realize a reação necessária.
  3. Repita a etapa 2 até que o efeito seja corrigido.

A vantagem do segundo método é que ele pode ser usado a qualquer momento pelos robôs do sistema de controle, enquanto o primeiro método pode ser aplicado apenas no estágio de criação da instância do modelo. A condição para o segundo método funcionar - o desenvolvedor deve conhecer o conjunto de reações do sistema de controle

Treinamento

O aprendizado na WTM é um processo de duas partes: destacando padrões ambientais e mantendo a sequência de respostas de CS a esses padrões. Caso contrário, a aprendizagem é o processo de acumulação de pares do tipo [regularidade do ambiente - reação].

O padrão do meio é uma sequência frequentemente repetida de sinais ambientais. A frequência de repetição da sequência necessária para a memorização é estabelecida na WTM pelo desenvolvedor na fase de criação do sistema (mais precisamente, no ponto “Implementação”).

Preservação de sequências de reações SU

Para preservá-los, é utilizado o mecanismo de relações associativas.

A conexão associativa é um fenômeno em que a atividade de um elemento da memória (SE) causa a ativação de outro SE. Vamos denotar A → B, onde A e B são elementos de memória. Transição associativa é o processo de implementação da comunicação associativa. Para a associação A → B, uma transição associativa significa o início da atividade B após a atividade A.

Um elemento de memória (EP) é um padrão (ou padrão) da atividade da rede neural. A ativação pode ocorrer em resposta a um sinal do ambiente, bem como devido a uma transição associativa. Deve-se notar que toda reação de uma rede neural é um ES, mas nem todo ES é uma reação de uma rede. Pela atividade do EP, entendemos a atividade dos neurônios que entram nele.

O poder da comunicação associativa é um valor numérico que caracteriza a capacidade da comunicação associativa de ativar seu EP final. Para a associação A → B, a força de ligação será a capacidade de A → B para ativar B. Leva valores reais no intervalo [0, 1] e significa a razão entre o número de neurônios ativados B e o número de todos os neurônios B. O valor não é usado na implementação, mas necessário para entender o modelo .

O processo de preservação de seqüências de reações de SU consiste na criação contínua de vínculos associativos entre reações sucessivas da rede a sinais ambientais. Ao criar uma conexão associativa, é atribuído o valor inicial da força da comunicação. A cada ocorrência repetida de EP, a força da conexão associativa aumenta de acordo com a função de memorização.

Isolamento de padrões

A identificação de padrões é baseada na interação das funções de memorização e esquecimento. A WTM se lembra de tudo. Quanto mais frequentemente um padrão ocorre, mais forte ele se torna (mais fortes são as conexões associativas em sua composição). Ao mesmo tempo, padrões são esquecidos. Quanto menos comum um padrão, mais fraco ele se torna (mais fortes são as conexões associativas em sua composição). A partir da correlação das funções de lembrar e esquecer, segue-se quais associações permanecerão na memória e quais serão esquecidas.

Aqui não será errado dar um exemplo da correlação das funções de memorização e esquecimento. Consideramos dois casos extremos. O primeiro caso - lembrar prevalece sobre esquecer. Este caso leva a:

  • memorização extremamente detalhada de padrões
  • maior taxa de preenchimento de memória

Se o esquecimento prevalece sobre a memorização, tudo é exatamente o oposto:

  • apenas os padrões mais gerais são lembrados
  • velocidade mínima de preenchimento

No momento, a seleção de funções adequadas de memorização e esquecimento é um dos estágios mais importantes na criação de uma instância da WTM, pois no estado atual a WTM possui um tamanho de memória limitado e não possui mecanismos para aumentá-lo.

Atos comportamentais básicos

No conjunto básico de reações, além das reações que proporcionam conveniência, deve haver mais uma classe de reações - a base funcional do sistema. Os elementos da base funcional correspondem aos atos comportamentais básicos do sistema operacional (levante a cabeça, dobre o primeiro dedo na segunda falange, etc.). Todo comportamento será uma combinação de atos comportamentais básicos (apenas eles).

No nível da rede neural, elementos da base funcional são sequências de EPs. Influências ambientais adequadas são selecionadas para eles. Depois disso, obtemos muitos pares [regularidade ambiental - reação], correspondentes à base funcional selecionada.

Comportamento em modelos reativos

Muitas fontes refletem a idéia de sistemas reativos como realizações do princípio [estímulo -> reação]. Em tais sistemas, acredita-se que o estímulo e a reação sejam separados por um intervalo de tempo mínimo (leia o tempo necessário para passar o arco reflexo ou estruturas semelhantes). Tal definição segue o princípio básico dos sistemas reativos - determinismo. No entanto, isso não é totalmente verdade. Um esquema mais preciso se parece com isso [estímulo -> reação interna; mudança determinística de estados internos; estado interno -> atividade externa (a palavra reação é substituída por atividade, porque nesse sistema o comportamento depende de muitos estímulos, e não de um)] (veja a Fig. 1). A diferença entre esta definição é a presença de um modelo de estado interno. A propagação de sinal também é um processo estritamente determinístico,no entanto, SU não é mais um autômato com resposta instantânea a estímulos. Nesse modelo, o estímulo pode ter uma reação externa ou não. Além disso, o estímulo e a reação externa podem ficar distantes um do outro ao longo do tempo, a uma grande distância. As redes neurais (WTM em particular) pertencem exatamente a essa classe de sistemas (redes neurais dinâmicas estão implícitas).



A primeira parte do esquema (Fig. 1.b.1), a reação interna na WTM é simplesmente a reação da rede ao estímulo. O mecanismo de associações é responsável pela segunda parte do esquema (Fig. 1.b.2). A cada ciclo, o WTM tem um estado. Para esta condição, pode haver relacionamentos associativos adequados. Então o processo de transição de estado determinado é um processo de transição contínua através de relações associativas. Em outras palavras, esse é o processo de reproduzir padrões previamente lembrados. A terceira parte do esquema (Fig. 1.b.3) segue da segunda. A atividade externa ocorrerá se houver atividade externa em padrões reproduzíveis.

Generalização

Generalização é o processo de transferência de uma reação comportamental de um evento ambiental para outro, que é uma abstração do primeiro (abstração é um objeto que não possui um conjunto de propriedades em comparação com outro objeto (é chamado de caso original ou especial).

Como já sabemos, a sequência de reações da SU armazenado na WTM em cadeias EP associativo relacionado Então, em termos de padrões abstratos WTM -.. uma cadeia de EPO e relações associativas, em que a EP e as associações originais são substituídos por suas abstrações

Abstraction P - é a PE, a partir do conjunto de neurónios que foi apreendidos da neurónios associação abstracção -. Esta associação entre captações força EP das captações de associação pode ser inferior ou igual à força da coluna inicial ..

Entendemos que, tendo em vista o princípio de construção de redes neurais (um neurônio - uma propriedade), as abstrações de ES e AS fazem parte do ES e AS original. Portanto, para que a generalização ocorra, é necessário que os EPs da nova cadeia estejam próximos o suficiente dos EPs da cadeia generalizada. Mais sobre "proximidade suficiente" serão descritas mais adiante.

Devido à integração do princípio de generalização nas redes neurais, verifica-se que na WTM não está presente como um mecanismo separado, mas é apenas parte do processo de propagação do sinal através da rede.

Estabilidade de reconhecimento de deformações. Contexto situacional

Sequências de reação memorizadas incorporam ligações associativas com diferentes forças de ligação. Um caso extremo é uma regularidade com todas as forças iguais a 1. Ela será perfeitamente reproduzida no total a partir da aparência de 1 de seu elemento. No entanto, este é um caso extremo. As seqüências da "banda do meio" são caracterizadas por uma situação diferente. Eles só podem ser efetivamente reproduzidos se os eventos ambientais corresponderem exatamente a eles.

Ou seja, para o uso normal de seqüências memorizadas, as atuais devem coincidir com elas no tato ao ritmo. Esse estado de coisas não é bom e, portanto, a WTM possui um mecanismo para o contexto situacional. O problema descrito não é o único. Os principais tipos de deformação 3:

  1. reordenar eventos em uma sequência.
  2. o aparecimento de uma sequência de novos eventos entre elementos adjacentes.
  3. pulando elementos de sequência

Então, o mecanismo do contexto situacional. Consiste em duas partes:

  1. modificamos cada EP, adicionando seu contexto a ele
  2. mudamos a proporção das funções de memorização e esquecimento no sentido de fortalecer o esquecimento. Isso faz com que a WTM se lembre de menos detalhes. Compensação do tamanho do feixe de elétrons.

Contexto situacional é uma descrição concisa de eventos próximos. Qual intervalo de tempo é considerado próximo determina o desenvolvedor. Você pode imaginá-lo como um armazenamento temporário, a partir do qual as informações sobre o evento mais antigo são extraídas a cada ciclo WTM e as informações sobre o novo são adicionadas.

O contexto não depende muito da ordem dos eventos (depende da implementação). Portanto, para uma transição associativa bem-sucedida (leia o reconhecimento bem-sucedido), é necessário não repetir mais detalhes no SE atual, mas repetir os mesmos eventos anteriores.

Para seqüências, isso significa que, quanto mais a reprodução da sequência for, maior a probabilidade de a reprodução continuar.

Inércia

O mecanismo do contexto situacional aumenta a inércia do reconhecimento WTM. A inércia do reconhecimento refere-se à tendência da WTM de continuar o reconhecimento de padrões.

Grupos de Contexto

Dependendo da relação entre o tamanho do contexto e o EP inicial, as propriedades do WTM variam bastante. Se o tamanho selecionado do contexto situacional for maior que o tamanho do ES, o comportamento do WTM será mais inerte. O comportamento da WTM consistirá principalmente de sequências de reação que incorporam elementos do contexto atual (se o intervalo de cobertura do contexto for grande, a taxa de alteração será pequena e a proporção de alterações em relação ao tamanho total será desprezível). Assim, podemos dizer que as seqüências de reação são divididas em grupos de acordo com o contexto situacional geral. A divisão em grupos também é apoiada pelo fato de que, ao reproduzir uma sequência de reações de um determinado grupo, adicionamos essa regularidade ao contexto, atualizando-o, mantendo-o no mesmo estado.

Implementação


Para todos os conceitos considerados na parte teórica, serão fornecidas descrições de sua implementação em termos de redes neurais.

Estrutura geral

  • WTM é uma rede neural multicamada com neurônios de impulso.
  • A rede tem direta e feedback.
  • A natureza das ligações entre as camadas é local (isto é, não está totalmente conectada), tanto nas direções para a frente quanto para trás.
  • A operação de rede é dividida em batimentos. Para um relógio, a propagação do sinal entre as camadas adjacentes da rede.
  • As camadas têm números inteiros começando em 1.
  • Entre os neurônios, é estabelecida uma distância igual à distância entre as camadas que contêm esses neurônios.
  • A rede recebe sinais de entrada após um período predeterminado de tempo T (período de operação da rede) T é medido em ticks.
  • Os sinais são alimentados à rede a uma frequência predeterminada do ciclo Tinput. Tinput é um múltiplo de T.
  • WTM . . . 1 .



E agora algumas definições.

Devido à semelhança do processo de propagação do sinal através da rede com as ondas, o modelo recebeu parte de seu nome - onda. A parte “memória temporária” foi emprestada do Jeff Hawkins HTM (memória hierárquica temporária) devido às semelhanças entre

os modelos.Na parte teórica, o EP é representado como um objeto estático. Para entender a WTM, essa abordagem é adequada. Em uma implementação WFM, um ES é um objeto dinâmico. Esse ES é prorrogado no tempo e, em qualquer momento de seu período de duração, apenas parte do ES está ativo.
Os ES no processo de propagação através da rede serão chamados de ondas. A "frente da onda" (uma camada com atividade neural) é a parte muito ativa do PE.

Memorização EP

O EP é armazenado usando a regra de plasticidade sináptica Hebb. A regra de Hebb afirma que, se a atividade de um neurônio estiver envolvida na excitação de outro neurônio, a força da conexão sináptica entre eles deverá aumentar.

Relacionamento associativo

AS entre ES são criados usando feedbacks presentes na rede. O AS conecta duas ondas consecutivas de atividade. Para isso, a duração do feedback é escolhida igual a T / 2 (período de operação da rede). As conexões sinápticas que compõem os alto-falantes também obedecem à regra Hebb. O processo de formação de falantes:

  1. um sinal foi recebido nos neurônios de entrada, causando a propagação de uma onda de atividade
  2. após o tempo T chegou um segundo sinal, causou a propagação de uma onda de atividade
  3. a partir da primeira onda, o sinal de feedback se move na direção da segunda onda
  4. /2 /2
  5. /2.

Se não houver uma segunda onda, somente ela criará atividade após a primeira onda. Na parte teórica, isso foi chamado de transição associativa (assim como reconhecimento). A atividade neural que surgiu como resultado da transição associativa na parte teórica foi denominada EP criada pela conexão associativa.

O poder da comunicação associativa. No nível da implementação, esse é um valor numérico que caracteriza a capacidade de uma onda de atividade recriar outra onda por meio de seus feedbacks. O processo de preservação das seqüências de reação consiste na criação contínua de vínculos associativos entre ondas sucessivas de atividade, bem como na conservação das próprias ondas.

A função de memória é uma função de acordo com a qual os valores dos coeficientes de peso são aumentados no processo de defini-los. Depende do peso atual da sinapse. A função de esquecer é uma função de acordo com a qual os valores dos coeficientes de ponderação diminuem com o tempo. Depende do peso atual da sinapse.

Comportamento

Generalização é o processo de transferência de uma reação comportamental de um evento ambiental para outro, que é uma abstração do primeiro. No nível da rede neural, isso significa manter a força das conexões associativas de certa regularidade em um nível suficiente, ao substituir seus elementos de memória por algumas de suas abstrações.

Contexto situacional

Um contexto situacional é uma característica compactada de eventos próximos, que é adicionada ao PE atual para aumentar a qualidade da generalização de padrões. Para sua implementação, um mecanismo adicional para a operação de neurônios é introduzido - uma diminuição no limiar de ativação.

O mecanismo para diminuir o limiar de ativação: após o neurônio estar em um estado ativo, o limiar de ativação do neurônio deve ser reduzido. Com o tempo, o valor limite retorna ao seu valor inicial. A redução ocorre de acordo com a função de redução de limiar. O valor da função depende do valor atual do limite.

Considere um exemplo. Suponha que uma sequência de sinais foi aplicada a uma WTM com um mecanismo de redução de limiar. Após cada onda, parte dos neurônios diminui o limiar de ativação. Isso levará ao fato de que nas próximas ondas haverá atividades que não ocorreriam sem a redução do limiar. Essa atividade será nossa breve característica da situação.

O principal é que, ao repetir os mesmos sinais, atividades adicionais também serão repetidas.

Essa implementação do mecanismo de contexto foi escolhida devido à sua simplicidade e um efeito colateral, que corresponde ao objetivo de introduzir o mecanismo de contexto como tal.

Efeito em si: após a propagação de uma determinada onda ao longo da WTM, sua propagação repetida é simplificada. Além disso, a propagação de ondas contendo os mesmos neurônios (lida no mesmo grupo de contexto) é simplificada. Esse efeito pode ser chamado de memória de curto prazo WTM. Corresponde ao objetivo de introduzir um mecanismo de contexto - para aumentar a inércia do reconhecimento.

Plano de Instância WTM

  1. Com base nas tarefas definidas para a WTM, para distinguir eventos ambientais que requerem reações externas.
  2. Destaque a base funcional do WTM.
  3. Escolha reações adequadas (apropriadas). Essas reações serão chamadas básicas.
  4. Crie um WTM que corresponda ao conjunto selecionado de reações básicas.
  5. Forneça treinamento adicional para a WTM usando efeitos no opamp através do meio.

Conclusão


Atualmente, essa é uma descrição quase completa da WTM. Outras áreas de trabalho:

  1. testar aplicativos do modelo (antes, mas depois disso o modelo passou por alterações, tudo é novo).
  2. determinação de padrões de seleção das características da rede (comprimento da rede, número de neurônios em uma camada, número de conexões diretas e de feedback, ...) e funções internas (memorização, esquecimento, redução do limiar de ativação, ...). Mais precisamente, suas relações mútuas, que dariam à rede as propriedades necessárias (capacidade de memória, detalhes dos padrões alocados, duração do armazenamento, nível de generalização, ...).
  3. Adição de recursos de crescimento de rede à WTM para superar as limitações de memória.

Ficarei feliz em receber críticas construtivas e, geralmente, conhecimento e experiência sobre este e outros tópicos relacionados.

Source: https://habr.com/ru/post/pt389877/


All Articles