Alguns algoritmos sob o capô do cérebro

Há algum tempo, eu queria estudar materiais modernos sobre neurobiologia do ponto de vista de um programador. Ou seja, para extrair deles os algoritmos básicos, eliminando-os de detalhes químicos / biológicos desnecessários.

Portanto, se alguém ama redes neurais artificiais e deseja buscar inspiração no natural, esse artigo pode ser apresentado. Obviamente, não foi possível cobrir tudo em um artigo - há muitos dados.

Primeiro, uma breve descrição do trabalho do bio-neurônio, para que o mais claro seja esclarecido. Quem já conhece o básico - fique à vontade para pular.

Neurônio biológico: peixe-gato, dendritos, sinapses, pico, EPSP, potencial de membrana
: ( ), , . , , . . — . . . .

, , . , . “ ” ,“” “U”. , . . U.

, . , U . — . . , , . , , . “+” EPSP (). “-” IPSP ().

. EPSP- IPSP- , , , . , .



, , , . , . , . , , . . , EPSP , .

. , . “ ” . , . , , (. ).



— . — . EPSP — “”. , , , . EPSP ( ) , , .. , .

STDP


Supõe-se que a base da memória de longo prazo seja a distribuição da eficiência nas sinapses dos neurônios. Algumas sinapses são enfraquecidas, outras são fortalecidas. Isso é chamado de ductilidade. Mas por qual algoritmo é decidido quais sinapses e como elas mudarão de peso? O princípio mais famoso das redes neurais vivas é a plasticidade dependente do tempo de Spike .

É observado de insetos para humanos e é formulado da seguinte forma:

Se o pico de entrada nessa sinapse tende a ocorrer logo antes do próprio neurônio gerar o pico, a sinapse é amplificada.
Se o pico de entrada nessa sinapse tende a ocorrer imediatamente após a geração do pico pelo próprio neurônio, a sinapse é enfraquecida.

Os insumos que contribuíram para o aumento se tornam mais prioritários no futuro e que não são contribuídos - menos. O processo continua até que haja um certo subconjunto dos pesos originais restantes e o restante será reduzido a zero. Levaremos em conta o fato de que um neurônio gera um pico quando muitas de suas entradas são ativadas imediatamente em um curto espaço de tempo . A partir disso, pode-se supor que as demais entradas diferentes de zero tiveram correlações no tempo.


Dependência do aumento / diminuição do peso da sinapse no pico de entrada e saída de mel Δt

Este fenômeno é muito conhecido e confirmado em muitos experimentos, mas deve-se observar que, ao passar por diferentes protocolos experimentais, você ainda pode obter distorção / violação desta lei, quebrando os requisitos formais para picos pré-pós [0].

Propagação de espiga traseira


O neurônio piramidal (talvez o tipo mais famoso de neurônio cortical) tem milhares de sinapses espalhadas por sua árvore dendrítica (na verdade, possui duas árvores dendríticas). Se selecionarmos várias sinapses - perto do peixe-gato, muito longe e muito longe dele - e vermos que tipo de gráficos STDP eles recebem, então os gráficos serão diferentes.

Para sinapses próximas ao peixe-gato, o cronograma será clássico - como uma variação sobre o assunto do treinamento Hebb. Ou seja, como na figura acima. Quanto mais longe do peixe-gato, menor a amplitude desse treinamento. E se você fizer sinapses distantes, poderá ver coisas muito estranhas. Por exemplo, se o pico de entrada (que chegou à sinapse) precedeu a saída, o experimento não observou amplificação, mas atenuação dessa sinapse. Treinamento antihebbovskoe, Karl! No entanto, era possível retorná-lo ao canal Hebb se adesões dendríticas fossem geradas em dendritos distantes. Em geral, com o treinamento das sinapses mais próximas do peixe-gato, tudo fica bem claro, mas nos distantes parece que há uma confusão com outro algoritmo de aprendizado [1] .

Vamos ver de onde vêm as pernas disso. Portanto, para a iteração do STDP, é necessário que um pico seja gerado no peixe-gato. Depois disso, as sinapses devem descobrir rapidamente sobre ele . Para fazer isso, é desejável que o pico se espalhe para eles a partir da colina do axônio. A boa notícia é que isso está realmente acontecendo. Um neurônio envia um pico não apenas a outros neurônios, mas também de volta a seus dendritos. A notícia “ruim” é que, com a propagação traseira, esse pico desaparece. Muito rápido para alcançar dendritos distantes. Agora está claro por que o treinamento de sinapses próximas e distantes é diferente. Resta descobrir o que está acontecendo nas sinapses distantes.

É importante lembrar aqui que os dendritos não são condutores passivos de distúrbios. Eles mesmos sabem como gerar picos quando "consideram necessário". Se por algum motivo o dendrito gerou um pico, e ao mesmo tempo um pico deteriorado do peixe-gato entrou nessa zona, depois de formado com o pico dendrítico, ele (talvez) receberá um chute como um segundo vento e pode se espalhar ainda mais nessa subárvore. Pelo menos existe essa hipótese. Outra hipótese é que talvez sinapses em dendritos distantes sejam treinadas geralmente sem o uso de um pico somático de propagação para trás. Mais sobre isso abaixo.

Efeitos interessantes em dendritos - picos dendríticos são suficientes para plasticidade


Então, o que você precisa para que a sinapse comece a aumentar o peso? É necessário que neste local do neurônio a maquinaria química correspondente seja ligada. Por isso, por sua vez, é necessário que o potencial da membrana neste local seja deslocado por algum distúrbio suficientemente grande . Como pode ser criado? A EPSP média usual é muito pequena para isso. Mas a soma de EPSP e comissura somática de propagação traseira pode já ser adequada. Por algum tempo, acreditava-se que esta é a principal maneira de causar plasticidade.

Então, nos experimentos, descobriu-se que era possível suprimir artificialmente aderências somáticas em um neurônio e ainda registrar um aumento de pesos em suas sinapses em resposta à estimulação (não nenhuma). Descobriu-se que a plasticidade ocorre quando a estimulação das sinapses é forte o suficiente para que comissuras dendríticas apareçam neste local. Eles são uma indignação forte o suficiente para desencadear plasticidade neste lugar. [2] Sim, sim, sem a participação do resto do neurônio. Ou seja, o "elemento mínimo" do processamento de informações pode ser considerado nem mesmo um neurônio, mas um ramo dendrítico separado.

Efeitos interessantes em dendritos - clustering


Nos neurônios do hipocampo, verificou-se que o LTP (ganho de peso a longo prazo) de uma sinapse reduz o limiar para que o LTP ocorra nas sinapses vizinhas. Em seguida, foi realizado um estudo para neurônios do córtex sensorial do rato, no qual os neurônios processavam dados dos bigodes. E verificou-se que a plasticidade sináptica tem tendência a se agrupar.

Um neurônio específico foi coletado e 15% das sinapses, que foram mais intensamente sujeitas à plasticidade, foram selecionadas. Sua distribuição sobre o neurônio não foi acidental: uma parte significativa acabou sendo vizinha - 50 em 161. Em seguida, um neurônio foi retirado do córtex sensorial do mouse, do qual o bigode foi cortado (ou seja, o neurônio sofria de falta de informação). O efeito de agrupamento estava ausente nesse neurônio. Mas ele era globalmente mais sensível aos sinais de entrada [3] .

Efeitos interessantes nos dendritos - tudo muda desde o rearranjo dos termos




Então, vamos dois EPSPs chegarem ao nosso dendrito, como na figura acima. A perturbação que eles causam no soma depende não apenas da magnitude desses EPSPs, mas também de:

1) sua distância do soma
2) sua distância um do outro.Vamos

considerar em ordem. Se o EPSP veio da sinapse para o dendrito, ele será propagado para o peixe-gato e se deteriorará ao longo do caminho. Ou seja, quanto mais longe, mais desaparecerá. E se uma sinapse inibidora ativada atrapalhar, o EPSP desaparecerá imediatamente. Assim, se tivéssemos dois EPSPs bastante distantes um do outro, eles trariam dois pequenos distúrbios ao soma - e, se você tiver sorte.

Mas se eles estavam próximos, o dendrito pode gerar um pico neste local. Esse é um distúrbio em que a amplitude é maior do que apenas a soma dos EPSPs. O pico dendrítico já é muito mais provável de correr para o peixe-gato, e a contribuição será maior. [4] .

Sincronização de recursos de link


(sincronização codifica relação, vinculação de recurso)

Dos parágrafos anteriores, segue-se que o tempo relativo dos picos é importante para os processos de plasticidade nas sinapses. E sob essa luz, não se pode ignorar o fenômeno da sincronização temporal dos neurônios. Esse fenômeno é onipresente e, aparentemente, muito fundamental, porque comer em todos os níveis do cérebro. Considere um exemplo específico.

Os eletrodos são implantados no córtex visual e, em seguida, vários estímulos visuais são mostrados a ele. Nos registros dos eletrodos, observa-se que alguns grupos de neurônios estão envolvidos na atividade oscilatória síncrona em fase. Esses neurônios podem estar em lugares diferentes. Os neurônios tendem a sincronizar se forem ativados por contornos na imagem, que são contínuos ou se movem na mesma velocidade e em uma direção (o princípio do destino comum). Para o córtex visual, a probabilidade de sincronização se correlaciona com o quanto os estímulos de entrada satisfazem o critério da Gestalt .


Todos os pontos verdes aqui são percebidos não separadamente, mas como um todo

A hipótese de trabalho sugere que o córtex usa a sincronização de descarga nos neurônios para codificar a relação “inteira” sobre as porções de sinal às quais esses neurônios responderam. I.e. Além disso, suas respostas serão processadas como uma única unidade por redes neurais de nível superior, porque são precisamente esses picos que chegarão lá ao mesmo tempo, o que significa que vou resumir antes que eles desapareçam.

A sincronização da atividade no córtex a grandes distâncias é um pré-requisito para que o sinal que fez com que essa atividade (por exemplo, uma palavra seja vista) tenha acesso à zona da percepção consciente. Um sinal semelhante, sendo processado inconscientemente, causará apenas sincronização local [5] .

Como as populações de neurônios são sincronizadas é objeto de investigação [6] .

Plasticidade não sináptica


Além dos pesos das sinapses, outras características do neurônio também podem sofrer alterações durante o treinamento. Sua excitabilidade geral pode mudar (leia-se, o limiar para geração de pico). Se muitos pesos são reforçados, faz sentido que um neurônio diminua sua excitabilidade. E se, pelo contrário - um baixo nível de mudança nas escalas, faz sentido aumentar.

Outro exemplo - um axônio pode alterar o tempo durante o qual atingirá o pico dos destinatários. Ainda - se você estimular um neurônio em baixa frequência por um longo tempo, ele reduz sua excitabilidade, e esse é um efeito a longo prazo.

Repetir


No hipocampo, existem neurônios que respondem a um local específico no espaço. As células do local são chamadas. Ou seja, se o rato estiver em um local do labirinto, uma célula do local reage ao máximo, se em outro - outro. Quando o rato está dormindo ou descansando, no hipocampo, essas seqüências de células do local que correspondem às distâncias realmente percorridas antes que essas rotas comecem a tocar em ritmo acelerado. Para as células restantes, isso não é observado, ou seja, essas seqüências não são aleatórias.



Na figura: o rato segue uma trilha direta e a gaiola "azul" do local é ativada primeiro, depois "vermelha" e depois "verde". Então ela recebe reforço e a reprodução acelerada dessa sequência na ordem inversa "azul vermelho verde" começa.
Além disso, o hipocampo pode jogar em lugares futuros antes que o rato os visite (pré-jogo).

Não menos interessante - o processo de repetição de um sonho também afeta o córtex cerebral. Ou seja, no córtex e no hipocampo é replicado que está conectado com a mesma experiência vivida durante a vigília anterior [7] . Existe uma hipótese de que o hipocampo é um módulo para memorização rápida e o córtex para aprendizado profundo e lento. Talvez o hipocampo se lembre dos eventos dos episódios na ordem em que são seguidos e, em seguida, os "perca" no córtex repetidamente, em um ritmo acelerado, de modo que retire padrões ocultos dessas seqüências. Então fica claro por que um paciente com hipocampo remoto perde a capacidade de criar novas memórias de longo prazo, mas não perde as que foram feitas antes da operação.

LTP-L (de fim de fase de LTP )


A longevidade das alterações nos pesos das sinapses depende não apenas do estímulo inicial que os causou, mas também dos eventos que ocorrem antes e depois . As experiências mostram que a memória de curto prazo de um estímulo pode ser consolidada em uma mais longa se o animal experimentar um evento forte dentro de uma certa janela de tempo em torno desse estímulo. Isso é registrado no nível de neurônios individuais. Deixe que algum protocolo de estimulação consiga causar um aprimoramento de sinapse a curto prazo. Isso pode ser feito a longo prazo se um estímulo forte (tetanicamente) estimular algum outro caminho convergente no mesmo neurônio (dentro da janela de tempo correta, é claro).

Inibição lateral


(inibição lateral, inibição de surround, supressão de surround)

Este princípio simples é conhecido pelos cientistas desde os tempos das cavernas. Talvez você tenha visto ilusões como esta:



no início da neurociência, acreditava-se que um neurônio estava procurando um estímulo em seu campo receptivo e, se o estímulo desejado fosse encontrado lá, o neurônio geraria picos intensamente. Se não foi bem encontrado, mas parece - também gera picos, mas não tão intensamente. E então descobriu-se que a atividade de um neurônio pode ser suprimida por atividades externas ao seu campo receptivo .

Além da rede excitatória (também é a principal), há mais uma no cérebro - uma rede de interneurônios inibitórios. Os neurônios "principais" fornecem excitação na rede e os interneurônios, em regra, a inibem. Interneurônios têm uma área de ação local. Existem mais neurônios importantes que interneurônios, mas interneurônios são mais diversos. Especificamente, a ilusão visual mencionada é supostamente tomada devido à interação de neurônios excitatórios com inibidores. A lógica do processo é esta: quanto mais o neurônio é ativado, mais ele inibe (com a ajuda de interneurônios) a atividade na vizinhança. Os neurônios excitatórios competem entre si pelo direito de dar a maior contribuição ao sinal para a próxima camada de neurônios. Se você foi muito ativado, você desacelerará bastante os vizinhos. Se os vizinhos foram fracamente ativados, eles vão atrasá-lo um pouco.Como resultado, todas as não linearidades nos dados de entrada se destacam ainda mais, e a próxima camada já funcionará com isso.

Uma ilustração muito clara do princípio


- . , , .

Detectores de erro de previsão [8]


Os neurônios da dopamina aprendem a ligar algum tipo de "chave" no sinal de entrada para receber uma recompensa. Eles usam o seguinte algoritmo:

(1) Se uma recompensa imprevisível ocorrer, os neurônios responderão aumentando a frequência de picos ( temos um erro positivo ).
(2) Após o treinamento, eles já reagem ao “evento-chave” e não ao prêmio em si. I.e. no antecessor da recompensa, eles emitem um aumento na frequência. E para a recompensa, se houver um cronograma, não há reação ( não temos nenhum erro ).
(3) Se um neurônio treinado previu uma recompensa, mas isso não aconteceu, ele responde diminuindo a frequência dos picos ( temos um erro negativo )



Acredita-se que não existe apenas treinamento associativo, mas o estabelecimento de uma relação de causa-efeito. Isto é, por exemplo, nuvens de trovoada se correlacionam com a chuva, porque geralmente acontece - você vê nuvens e depois vê a chuva. O mesmo acontece com um guarda-chuva: você vê guarda-chuvas nas pessoas e depois vê chuva. Mas se pelo menos uma vez que a chuva começou sem guarda-chuvas, já está claro que os guarda-chuvas não são a causa da chuva.

Bônus para quem lê: a ocorrência de um reflexo condicionado em um neurônio específico
, - . : , ( ) , . , . .

, — . , , . “ ”. . , , -. . ( ) :

1) 100 000 ( )
2) ( - inferior olive)

( , ), — . , , , :



, (), (). — , — (ISI) (CS) (US) , .

, , . , . . , , - .[9].
, (supervised learning), , (unsupervised learning), — (reinforcement).

Conclusão


À primeira vista, o mesmo STDP pode parecer um algoritmo de aprendizado completo para redes de neurônios spike. Mas, na realidade, atualmente não há aprendizado efetivo dos modelos de espigões artificiais. Ou seja, eles podem fazer algo - por exemplo, distribuir 95% no benchmark MNIST - mas as tarefas não triviais neles não são muito boas.

Muito mais progresso nos últimos anos ocorreu em redes onde os picos estão ausentes como classe. Os algoritmos de treinamento são baseados na descida do gradiente sobre a superfície do erro, onde o erro é uma função dos pesos das sinapses. O trabalho com o aspecto do tempo é alcançado por meio de feedbacks na topologia. Atenção e reforço estão sendo introduzidos com sucesso nessas redes. Nesse contexto, os modelos de espigões ainda parecem "ruins".

Que conclusão é essa? É difícil dizer com certeza. Talvez avanços nas redes de spikes ainda nos aguardem: não é à toa que o cérebro consiste em neurônios de spike. E talvez os modelos atuais de pico simplesmente não possuam o poder de processamento de nosso hardware para "mostrar-se". Finalmente, talvez os picos sejam uma característica de baixo nível do bio-ferro, sobre a qual o cérebro implementa a mesma descida gradiente por engano de alguma forma. No entanto, isso não está incluído na hipótese de trabalho atual da neurobiologia devido à falta de fundamentação.

Source: https://habr.com/ru/post/pt390385/


All Articles