Livro (de ser?). Reflexões sobre a natureza da mente. Parte II



Uma palavra sobre os processos, ou somos todos um pouco de contracepção .

Continuação das reflexões sobre a mente do natural e do artificial (IA), a primeira parte está aqui

Pergunta para preenchimento : uma pessoa mora agora? Não quando andamos pela rua e contemplamos diretamente o mundo à nossa volta, agimos mais ou menos em tempo real ... Embora na realidade - até agora, o que vemos passará pelos mecanismos usuais de reconhecimento / classificação - tudo isso será recente, mas ainda o passado. I.e. Uma pessoa vive no passado?

Por exemplo: você anda pela rua, vê um cachorro. Ou um carro. De qualquer forma, se estamos falando do momento, essa informação já está desatualizada. Se operarmos com dados que passaram por todos os nossos mecanismos cognitivos (e o cérebro está longe de ser a calculadora mais rápida!), Simplesmente não acompanharemos o mundo! O cão atacará ou vice-versa - ele fugirá, e seu desejo de tapá-lo atrás da orelha permanecerá insatisfeito, e o carro o derrubará ou passará por você, embora você queira “pegar” esse carro em particular.

Mas graças a Deus não acontece dessa maneira, e aqui está o porquê: o cérebro funciona de maneira diferente. A unidade de percepção não é um objeto, nem mesmo uma totalidade de objetos, mas processos. O cachorro está correndo. Para você ou de você. Ou não corre, mas mente, por exemplo. O carro também está parado (no estacionamento) ou se movendo em uma determinada direção. Em todos os casos, você percebe um processo que dura muito tempo e, consequentemente, um certo desenvolvimento no futuro. Quando digo que percebemos que os eventos se desenrolaram no tempo - isso não é uma figura de linguagem. Realize um experimento - tire uma dúzia de fotos (ou seja, projeções instantâneas da realidade) e descreva o que vê. Aqui estão algumas pessoas na sala, elas estão brigando, ou aqui um homem está andando pela rua, ou aqui está ele sentado - assistindo TV, e ele está lendo um livro. Todos esses processos são demorados! Você percebe o elenco instantâneo como algo que tem um comprimento. Você não sabe como fazê-lo de maneira diferente, porque o cérebro funciona assim: ele é treinado para reconhecer processos, não objetos díspares no palco. Assim como não um olho-nariz-boca, mas um rosto em um complexo (olá, redes neurais convolucionais).

O mundo é composto de processos, não objetos. Se você perguntar o que é uma maçã , a maioria dos adultos dirá que é uma fruta / fruta , e as crianças dirão que é comida . Mas ambos são uma descrição do processo, porque o primeiro significa que essa maçã cresce em uma árvore e serve a árvore para propagação, e o segundo - que é comestível . Nem um nem outro está conectado com os sinais imediatos da maçã - forma, cor, tamanho ... Porque os sinais permitem identificar, mas não permitem usar, ou entender onde é usada no mundo, ou seja, identificar exatamente os processos.

Se fizermos um debate típico sobre a natureza do tempo, os postulados clássicos serão sobre a invariabilidade do passado (fora do contexto da viagem no tempo), a importância do presente (há apenas um momento ...;)) e o futuro, que ainda não existe, o que significa que pode ser alterado. Quando falamos de realidade objetiva, pode muito bem ser assim. No entanto, uma pessoa vive em seu próprio modelo subjetivo do mundo, e aí tudo é quase o oposto!

O passado está longe de ser invariável, como gostaríamos. Recebendo constantemente novas informações, uma pessoa reconstrói o passado para eliminar contradições ( você pensou em Pyotr Stepanych em um simpósio e ele deixa o clube de strip-tease ... Isso significa que em nenhum lugar ele, um artista, não foi e geralmente ... ). Ao mesmo tempo, seu futuro subjetivo em muitos aspectos é constante ( seja o que for, mas na sexta-feira eu tenho cerveja e futebol! ). Não apenas isso, tendo um objetivo definido no futuro, você não apenas construirá a cadeia de processos na ordem inversa ( para se tornar diretor de uma grande empresa, você precisa se formar em uma universidade de prestígio com um diploma, para isso, é necessário primeiro ingressá-lo, para passar no Exame do Estado Unificado, ensinar a marcha lições! ), mas também é bastante provável - voltar ao processo ( não tínhamos amigos / conhecidos que agora se levantaram e cresceram em contato e poderiam ajudar uma criança com uma universidade ) - o que não é uma engenhoca? ;)

No entanto, eu estava um pouco distraído. Ainda assim, a principal coisa que eu queria focar são os processos . Estou profundamente convencido de que a IA em potencial precisa ser treinada, não na foto ou mesmo no vídeo. A rede convolucional tem dois níveis (mínimo) - e, de fato, são duas redes diferentes: uma é treinada para encontrar certos padrões gráficos na imagem bruta, a segunda lida com a saída da primeira - ou seja, com informações já processadas e preparadas. Para interagir com sucesso com o mundo da IA, você precisa da mesma coisa: em algum nível (longe do primeiro), deve haver uma rede que receba um mapa de processos implantado no tempo. Os conceitos de "começo" e "fim", "movimento", "transformação", "fusão" e "separação" são o que a rede deve aprender a trabalhar.

Tenho certeza de que os envolvidos em jogos de IA, como Alpha Go, entendem de uma maneira ou de outra. Talvez as abordagens sejam um pouco diferentes, mas a essência é a mesma: a situação atual no quadro (e no desenrolar dos últimos movimentos) é analisada quanto ao que está “acontecendo”. E, dependendo de quanto o que acontece corresponde ao que deve acontecer, seus próprios movimentos são selecionados.

É muito difícil falar sobre estratégia / comportamento quando a imagem de entrada é proveniente de sensores. E vice-versa - um vetor preparado contendo um alinhamento completo do estado atual do campo em jogos com informações completas (conte a imagem completa do mundo) é uma tarefa viável, como mostra a prática. No entanto, se a rede convolucional dos primeiros níveis identificou os objetos, e os próximos níveis analisam esses objetos em dinâmica, identificando os processos (familiares do treinamento, por exemplo) complementa os dados obtidos anteriormente, parece possível trabalhar com isso ...

Perguntas aos especialistas:

Quão realista é, dados os desenvolvimentos atuais em redes neurais, fazer algo assim:

Na entrada , por exemplo, um sinal de vídeo contínuo, possivelmente estéreo. Como opção: com vários graus de liberdade (a capacidade de girar a câmera - arbitrariamente ou de acordo com o esquema). No entanto, se necessário, o sinal de vídeo pode ser complementado / substituído por qualquer outro método de percepção espacial - do sonar ao lidar.

Estritamente falando ...
na entrada, pode haver qualquer fluxo em tempo real - pelo menos fala / texto, pelo menos cotações de moedas, mas ... No processo em consideração, é mais fácil para mim contar com a única amostra de razão disponível para o estudo direto - a minha! ) E nesta "amostra" o canal sensorial está além da concorrência!

Saída:

  1. Mapa de profundidade (se a câmera estiver estática) ou um mapa ambiental. espaços (câmera dinâmica / lidar, etc.);

    Para que
    É necessário se queremos ter um arranjo espacial real de objetos para avaliar sua interação. Nesse caso, a imagem da câmera é apenas uma projeção bidimensional de um espaço maior e são necessárias transformações adicionais.
  2. Seleção de objetos individuais (levando em consideração o mapa de profundidade / espaço e não apenas / não muito os contornos visíveis);
  3. Destacar objetos em movimento (velocidade / aceleração, plotagem / previsão de uma trajetória (?));
  4. Classificação hierárquica de objetos de acordo com quaisquer atributos recuperáveis ​​(forma / dimensões / cor / nuances de movimento / Componentes (?)). I.e. essencialmente recuperando métricas para o espaço Hilbert .

    sobre hierarquia
    talvez a palavra "Hierárquica" não seja totalmente apropriada neste caso. Gostaria de enfatizar que é possível a qualquer momento escolher métricas para que a distância de Heming entre elas nos permita considerar dois conjuntos diferentes de métricas como um conceito. Como "carro vermelho" e "ônibus azul" devem ser generalizados no conceito de "veículo", por exemplo.

Importante: se possível, o sistema não é pré-treinado. I.e. algumas coisas básicas podem ser estabelecidas (por exemplo, uma rede convolucional da primeira camada, para destacar contornos / geometria), mas você deve aprender a selecionar objetos e depois reconhecê-los.

  • E, finalmente, a construção de uma varredura (com base nos parágrafos 1.4, isto é, um mapa espacial levando em consideração as métricas) no tempo (por enquanto, neste estágio, o período diretamente observado é visível), com o objetivo de analisar os pontos 2-4, s para identificar: processos / eventos (que são essencialmente mudanças no tempo na cláusula 3) e sua classificação de clusters (cláusula 4).

Mais uma vez: a partir da imagem dos sensores, primeiro extraímos a descrição do mundo de uma forma mais preparada, rotulada de acordo com as características extraídas e dividida não em pixels, mas em objetos. Em seguida, expandimos o mundo, consistindo de objetos no tempo, e enviamos a "imagem do mundo" resultante para a entrada da próxima rede, que trabalha com ele como as camadas anteriores, com uma imagem de toque trabalhada. Onde os contornos dos objetos se destacavam, agora os "contornos" dos processos em andamento serão distinguidos. A posição relativa dos objetos no espaço é semelhante à relação causal dos processos no tempo ... De alguma forma.

Presumivelmente após isso, o sistema deve ser capaz de reconhecer processos por suas partes (como capazes de identificar imagens, possuindo apenas um fragmento delas, ou como continuação da escrita do texto de acordo com o modelo ) e, como resultado - predizê-las, tanto para a frente quanto para trás no tempo, expandindo o modelo A cláusula 5 é ilimitada em ambas as direções. Além disso, presumivelmente, tendo uma idéia dos processos compostos, o sistema pode revelar processos mais abrangentes, globais e, como resultado, implícitos e ocultos que são parte integrante do global identificado, mas não percebido diretamente, por vários processos locais relacionados.

Bem, e a última: ter um estado fixo do sistema no futuro (onde apenas elementos significativos das métricas de Hilbert são corrigidos, com uma interpretação livre do restante, sem valores significativos) - a rede é capaz de "adivinhar" o resto?

Bem, isto é se fosse uma imagem na qual apenas dois fragmentos desconectados foram especificados - uma rede treinada em alguma amostra pode concluir uma imagem completa "consistente"? A amostra neste caso são os mesmos intervalos de tempo do experimento, os fragmentos são o estado atual e o dado. Resultado: uma "história" consistente que liga um e outro ...

Parece-me que isso já será uma base muito substancial para outras experiências:

  • inclusão na "história" das próprias ações, se possível / necessário
  • a prioridade dos padrões de causa e efeito “regulares” sobre as emissões estocásticas não controladas (problema da roleta)
  • algum tipo de curiosidade, ou seja, conhecimento ativo de padrões através da ação ... etc

PS Admito plenamente que acabei de inventar uma bicicleta, e pessoas conhecedoras vêm aplicando esses princípios na prática. ;) Nesse caso, peço que você "cutucar o nariz" no desenvolvimento apropriado. E será absolutamente maravilhoso se houver uma descrição detalhada dos problemas fundamentais dessa abordagem ou justificativa por que ela não funciona em princípio.

PPS Estou ciente de que o texto é bruto e o pensamento pula de um para o outro, mas eu realmente queria perguntar a algumas pessoas essas perguntas (seção “pergunta para especialistas”), e isso é difícil de fazer sem pelo menos alguma exposição. O texto anterior (e eu estava relendo agora, e percebi que é muito difícil de entender) cumpriu sua tarefa: recebi várias discussões que foram valiosas para mim ... Espero que desta vez também! ;)

UPD: Apesar dos pontos negativos - a discussão ainda se seguiu, pela qual estou extremamente feliz!

UPD2: Lista de links sobre um tópico fornecido por pessoas diferentes em momentos diferentes ou foi encontrado por mim:

  1. Sobre a segmentação, popular: mil ...
  2. E se fortalecido pela visão estéreo? Um , dois e digamos três ...
  3. Isso era tudo sobre OpenCV, matemática pura, sem neurônios. E você pode combiná-lo , mais ou menos ... E ainda.
  4. Se, de acordo com o conjunto de métodos do objeto mencionado anteriormente, o objeto for selecionado, um conjunto de sinais para rastreá-lo no futuro poderá ser formado em tempo real ...
  5. Por que você precisa procurar outras abordagens quando há um grande aprendizado por reforço ?
  6. Uma rede pré-treinada que destaca ações no vídeo ... É difícil dizer o quão aplicável isso é no nosso caso, mas é interessante!

Source: https://habr.com/ru/post/pt485006/


All Articles