Deformação profissional Data dos cientistas


"Se você tem um martelo nas mãos, tudo parece unhas"


Como praticantes de dados, os cientistas estão envolvidos na análise, coleta, purificação, enriquecimento, construímos e treinamos modelos do mundo ao nosso redor, com base em dados, encontramos relações internas e contradições entre os dados, às vezes até onde não há. É claro que essa imersão não poderia deixar de afetar nossa visão e compreensão do mundo. A deformação profissional está presente em nossa profissão da mesma maneira que em qualquer outra, mas o que exatamente isso nos traz e como isso afeta nossa vida?


Isenção de responsabilidade


Este artigo não afirma ser científico, não expressa um ponto de vista único da comunidade ODS e é a opinião pessoal do autor.



Preâmbulo



Se você estiver interessado em saber como nosso cérebro funciona, como percebemos o mundo à nossa volta e o que estamos fazendo aqui, muitas das coisas descritas neste artigo não serão algo completamente novo para você. De uma forma ou de outra, tudo isso já foi descrito mais de uma vez a partir de ângulos completamente diferentes. Minha tarefa é tentar analisar tudo isso da perspectiva de um analista de dados, bem como traçar paralelos entre as ferramentas e abordagens que usamos em nosso trabalho e na vida real fora do monitor.



1. Introdução



Primeiro, imagine uma configuração um pouco simplificada:


Ao nosso redor, existe um mundo ao nosso redor para sobreviver e funcionar com sucesso, uma pessoa precisa entender o que ele (o mundo) representa, como interagir com ela e quais resultados são obtidos a partir de várias interações. Ou seja, em outras palavras, uma pessoa precisa de um modelo do mundo ao seu redor que resolva adequadamente suas tarefas atuais . A chave é " tarefas atuais ". Quando a tarefa de sobrevivência estava em primeiro lugar, o modelo do mundo foi construído, antes de tudo, no rápido reconhecimento do perigo e em uma reação adequada a ele. Ou seja, aqueles que tinham um modelo pior - não podiam transmitir; aqueles com um modelo melhor - eram transmitidos aos seus descendentes. Com a melhoria das condições de vida, a ênfase no modelo começou a mudar de pura sobrevivência para algo mais altamente organizado e, quanto mais seguro o ambiente, mais diversificado esse "algo" se torna. O espectro de "algo" é muito amplo - do Bitcoin e DS ao feminismo radical e tolerância.


A natureza criou nosso cérebro para resolver o problema da sobrevivência em condições de recursos limitados - não havia comida suficiente, não havia energia suficiente para nenhum lixo; portanto, para sobreviver, era necessário resolver duas tarefas mutuamente exclusivas:


  • Descubra o mundo, melhorando o modelo, aumentando as chances de sobrevivência (uma tarefa que consome muita energia)
  • Não morra por falta de energia

A natureza resolveu esse dilema de maneira muito elegante, introduzindo em nosso cérebro a capacidade de armazenar em cache fluxos e reações de dados, quando a energia praticamente não é desperdiçada para resolver problemas básicos (dentro da estrutura do modelo atual) de interação com o mundo exterior.


Você pode ler mais sobre esse método de armazenamento em cache e a "teoria dos recursos da atenção" nos excelentes trabalhos de D. Kahneman " Pense devagar, resolva rapidamente " [1] e " Atenção e esforço " [3]



De acordo com D. Kahneman:



Os psicólogos distinguem dois modos de pensar, que chamaremos de Sistema 1 e Sistema 2.

O sistema 1 funciona de forma automática e muito rápida, sem exigir ou quase nenhum esforço e sem fornecer uma sensação de controle intencional

O sistema 2 dá a atenção necessária ao esforço mental consciente, inclusive para cálculos complexos. As ações do Sistema 2 são frequentemente associadas a um senso subjetivo de atividade, escolha e concentração.

Padrões de comportamento, reações e respostas são programados em nossos cérebros (formam e mudam o modelo do mundo) desde a infância até a morte. Dois fatores dependem do estágio em que a formação do modelo está localizada - a taxa na qual as mudanças são aceitas e a quantidade de energia necessária para mudar. Na infância, quando o modelo é flexível e flexível, a velocidade é alta e os custos de energia são mínimos. Quanto mais denso o modelo, mais energia é necessária para alterá-lo. Mais do que isso, também é necessária energia para que uma pessoa simplesmente queira mudar algo no modelo . E qualquer desperdício de energia é controlado pelo cérebro, e ele é muitíssimo relutante em permitir que seja gasto.


O comando para mudar o modelo será rejeitado pelo cérebro (ainda consome energia, mas por quê?, Porque está tudo bem conosco) até que o funcionamento dentro da estrutura do modelo antigo ameaça a sobrevivência. Bem, ou até que a energia seja recebida por uma explosão espontânea (choque de algo, um golpe psicológico, etc.)



TL / DR:


  • Para sobreviver, uma pessoa constrói em sua cabeça um modelo do mundo ao seu redor, resolvendo suas tarefas atuais
  • Ao resolver qualquer problema, o cérebro tenta minimizar o consumo de energia.
  • A operação menos intensiva em energia na estrutura do Sistema-1 (Kahneman), falha na tomada de decisões sobre mudança
  • O mais intensivo em energia está funcionando dentro da estrutura do Sistema-2, tomando decisões sobre a alteração do modelo e a alteração do próprio modelo.


Metamodelo (modelo)



Portanto, para interagir com o mundo exterior, uma pessoa constrói um modelo do mundo em seu cérebro e age de acordo com ele pelo maior tempo possível (lembre-se mais uma vez de minimizar os custos de energia). Mas uma pessoa, infelizmente ou felizmente, é um animal social - não podemos interagir com outras pessoas e, freqüentemente, essa interação nos confunde.


Para interagir efetivamente com outras pessoas, construímos em nossa cabeça um modelo comportamental dessas pessoas , ou seja, um modelo de como elas se comportarão em determinadas circunstâncias, na presença de determinados dados. Ou seja, estamos construindo um modelo do modelo do mundo circundante dessa pessoa em particular.


Pare e pense - o modelo do mundo na cabeça de uma pessoa é imperfeito e atende apenas a seus próprios critérios de suficiência e adequação , e construímos um modelo desse modelo (estranho) e interagimos com essa pessoa de acordo com o nosso modelo. Sim, e também queremos que as pessoas façam o que nosso "modelo do modelo dele" nos diz . Otimista? Sim, mais do que ....


Para construir e treinar um modelo adequado, não devo dizer a você que você precisa de muito tempo, energia e dados. E geralmente não temos um ou outro, e quanto mais graus de liberdade (parâmetros) o modelo tiver, mais dados serão necessários - a maldição da dimensão, lembra-se?


E a vida voa, e o tempo é curto, portanto (o Sistema-1 funciona), conhecendo uma pessoa e até mesmo se comunicando com ela em algumas condições, selecionamos um de nossos modelos de modelo pré-compilados que já temos em para a cabeça ("cadela", "garoto normal", "molehill", "apenas" Não; ak "etc.), talvez um pouco de fintunia para um caso específico.


Sim, é claro, existem exceções, existem pessoas pelas quais não sentimos pena de tempo ou energia e que conhecemos a vida inteira. Mas, neste caso, sabemos apenas sobre a pessoa que está no nosso modelo dessa pessoa.



O que se segue daqui? Algumas coisas óbvias:


Bem, primeiro , a data em que o cientista não sente ressentimento em relação a outras pessoas .

Absolutamente da palavra completamente. Em seu vocabulário, o termo "ressentimento" está ausente. Porque Tudo é simples - no centro de qualquer insulto está o nosso mal-entendido:


  • Como ele pôde (ela) agir (dizer, agir)?
  • Ou NÃO (diga, faça, faça)?

Ou seja, em nosso modelo dessa pessoa, ele em circunstâncias específicas com um pacote de informações de entrada específico deveria ter agido dessa maneira, mas não o fez. Aquele desgraçado, hein? Sim, ele não é um bastardo, mas nosso modelo dessa pessoa está errado. Perdemos algo nele ou não gostamos de circunstâncias específicas, mas apenas pegamos um modelo ou os dados de entrada na situação atual são diferentes daqueles em que treinamos o modelo.


O que fazer neste caso? O mesmo de sempre - examinamos o que está errado nos dados e treinamos demais o modelo com as novas informações.


Em segundo lugar , a data do cientista não tem o reflexo de que " alguém está errado na Internet ".

Funciona não apenas na Internet, mas também no trabalho, na sociedade etc. Se uma pessoa não entende alguma coisa (como lhe parece), ou entende, mas não da maneira que você entende, talvez ela simplesmente tenha um modelo completamente diferente para essa parte do mundo . E para convencer tal, isto é, fazer com que ele mude de modelo (especialmente se ele não quiser) é muito difícil e consome muita energia. Você precisa disso?


Uma opção completamente diferente, quando uma pessoa está pronta para mudar seu modelo, quer expandi-lo ou apertá-lo, e ele tem força e energia para isso. Você pode ajudar - ajudar, não pode - direcionar a alguém que pode. Você não pode ajudar nem dirigir - não interfira .


Da próxima vez, não fique agitado com uma pessoa se, na sua opinião, ela estiver "errada" ou "não entender alguma coisa". No seu modelo de mundo, tudo é diferente. Quanto mais grosseiro e "mais simples" o modelo, maior a energia necessária para tirá-lo do ponto de equilíbrio , sem mencionar a alteração de algo.


E terceiro , a data do cientista lembra o princípio " As coisas nem sempre são o que parecem ".

Entendendo como esse sistema funciona, há a oportunidade de imitar, adaptar-se a algum modelo básico, familiar à sociedade em que você está atualmente, e até que você saia dele, tudo ficará bem. Funciona nos dois sentidos, por isso não se esqueça: "Uma coruja não é o que parece ".


“A percepção de uma corda como uma cobra é tão falsa quanto a percepção de uma corda como uma corda” (C)



Construção e treinamento de modelos



Até a presente data, entendemos quão difícil é construir, treinar e constantemente treinar um modelo mais ou menos adequado. E, portanto, a data do cientista, calma e pacientemente, refere-se à imperfeição de modelos na cabeça de outras pessoas e melhora constantemente a sua . E como ele ainda é um profissional, ele se lembra perfeitamente dos princípios básicos da modelagem de sucesso:



O que vai, volta (Garbage in - garbage out.)


A precisão e adequação do modelo depende mais da pureza dos dados do que de qualquer outra coisa. Todos nós sabemos disso, gastamos uma quantidade enorme de tempo limpando dados, pré-processando, normalizando e assim por diante, e assim por diante. Alimente o modelo de lixo - e o resultado é previsível. Alimente os dados normalizados limpos - e as informações no seu bolso. Os modelos em nossas cabeças funcionam exatamente da mesma maneira. Entendendo isso, tentamos usar os dados mais precisos e limpos para processamento e treinamento, constantemente usamos uma visão crítica para analisar a adequação dos dados e nos esforçamos para evitar informações sujas e barulhentas em nosso modelo . Em suma - leia o Habr e não assista o primeiro canal.



A diferença entre Train e Test (nossa dor de cabeça)


O cientista entende que a aplicabilidade do modelo depende diretamente da semelhança das distribuições nas quais o modelo estudou e para o qual é aplicado . As regras de comportamento em uma sociedade não funcionam em outra, os princípios de sucesso em uma área não são aplicáveis ​​a outra, o "modelo típico de comportamento" do sexo oposto, construído com base nas histórias de minha mãe, de repente acaba não sendo muito certo, bem, etc.


Sempre levamos em conta a possível dissimilaridade do conjunto de dados de treinamento no qual treinamos nosso modelo do mundo e o conjunto de dados real no qual aplicamos nosso modelo.


Em resumo, entendemos a causa da discrepância e estamos prontos para gastar energia no pré-treinamento do modelo para corresponder melhor ao mundo real.



Escolha da função objetiva e aprendizagem de múltiplos domínios


Quase qualquer tarefa pode ser transferida para outro domínio alterando a função objetivo. O problema não é resolvido como regressão? Refaça o alvo das classes e resolva-o como uma tarefa de classificação. Melhor ainda, faça duas cabeças pela grade, deixe uma resolver um problema e a segunda reformulada. No mesmo conjunto de dados, dois modelos diferentes podem ser treinados, aprimorados em coisas completamente diferentes. Lembre-se disso, a melhor opção, como na vida, é a aprendizagem de vários domínios, quando sua função objetivo final abrange vários domínios ao mesmo tempo . No trabalho, por exemplo, você pode apenas ganhar dinheiro, ainda pode baixar habilidades profissionais, ainda pode melhorar as habilidades de interação social. Como no caso dos modelos convencionais, essa abordagem permite, no final, enriquecer e melhorar todas as metas de vários domínios, como se as tivéssemos baixado separadamente. E não se esqueça do tempo: três modelos para fins individuais requerem três vezes mais tempo e, na vida real, não é tanto assim e, infelizmente, você não será capaz de paralelizar o treinamento a uma ou duas dezenas de TPU-shek.



Treinamento em blocos (Batch-learning)


O treinamento de modelos com lotes é comprovadamente eficaz. Se você não levar em consideração áreas específicas que exigem treinamento on-line, não há sentido em atualizar pesos somente depois de passar por toda a era. Sim, o treinamento em lotes produz ruído de alta frequência, mas isso é compensado por uma taxa de convergência mais alta com quase a mesma precisão.


O que isso nos dá? Entendendo que não faz sentido esperar muito antes de mudar levemente seu modelo de mundo com base em novos dados. Não há necessidade de esperar por toda a época, bem, eu não sei, um ano em um novo emprego, um ano de relações com uma nova pessoa, mudam com mais frequência - você obterá um movimento mais rápido para seu objetivo final , bem, a exploração dará mais oportunidades. Também não faz sentido gritar que "tudo foi perdido" após um único incidente , talvez seja apenas uma explosão, talvez as estrelas tenham se desenvolvido assim, espere até o final do lote, acumule erros - e depois mude o modelo.




Existem muitos artigos ( exemplo ) sobre o tópico que, ao procurar os melhores hiperparâmetros, a classificação aleatória é melhor que uma pesquisa em grade. Portanto, no nosso caso, a escolha da ação “aleatória” é melhor para executar “pseudo-aleatoriamente”, e não estritamente de acordo com alguma grade predefinida . Fãs e adeptos de abordagens estritas vão me atropelar agora, mas, sério, o acaso domina o mundo , e o uso de tal método, por incrível que pareça, pode ser ainda mais racional.


Melhor ainda, é claro, é usar a otimização bayesiana . Mas aqui não entendo como isso pode ser aplicado à vida real. Não é a abordagem bayesiana para entender as informações, mas a otimização bayesiana ao escolher hiperparâmetros.



Conjuntos


Todos sabemos sobre o poder dos conjuntos, nos quais cada modelo analisa os dados de sua própria maneira, obtendo algum sinal deles, e o melhor resultado é alcançado usando um metamodelo nos modelos de primeiro nível. Na vida, tudo é exatamente o mesmo, você pode construir seu próprio modelo de mundo, não apenas com base em sua própria experiência, mas também absorvendo o melhor (ou vice-versa, entendendo e cortando o pior) dos modelos de outras pessoas do mundo. Esses modelos são descritos em livros, filmes e, apenas observando o comportamento de outras pessoas, você pode entender que tipo de modelo elas têm, aproveitar o melhor e se desenvolver.


Lembre-se: "Muitas coisas são incompreensíveis para nós, não porque nossos conceitos são fracos, mas porque essas coisas não estão incluídas no círculo de nossos conceitos". Kozma Petrovich entendeu o problema de modelos limitados, mesmo sem ser um cientista praticando a data. :)


Pessoas diferentes, ambientes diferentes, dados diferentes - modelos diferentes, mesmo para coisas aparentemente óbvias. Se você trabalhou em grandes empresas, provavelmente se lembra de todos esses treinamentos intermináveis ​​sobre comportamento, regras de comunicação, assédio e muito mais. Que diabos você pensou. Mas não, não lixo. Nas grandes empresas internacionais (devido a diferenças de cultura, mentalidade e valores), é simplesmente necessário introduzir uma camada de princípios básicos no modelo de cada funcionário para garantir a interação e o trabalho normais.



TL / DR


  • O que está acontecendo com você neste mundo, apenas você e seu modelo de mundo são os culpados
  • Os modelos mundiais de outras pessoas não precisam se correlacionar com os seus próprios
  • Seus metamodelos dos modelos mundiais de outras pessoas provavelmente não correspondem à realidade
  • É difícil criar em sua cabeça um modelo aberto do mundo, pronto para a mudança de acordo com o princípio bayesiano. É ainda mais difícil mantê-lo nesse estado aberto ao longo da vida. É muito difícil continuar sendo uma pessoa


O que resta nos bastidores




Teorema do Limite Central


Como o CTC diz, a soma dos eventos aleatórios amostrados de qualquer tipo de distribuição fracamente dependente é ela própria uma variável aleatória e normalmente distribuída no limite.


Toda a nossa vida consiste em eventos aleatórios : o tempo de espera por um elevador ou um ônibus em uma parada, você perdeu uma esquina ou não, etc. Você pode avaliar condicionalmente o dia como bem-sucedido ou mal-sucedido (outra variável aleatória), dependendo de onde na distribuição final chegamos - ao centro ou à cauda. Em uma amostra suficientemente grande (por exemplo, um ano), pode-se ver que essa variável aleatória nossa é distribuída normalmente, centrada em " bem, mais ou menos tudo está bem "


A data em que o cientista entende tudo o que foi exposto acima e não será vaporizado se cair no chamado Uma "linha preta" quando tudo está ruim - e o ônibus saiu debaixo do nariz, serviu café e não salvou o código, etc. Ele entende que hoje temos a cauda da distribuição, só precisamos sobreviver a este dia e amanhã, talvez, o mundo venha a experimentar eventos para nós de uma maneira um pouco diferente.


A propósito, a transição para um novo ponto de referência de eventos (um novo conjunto de amostras) é um sonho . Não é um dia do calendário, nem meia-noite, mas um novo dia subjetivo depois que você acorda. Nossos ancestrais entenderam isso intuitivamente (embora não soubessem sobre xgboost e keras), foi a partir daqui que os dizeres “ manhã da noite são mais sábios ” e “ se você quer trabalhar, vá para a cama e tudo passará ”.


“ ” ( p-value “”), , - ( , ), .




, “ ”. . [1].


, - , . , , , - )


, “ , ”.



(Exploitation vs Exploration)


, , . , , , — “ — ! ”. , , , , - , , , - .


… . - , . ( ), , , - . , “ , ”. , , . . , - , .


“ ” RL( Reinforcement learning ). , , , , , , . , , , , - , , . RL . , ( ) , , , - .


, , , , exploration , .




, , , , - , . , ” “ ”.


, “” . , , , “ ”, .


, - (, , ..) “”, , , .




- , , -1. , , , , .., .. . , -2. . , , -2 , , .



“ ”


, , , -1 , .




, “ , ” (). . , , - , , , . , , , , , , , .



TL/DR


  • ,
  • . ,
  • (exploration)
  • , . , - , 1

Conclusão



, - , , , , , .



  1. . … . — .: , 2013. — 625 .
  2. ., ., . : ., : , 2005. — 632 . — [ISBN 966-8324-14-5]
  3. . / . . . . . — .: , 2006. — 288 .
  4. . , “ : "

Source: https://habr.com/ru/post/pt447362/


All Articles