Ou: como a transição da publicação de valores-P para as funções de probabilidade de publicação ajuda a lidar com a crise da reprodutibilidade: a opinião pessoal de Eliezer Yudkovsky.
Comentário do tradutor: Yudkowsky, autor de HPMOR , criador de Lesswrong e outros e outros, expressou sua posição sobre os benefícios da estatística bayesiana nas ciências naturais na forma de diálogo. Tal diálogo clássico direto da Antiguidade ou do Renascimento, com personagens expressando idéias, compartilhando farpas entremeadas de argumentos emaranhados e Simplizio inevitavelmente estúpido. O diálogo é bastante longo, cerca de vinte minutos para ler, mas, na minha opinião, vale a pena.Isenções de responsabilidade- Este diálogo foi escrito por um proponente bayesiano . As observações do cientista no diálogo abaixo podem não passar no teste ideológico de Turing para o freventismo. É possível que eles não prestem homenagem aos argumentos e contra-argumentos dos apoiadores da abordagem da frequência à probabilidade.
- O autor não espera que as propostas descritas abaixo sejam aceitas pela ampla comunidade científica nos próximos dez anos. No entanto, valeu a pena escrever.
Se você não conhece a regra bayesiana, o site da Arbital tem uma
introdução detalhada .
Moderador: Boa noite. Hoje em nosso estúdio:
Cientista , praticante no campo da ... psicologia química ou algo assim; seu oponente
Bayesovets , que pretende provar que a crise da reprodutibilidade na ciência, pode de alguma forma ser superado substituindo os valores-P por algo das estatísticas bayesianas ...
Aluno: Desculpe, como se escreve?
Moderador: ... e, finalmente, o Aluno Entendendo à minha direita.
Moderador: Bayesovets , você poderia primeiro me dizer qual é a essência da sua proposta?
Bayesovets: Grosso modo, o ponto é este. Suponha que temos uma moeda. Lançamos seis vezes e observamos a série “LLCOOR”
(aprox. Per .: A seguir, O - Oryol, R - Reshka) . Deveríamos suspeitar que algo está errado com a moeda?
Cientista: Nenhum.
Bayesovets: A moeda aqui é apenas por exemplo. Suponha que ofereçamos a uma amostra de voluntários um prato com dois biscoitos: um com granulado verde e outro com vermelho. As cinco primeiras pessoas tomam biscoitos verdes e a sexta, as vermelhas. É verdade que as pessoas preferem biscoitos com granulado verde ou é melhor esse resultado ser considerado aleatório?
Aluno: Provavelmente, é possível
suspeitar que, talvez, as pessoas prefiram aspersão verde. Pelo menos, estudantes de psicologia que tendem a se voluntariar para experimentos estranhos como o verde polvilha mais. Mesmo após seis observações, pode-se suspeitar disso, embora eu suspeite que exista algum tipo de captura.
Cientista: Eu acho que isso não é suspeito. Muitas hipóteses parecem promissoras em N = 6, mas não são confirmadas em N = 60.
Bayesovets: Pessoalmente, eu suspeitaria que nossos voluntários não
preferem a cobertura vermelha ou, pelo menos, não muito. Mas, em geral, criei esses exemplos apenas para mostrar como os valores de P são considerados nas estatísticas científicas modernas e o que há de errado com eles do ponto de vista bayesiano.
Cientista: Mas você não pode criar um exemplo mais realista com 30 voluntários?
Bayesovets: É possível, mas o Aluno
já não entende nada.
Aluno: Com certeza.
Bayesovets: Então, queridos especialistas: Águia, águia, águia, águia, águia, caudas. Atenção, a pergunta é: você chamaria esse resultado de "estatisticamente significativo" ou não?
Cientista: Mestre, isso não é significativo. Com a hipótese nula de que a moeda é justa (ou com a hipótese nula semelhante de que a cor dos confeitos não afeta a escolha dos biscoitos), o mesmo resultado ou mais pronunciado pode ser obtido em 14 dos 64 casos.
Aluno: Sim. Entendi corretamente: isso ocorre porque consideramos os resultados do LLCOOO e RRORRR como "o mesmo ou mais pronunciado", há um total de 14 e o número total de resultados com 6 arremessos 2
6 = 64. 14/64 é 22%, superior a 5%, portanto o resultado não é considerado significativo no nível de p <0,05. Então
Cientista: Isso mesmo. Eu também observaria que, na prática, mesmo com o resultado do LLCOOO, você não deve interromper o experimento e escrever um artigo sobre o fato de que uma moeda sempre cai por uma águia.
Bayesovets: O fato é que, se você pode
parar de jogar uma moeda a qualquer momento, deve se perguntar: "Qual a probabilidade de encontrar um momento para interromper o experimento em que o número de águias parecerá publicamente?" E essa é uma história completamente diferente no paradigma do valor-P.
Cientista: Eu quis dizer apenas seis experimentos - isso não é sério, mesmo se estudarmos a cor dos biscoitos. Mas sim, você também está certo.
Aluno: E por que é importante parar de jogar uma moeda ou não?
Bayesovets: Que pergunta maravilhosa.
Cientista: O fato é que os valores P são uma coisa complicada. Você não pode simplesmente pegar os números, colocá-los no programa e publicar o que esse programa divulgará. Se você decidiu antecipadamente jogar uma moeda exatamente seis vezes e parar independentemente do resultado, o resultado do LLCOOO ou RRRRRR será obtido em média 2 vezes em 64, ou em 3,1% dos casos. Isso é significativo em p <0,05. Mas suponha que você seja de fato um falsificador fraudulento e inescrupuloso. Ou apenas um aluno incompetente que não entende o que está fazendo. Em vez de pré-selecionar o número de jogadas, você joga e joga uma moeda até obter um resultado que pareça estatisticamente significativo.
Seria estatisticamente significativo
se você decidisse lançar uma moeda exatamente o mesmo número de vezes. Mas, na verdade, você não decidiu isso com antecedência. Você decidiu parar apenas depois de obter os resultados. Você não pode fazer isso.
Aluno: Ok, li sobre isso em algum lugar, mas não entendi o que havia de ruim aqui. Esta é a minha pesquisa e eu deveria saber melhor se há dados suficientes ou não.
Cientista: O ponto principal dos valores P é criar um teste que a hipótese nula não possa passar. Em outras palavras, garantir que a fumaça sem fogo não seja muito comum. Para isso, é necessário organizar a pesquisa de forma a não gerar descobertas "estatisticamente significativas" na ausência do fenômeno desejado. Se você jogar uma moeda exatamente seis vezes (e determinar esse número antecipadamente), a probabilidade de obter seis águias ou seis caudas de uma moeda justa é inferior a 5%. Se você jogar uma moeda
quantas vezes
quiser , e após cada jogada contar o valor P (
fingindo que o número de jogadas era conhecido antecipadamente), mais cedo ou mais tarde a chance de obter menos de p <0,05 é
muito mais que 5%. Portanto, esse experimento detecta fumaça sem fogo com muito mais frequência do que em 1 em cada 20 casos.
Bayesovets: Pessoalmente, eu gosto de formular esse problema da seguinte maneira: digamos que você jogue uma moeda e ganhe OOOOOR. Se ao mesmo tempo você, nas profundezas do seu coração conhecido apenas por Allah (pois Allah é sábio, conhecedor), decidiu o número de jogadas
com antecedência , então o resultado não é significativo; p = 0,22. Se, após um jejum de três meses, você fez um voto a São Francisco para jogar uma moeda
até que a coroa caísse , o mesmo resultado é estatisticamente significativo, com p = 0,03 bastante bom. Porque a chance de que com probabilidades de 1: 1 caudas terá que esperar seis ou mais jogadas, 1/32.
Aluno: O que?
Cientista: É mais como uma paródia, é claro. Na prática, ninguém jogará uma moeda até que uma única coroa seja sacada e depois pare. Mas na verdade Bayesovets está certo, os valores P funcionam assim. A rigor, estamos tentando descobrir quão raro é o resultado entre aqueles que
poderíamos obter. Uma pessoa que joga uma moeda antes da primeira coroa pode obter os resultados {P, OR, OOR, LLC, OOOOR, LLCOOR ...} e assim por diante. A classe de resultados em que são executadas seis ou mais fotos é {LLCOOOR, LLCOOOR, OOOOOOOR ...}, cuja probabilidade total é 1/64 + 1/128 + 1/256 ... = 1/32. E uma pessoa que joga uma moeda exatamente seis vezes recebe um dos resultados da classe {RRRRRR, LLCOOR, LLCORO, OOOOORR ...}, na qual existem 64 elementos. Para os fins de nosso experimento, LLCOOOR é equivalente a LLCORO, LLCOROO e similares. Então, sim, tudo isso é bastante contra-intuitivo. Se realmente realizássemos o primeiro experimento, o LLCOOR seria um resultado significativo, o que é improvável com uma moeda honesta. E se realizássemos o segundo experimento, o LLCOOR não seria significativo, porque mesmo com uma moeda honesta
algo semelhante acontece de tempos em tempos.
Bayesovets: Você se incomoda com o fato de que os resultados do experimento dependem do que você pensa?
Cientista: Isso é uma questão de consciência. Qualquer tipo de pesquisa custará pouco se você mentir sobre os resultados, ou seja, literalmente contar uma mentira sobre de que lado a moeda caiu. Se você mentir sobre
que tipo de experimento foi realizado - o efeito será o mesmo. Então você só precisa aceitá-lo e dizer honestamente exatamente por quais regras os lances foram feitos. Obviamente, o conteúdo da cabeça do cientista é menos óbvio do que de que lado a moeda está. Portanto, sempre é possível ajustar os parâmetros de análise, não escrever como foi determinado o número de sujeitos, escolher o teste estatístico que confirma sua hipótese favorita ... Há muitas coisas em que você pode pensar, se desejar. E será mais fácil do que falsificar os dados de origem. Em inglês, isso é chamado de p-hacking. E, na prática, é claro, métodos muito menos óbvios são usados para criar fumaça sem fogo do que a hipótese nula estúpida inventada após o fato. Esse é um problema sério e, em certa medida, a crise de reprodutibilidade está associada a ele, embora não esteja claro qual.
Aluno: Isso ... parece razoável? Talvez essa seja uma daquelas coisas com as quais você precise lidar por um longo tempo e classificar vários exemplos, e então tudo fique claro?
Bayesovets: Nenhum.
Aluno: quero dizer?
Bayesovets: No sentido de "Aluno, você estava certo desde o início". Se o que o experimentador
pensa não afeta de nenhuma maneira de que lado a moeda cai, então seus pensamentos não devem afetar o fato de que os resultados do arremesso nos dizem sobre o universo. Meu caro aluno, as estatísticas ensinadas a você não passam de um monte de muletas tortas que você nem se deu ao trabalho de tornar internamente consistente. Pelo amor de Deus, ela fornece resultados incorretos
diferentes, dependendo do que está acontecendo na sua cabeça! E esse é um problema muito mais sério do que a tendência de alguns cientistas de trapacearem levemente em "Materiais e métodos".
Cientista: Esta é ... uma afirmação séria, para dizer o mínimo. Mas diga-me, pergunto: o que devemos, infelizmente, fazer?
Bayesovets: Analise da seguinte maneira: esse resultado LLCOOR específico pode ser obtido com seis arremessos de uma moeda perfeitamente equilibrada com probabilidade de 1/64, ou cerca de 1,6%. Suponha que já suspeitássemos que nossa moeda estava imperfeitamente equilibrada. E não apenas imperfeitamente, mas de tal forma que cai como uma águia em média cinco em seis vezes. É claro que isso é uma simplificação selvagem, mas passarei a hipóteses realistas um pouco mais tarde. Portanto, essa hipotética trapaça dá à sequência LLCOOR uma probabilidade de (5/6)
5 * (1/6)
1 . Isso é aproximadamente 6,7%. Portanto, temos duas hipóteses: "A moeda é a mais comum" e "A moeda é derrubada pela águia em 5/6 casos". Esse resultado específico no segundo caso
é 4,3 vezes mais provável do que no primeiro. A probabilidade da sequência LLCOOR para outra moeda hipotética de trapaça, que em 5 casos em seis é coroa, é de 0,01%. Então, se alguém de repente pensou que esta é a segunda moeda à nossa frente, então agora temos um bom argumento
contra sua hipótese. Esse resultado em particular é 146 vezes mais provável para uma moeda justa do que para uma moeda que é jogada pela águia apenas uma vez em seis. Da mesma forma, nossos hipotéticos amantes de biscoitos vermelhos teriam muito menos probabilidade de comer verde.
Aluno: Ok, pareço entender matemática. Mas, honestamente, não entendo qual é o significado.
Bayesovets: Agora vou explicar, mas primeiro, preste atenção nisso: os resultados dos meus cálculos não dependem do
motivo pelo qual a moeda foi lançada exatamente seis vezes. Talvez após o sexto lançamento você tenha decidido que os dados já são suficientes. Talvez depois de uma série de cinco arremessos,
Namagiri Tayyar apareceu para você em um sonho e o aconselhou a jogar uma moeda novamente. Moeda não se importa. O fato permanece: essa série LLCOOR em particular é quatro vezes menos provável para uma moeda honesta do que para uma moeda que é derrubada por uma águia cinco vezes em seis.
Cientista: Eu concordo que pelo menos uma característica útil dos seus cálculos é. O que vem a seguir?
Bayesovets: E então você publica os resultados em uma revista. É desejável junto com dados brutos, porque qualquer um pode calcular a probabilidade de qualquer hipótese. Suponha que alguém inesperadamente tenha se interessado pela hipótese "Uma moeda cai 9 vezes em uma águia em 10 vezes, e não 5 em 6". Nesse caso, uma série de observações do LLCOOR tem uma probabilidade de 5,9%, o que é um pouco menos do que a nossa hipótese sobre cinco águias de seis arremessos (6). , 7%), mas 3,7 vezes a hipótese de que a moeda esteja perfeitamente equilibrada (1,6%). É impossível, e não necessário, apresentar todas as hipóteses possíveis com antecedência. Basta publicar dados completos - então qualquer pessoa com uma hipótese pode calcular facilmente a probabilidade de que precisa. O paradigma bayesiano exige a publicação de dados brutos, porque o foco principal está em um
resultado específico , e não em alguma classe de resultados supostamente idênticos.
Cientista: Nisto concordo com você, a publicação de conjuntos de dados completos é um dos passos mais importantes para superar a crise da reprodutibilidade. Mas, pessoalmente, não entendo o que devo
fazer com todos esses "A é muito mais provável que B".
Aluno: Eu também.
Homem bayesiano: Isso não é inteiramente trivial ... você leu nossa
introdução ao governo de Bayes ?
Aluno: Ótimo. Esse é apenas o próximo livro de estatística de trezentas páginas e eu não tinha o suficiente.
Bayesovets: Você pode
lê- lo
em uma hora . É que tudo isso literalmente
não é trivial , ou seja, requer explicação. Mas tudo bem, por falta de uma introdução completa, tentarei propor alguma coisa. Muito provavelmente, isso parecerá razoável - e a lógica está
realmente correta - mas não é um fato, que é evidente por si mesmo. Vamos lá Existe um teorema que comprova a correção do seguinte raciocínio:
(Bayesiano está ganhando ar)Bayesovets: suponha que os professores Plume e Miss Scarlet sejam suspeitos de assassinato. Tendo estudado as biografias de ambos, presumimos que seria duas vezes mais fácil para um professor matar um homem do que Miss Scarlet. Vamos começar com essa suposição. Acontece, no entanto, que o falecido foi envenenado. Sabemos que se o professor Plume está prestes a matar alguém, ele usa veneno com uma probabilidade de 10% (e em 9 casos em 10 ele prefere, por exemplo, um revólver). Scarlet, se ela decide matar, usa veneno com uma probabilidade de 60%. Em outras palavras, o uso de veneno por um professor
é seis vezes menos provável que o uso do veneno de Miss Scarlet. Como temos novas informações, ou seja, o método de assassinato, precisamos atualizar nossa suposição e assumir que Plume tem uma probabilidade três vezes menos provável de ser um assassino: 2 * 1/6 = 1/3.
Aluno: Não tenho certeza se entendi. O que significa a frase "Professor Plume é três vezes menos provável que um assassino do que Miss Scarlet"?
Bayesovets: significa que, se não tivermos outros suspeitos, a probabilidade de que Plume tenha matado a vítima é de 1/4. Os restantes 3/4 são a probabilidade de o assassino ser a senhorita Scarlet. Portanto, a culpa do professor é três vezes menor que a da senhorita Scarlet.
Cientista: E agora eu quero saber o que você quer dizer com "probabilidade de culpa". Plume cometeu o assassinato ou ele não o cometeu. Não podemos olhar para uma amostra dos assassinatos e descobrir que Plume é realmente responsável por um quarto deles.
Bayesovets: Eu esperava não entrar nisso, mas tudo bem. Meu bom cientista, quero dizer que se você me ofereceu uma aposta com 1: 1 sobre se Plume matou a vítima ou não, então eu apostaria que ele não o fez. Mas se, nos termos da aposta, eu lhe pagar US $ 1 no caso de sua inocência, e você me pagar US $ 5 no caso de sua culpa, eu ficaria feliz em colocar a culpa. A eleição presidencial de 2012 foi realizada apenas uma vez e a Chance de Vitória de Obama é tão conceitualmente desarticulada quanto a Chance de culpa de Plume. Mas se, no dia 7 de novembro, você fosse convidado a apostar US $ 10 em Obama e prometer US $ 1000 se ele vencesse, dificilmente você recusaria tal aposta. Em geral, quando os mercados de previsões e grandes pools de apostas líquidas fazem apostas em 6: 4 para algum evento, esse evento ocorre em cerca de 60% dos casos. Mercados e pools estão
bem calibrados para probabilidades nessa faixa. Se eles foram mal calibrados, ou seja, se os eventos que aceitam apostas em 6: 4 ocorrerem em 80% dos casos, alguém pode notar isso e enriquecer às custas de tais apostas. Ao mesmo tempo, ele aumentaria o preço da taxa até que o mercado estivesse bem calibrado. E como os eventos com uma estimativa de probabilidade de mercado de 70% realmente acontecem cerca de 7 vezes em 10, não entendo por que insistir em que essa probabilidade não faz sentido.
Aluno: Admito,
parece convincente. Mas com certeza isso me parece, e de fato há um monte de argumentos astutos a favor e contra.
Bayesovets: Na verdade, existem muitos argumentos, mas a conclusão geral é que sua intuição está bem próxima da verdade.
Cientista: Ok, vamos voltar a isso. Mas e se houver dois agentes, ambos em seus termos “bem calibrados”, mas um deles diz “60%” e o outro “70%”?
Bayesovets: Digamos que eu jogue uma moeda e não olhe de que lado ela caiu. Nesse caso, minha ignorância não é uma informação sobre uma moeda, é uma informação sobre mim. Existe na cabeça, e não no mundo circundante, assim como manchas brancas no mapa não significam que não haja território neste local. Se você olhou para uma moeda, mas eu não, é bastante razoável que você e eu estamos em diferentes estados de incerteza sobre ela. Dado que não tenho cem por cento de certeza, faz sentido expressar minha insegurança em termos de probabilidade. Existem
cerca de trezentos teoremas que afirmam que, se a expressão de incerteza de alguém
não é de fato uma distribuição de probabilidade, então, em geral, ele precisa disso. Por alguma razão, sempre acontece que, se o pensamento de um agente em condições de incerteza violar qualquer um dos axiomas padrão da teoria das probabilidades, a Terra se abrirá, a água se transformará em sangue e as estratégias dominantes e, obviamente, as apostas perdedoras sairão do céu.
Cientista: Ok, aqui eu estava errado. Também voltaremos a isso, mas antes de tudo, responda à minha pergunta: o que devemos fazer com credibilidade depois de recebê-los?
Bayesovets: De acordo com as leis da teoria das probabilidades, essas plausibilidades
são evidências.
São eles que nos fazem mudar nossas probabilidades a priori de 2: 1 em favor de Plume para 3: 1 em favor de Scarlet. Se eu tenho duas hipóteses e a probabilidade de dados para ambas, devo mudar de idéia conforme descrito acima. Se eu mudar de alguma maneira diferente, então o céu se abre, as estratégias se derramam e assim por diante. Teorema de Bayes: essa não é apenas uma técnica estatística, é a LEI.Aluno: Desculpe, mas ainda não entendo. Suponha que estamos realizando um experimento. E, digamos, os resultados obtidos são seis vezes mais prováveis se a professora Plume a matasse Herr Troupe do que teriam sido se ela tivesse sido a assassina da senhorita Scarlet . Prender-nos professor ou não?Cientista: Suponho que, para começar, você precisa apresentar uma probabilidade a priori mais ou menos realista, por exemplo, " a priori, acredito que a probabilidade de matar a Troupe Plume é de 20%". Em seguida, ele deve ser multiplicado pela razão de verossimilhança de 6: 1, e obter a razão de probabilidades posteriores de 3: 2, que por sua vez matou a trupe. Em seguida, pode-se afirmar que Plume é culpado com uma probabilidade de 60%, e o escritório do promotor deve entender.Bayesovets: Nenhum . Pelo amor de Deus! Você realmente acha que as estatísticas bayesianas funcionam assim?Cientista:Isso funciona errado? Eu sempre acreditei que sua principal vantagem é que ela nos fornece probabilidades posteriores, que os valores P realmente não dão, e a principal desvantagem é que probabilidades a priori são necessárias para isso. Como eles precisam ser retirados mais ou menos do teto, a correção das probabilidades posteriores pode ser contestada até o final dos tempos.Bayesovets: os artigos precisam publicar credibilidade . Mais precisamente, precisamos publicar dados brutos e calcular para eles algumas plausibilidades que nos interessam. Mas certamente não probabilidades a posteriori.Aluno: Estou confuso novamente. Quais são as probabilidades posteriores?Bayesovets: Probabilidade posterior- Esta é uma declaração do tipo "Professor Plume morto com 60% de probabilidade, Herr Troupe". Como meu colega já observou, essas afirmações não seguem os valores-P. E, na minha opinião, eles não têm lugar em artigos experimentais, porque esses não são os resultados de um experimento .Aluno: Mas ... tudo bem, cientista, uma pergunta para você: digamos que obtivemos resultados com p <0,01, ou seja, algo com uma probabilidade inferior a 1% com a hipótese nula "O professor Plume não matou Herr Troupe". Devemos prendê-lo ou não?Cientista:Em primeiro lugar, essa não é uma hipótese nula realista. Muito provavelmente, a hipótese nula seria algo como "Ninguém matou Herr Troupe" ou "todos os suspeitos são igualmente culpados". Mas mesmo que a hipótese nula descrita por você funcionasse, mesmo que pudéssemos rejeitar a inocência de Plume com p <0,01, ainda não seria possível dizer que Plume era culpado com uma probabilidade de 99%. Valores-p não nos dizem isso.Estudante: E que eles, em seguida, relatar?Cientista: Eles relatam que os dados observados fazem parte de uma classe de resultados possíveis e que os resultados dessa classe são observados em menos de 1% dos casos, se a hipótese nula for verdadeira. Mais valor P não significa nada. Não é possível pegar e ir de p <0,01 para "Professor Plume é culpado com uma probabilidade de 99%". Bayesiano, provavelmente, melhor do que eu, será capaz de explicar o porquê. Em geral, na ciência é impossível interpretar uma coisa como outra. Os números indicam exatamente o que eles significam, nem mais nem menos.Aluno: Geralmente excelente. A princípio, não entendi o que fazer com plausibilidade e agora ainda não entendo o que fazer com valores-P. Que experimento é necessário para finalmente enviar Plume à prisão?Cientista: Na prática? Se mais algumas experiências em outros laboratórios confirmarem sua culpa com p <0,01, provavelmente ele é realmente culpado.Bayesovets:E a "crise de reprodutibilidade" é quando o caso é levantado mais tarde e acontece que ele não cometeu o assassinato.Cientista: Bem, sim.Aluno: De alguma forma, acaba desagradável.Cientista: A vida é geralmente uma coisa desagradável.Aluno: Então ... Bayesovets, você provavelmente tem uma resposta semelhante? Algo como o fato de que, se a razão de verossimilhança for grande o suficiente, digamos, 100: 1, na prática a hipótese correspondente poderá ser considerada verdadeira?Bayesovets:Sim, mas é um pouco mais complicado. Suponha que eu jogue uma moeda 20 vezes e receba OOOOOROOORORORROOROOOROOOROR. O problema é que a probabilidade da hipótese "Moeda é garantida para dar a sequência LLCOROOORORROOOOOOOROROR" é maior que a probabilidade da hipótese "Moeda é igualmente provável por uma águia ou coroa" cerca de um milhão de vezes. Na prática, se você não me entregou esta hipótese em um envelope lacrado antes do início do experimento, considerarei altamente reciclado. Terei que atribuir a essa hipótese uma penalidade pela complexidade de pelo menos 2 20 : 1, porque a descrição da sequência leva apenas 20 bits. Em outras palavras, reduza tanto a probabilidade a priori que mais do que compensa a vantagem da probabilidade. E essa não é a única armadilha. Mas mesmo assim, se você entender como e por que a regra de Bayes funciona, em cada caso específico, você poderá entender ao longo do caminho. Se a razão de plausibilidade para Plume é contra qualquer outro suspeito 1000: 1, e existem apenas seis suspeitos, pode-se supor que a probabilidade a priori dificilmente seria muito superior a 10: 1 contra o fato de ele ser um assassino. Nesse caso, podemos assumir que ele é culpado com uma probabilidade de 99%.Cientista: Mas, no entanto, não vale a pena escrever no artigo ?Bayesovets: Isso mesmo. Como formular ... A principal condição da análise bayesiana é que todosinformação relevante. Você não pode excluir dados da análise apenas porque não gosta. Na verdade, essa é uma condição essencial da ciência, independentemente das estatísticas utilizadas. Há vários artigos cujas conclusões foram obtidas apenas porque algum fator não foi levado em consideração ou a amostra não foi representativa em algum parâmetro. Do que estou falando? E ao fato de que como eu (como experimentador) sei o que são “todas as informações relevantes”? Quem sou eu para calcular probabilidades posteriores? Talvez alguém tenha publicado um artigo no qual haja dados adicionais e credibilidade adicional que eu deva considerar, mas ainda não o li. Então, acabei de publicar meus dados e minhas funções de probabilidade - e é isso! Não posso afirmar que considerou tudoargumentos e agora posso oferecer probabilidades posteriores confiáveis. E mesmo que eu pudesse, outro artigo poderá sair em uma semana, e essas probabilidades se tornarão obsoletas.Aluno: Grosso modo, o pesquisador deve apenas publicar seus dados, calcular para eles algumas probabilidades e tudo? E só então alguém decidirá o que fazer com eles?Bayesovets: alguém terá que escolher probabilidades a priori - iguais, ou com entropia máxima, ou com penalidades por complexidade, ou qualquer outra coisa - e depois tentar coletar todos os dados possíveis, calcular a probabilidade, garantir que o resultado não seja doido e outros e outro. E eles ainda precisam ser contados se um novo artigo for lançado em uma semana.Estudante:Parece bastante demorado .Bayesovets: Seria muito pior se realizássemos uma meta-análise de valores-P. Atualizar probabilidades bayesianas é muito mais fácil. Basta simplesmente multiplicar as antigas probabilidades posteriores pelas novas funções de probabilidade e normalizar. Só isso. Se o experimento 1 fornecer uma razão de verossimilhança de 4: 1 para as hipóteses A e B, e o experimento 2 fornecer uma razão de verossimilhança de 9: 1, então juntos eles fornecerão uma razão de 36: 1. Isso é tudo.
Aluno: Você não pode fazer isso com valores-P? Um experimento com p = 0,05 e outro experimento com p = 0,01 não significa que, de fato, p <0,0005?Cientista: Nenhum .Bayesovets: Caros espectadores, prestem atenção ao meu sorriso arrogante.Cientista: Mas ainda estou preocupado com a necessidade de apresentar probabilidades a priori.Bayesovets: E por que isso o incomoda mais do que o fato de que todos decidiram considerar um experimento e duas repetições com p <0,01 como critério da verdade?Cientista: Você quer dizer que a escolha de valores a priori não é mais subjetiva do que a interpretação dos valores-P? Hum.
Eu queria afirmar que um requisito de, digamos, p <0,001 deve garantir objetividade. Mas você responderá que o número 0,001 (em vez de 0,1 ou 1e-10) também é sugado do dedo.Bayesovets: E acrescento a isso que é menos eficiente exigir qualquer valor P arbitrário do que sugar uma probabilidade a priori do mesmo dedo. Um dos primeiros teoremas que ameaçavam violadores dos axiomas da probabilidade com punições egípcias foi provado por Abraham Wald em 1947. Ele tentou descrever todas as estratégias aceitáveis , chamando a estratégia de uma maneira de reagir ao que você está observando. Obviamente, estratégias diferentes sob circunstâncias diferentes podem ser mais ou menos lucrativas. Estratégia Aceitávelele chamou um que não é dominado por outra estratégia sob todas as condições possíveis. Portanto, Wald descobriu que a classe de estratégias aceitáveis coincide com a classe de estratégias que contêm uma distribuição de probabilidade, atualiza-a com base nas observações da regra bayesiana e otimiza a função de utilidade.Aluno: Desculpe, posso falar russo?Bayesovets: se você faz algo relacionado ao que está observando e recebe mais ou menos, por exemplo, dinheiro, dependendo do que é o mundo real, então um dos dois é verdadeiro. A sua estratégia, em certo sentido, contém uma distribuição de probabilidade e a atualiza de acordo com a regra bayesiana, ouexiste alguma outra estratégia que nunca cede à sua e às vezes a supera. Ou seja, você, por exemplo, diz: “Não vou parar de fumar até ver um artigo comprovando a conexão entre tabagismo e câncer em p <0,0001”. Pelo menos teoricamente, há uma maneira de dizer: “Na minha opinião, a ligação entre tabagismo e câncer existe com uma probabilidade de 0,01%. Quais são as suas plausibilidades? ”, Que não serão piores que a primeira formulação, independentemente das probabilidades a priori da existência de tal conexão.Cientista: Sério?Bayesovets:Sim A revolução bayesiana começou com esse teorema; desde então, vem ganhando força lentamente. Vale a pena notar que Wald provou seu teorema algumas décadas após a invenção dos valores-P. Na minha opinião, isso explica como toda a ciência moderna acabou ligada a estatísticas obviamente ineficientes.Cientista: Então, você propõe jogar fora os valores P e publicar apenas relações de probabilidade?Bayesovets: Em resumo, sim.Cientista: algo que eu realmente não acredito em soluções ideais, adequadas a qualquer condição. Eu suspeito - por favor, não considere isso um insulto - que você é um idealista. Na minha experiência, em diferentes situações, são necessárias ferramentas diferentes e não seria razoável descartar tudo, exceto um.Bayesovets:Bem, estou pronto para explicar o que sou idealista e o que não. Somente as funções de probabilidade não resolverão a crise da reprodutibilidade. Ele não pode ser completamente resolvido, basta ordenar que todos usem estatísticas mais eficazes. A popularidade das revistas de acesso aberto não depende da escolha entre probabilidade e valores-P. Os problemas com o sistema de revisão também são independentes.Cientista: E tudo o mais, então depende?Bayesovets: Nem tudo, mas eles têm muito o que a ajuda . Vamos contar.Bayesovets:Primeiro de tudo. As funções de probabilidade não forçam uma distinção a ser feita entre resultados “estatisticamente significativos” e “insignificantes”. Um experimento não pode ter um resultado "positivo" ou "negativo". O que é chamado de hipótese nula agora é apenas uma das hipóteses, não diferente em princípio de todas as outras. Se você jogar uma moeda e receber OORORRROOO - não poderá dizer que o experimento não pode "rejeitar a hipótese nula em p <0,05" ou "reproduzir o resultado obtido anteriormente". Ele acabou de adicionar dados que apóiam a hipótese da moeda honesta contra a hipótese das “5/6 águias”, com uma razão de verossimilhança de 3,78: 1. Portanto, com a adoção maciça das estatísticas bayesianas, é menos provável que os resultados de tais experimentos sejam enviados à mesa. Nem sempreporque os editores das revistas ainda estão mais interessados em moedas honestas, e você precisa lidar com isso diretamente. Mas os valores P não estão apenas lutando com essa abordagem, eles são seusestimular ! É por causa dele que o p-hacking geralmente existe. Portanto, a transição para a credibilidade não trará felicidade a todos e por nada, mas definitivamente ajudará .Bayesovets: Em segundo lugar. O sistema de probabilidade enfatiza muito mais a importância dos dados de origem e estimulará sua publicação sempre que possível, porque a análise bayesiana baseia-se na probabilidade desses resultados específicos em um determinado modelo. O sistema de valor-P, pelo contrário, leva o pesquisador a considerar os dados como apenas um dos membros da classe de resultados "igualmente extremos". Alguns cientistas gostam de manter todos os seus dados preciosos com eles; Não se trata apenas de estatísticas. Mas os valores de P estimulame isso porque os dados em si não são importantes para o artigo, mas se pertencem a uma classe específica. Uma vez que isso é estabelecido, todas as informações contidas nelas parecem colapsar em um único pedaço de "significado" ou "insignificância".Bayesovets: Terceiro. Do ponto de vista da teoria das probabilidades, do ponto de vista bayesiano, diferentes tamanhos de efeitos são diferentes hipóteses. Isso é lógico, porque funções de probabilidade diferentes e, consequentemente, probabilidades diferentes dos dados observados correspondem a elas. Se um experimento encontrou um valor de efeito de 0,4 e outro experimento encontrou um valor "estatisticamente significativo" do mesmo efeito de 0,1, o experimento não se reproduziue não sabemos o que realmente existe. Isso permitirá evitar uma situação bastante comum quando a magnitude do efeito "estatisticamente significativo" diminui e diminui com o aumento do tamanho da amostra.Bayesovets: Quarto. As funções de probabilidade simplificam bastante a agregação e a metanálise de dados. Eles podem até nos ajudar a perceber que os dados são coletados em condições heterogêneas ou que não estamos considerando a hipótese verdadeira. Nesse caso, todas as funções estarão próximas de zero para todos os parâmetros possíveis ou a melhor hipótese fornecerá muito menos probabilidade nos dados combinados do que ela própria prevê . Uma abordagem mais rigorosa da reprodutibilidade nos permitirá entender rapidamente se tal experimento pode ser considerado uma repetição de tal e tal.Bayesovets: Quinta. As funções de probabilidade não dependem do que pensam delas. Estas são declarações objetivas sobre dados. Se você publicar os valores de probabilidade, existe apenas uma maneira de enganar o leitor - falsificar os próprios dados. P-hacking não funcionará.Cientista: É neste, eu só altamente duvido. Suponha que eu decida convencê-lo de que uma moeda é mais frequentemente deixada cair por uma águia, embora na verdade seja honesta. Vou pegar uma moeda, vou jogá-la até que por acaso eu ganhe um pouco mais de águias e depois paro. O que então?
Bayesovets: Vá em frente. Se você não falsificar os dados, não me enganará.Cientista: A pergunta era sobre o que acontecerá se eu verificar a taxa de probabilidade após cada lançamento e parar assim que ela apoiar minha teoria favorita.Bayesovets: Como idealista, seduzido pela beleza enganosa da teoria das probabilidades, respondo: enquanto você me fornece dados brutos honestos, posso e devo fazer apenas uma coisa - multiplicar de acordo com a regra bayesiana.Cientista: Sério?Bayesovets: Sério.Cientista: Então você não se importa que eu possa verificar a taxa de probabilidade até eu gostar?Bayesovets: Vá em frente.Cientista: . ,
, , 300 , , 20:1 « 55% »… ?
: . , - , .
, - . , 20:1 «55% » 1.4% . , , 30:1 50:1, .
Cientista: se você considerar o seu valor de P por cento e meio, então parece bom. Mas essa é uma maneira muito rude de enganar a análise; talvez haja mais complexo e eficiente?Bayesovets: Eu tinha ... cerca de cinco anos, provavelmente, se não menos, quando aprendi sobre adição. Uma das minhas primeiras lembranças. Sentei-me, acrescentei 3 a 5 e continuei tentando encontrar uma maneira de não obter 8. O que, é claro, é um passo muito bom e geralmente importante para entender o que é adição (e a matemática em geral). Mas agora é exatamente isso que é fofo, porque somos adultos e entendemos que 5 mais 3 é inevitavelmente igual a 8. Um script que verifica constantemente a taxa de probabilidade faz a mesma coisa que fiz na infância. Compreendendo a teoria, percebi que tentar enganar a regra de Bayes é óbviocondenado. É como tentar decompor 3 de alguma maneira complicada em 2 e 1 e adicioná-los individualmente a 5, ou tentar adicionar primeiro 1 e somente depois 2. 2. Nem o caminho nem o de 7 ou 9 funcionarão. O resultado da adição é um teorema , e não importa qual sequência de operações executamos. Se é realmente equivalente a adicionar 3 a 5, então a saída não pode ser outra coisa que 8. Teoremas da teoria das probabilidades também são teoremas. Se o script pudesse realmente funcionar, isso significaria uma contradição na teoria das probabilidades e, portanto, uma contradição na aritmética Peano, na qual a análise de probabilidade usando números racionais se baseia. O que você e eu tentamos fazer é exatamentetão difícil quanto somar 3 e 5 em axiomatics aritméticos padrão e obter 7.Aluno: E, por que?Cientista: Eu também não entendo.Bayesovets: Let e denota a observação, H significa a hipótese, X! Representa "Não X», P ( H ) denota a probabilidade da hipótese, e P ( X | o Y ) denota a probabilidade condicional de X assumindo que o verdadeiro Y. Há um teorema que mostra queP (H) = P ( H | e ) * P ( e )) + (P ( H |! e ) * P ( ! e )Portanto, para funções de probabilidade, não háum análogo arbitrariamente complexo de hackers p, sem incluir falsificação de dados, porque nenhum procedimento conhecido pelo agente bayesiano o forçará a atualizar suas probabilidades a priori em uma direção deliberadamente incorreta. Para cada mudança que podemos obter de assistir um e , há uma variação inversa que pode ser esperado a partir da observação ! Um e .Aluno: O que?Cientista: Eu também não entendo.Bayesovets: Ok, vamos adiar a matemática por enquanto e ver ... sim, a crise da reprodutibilidade. O cientista disse que desconfia das soluções universais ideais. Mas, na minha opinião, a transição para as funções de verossimilhança realmente deveriaresolver muitos problemas de uma só vez. Suponha ... eu vou pensar nisso agora. Suponha que uma empresa tenha grandes problemas com a contabilidade. Esses problemas estão relacionados ao fato de que toda contabilidade usa números de ponto flutuante; e isso seria metade do problema, mas três implementações diferentes são usadas (cerca de um terço da corporação cada), de modo que Deus sabe o quê. Alguém, por exemplo, recebe 1,0, adiciona 0,0001 mil vezes, subtrai 0,1 e obtém 0,999999999999989. Então ele vai para outro andar, repete os cálculos em seus computadores e obtém 1,00000000000000004. E todo mundo pensa que é assim. E o erro, suponhamos, é MUITO ENORME, todas as três realizações são o resultado de uma união não natural de pinturas rupestres e algarismos romanos. Portanto, devido às diferenças entre eles, você pode obter diferenças bastante tangíveis nos resultados. Clarotodos selecionam as vendas para que tenham relatórios trimestrais. Portanto, é considerado um bom resultado se o orçamento do departamento não se contradizer, pelo menos para si próprio, e o departamento de preparação cognitiva, provavelmente, faliu há 20 anos. E aqui vou eu, toda de branco, e digo: “Boa tarde. Mas e se, em vez de suas três realizações, você usar essa coisa legal que não pode ser manipulada dessa maneira e que resolverá metade dos seus problemas. ”que não podem ser manipulados dessa maneira e que resolverão metade dos seus problemas. "que não podem ser manipulados dessa maneira e que resolverão metade dos seus problemas. "( Bayesovets , na voz do cientista ) : "Desconfio de tais soluções universais", responde o contador-chefe. - Não considere isso um insulto, mas você, velho, é um idealista. Na minha experiência, diferentes notações de ponto flutuante são adequadas para operações diferentes; portanto, você não deve jogar fora imediatamente todas as ferramentas, exceto uma. "Bayesovets: Ao que eu respondo: “Talvez isso pareça ousado demais, mas eu vou lhe mostrar o perfeitorepresentação de frações, na qual os resultados não dependem da ordem em que você adiciona números ou do computador em que os cálculos ocorrem. Talvez em 1920, quando seu sistema estivesse sendo criado, isso exigisse muita memória. Mas agora não é o ano de 1920, você pode não economizar recursos de computação. Especialmente porque você tem lá, 30 milhões de contas bancárias? Isso é realmente um absurdo. Sim, minha opinião tem suas desvantagens. Por exemplo, raízes quadradas são consideradas muito mais difíceis. Mas quantas vezes, para ser honesto, você precisa tomar a raiz quadrada do salário de outra pessoa? Para a maioria das tarefas do mundo real, esse sistema não é inferior ao seu e, além disso, não pode ser enganado sem falsificar os valores de entrada. ” Após o que eu explico para elescomo representar um número inteiro de comprimento arbitrário na memória e como representar um número racional como uma razão de dois números inteiros. Ou seja, o que chamaríamos agora de maneira evidente de representarnúmeros racionais reais na memória do computador. O único e único sistema de teoremas sobre números racionais para os quais os números de ponto flutuante são apenas uma aproximação. E se você lidar com os infelizes 30 milhões de contas; se, na prática, suas aproximações não coincidem umas com as outras, nem com você mesmo; se eles também permitem que todos roubem seu dinheiro; se, finalmente, não for 1920, e você puder comprar computadores normais, a necessidade de transferir a contabilidade para números racionais reais é bastante óbvia. Do mesmo modo, a regra de Bayes e suas conseqüências são o único sistema de teoremas de probabilidade baseado em axiomas e estritamente provado. E, portanto, o p-hacking não funciona nele.Cientista: Isso é ... ousado. Mesmo se tudo o que você diz é verdade, ainda existem dificuldades práticas. As estatísticas que usamos agora estão tomando forma há mais de uma década; ela provou o seu valor. Como seu brilhante caminho bayesiano se mostrou em prática?Bayesovets: Nas ciências naturais, quase nunca foi usado. No aprendizado de máquina, onde, como é mais modesto dizer, é bastante fácil perceber que o modelo está incorreto - porque a IA baseada nele não funciona - e, portanto, no aprendizado de máquina, vi pela última vez uma abordagem de frequência à probabilidade há cerca de dez anos. E não me lembro de um únicotrabalho em que a IA consideraria o valor P de alguma hipótese. Se a probabilidade, pelo menos de alguma forma, aparece no estudo, então é quase certamente bayesiana. Se algo é classificado de acordo com códigos unitários, a entropia cruzada é minimizada, e não ... nem sei o que poderia ser um análogo dos valores de P na IA. Atrevo-me a sugerir que esse é o ponto. As estatísticas no aprendizado de máquina funcionam ou não, e é imediatamente óbvio: a IA faz o que deveria ou falha. E nas ciências naturais, todo mundo precisa de publicações antes de tudo. Como aconteceu que é habitual indicar valores de P nos artigos, mas não punir por resultados irreparáveis, temos o que temos.Cientista:Ou seja, você é mais um matemático ou programador do que um naturalista-experimentador? Por alguma razão, isso não me surpreende. Não tenho dúvidas de que possa existir um aparato estatístico mais bem-sucedido, mas a experiência de usar valores-P também vale alguma coisa. Sim, agora eles são muitas vezes distorcidos de uma maneira ou de outra, mas sabemos como fazê-lo e começamos a entender como lidar com isso. Armadilhas de poço são pelo menos conhecidas. Em qualquer novo sistema, eles também estarão. Mas onde exatamente - só ficará claro depois de décadas. Talvez eles sejam ainda mais perigosos do que os atuais.Bayesovets:Sim, os contadores ladrões provavelmente criarão novas e emocionantes manipulações com números racionais. Especialmente nos casos em que as operações exatas ainda se mostram muito caras em termos de computação e precisam ser aproximadas de alguma forma. Mas ainda acredito que, se a mesma psicologia experimental está sendo dilacerada por uma crise de reprodutibilidade e se essa crise está claramente associada ao uso de valores-P, que, francamente, nada mais são do que um monte de muletas conflitantes, então pelo menos tente usar mais método racional. Embora eu também não exija demolir e reconstruir tudo. Na prática, para iniciantes, você pode abandonar os valores-P em qualquer área (mesmo na psicologia) e ver o que acontece.Cientista:E como você vai convencer os psicólogos a fazer esse experimento?Bayesovets: Não faço ideia. Francamente, eu realmente não espero que alguém mude de verdade. Provavelmente, as pessoas simplesmente usarão valores P até o final dos tempos. Essas coisas. Mas há uma chance de que a idéia ainda seja popular. Fiquei agradavelmente surpreso com a rapidez com que o Open Access criou raízes. Fiquei agradavelmente surpreso que a crise de reprodutibilidade fosse geralmente percebida e, além disso, as pessoas se preocupam com isso. Talvez os valores-P ainda sejam puxados para o mercado e revertidos com uma grande multidão de pessoas ( aprox. Por: pelo menos um periódico psicológico em 2015 se recusou a testar hipóteses nulas) Nesse caso, ficarei agradavelmente surpreendido. Nesse caso, verifica-se que meu trabalho de popularização das regras e verossimilhança de Bayes não foi em vão.Cientista: Também pode acontecer que ninguém goste de probabilidade na ciência experimental , e todos considerem os valores de P convenientes e úteis.Bayesovets: Se o curso de estatística da universidade era tão monstruoso que, no próprio pensamento da teoria das probabilidades, eles tremiam - então sim, as mudanças terão que vir de fora. Pessoalmente, espero que nosso querido aluno leia uma breve e bastante fascinante introdução à teoria das probabilidades bayesiana., compara-o com seu impressionante livro de estatística e estará implorando pelos próximos seis meses: "Bem, por favor, posso apenas calcular a probabilidade e é tudo, por favor, permita-me".Aluno: Uh ... bem, eu li primeiro, ok?Bayesovets: Caro aluno, pense sobre sua escolha. Algumas mudanças na ciência ocorrem apenas porque os alunos crescem cercados por idéias diferentes e escolhem as certas. Este é um famoso aforismo de Max Planck, e Max Planck não dirá bobagem. Portanto, a capacidade da ciência de distinguir idéias ruins de boas depende inteiramente da inteligência dos alunos.Cientista: Bem, isso já é ...Moderador: E é aqui que concluímos nossa transferência. Obrigado pela atenção!