Credibilidad, valores P y la crisis de reproducibilidad

O: ¿Cómo ayuda la transición de publicar valores P a funciones de credibilidad de publicación para hacer frente a la crisis de reproducibilidad: la opinión personal de Eliezer Yudkovsky?

Si Monroe dibujó cómics sobre el 75% de los problemas interesantes que existen, y una cuarta parte de mis artículos son interesantes, entonces, ¿cuál es la probabilidad de que tarde o temprano tenga que buscar KDPV en otro lugar?

Comentario del traductor: Yudkovsky, autor de HPMOR , creador de Lesswrong y otros y otros, expresó su posición sobre los beneficios de las estadísticas bayesianas en las ciencias naturales en forma de diálogo. Un diálogo clásico tan directo desde la antigüedad o el Renacimiento, con personajes que expresan ideas, comparten barbas intercaladas con argumentos enredados e inevitablemente estúpido Simplizio. El diálogo es bastante largo, unos veinte minutos para leer, pero en mi opinión, vale la pena.

Renuncias
  • Este diálogo fue escrito por un defensor bayesiano . Las observaciones del científico en el diálogo a continuación pueden no pasar la prueba ideológica de Turing para el freventismo. Es posible que no rindan homenaje a los argumentos y contraargumentos de los partidarios del enfoque de frecuencia de la probabilidad.
  • El autor no espera que las propuestas descritas a continuación sean aceptadas por la amplia comunidad científica en los próximos diez años. Sin embargo, valió la pena escribir.

Si no está familiarizado con la regla bayesiana, el sitio web de Arbital tiene una introducción detallada .

Moderador: Buenas tardes. Hoy en nuestro estudio: científico , practicante en el campo de ... psicología química o algo así; su oponente Bayesovets , que tiene la intención de demostrar que la crisis de reproducibilidad en la ciencia, de alguna manera puede superarse reemplazando los valores P con algo de las estadísticas bayesianas ...
Estudiante: Lo siento, ¿cómo se deletrea?
Moderador: ... y, finalmente, el Estudiante Comprensivo a mi derecha.

Moderador: Bayesovets , ¿podría decirme cuál es la esencia de su propuesta?
Bayesovets: En términos generales, el punto es este. Supongamos que tenemos una moneda. Lo tiramos seis veces y observamos la serie "LLCOOR" (aprox. Per .: en adelante O - Oryol, R - Reshka) . ¿Deberíamos sospechar que algo está mal con la moneda?
Científico: ninguno.
Bayesovets: La moneda aquí es solo por ejemplo. Supongamos que ofrecemos a una muestra de voluntarios un plato con dos galletas: una con chispas verdes y otra con rojo. Las primeras cinco personas toman galletas verdes, y la sexta toma rojas. ¿Es cierto que las personas prefieren las galletas con chispas verdes, o es mejor considerar ese resultado al azar?
Estudiante: Probablemente, es posible sospechar que, tal vez, la gente prefiere la aspersión verde. Al menos, los estudiantes de psicología que tienden a ser voluntarios para experimentos extraños como el verde rocían más. Incluso después de seis observaciones, uno puede sospechar esto, aunque sospecho que hay algún tipo de captura.
Científico: Creo que esto no es sospechoso. Muchas hipótesis parecen prometedoras en N = 6, pero no se confirman en N = 60.
Bayesovets: Personalmente, sospecharía que nuestros voluntarios no prefieren el topping rojo , o al menos lo prefieren no demasiado. Pero, en general, se me ocurrieron estos ejemplos solo para mostrar cómo se consideran los valores P en las estadísticas científicas modernas y qué tiene de malo desde el punto de vista bayesiano.
Científico: ¿ Pero no se puede llegar a un ejemplo más realista con 30 voluntarios?
Bayesovets: Es posible, pero el Estudiante ya no entiende nada.
Estudiante: Eso es seguro.
Bayesovets: Entonces, queridos expertos: águila, águila, águila, águila, águila, colas. Atención, la pregunta es: ¿llamarán a este resultado "estadísticamente significativo" o no?
Científico: Maestro, esto no es significativo. Con la hipótesis nula de que la moneda es justa (o con la hipótesis nula similar de que el color de las chispas no afecta la elección de las cookies), se puede obtener el mismo resultado o más pronunciado en 14 de los 64 casos.
Estudiante: si . Entiendo correctamente: Esto se debe a que consideramos que los resultados de LLCOOO y RRORRR son "iguales o más pronunciados", hay un total de 14 y el número total de resultados posibles con 6 lanzamientos 2 6 = 64. 14/64 es 22%, que es superior al 5%, por lo que el resultado no se considera significativo a un nivel de p <0.05. Entonces?
Científico: Eso es correcto. También señalaría que en la práctica, incluso con el resultado de LLCOOO, no debe detener el experimento y escribir un artículo sobre el hecho de que una moneda siempre se cae por un águila.
Bayesovets: El hecho es que si puedes dejar de lanzar una moneda en cualquier momento, tienes que preguntarte: "¿Qué tan probable es que encuentre ese momento para detener el experimento en el que la cantidad de águilas se verá públicamente?" Y esta es una historia completamente diferente en el paradigma del valor P.
Científico: solo quise decir que solo seis experimentos, esto no es serio, incluso si estudiamos el color de las cookies. Pero sí, también tienes razón.
Estudiante: ¿Y por qué es importante que pueda dejar de tirar una moneda o no puedo?
Bayesovets: Qué pregunta tan maravillosa.
Científico: El hecho es que los valores P son algo complicado. No puede simplemente tomar los números, ponerlos en el programa y publicar lo que este programa entregará. Si decidió de antemano lanzar una moneda exactamente seis veces, y luego detenerse independientemente del resultado, el resultado de LLCOOO o RRRRRR se obtendrá en promedio 2 veces de 64, o en el 3.1% de los casos. Esto es significativo en p <0.05. Pero supongamos que en realidad eres un falsificador engañoso y sin escrúpulos. O simplemente un estudiante incompetente que él mismo no entiende lo que está haciendo. En lugar de preseleccionar el número de tiradas, lanza y lanza una moneda hasta obtener un resultado que parece estadísticamente significativo. Sería estadísticamente significativo si decidiera lanzar por adelantado una moneda exactamente la misma cantidad de veces. Pero, de hecho, no decidiste esto por adelantado. Decidió detenerse solo después de obtener los resultados. No puedes hacer esto.
Estudiante: Bien, leí sobre eso en alguna parte, pero no entendí lo que estaba mal aquí. Esta es mi investigación, y debería saber mejor si hay suficientes datos o no.
Científico: El objetivo de los valores P es crear una prueba que la hipótesis nula no pueda pasar. Para asegurarse, en otras palabras, que el humo sin fuego no es demasiado común. Para hacer esto, es necesario organizar la investigación de tal manera que no se generen descubrimientos "estadísticamente significativos" en ausencia del fenómeno deseado. Si lanza una moneda exactamente seis veces (y determina este número de antemano), entonces la probabilidad de obtener seis águilas o seis colas de una moneda justa es inferior al 5%. Si lanza una moneda tantas veces como desee , y después de cada lanzamiento cuente el valor P ( pretendiendo que el número de lanzamientos se conoció de antemano), tarde o temprano, la posibilidad de obtener menos de p <0.05 es mucho más del 5%. Por lo tanto, tal experimento detecta humo sin fuego con mucha más frecuencia que en 1 de cada 20 casos.
Bayesovets: Personalmente, me gusta formular este problema así: digamos que arrojas una moneda y obtienes OOOOOR. Si al mismo tiempo usted, en las profundidades de su corazón que solo Allah conoce (porque Allah es sabio, conocedor), ha decidido el número de lanzamientos por adelantado , entonces el resultado no es significativo; p = 0,22. Si, después de un ayuno de tres meses, hiciste un voto a San Francisco para que lanzara una moneda hasta que las colas se caigan , entonces el mismo resultado es estadísticamente significativo con bastante buena p = 0.03. Porque la posibilidad de que con probabilidades de colas 1: 1 tenga que esperar seis o más tiros, 1/32.
Estudiante: ¿Qué?
Científico: Es más como una parodia, por supuesto. En la práctica, nadie lanzará una moneda hasta que se haya dibujado una sola cola, y luego se detendrá. Pero en realidad Bayesovets tiene razón, los valores P funcionan así. Hablando estrictamente, estamos tratando de descubrir qué tan raro es el resultado entre los que podríamos obtener. Una persona que lanza una moneda antes de las primeras colas puede obtener los resultados {P, OR, OOR, LLC, OOOOR, LLCOOR ...} y así sucesivamente. La clase de resultados en los que se realizan seis o más disparos es {LLCOOOR, LLCOOOR, OOOOOOOR ...}, cuya probabilidad total es 1/64 + 1/128 + 1/256 ... = 1/32. Y una persona que lanza una moneda exactamente seis veces obtiene uno de los resultados de la clase {RRRRRR, LLCOOR, LLCORO, OOOOORR ...}, en la que hay 64 elementos. Para los fines de nuestro experimento, LLCOOOR es equivalente a LLCORO, LLCOROO y similares. Entonces sí, todo esto es bastante contra-intuitivo. Si realmente realizáramos el primer experimento, LLCOOR sería un resultado significativo, lo cual es poco probable con una moneda honesta. Y si tuviéramos que realizar el segundo experimento, LLCOOR no sería significativo, porque incluso con una moneda honesta sucede algo similar de vez en cuando.
Bayesovets: ¿Te molesta el hecho de que los resultados del experimento dependen de lo que piensas?
Científico: Esto es una cuestión de conciencia. Cualquier tipo de investigación costará poco si miente acerca de sus resultados, es decir, literalmente dice una mentira sobre qué lado cayó la moneda. Si mientes sobre qué tipo de experimento se llevó a cabo , el efecto será el mismo. Entonces solo necesitas tomarlo y decir honestamente exactamente por qué reglas se hicieron los lanzamientos. Por supuesto, el contenido de la cabeza del científico es menos obvio que de qué lado está la moneda. Por lo tanto, siempre es posible ajustar los parámetros de análisis, no escribir cómo se determinó el número de sujetos, elegir la prueba estadística que confirme su hipótesis favorita ... Puede pensar en muchas cosas si lo desea. Y será más fácil que falsificar los datos de origen. En inglés, esto se llama p-hacking. Y en la práctica, por supuesto, se utilizan métodos mucho menos obvios para crear humo sin fuego que la estúpida hipótesis nula inventada después del hecho. Este es un problema grave y, en cierta medida, la crisis de reproducibilidad está asociada a él, aunque no está claro cuál.
Estudiante: ¿ Esto ... suena razonable? ¿Quizás esta es una de esas cosas con las que necesita lidiar durante mucho tiempo y clasificar un montón de ejemplos, y luego todo queda claro?
Bayesovets: ninguno.
Estudiante: quiero decir?
Bayesovets: En el sentido de "Estudiante, tenías razón desde el principio". Si lo que piensa el experimentador no afecta de ninguna manera de qué lado cae la moneda, entonces sus pensamientos no deberían afectar el hecho de que los resultados del lanzamiento nos hablan sobre el universo. Mi querido estudiante, las estadísticas que te enseñaron no son más que un montón de muletas torcidas y complicadas que ni siquiera te has molestado en hacer que sean consistentes internamente. ¡Por el amor de Dios, ella da diferentes resultados incorrectos dependiendo de lo que esté sucediendo en tu cabeza! Y este es un problema mucho más serio que la tendencia de algunos científicos a hacer trampas en "Materiales y Métodos".
Científico: Esta es ... una declaración seria, por decir lo menos. Pero dime, te pregunto: ¿qué debemos hacer, desafortunadamente?
Bayesovets: Analice de la siguiente manera: este resultado particular de LLCOOR se puede obtener con seis tiros de una moneda perfectamente equilibrada con una probabilidad de 1/64, o aproximadamente 1.6%. Supongamos que ya sospechábamos que nuestra moneda estaba imperfectamente equilibrada. Y no solo de manera imperfecta, sino de tal manera que se cae como un águila en promedio cinco de seis veces. Esto, por supuesto, es una simplificación salvaje, pero pasaré a hipótesis realistas un poco más adelante. Entonces, esta moneda de trampa hipotética da la secuencia LLCOOR con una probabilidad de (5/6) 5 * (1/6) 1 . Esto es aproximadamente el 6,7%. Entonces tenemos dos hipótesis: "La moneda es la más común" y "El águila arroja la moneda en 5/6 casos". Este resultado específico en el segundo caso es 4.3 veces más probable que en el primero. La probabilidad de la secuencia LLCOOR para otra moneda de trampa hipotética, que en 5 casos de seis es colas, es 0.01%. Entonces, si alguien de repente pensó que esta es la segunda moneda frente a nosotros, entonces tenemos un buen argumento en contra de su hipótesis. Este resultado particular es 146 veces más probable para una moneda justa que para una moneda que el águila arroja solo una vez de cada seis. Del mismo modo, nuestros hipotéticos amantes de las galletas rojas serían mucho menos propensos a comer verde.
Estudiante: Bien, parece que entiendo las matemáticas. Pero, sinceramente, no entiendo cuál es su significado.
Bayesovets: Ahora explicaré, pero primero, preste atención a esto: los resultados de mis cálculos no dependen de por qué la moneda se lanzó exactamente seis veces. Quizás después del sexto lanzamiento decidiste que los datos ya son suficientes. Quizás después de una serie de cinco lanzamientos, Namagiri Tayyar se te apareció en un sueño y te recomendó que arrojes una moneda nuevamente. A la moneda no le importa. El hecho es que esta serie particular de LLCOOR es cuatro veces menos probable para una moneda honesta que para una moneda que cae un águila cinco veces de cada seis.
Científico: estoy de acuerdo en que al menos una característica útil de sus cálculos es. Que sigue
Bayesovets: Y luego publicas los resultados en una revista. Es deseable junto con datos sin procesar, porque entonces cualquiera puede calcular la probabilidad de cualquier hipótesis. Supongamos que alguien inesperadamente se interesa por la hipótesis "Una águila arroja una moneda 9 veces de 10, no 5 veces de 6". En este caso, una serie de observaciones LLCOOR tiene una probabilidad del 5,9%, que es ligeramente menor que nuestra hipótesis acerca de cinco águilas de seis lanzamientos (6 , 7%), pero 3,7 veces la hipótesis de que la moneda está perfectamente equilibrada (1,6%). Es imposible, y no necesario, presentar todas las hipótesis posibles de antemano. Es suficiente publicar datos completos, entonces cualquier persona con una hipótesis puede calcular fácilmente la probabilidad que necesita. El paradigma bayesiano requiere la publicación de datos en bruto, porque el enfoque principal está en un resultado específico , y no en una clase de resultados supuestamente idénticos.
Científico: en esto estoy de acuerdo con usted, la publicación de conjuntos completos de datos es uno de los pasos más importantes para superar la crisis de reproducibilidad. Pero personalmente, no entiendo qué debo hacer con todos estos "A es muchas veces más probable que B".
Estudiante: Yo también.
Hombre bayesiano: Esto no es del todo trivial ... ¿has leído nuestra introducción a la regla de Bayes ?
Estudiante: genial. Ese es solo el próximo libro de texto de estadísticas de trescientas páginas y no tenía suficiente.
Bayesovets: Puedes leerlo en una hora . Es solo que todo esto no es literalmente trivial , es decir, requiere explicación. Pero bueno, por falta de una presentación completa, intentaré llegar a algo. Lo más probable es que esto suene razonable, y la lógica es realmente correcta, pero no es un hecho, lo cual es evidente. Vamos Hay un teorema que demuestra la corrección del siguiente razonamiento:
(Bayesian está ganando aire)
Bayesovets: Supongamos que los profesores Plume y Miss Scarlet son sospechosos de asesinato. Después de estudiar las biografías de ambos, suponemos que sería dos veces más fácil para un profesor matar a un hombre que la señorita Scarlet. Comenzaremos con esta suposición. Resulta, sin embargo, que el difunto fue envenenado. Sabemos que si el profesor Plume está a punto de matar a alguien, entonces usa veneno con una probabilidad del 10% (y en 9 casos de cada 10 preferirá, por ejemplo, un revólver). La señorita Scarlet, si decide matar, usa veneno con una probabilidad del 60%. En otras palabras, el uso de veneno por un profesor es seis veces menos probable que el uso del veneno de la señorita Scarlet. Dado que tenemos nueva información, es decir, el método de asesinato, debemos actualizar nuestra suposición y asumir que Plume tiene aproximadamente tres veces menos probabilidades de ser un asesino: 2 * 1/6 = 1/3.
Estudiante: No estoy seguro de entenderlo. ¿Qué significa la frase "Profesor Plume es tres veces menos probable que sea un asesino que la señorita Scarlet"?
Bayesovets: significa que si no tenemos otros sospechosos, entonces la probabilidad de que Plume mate a la víctima es 1/4. El 3/4 restante es la probabilidad de que la asesina sea la señorita Scarlet. Por lo tanto, la culpa del profesor es tres veces menor que la de la señorita Scarlet.
Científico: Y ahora quiero saber qué quieres decir con "probabilidad de culpa". Plume cometió el asesinato o no lo cometió. No podemos mirar una muestra de los asesinatos y descubrir que Plume es realmente responsable de una cuarta parte de ellos.
Bayesovets: esperaba no entrar en eso, pero bueno. Mi buen científico, quiero decir que si me ofreció una apuesta con apuestas 1: 1 sobre si Plume mató a la víctima o no, entonces apostaría a que no lo hizo. Pero si bajo los términos de la apuesta le pagaría $ 1 en caso de su inocencia, y usted me paga $ 5 en caso de su culpa, con mucho gusto le echaría la culpa. Las elecciones presidenciales de 2012 se celebraron solo una vez y la posibilidad de victoria de Obama es tan inarticulada conceptualmente como la probabilidad de culpa de Plume. Pero si el 7 de noviembre le ofrecieron apostar $ 10 a Obama y prometiera $ 1000 si ganaba, entonces difícilmente rechazaría tal apuesta. En general, cuando los mercados de predicción y los grandes grupos de apuestas líquidas toman apuestas a 6: 4 para algún evento, este evento ocurre en aproximadamente el 60% de los casos. Los mercados y las piscinas están bien calibrados para las probabilidades en este rango. Si estaban mal calibrados, es decir, si los eventos que toman apuestas a las 6: 4 ocurrieron en el 80% de los casos, entonces alguien podría notar esto y enriquecerse a expensas de tales apuestas. Al mismo tiempo, aumentaría el precio de la tasa hasta que el mercado esté bien calibrado. Y dado que los eventos con una estimación de probabilidad de mercado del 70% realmente ocurren aproximadamente 7 de cada 10 veces, no entiendo por qué insistir en que tal probabilidad no tiene sentido.
Estudiante: Lo admito, suena convincente. Pero seguro que me parece a mí, y de hecho hay un montón de argumentos astutos a favor y en contra.
Bayesovets: Realmente hay un montón de argumentos, pero la conclusión general es que su intuición está bastante cerca de la verdad.
Científico: Bien, volveremos a eso. Pero, ¿qué pasa si hay dos agentes, ambos en sus términos "bien calibrados", pero uno de ellos dice "60%" y el otro "70%"?
Bayesovets: Digamos que lanzo una moneda y no miro de qué lado se cayó. En este caso, mi ignorancia no es información sobre una moneda, es información sobre mí. Existe en la cabeza, y no en el mundo circundante, así como las manchas blancas en el mapa no significan que no haya territorio en este lugar. Si mirabas una moneda, pero no lo hice, es bastante razonable que tú y yo estemos en diferentes estados de incertidumbre. Dado que no estoy cien por ciento seguro, tiene sentido para mí expresar mi inseguridad en términos de probabilidad. Hay alrededor de trescientos teoremas que afirman que si la expresión de incertidumbre de alguien no es de hecho una distribución de probabilidad, entonces, en general, la necesita. Por alguna razón, siempre sucede que si el pensamiento de un agente en condiciones de incertidumbre viola cualquiera de los axiomas estándar de la teoría de la probabilidad, la tierra se abrirá, el agua se convertirá en sangre, y las estrategias dominantes y obviamente las apuestas perdedoras caerán del cielo.
Científico: Bien, aquí me equivoqué. También volveremos a esto, pero antes que nada, responda mi pregunta: ¿qué debemos hacer con credibilidad después de recibirlos?
: , . 2: 1 3:1 . , . - - — , . : , .
: , . , . , , , , , (. . — , , . ) . ?
: , - , " a priori , 20%". , 6:1, 3:2, . , 60%, .
: . ! , ?
: ? , , , P- , — , . , .
: . , . .
: . ?
: — « 60% ». , P- . , , , .
: … , , : , p<0,01, 1% « ». ?
: -, . , - « » « ». , p<0,01, , 99%. P- .
: ?
: , , 1% , . P- . p<0,01 « 99%». , , , . - - . , , .
: . , , , P-. , ?
: ? p<0,01, .
:Y la "crisis de reproducibilidad" es cuando el caso se plantea más tarde y resulta que él no cometió el asesinato.
Científico: Bueno, sí.
Estudiante: De alguna manera resulta desagradable.
Científico: La vida es generalmente una cosa desagradable.
Estudiante: Entonces ... Bayesovets, ¿probablemente tienes una respuesta similar? Algo así como el hecho de que si la razón de probabilidad es lo suficientemente grande, digamos, 100: 1, entonces, en la práctica, ¿puede considerarse verdadera la hipótesis correspondiente?
Bayesovets: , . , 20 . , « » « » . , , . 2 20 :1, 20 . , , . . , , — . 1000:1, , , 10:1 , . , , 99%.
: , ?
: . … , . , . - , . , , - - . ? , ( ) , « »? , ? , - , , , . — ! , . , , .
: , , ? - , ?
: - — , , , -, — , , , , . , .
: .
: , - P-. . . . 1 4:1 , 2 9:1, 36:1. Eso es todo
: P- ? p=0,05 p=0,01 , p<0,0005?
: .
: , , .
: .
: , , p<0,01 ?
: , , P-? Hm. , , , p<0,001 . , 0,001 ( 0,1 1e-10) .
: , P- , . , , 1947 . , - , . , . , - . , , , , .
: , - ?
: - , , , , , , , . - , - , , . , , : « , , p<0,0001». « , 0,01%. ?», , .
: ?
: . ; . , P-. , -, , , .
: P- ?
: , .
: - , . — , — . , , .
: , , , . . , . P-. .
: , ?
: , . .
: -. « » «» . «» «» . , — , . — , « p<0,05» « ». , «5/6 » 3,78: 1. . , - , . P- , ! - p-hacking . , .
: -. , , , . P-, , « » . ; . P- , , , - . , , «» «».
: -. , , — . , . 0,4, « » 0,1, , . , « » .
: -. -. , . , , . , - -.
: -. , . . , — . P-hacking .
: . , , , . , , , . ?
: . , .
: , , , .
: , , : , — .
: ?
: .
: , , ?
: .
: . , , , 300 , , 20:1 « 55% »… ?
: . , - , . , - . , 20:1 «55% » 1.4% . , , 30:1 50:1, .
: P-, . ; , ?
: … , , , . . , 3 5 - 8. , , , ( ). - , , 5 3 8. , , , . , , . 3 - 2 1 5, 1, 2. , 7 9 . — , , . 3 5, , 8. — . , , — , . , — , 3 5 7.
: , ?
: .
: e , H , !X « X», P( H ) , P( X|Y ) X , Y. , ,

P(H) = P( H|e ) * P( e )) + (P( H|!e ) * P( !e )

, p-hacking, , . , e , , !e .
: ?
: .
: , … , . , . . … . , . , ; , ( ), . -, , 1,0, 0,0001, 0,1 0.999999999999989. , 1.000000000000004. , . , , , — . . , , . , , , , 20 . , , : « . , , .»
( , ) : « », . « , , , . , , , .»
: : «, , , , . , 1920 , , . - 1920 , . , 30 ? . , . , . , , - ? , , .» , . , . , . 30 ; , ; ; , , 1920 — . — , . p-hacking.
: … . , — , . , , ; . ?
: . , , , , — — , . , P- - . - , . - , , … , P- . , . , , : , , . . , P-, — , .
: , -? - . , , P- - . , , , , , . P- . . — . , .
: , - . , - - . - , , P-, , , — . . P- - ( ) , .
: ?
: . , , - - . , P- . . , - . , Open Access. , , — . , P- ( . .: 2015 ). , . , .
: , , P- .
: , — , . , , « , , , ».
: … , ?
: , . , . , . Ergo, .
: , …
: . !

Source: https://habr.com/ru/post/es430190/


All Articles