Oder: Wie hilft der Übergang von der Veröffentlichung von P-Werten zu Veröffentlichungswahrscheinlichkeitsfunktionen zur Bewältigung der Reproduzierbarkeitskrise: die persönliche Meinung von Eliezer Yudkovsky.
Kommentar des Übersetzers: Yudkovsky, der Autor von HPMOR , Schöpfer von Lesswrong und anderen und anderen, äußerte seine Position zu den Vorteilen der Bayes'schen Statistik in den Naturwissenschaften in Form eines Dialogs. Solch ein direkter klassischer Dialog aus der Antike oder der Renaissance, mit Charakteren, die Ideen ausdrücken, Widerhaken teilen, die mit verworrenen Argumenten vermischt sind, und unvermeidlich langweiligem Simplizio. Der Dialog ist ziemlich lang, ungefähr zwanzig Minuten zu lesen, aber meiner Meinung nach lohnt es sich.Haftungsausschluss- Dieser Dialog wurde von einem Bayesianischen Befürworter geschrieben . Die Bemerkungen des Wissenschaftlers im folgenden Dialog bestehen möglicherweise nicht den ideologischen Turing-Test für Freventismus. Es ist möglich, dass sie den Argumenten und Gegenargumenten der Befürworter des Frequenzansatzes zur Wahrscheinlichkeit keine Anerkennung zollen.
- Der Autor erwartet nicht, dass die unten beschriebenen Vorschläge in den nächsten zehn Jahren von der breiten wissenschaftlichen Gemeinschaft akzeptiert werden. Es hat sich jedoch gelohnt zu schreiben.
Wenn Sie mit der Bayes'schen Regel nicht vertraut sind, finden Sie auf der Arbital-Website eine
detaillierte Einführung .
Moderator: Guten Abend. Heute in unserem Studio:
Wissenschaftler , Praktiker auf dem Gebiet der ... chemischen Psychologie oder so ähnlich; sein Gegner
Bayesovets , der beweisen will, dass die Krise der Reproduzierbarkeit in der Wissenschaft irgendwie überwunden werden kann, indem er P-Werte durch etwas aus der Bayes'schen Statistik ersetzt ...
Student: Entschuldigung, wie wird es geschrieben?
Moderator: ... und schließlich der verständnisvolle Student zu meiner Rechten.
Moderator: Bayesovets , können Sie mir zuerst sagen, was das Wesentliche Ihres Vorschlags ist?
Bayesovets: Grob gesagt geht es
darum . Angenommen, wir haben eine Münze. Wir werfen es sechsmal und beobachten die Serie „LLCOOR“
(ca. Per.: Nachfolgend O - Oryol, R - Reshka) . Sollten wir vermuten, dass etwas mit der Münze nicht stimmt?
Wissenschaftler: Keine.
Bayesovets: Die Münze hier ist nur zum Beispiel. Angenommen, wir bieten einer Stichprobe von Freiwilligen einen Teller mit zwei Keksen an: einen mit grünen Streuseln und einen mit roten. Die ersten fünf Personen nehmen grüne Kekse und die sechste rote. Stimmt es, dass Menschen Kekse mit grünen Streuseln bevorzugen, oder ist ein solches Ergebnis besser als zufällig anzusehen?
Student: Wahrscheinlich kann man
vermuten, dass die Leute vielleicht lieber grün streuen. Zumindest Psychologiestudenten, die sich freiwillig für seltsame Experimente wie grüne Streusel melden, streuen mehr. Selbst nach sechs Beobachtungen kann man dies vermuten, obwohl ich vermute, dass es eine Art Fang gibt.
Wissenschaftler: Ich denke, das ist nicht verdächtig. Viele Hypothesen sehen bei N = 6 vielversprechend aus, werden aber bei N = 60 nicht bestätigt.
Bayesovets: Ich persönlich würde vermuten, dass unsere Freiwilligen kein
rotes Topping bevorzugen oder es zumindest nicht sehr bevorzugen. Aber im Allgemeinen habe ich mir diese Beispiele nur ausgedacht, um zu zeigen, wie P-Werte in der modernen wissenschaftlichen Statistik berücksichtigt werden und was aus Bayes-Sicht mit ihnen falsch ist.
Wissenschaftler: Aber Sie können mit 30 Freiwilligen kein realistischeres Beispiel finden?
Bayesovets: Es ist möglich, aber der Student versteht schon nichts.
Student: Das ist sicher.
Bayesovets: Also, liebe Experten: Adler, Adler, Adler, Adler, Adler, Schwänze. Achtung, die Frage ist: Nennen Sie dieses Ergebnis "statistisch signifikant" oder nicht?
Wissenschaftler: Meister, das ist nicht signifikant. Mit der Nullhypothese, dass die Münze fair ist (oder mit der ähnlichen Nullhypothese, dass die Farbe der Streusel die Auswahl der Kekse nicht beeinflusst), kann in 14 von 64 Fällen das gleiche oder ein ausgeprägteres Ergebnis erzielt werden.
Student: Ja. Ich verstehe richtig: Dies liegt daran, dass wir die Ergebnisse von LLCOOO und RRORRR als „gleich oder ausgeprägter“ betrachten, es gibt insgesamt 14 und die Gesamtzahl der möglichen Ergebnisse mit 6 Würfen 2
6 = 64. 14/64 ist 22%, was höher als 5% ist, so dass das Ergebnis bei einem Wert von p <0,05 nicht als signifikant angesehen wird. Also?
Wissenschaftler: Das stimmt. Ich möchte auch darauf hinweisen, dass Sie in der Praxis trotz des Ergebnisses von LLCOOO das Experiment nicht abbrechen und einen Artikel darüber schreiben sollten, dass eine Münze immer von einem Adler herausfällt.
Bayesovets: Tatsache ist, wenn Sie jederzeit
aufhören können , eine Münze zu werfen, müssen Sie sich fragen: "Wie wahrscheinlich ist es, dass ich einen solchen Moment finde, um das Experiment zu stoppen, bei dem die Anzahl der Adler öffentlich aussehen wird?" Und das ist eine ganz andere Geschichte im P-Wert-Paradigma.
Wissenschaftler: Ich meinte nur sechs Experimente - das ist nicht ernst, auch wenn wir die Farbe der Kekse untersuchen. Aber ja, du hast auch recht.
Student: Und warum ist es wichtig, dass ich aufhören kann, eine Münze zu werfen, oder nicht?
Bayesovets: Was für eine wunderbare Frage.
Wissenschaftler: Tatsache ist, dass P-Werte eine komplizierte Sache sind. Sie können nicht einfach die Zahlen nehmen, sie in das Programm einfügen und veröffentlichen, was dieses Programm herausgeben wird. Wenn Sie sich im Voraus entschieden haben, eine Münze genau sechs Mal zu werfen und dann unabhängig vom Ergebnis anzuhalten, wird das Ergebnis von LLCOOO oder RRRRRR durchschnittlich zweimal von 64 oder in 3,1% der Fälle erhalten. Dies ist bei p <0,05 signifikant. Aber nehmen wir an, Sie sind tatsächlich ein betrügerischer und skrupelloser Fälscher. Oder nur ein inkompetenter Student, der selbst nicht versteht, was er tut. Anstatt die Anzahl der Rollen vorzuwählen, werfen Sie eine Münze und werfen sie, bis Sie ein Ergebnis erhalten, das statistisch signifikant aussieht. Es
wäre statistisch signifikant,
wenn Sie sich im Voraus dazu entschließen
würden, eine Münze genau so oft zu werfen. Tatsächlich haben Sie dies jedoch nicht im Voraus entschieden. Sie haben beschlossen, erst aufzuhören, nachdem Sie die Ergebnisse erhalten haben. Sie können dies nicht tun.
Student: Okay, ich habe irgendwo darüber gelesen, aber ich habe nicht verstanden, was hier schlecht war. Dies ist meine Forschung, und ich sollte besser wissen, ob es genügend Daten gibt oder nicht.
Wissenschaftler: Der springende Punkt bei P-Werten ist die Erstellung eines Tests, den die Nullhypothese nicht bestehen kann. Mit anderen Worten, um sicherzustellen, dass Rauch ohne Feuer nicht allzu häufig ist. Dazu ist es notwendig, die Forschung so zu organisieren, dass ohne das gewünschte Phänomen keine "statistisch signifikanten" Entdeckungen entstehen. Wenn Sie eine Münze genau sechs Mal werfen (und diese Zahl im Voraus bestimmen), beträgt die Wahrscheinlichkeit, sechs Adler oder sechs Schwänze von einer fairen Münze zu erhalten, weniger als 5%. Wenn Sie eine Münze
so oft werfen,
wie Sie möchten , und nach jedem Wurf den P-Wert zählen (so zu
tun , als wäre die Anzahl der Würfe im Voraus bekannt), beträgt die Chance, weniger als p <0,05 zu erhalten, früher oder später
viel mehr als 5%. Daher erkennt ein solches Experiment Rauch ohne Feuer viel häufiger als in 1 von 20 Fällen.
Bayesovets: Ich persönlich formuliere dieses Problem gerne so: Nehmen wir an, Sie werfen eine Münze und erhalten OOOOOR. Wenn Sie gleichzeitig in den Tiefen Ihres Herzens, die nur Allah bekannt sind (denn Allah ist weise und kenntnisreich),
im Voraus über die Anzahl der Würfe entschieden haben, ist das Ergebnis nicht signifikant. p = 0,22. Wenn Sie nach einem dreimonatigen Fasten dem heiligen Franziskus gelobt haben, eine Münze zu werfen,
bis die Schwänze herausfallen , ist das gleiche Ergebnis statistisch signifikant mit einem recht guten p = 0,03. Weil die Chance, dass mit Wahrscheinlichkeiten von 1: 1 Schwänzen sechs oder mehr Würfe warten müssen, 1/32.
Student: Was?
Wissenschaftler: Es ist natürlich eher eine Parodie. In der Praxis wird niemand eine Münze werfen, bis ein einzelner Schwanz gezogen wurde, und dann anhalten. Aber eigentlich hat Bayesovets recht, P-Werte funktionieren einfach so. Genau genommen versuchen wir herauszufinden, wie selten das Ergebnis unter denen ist, die wir bekommen
könnten . Eine Person, die eine Münze vor den ersten Schwänzen wirft, kann die Ergebnisse {P, OR, OOR, LLC, OOOOR, LLCOOR ...} usw. erhalten. Die Ergebnisklasse, in der sechs oder mehr Aufnahmen gemacht werden, ist {LLCOOOR, LLCOOOR, OOOOOOOR ...}, deren Gesamtwahrscheinlichkeit 1/64 + 1/128 + 1/256 ... = 1/32 beträgt. Und eine Person, die genau sechs Mal eine Münze wirft, erhält eines der Ergebnisse der Klasse {RRRRRR, LLCOOR, LLCORO, OOOOORR ...}, in der es 64 Elemente gibt. Für die Zwecke unseres Experiments entspricht LLCOOOR LLCORO, LLCOROO und dergleichen. Also ja, das alles ist ziemlich kontraintuitiv. Wenn wir das erste Experiment wirklich durchführen würden, wäre LLCOOR ein signifikantes Ergebnis, was mit einer ehrlichen Münze unwahrscheinlich ist. Und wenn wir das zweite Experiment durchführen würden, wäre LLCOOR nicht von Bedeutung, da selbst mit einer ehrlichen Münze von Zeit zu Zeit
etwas Ähnliches passiert.
Bayesovets: Stört es Sie zufällig, dass die Ergebnisse des Experiments von Ihrer Meinung abhängen?
Wissenschaftler: Dies ist eine Gewissensfrage. Jede Art von Forschung kostet wenig, wenn Sie über ihre Ergebnisse lügen, dh buchstäblich eine Lüge darüber erzählen, auf welche Seite die Münze gefallen ist. Wenn Sie darüber lügen,
welche Art von Experiment durchgeführt wurde, ist der Effekt der gleiche. Sie müssen es also nur nehmen und ehrlich sagen, nach welchen Regeln die Würfe gemacht wurden. Natürlich ist der Inhalt des Kopfes des Wissenschaftlers weniger offensichtlich als auf welcher Seite sich die Münze befindet. Daher ist es immer möglich, die Analyseparameter zu optimieren, nicht zu schreiben, wie die Anzahl der Probanden bestimmt wurde, um den statistischen Test auszuwählen, der Ihre Lieblingshypothese bestätigt ... Es gibt viele Dinge, an die Sie denken können, wenn Sie dies wünschen. Und es wird einfacher sein, als die Quelldaten zu fälschen. Im Englischen wird dies als P-Hacking bezeichnet. Und in der Praxis werden natürlich viel weniger offensichtliche Methoden verwendet, um Rauch ohne Feuer zu erzeugen, als die nachträglich erfundene dumme Nullhypothese. Dies ist ein ernstes Problem, und bis zu einem gewissen Grad ist die Krise der Reproduzierbarkeit damit verbunden, obwohl nicht klar ist, welches.
Student: Klingt das ... vernünftig? Vielleicht ist dies eines der Dinge, mit denen Sie sich lange beschäftigen und eine Reihe von Beispielen sortieren müssen, und dann wird alles klar?
Bayesovets: Keine.
Student: Ich meine?
Bayesovets: Im Sinne von "Student, Sie hatten von Anfang an Recht." Wenn das, was der Experimentator
denkt, keinen Einfluss darauf hat, auf welche Seite die Münze fällt, sollten seine Gedanken nicht die Tatsache beeinflussen, dass die Ergebnisse des Wurfs uns etwas über das Universum erzählen. Mein lieber Schüler, die Statistiken, die Ihnen beigebracht wurden, sind nichts weiter als ein überkomplizierter Haufen krummer Krücken, die Sie nicht einmal intern konsistent gemacht haben. Um Himmels willen, sie gibt
unterschiedliche falsche Ergebnisse aus, je nachdem, was in deinem Kopf vorgeht! Und dies ist ein viel ernsthafteres Problem als die Tendenz einiger Wissenschaftler, in „Materialien und Methoden“ leicht zu schummeln.
Wissenschaftler: Dies ist ... eine ernste Aussage, um es gelinde auszudrücken. Aber sag mir, ich frage dich: Was sollen wir unglücklicherweise tun?
Bayesovets: Analysieren Sie wie folgt: Dieses spezielle LLCOOR-Ergebnis kann mit sechs Würfen einer perfekt ausbalancierten Münze mit einer Wahrscheinlichkeit von 1/64 oder etwa 1,6% erzielt werden. Nehmen wir an, wir hätten bereits vermutet, dass unsere Münze nicht perfekt ausbalanciert war. Und das nicht nur unvollkommen, sondern auch so, dass es durchschnittlich fünf von sechs Mal als Adler herausfällt. Dies ist natürlich eine wilde Vereinfachung, aber ich werde etwas später zu realistischen Hypothesen übergehen. Diese hypothetische Betrugsmünze ergibt also die LLCOOR-Sequenz mit einer Wahrscheinlichkeit von (5/6)
5 * (1/6)
1 . Dies sind ungefähr 6,7%. Wir haben also zwei Hypothesen: "Die Münze ist die häufigste" und "Die Münze wird in 5/6 Fällen vom Adler fallen gelassen." Dieses spezifische Ergebnis ist im zweiten Fall
4,3-mal wahrscheinlicher als im ersten. Die Wahrscheinlichkeit der LLCOOR-Sequenz für eine andere hypothetische Betrugsmünze, die in 5 von sechs Fällen Schwänze ist, beträgt 0,01%. Wenn also plötzlich jemand dachte, dass dies die zweite Münze vor uns ist, dann haben wir jetzt ein gutes Argument
gegen seine Hypothese. Dieses besondere Ergebnis ist 146-mal wahrscheinlicher für eine faire Münze als für eine Münze, die der Adler nur einmal von sechs fallen lässt. Ebenso würden unsere hypothetischen Liebhaber roter Kekse viel seltener grün essen.
Student: Okay, ich scheine die Mathematik zu verstehen. Aber ehrlich gesagt verstehe ich nicht, was es bedeutet.
Bayesovets: Jetzt erkläre ich es, aber beachten Sie zunächst
Folgendes: Die Ergebnisse meiner Berechnungen hängen nicht davon ab,
warum die Münze genau sechs Mal geworfen wurde. Vielleicht haben Sie nach dem sechsten Wurf entschieden, dass die Daten bereits völlig ausreichen. Vielleicht erschien Ihnen
Namagiri Tayyar nach einer Reihe von fünf
Würfen in einem Traum und riet Ihnen, erneut eine Münze zu werfen. Münze ist egal. Die Tatsache bleibt: Diese spezielle LLCOOR-Serie ist für eine ehrliche Münze viermal weniger wahrscheinlich als für eine Münze, die von einem Adler fünfmal von sechs fallen gelassen wird.
Wissenschaftler: Ich stimme zu, dass mindestens ein nützliches Merkmal Ihrer Berechnungen ist. Was kommt als nächstes?
Bayesovets: Und dann veröffentlichen Sie die Ergebnisse in einer Zeitschrift. Dies ist zusammen mit Rohdaten wünschenswert, da dann jeder die Wahrscheinlichkeit einer Hypothese berechnen kann. Angenommen, jemand hat sich unerwartet für die Hypothese interessiert: „Eine Münze wird von einem Adler 9-mal von 10 und nicht 5-mal von 6 fallen gelassen.“ In diesem Fall hat eine Reihe von LLCOOR-Beobachtungen eine Wahrscheinlichkeit von 5,9%, was etwas weniger ist als unsere Hypothese über fünf Adler mit sechs Würfen (6) , 7%), aber das 3,7-fache der Hypothese, dass die Münze perfekt ausbalanciert ist (1,6%). Es ist unmöglich und nicht notwendig, alle möglichen Hypothesen im Voraus aufzustellen. Es reicht aus, vollständige Daten zu veröffentlichen - dann kann jeder mit einer Hypothese leicht die Wahrscheinlichkeit berechnen, die er benötigt. Das Bayes'sche Paradigma erfordert die Veröffentlichung von Rohdaten, da der Schwerpunkt auf einem
bestimmten Ergebnis liegt und nicht auf einer Klasse vermeintlich identischer Ergebnisse.
Wissenschaftler: Da stimme ich Ihnen zu, ist die Veröffentlichung vollständiger Datensätze einer der wichtigsten Schritte zur Überwindung der Reproduzierbarkeitskrise. Aber ich persönlich verstehe nicht, was ich mit all diesen "A ist so viel wahrscheinlicher als B" machen soll.
Student: Ich auch.
Bayesianer: Das ist nicht ganz trivial ... haben Sie unsere
Einführung in die Bayes-Regel gelesen?
Student: Großartig. Das ist nur das nächste dreihundertseitige Lehrbuch der Statistik, und ich hatte nicht genug.
Bayesovets: Sie können es tatsächlich
in einer Stunde lesen . Es ist nur so, dass all dies buchstäblich
nicht trivial ist , das heißt, es bedarf einer Erklärung. Aber okay, da ich keine vollständige Einführung habe, werde ich versuchen, mir etwas auszudenken. Dies wird höchstwahrscheinlich vernünftig
klingen - und die Logik ist
wirklich korrekt -, aber keine Tatsache, die selbstverständlich ist. Lass uns gehen. Es gibt einen Satz, der die Richtigkeit der folgenden Argumentation beweist:
(Bayesian gewinnt Luft)Bayesovets: Angenommen, die Professoren Plume und Miss Scarlet werden des Mordes verdächtigt. Nachdem wir die Biografien beider studiert haben, gehen wir davon aus, dass es für einen Professor doppelt so einfach wäre, einen Mann wie Miss Scarlet zu töten. Wir werden mit dieser Annahme beginnen. Es stellt sich jedoch heraus, dass der Verstorbene vergiftet wurde. Wir wissen, dass Professor Plume, wenn er jemanden töten will, Gift mit einer Wahrscheinlichkeit von 10% verwendet (und in 9 von 10 Fällen wird er beispielsweise einen Revolver bevorzugen). Miss Scarlet verwendet Gift mit einer Wahrscheinlichkeit von 60%, wenn sie sich zum Töten entscheidet. Mit anderen Worten, die Verwendung von Gift durch einen Professor
ist sechsmal weniger wahrscheinlich als die Verwendung von Miss Scarlets Gift. Da wir neue Informationen haben, nämlich die Mordmethode, müssen wir unsere Annahme aktualisieren und davon ausgehen, dass Plume etwa dreimal weniger wahrscheinlich ein Mörder ist: 2 * 1/6 = 1/3.
Student: Ich bin mir nicht sicher, ob ich es verstehe. Was bedeutet der Satz „Professor Plume ist dreimal weniger wahrscheinlich ein Mörder als Miss Scarlet“?
Bayesovets: Wenn wir keine anderen Verdächtigen haben, beträgt die Wahrscheinlichkeit, dass Plume das Opfer getötet hat, 1/4. Das verbleibende 3/4 ist die Wahrscheinlichkeit, dass der Mörder Miss Scarlet ist. Daher ist die Schuld des Professors dreimal niedriger als die von Miss Scarlet.
Wissenschaftler: Und jetzt möchte ich wissen, was Sie unter „Schuldwahrscheinlichkeit“ verstehen. Plume hat entweder den Mord begangen oder er hat ihn nicht begangen. Wir können uns keine Stichprobe der Morde ansehen und feststellen, dass Plume wirklich für ein Viertel von ihnen verantwortlich ist.
Bayesovets: Ich hatte gehofft, nicht darauf
einzugehen , aber
na ja . Mein guter Wissenschaftler, ich meine, wenn Sie mir eine Wette mit 1: 1-Wetten anbieten würden, ob Plume das Opfer getötet hat oder nicht, dann würde ich wetten, dass er es nicht getan hat. Aber wenn ich Ihnen unter den Bedingungen der Wette im Falle seiner Unschuld 1 Dollar zahlen würde und Sie mir im Falle seiner Schuld 5 Dollar zahlen würden, würde ich Ihnen gerne die Schuld geben. Die Präsidentschaftswahlen 2012 fanden nur einmal statt und Obamas Siegchance ist konzeptionell ebenso unartikuliert wie Plumes Chance auf Schuld. Aber wenn Ihnen am 7. November angeboten würde, 10 Dollar auf Obama zu setzen, und 1000 Dollar versprochen würden, wenn er gewinnen würde, würden Sie eine solche Wette kaum ablehnen. Im Allgemeinen tritt dieses Ereignis in etwa 60% der Fälle auf, wenn die Prognosemärkte und große liquide Wettpools für ein Ereignis Wetten im Verhältnis 6: 4 annehmen. Märkte und Pools sind für Wahrscheinlichkeiten in diesem Bereich
gut kalibriert . Wenn sie schlecht kalibriert waren, dh wenn die Ereignisse, bei denen Wetten im Verhältnis 6: 4 angenommen wurden, in 80% der Fälle auftraten, konnte dies jemand bemerken und sich auf Kosten solcher Wetten bereichern. Gleichzeitig würde er den Preis der Rate erhöhen, bis der Markt gut kalibriert ist. Und da Ereignisse mit einer Marktwahrscheinlichkeitsschätzung von 70% tatsächlich etwa sieben Mal von zehn auftreten, verstehe ich nicht, warum ich darauf bestehen soll, dass eine solche Wahrscheinlichkeit keinen Sinn ergibt.
Student: Ich gebe zu, es
klingt überzeugend. Aber sicher scheint es mir nur, und tatsächlich gibt es eine ganze Reihe gerissener Argumente dafür und dagegen.
Bayesovets: Es gibt wirklich eine Reihe von Argumenten, aber die allgemeine Schlussfolgerung daraus ist, dass Ihre Intuition der Wahrheit ziemlich nahe kommt.
Wissenschaftler: Okay, wir werden darauf zurückkommen. Aber was ist, wenn es zwei Agenten gibt, beide in Ihren Begriffen "gut kalibriert", aber einer von ihnen sagt "60%" und der andere "70%"?
Bayesovets: Nehmen wir an, ich
werfe eine Münze und schaue nicht, auf welcher Seite sie herausgefallen ist. In diesem Fall ist meine Unwissenheit keine Information über eine Münze, sondern Information über mich. Es existiert im Kopf und nicht in der umgebenden Welt, so wie weiße Flecken auf der Karte nicht bedeuten, dass es an diesem Ort kein Territorium gibt. Wenn Sie sich eine Münze angesehen haben, aber ich nicht, ist es durchaus vernünftig, dass Sie und ich uns in unterschiedlichen Unsicherheiten befinden. Da ich nicht hundertprozentig sicher bin, ist es für mich sinnvoll, meine Unsicherheit in Bezug auf die Wahrscheinlichkeit auszudrücken. Es gibt
ungefähr dreihundert Theoreme , die besagen, dass jemand, der seine Unsicherheit
nicht als Wahrscheinlichkeitsverteilung ausdrückt, diese im Allgemeinen benötigt. Aus irgendeinem Grund kommt es immer vor, dass sich die Erde öffnet, wenn das Denken eines Agenten unter Bedingungen der Unsicherheit gegen eines der Standardaxiome der Wahrscheinlichkeitstheorie verstößt, Wasser sich in Blut verwandelt und dominante Strategien und offensichtlich verlorene Wetten aus dem Himmel strömen.
Wissenschaftler: Okay, hier habe ich mich geirrt. Wir werden auch darauf zurückkommen, aber zunächst meine Frage beantworten: Was sollen wir mit Glaubwürdigkeit tun, nachdem wir sie erhalten haben?
Bayesovets: Nach den Gesetzen der Wahrscheinlichkeit, die Wahrscheinlichkeit ist der Beweis. Sie veranlassen uns, unsere a priori-Wahrscheinlichkeiten von 2: 1 zugunsten von Plume auf 3: 1 zugunsten von Scarlet zu ändern. Wenn ich zwei Hypothesen und die Wahrscheinlichkeit von Daten für beide habe, sollte ich meine Meinung wie oben beschrieben ändern. Wenn ich es irgendwie anders ändere, dann öffnen sich die Himmel, Strategien strömen herein und so weiter. Bayes-Theorem: Dies ist nicht nur eine statistische Technik, es ist das GESETZ.Student: Entschuldigung, aber ich verstehe immer noch nicht. Angenommen, wir führen ein Experiment durch. Nehmen wir an, die Ergebnisse sind sechsmal wahrscheinlicher, wenn Herr Troupe von Professor Plume getötet wurde, als wenn sie Miss Scarlets Mörderin wäre(ca. per. - Der Student hat offensichtlich die Plausibilität des Einsatzes von Gift durch zwei Mörder verwechselt. Als nächstes wird dieses Verhältnis diskutiert) . Uns Professor verhaften oder nicht?Wissenschaftler: Ich nehme an, für den Anfang müssen Sie eine mehr oder weniger realistische a priori Wahrscheinlichkeit finden, zum Beispiel " a priori, ich glaube, dass die Wahrscheinlichkeit, Troupe Plume zu töten, 20% beträgt." Dann muss es mit dem Wahrscheinlichkeitsverhältnis von 6: 1 multipliziert werden und das Verhältnis der hinteren Wahrscheinlichkeiten von 3: 2 erhalten, wobei die Wolke die Truppe getötet hat. Dann kann festgestellt werden, dass Plume mit einer Wahrscheinlichkeit von 60% schuldig ist, und dann sollte die Staatsanwaltschaft verstehen.Bayesovets: Keine . Um Himmels willen! Denken Sie wirklich, dass die Bayes'schen Statistiken so funktionieren?Wissenschaftler:Funktioniert es falsch Ich habe immer geglaubt, dass sein Hauptvorteil darin besteht, dass es uns hintere Wahrscheinlichkeiten gibt, die P-Werte wirklich nicht geben, und der Hauptnachteil ist, dass a priori Wahrscheinlichkeiten dafür benötigt werden. Da sie mehr oder weniger von der Decke genommen werden müssen, kann die Richtigkeit der hinteren Wahrscheinlichkeiten bis zum Ende der Zeit bestritten werden.Bayesovets: Artikel müssen Glaubwürdigkeit veröffentlichen . Genauer gesagt müssen wir Rohdaten veröffentlichen und für sie einige Plausibilitäten berechnen, die uns interessieren. Aber sicher keine a posteriori Wahrscheinlichkeiten.Student: Ich bin wieder verwirrt. Was sind hintere Wahrscheinlichkeiten?Bayesovets: posteriore Wahrscheinlichkeit- Dies ist eine Aussage vom Typ "Mit einer Wahrscheinlichkeit von 60% wurde Herr Troupe von Professor Plume getötet." Wie mein Kollege bereits bemerkt hat, folgen solche Aussagen nicht aus P-Werten. Und meiner Meinung nach haben sie keinen Platz in experimentellen Artikeln, weil dies nicht die Ergebnisse eines Experiments sind .Student: Aber ... okay, Wissenschaftler, eine Frage an Sie: Nehmen wir an, wir haben Ergebnisse mit p <0,01 erhalten, dh mit einer Wahrscheinlichkeit von weniger als 1% mit der Nullhypothese "Professor Plume hat Herrn Troupe nicht getötet". Sollen wir ihn verhaften oder nicht?Wissenschaftler:Erstens ist dies keine realistische Nullhypothese. Höchstwahrscheinlich wäre die Nullhypothese so etwas wie "Niemand hat Herrn Troupe getötet" oder "Alle Verdächtigen sind gleichermaßen schuldig". Aber selbst wenn die von Ihnen beschriebene Nullhypothese funktioniert, selbst wenn wir Plumes Unschuld mit p <0,01 ablehnen könnten, wäre es immer noch nicht möglich zu sagen, dass Plume mit einer Wahrscheinlichkeit von 99% schuldig war. P-Werte sagen uns das nicht.Student: Und dass sie dann melden?Wissenschaftler: Sie berichten, dass die beobachteten Daten Teil einer Klasse möglicher Ergebnisse sind und dass die Ergebnisse dieser Klasse in weniger als 1% der Fälle beobachtet werden, wenn die Nullhypothese wahr ist. Mehr P-Wert bedeutet nichts. Sie können nicht einfach von p <0,01 zu "Professor Plume ist mit einer Wahrscheinlichkeit von 99% schuldig" wechseln. Bayesian wird höchstwahrscheinlich besser als ich erklären können, warum. Im Allgemeinen ist es in der Wissenschaft unmöglich, eine Sache als etwas anderes zu interpretieren. Die Zahlen geben genau an, was sie bedeuten, nicht mehr und nicht weniger.Student: Im Allgemeinen ausgezeichnet. Anfangs habe ich nicht verstanden, was ich mit Plausibilität anfangen soll, und jetzt verstehe ich immer noch nicht, was ich mit P-Werten anfangen soll. Welches Experiment ist erforderlich, um Plume endgültig ins Gefängnis zu schicken?Wissenschaftler: In der Praxis? Wenn ein paar weitere Experimente in anderen Labors seine Schuld mit p <0,01 bestätigen, ist er höchstwahrscheinlich wirklich schuldig.Bayesovets:Und die „Reproduzierbarkeitskrise“ ist, wenn der Fall später angesprochen wird und sich herausstellt, dass er den Mord nicht begangen hat.Wissenschaftler: Nun ja.Student: Irgendwie fällt es unangenehm aus.Wissenschaftler: Das Leben ist im Allgemeinen eine unangenehme Sache.Student: Also ... Bayesovets, haben Sie wahrscheinlich eine ähnliche Antwort? So etwas wie die Tatsache, dass, wenn das Wahrscheinlichkeitsverhältnis groß genug ist, beispielsweise 100: 1, in der Praxis die entsprechende Hypothese als wahr angesehen werden kann?Bayesovets:Ja, aber es ist etwas komplizierter. Angenommen, ich werfe 20 Mal eine Münze und erhalte OOOOOROOORORROROOOOROOOROR. Der Haken ist, dass die Wahrscheinlichkeit der Hypothese „Münze gibt garantiert die Sequenz LLCOROOORORORROOOOOOOROROR“ höher ist als die Wahrscheinlichkeit der Hypothese „Münze ist von einem Adler oder Schwanz gleichermaßen wahrscheinlich“ ungefähr eine Million Mal. Wenn Sie mir diese Hypothese in der Praxis vor Beginn des Experiments nicht in einem versiegelten Umschlag übergeben haben, werde ich sie als stark umgeschult betrachten. Ich muss dieser Hypothese eine Strafe für die Komplexität von mindestens 2 20 : 1 geben, da die Beschreibung der Sequenz allein 20 Bit benötigt. Mit anderen Worten, reduzieren Sie die Wahrscheinlichkeit von vornherein so stark, dass der Wahrscheinlichkeitsvorteil mehr als ausgeglichen wird. Und dies ist nicht die einzige Falle. Aber trotzdemWenn Sie verstehen, wie und warum die Bayes-Regel funktioniert, können Sie in jedem speziellen Fall auf dem Weg verstehen. Wenn das Plausibilitätsverhältnis für Plume gegen einen anderen Verdächtigen 1000: 1 ist und es nur sechs Verdächtige gibt, kann davon ausgegangen werden, dass die a priori-Wahrscheinlichkeit kaum mehr als 10: 1 betrug, obwohl er ein Mörder ist. Wenn ja, können wir davon ausgehen, dass er mit einer Wahrscheinlichkeit von 99% schuldig ist.Wissenschaftler: Dennoch ist Artikelschreiben nicht wert?Bayesovets: Richtig . Wie zu formulieren ... Die Schlüsselbedingung der Bayes'schen Analyse ist, dass allesrelevante Informationen. Sie können Daten nicht von der Analyse ausschließen, nur weil sie Ihnen nicht gefallen. Dies ist tatsächlich eine Schlüsselbedingung der Wissenschaft als solche, unabhängig von den verwendeten Statistiken. Es gibt eine Reihe von Artikeln, deren Schlussfolgerungen nur erhalten wurden, weil ein Faktor nicht berücksichtigt wurde oder die Stichprobe in einigen Parametern nicht repräsentativ war. Worüber rede ich? Und zu der Tatsache, woher weiß ich (als Experimentator), was „alle relevanten Informationen“ sind? Wer bin ich, um hintere Wahrscheinlichkeiten zu berechnen? Vielleicht hat jemand einen Artikel veröffentlicht, in dem es zusätzliche Daten und zusätzliche Glaubwürdigkeit gibt, die ich berücksichtigen sollte, aber ich habe ihn noch nicht gelesen. Also veröffentliche ich einfach meine Daten und meine Wahrscheinlichkeitsfunktionen - und das war's! Ich kann nicht behaupten, alles in Betracht gezogen zu habenArgumente und jetzt kann ich zuverlässige hintere Wahrscheinlichkeiten anbieten. Und selbst wenn ich könnte, könnte in einer Woche ein weiterer Artikel herauskommen, und diese Wahrscheinlichkeiten werden obsolet.Student: Grob gesagt sollte der Experimentator nur seine Daten veröffentlichen, für sie ein paar Wahrscheinlichkeiten berechnen und alles? Und nur dann wird jemand anderes entscheiden, was mit ihm geschehen soll?Bayesovets: Jemand muss a priori Wahrscheinlichkeiten wählen - gleich oder mit maximaler Entropie oder mit Strafen für Komplexität oder was auch immer - und dann versuchen, alle möglichen Daten zu sammeln, die Wahrscheinlichkeit zu berechnen, sicherzustellen, dass das Ergebnis nicht verrückt ist , und andere und andere. Und sie müssen noch gezählt werden, wenn in einer Woche ein neuer Artikel veröffentlicht wird.Student:Klingt ziemlich zeitaufwändig .Bayesovets: Es wäre viel schlimmer, wenn wir eine Metaanalyse der P-Werte durchführen würden. Das Aktualisieren der Bayes'schen Wahrscheinlichkeiten ist viel einfacher. Es reicht aus, die alten posterioren Wahrscheinlichkeiten einfach mit den neuen Wahrscheinlichkeitsfunktionen zu multiplizieren und zu normalisieren. Das ist alles.
Wenn Experiment 1 ein Wahrscheinlichkeitsverhältnis von 4: 1 für die Hypothesen A und B ergibt und Experiment 2 ein Wahrscheinlichkeitsverhältnis von 9: 1 ergibt, ergeben sie zusammen ein Verhältnis von 36: 1. Das ist alles.
Student: Kannst du das nicht mit P-Werten machen? Ein Experiment mit p = 0,05 und ein anderes Experiment mit p = 0,01 bedeuten nicht, dass tatsächlich p <0,0005?Wissenschaftler: Keine .Bayesovets: Liebe Zuschauer, bitte achten Sie auf mein arrogantes Lächeln.Wissenschaftler: Aber ich mache mir immer noch Sorgen über die Notwendigkeit, a priori Wahrscheinlichkeiten zu finden.Bayesovets: Und warum stört es Sie mehr als die Tatsache, dass jeder beschlossen hat, ein Experiment und zwei Wiederholungen mit p <0,01 als Kriterium der Wahrheit zu betrachten?Wissenschaftler: Sie möchten sagen, dass die Wahl der A-priori-Werte nicht subjektiver ist als die Interpretation der P-Werte? Hm.
Ich wollte sagen, dass eine Anforderung von beispielsweise p <0,001 Objektivität garantieren sollte. Aber dann werden Sie antworten, dass die Zahl 0,001 (anstelle von 0,1 oder 1e-10) ebenfalls vom Finger gesaugt wird.Bayesovets: Und ich füge hinzu, dass es weniger effizient ist, einen beliebigen P-Wert zu verlangen, als eine a priori-Wahrscheinlichkeit aus demselben Finger herauszusaugen. Einer der ersten Sätze, die mit ägyptischen Strafen gegen die Axiome der Wahrscheinlichkeit drohten, wurde 1947 von Abraham Wald bewiesen. Er versuchte, alle akzeptablen Strategien zu beschreiben , und nannte Strategie eine Möglichkeit, auf das zu reagieren, was Sie beobachten. Natürlich können unterschiedliche Strategien unter verschiedenen Umständen mehr oder weniger rentabel sein. Akzeptable Strategieer nannte eine, die unter allen möglichen Bedingungen nicht von einer anderen Strategie dominiert wird. Wald fand also heraus, dass die Klasse akzeptabler Strategien mit der Klasse von Strategien übereinstimmt, die eine Wahrscheinlichkeitsverteilung enthalten, aktualisiert sie basierend auf Beobachtungen nach der Bayes'schen Regel und optimiert die Nutzenfunktion.Student: Entschuldigung, kann ich Russisch sprechen?Bayesovets: Wenn Sie etwas in Verbindung mit dem tun, was Sie beobachten, und mehr oder weniger Geld erhalten, zum Beispiel Geld, je nachdem, was die reale Welt ist, dann ist eine der beiden wahr. Entweder enthält Ihre Strategie gewissermaßen eine Wahrscheinlichkeitsverteilung und aktualisiert sie gemäß der Bayes'schen Regel, oderEs gibt eine andere Strategie, die Ihrer niemals nachgibt und sie manchmal übertrifft. Das heißt, Sie sagen zum Beispiel: „Ich werde nicht mit dem Rauchen aufhören, bis ich einen Artikel sehe, der den Zusammenhang zwischen Rauchen und Krebs bei p <0,0001 belegt.“ Zumindest theoretisch gibt es eine Möglichkeit zu sagen: „Meiner Meinung nach besteht der Zusammenhang zwischen Rauchen und Krebs mit einer Wahrscheinlichkeit von 0,01%. Was sind Ihre Plausibilitäten? “, Was nicht schlechter sein wird als die erste Formulierung, unabhängig von den a priori-Wahrscheinlichkeiten für das Bestehen einer solchen Verbindung.Wissenschaftler: Wirklich?Bayesovets:Ja. Die Bayes'sche Revolution begann mit diesem Satz; seitdem hat es langsam an Dynamik gewonnen. Es ist erwähnenswert, dass Wald seinen Satz einige Jahrzehnte nach der Erfindung der P-Werte bewiesen hat. Dies erklärt meiner Meinung nach, wie sich herausstellte, dass die gesamte moderne Wissenschaft an offensichtlich ineffiziente Statistiken gebunden war.Wissenschaftler: Sie schlagen also vor, P-Werte wegzuwerfen und stattdessen nur Wahrscheinlichkeitsrelationen zu veröffentlichen?Bayesovets: Kurz gesagt, ja.Wissenschaftler: Ich glaube nicht wirklich an ideale Lösungen, die für alle Bedingungen geeignet sind. Ich vermute - bitte betrachten Sie es nicht als Beleidigung -, dass Sie ein Idealist sind. Nach meiner Erfahrung werden in unterschiedlichen Situationen unterschiedliche Werkzeuge benötigt, und es wäre unvernünftig, alle außer einem wegzuwerfen.Bayesovets:Nun, ich bin bereit zu erklären, was ich ein Idealist bin und was nicht. Wahrscheinlichkeitsfunktionen allein lösen die Krise der Reproduzierbarkeit nicht. Es kann nicht vollständig gelöst werden, indem einfach jeder angewiesen wird, effektivere Statistiken zu verwenden. Die Popularität von Open-Access-Magazinen hängt nicht von der Wahl zwischen Wahrscheinlichkeits- und P-Werten ab. Probleme mit dem Überprüfungssystem sind ebenfalls unabhängig davon.Wissenschaftler: Und alles andere, also kommt es darauf an?Bayesovets: Nicht alles, aber sie haben eine Menge , was zu Hilfe . Lass uns zählen.Bayesovets:Erstens. Die Wahrscheinlichkeitsfunktionen erzwingen keine Unterscheidung zwischen "statistisch signifikanten" und "nicht signifikanten" Ergebnissen. Ein Experiment kann kein „positives“ oder „negatives“ Ergebnis haben. Was als Nullhypothese bezeichnet wird, ist jetzt nur eine der Hypothesen, die sich im Prinzip nicht von allen anderen unterscheidet. Wenn Sie eine Münze werfen und OORORRROOO erhalten, können Sie nicht sagen, dass das Experiment die Nullhypothese bei p <0,05 nicht ablehnen oder das zuvor erhaltene Ergebnis reproduzieren kann. Er hat gerade Daten hinzugefügt, die die ehrliche Münzhypothese gegen die Hypothese „5/6 Adler“ mit einem Wahrscheinlichkeitsverhältnis von 3,78: 1 stützen. Mit der massiven Übernahme der Bayes'schen Statistik werden die Ergebnisse solcher Experimente weniger wahrscheinlich an den Tisch geschickt. Nicht ganz jemalsweil die Herausgeber der Magazine noch mehr an ehrlichen Münzen interessiert sind und man sich direkt darum kümmern muss. Aber P-Werte kämpfen nicht nur nicht mit diesem Ansatz, sie sind seineanregen ! Wegen ihm gibt es im Allgemeinen P-Hacking. Der Übergang zur Glaubwürdigkeit wird also nicht jedem und umsonst Glück bringen, aber er wird definitiv helfen .Bayesovets: Zweitens. Das Wahrscheinlichkeitssystem betont die Bedeutung der Quelldaten viel stärker und wird ihre Veröffentlichung nach Möglichkeit anregen, da die Bayes'sche Analyse darauf aufbaut, wie wahrscheinlich diese bestimmten Ergebnisse in einem bestimmten Modell sind. Das P-Wert-System hingegen lässt den Forscher die Daten nur als eines der Mitglieder der Klasse der „gleich extremen“ Ergebnisse betrachten. Einige Wissenschaftler möchten alle ihre wertvollen Daten bei sich behalten. Es geht nicht nur um Statistiken. Aber P-Werte stimulierenund das, weil die Daten selbst für den Artikel nicht wichtig sind, sondern ob sie zu einer bestimmten Klasse gehören. Sobald dies festgestellt ist, scheinen alle darin enthaltenen Informationen zu einem einzigen Bit von „Bedeutung“ oder „Bedeutungslosigkeit“ zusammenzufallen.Bayesovets: Drittens. Aus Sicht der Wahrscheinlichkeitstheorie sind aus Bayes'scher Sicht unterschiedliche Größen von Effekten unterschiedliche Hypothesen. Dies ist logisch, da ihnen unterschiedliche Wahrscheinlichkeitsfunktionen und dementsprechend unterschiedliche Wahrscheinlichkeiten der beobachteten Daten entsprechen. Wenn ein Experiment einen Effektwert von 0,4 und ein anderes Experiment einen "statistisch signifikanten" Wert des gleichen Effekts von 0,1 fand, reproduzierte sich das Experiment nichtund wir wissen nicht, was wirklich da ist. Dies ermöglicht es, eine ziemlich häufige Situation zu vermeiden, in der das Ausmaß des „statistisch signifikanten“ Effekts mit zunehmender Stichprobengröße abnimmt und abnimmt.Bayesovets: Viertens. Likelihood-Funktionen vereinfachen die Datenaggregation und Metaanalyse erheblich. Sie können uns sogar dabei helfen, festzustellen, dass die Daten unter heterogenen Bedingungen gesammelt werden oder dass wir die wahre Hypothese nicht berücksichtigen. In diesem Fall sind entweder alle Funktionen für alle möglichen Parameter nahe Null, oder die beste Hypothese gibt den kombinierten Daten eine viel geringere Wahrscheinlichkeit, als sie selbst vorhersagen . Ein strengerer Ansatz zur Reproduzierbarkeit wird es uns ermöglichen, schnell zu verstehen, ob ein solches Experiment als Wiederholung von so und so angesehen werden kann.Bayesovets: Fünftens . Die Wahrscheinlichkeitsfunktionen hängen nicht davon ab, was sie von ihnen halten. Dies sind objektive Aussagen zu Daten. Wenn Sie die Wahrscheinlichkeitswerte veröffentlichen, gibt es nur einen Weg, den Leser zu täuschen - die Daten selbst zu fälschen. P-Hacking funktioniert nicht.Wissenschaftler: Nun, ich bezweifle es stark . Angenommen, ich entscheide mich, Sie davon zu überzeugen, dass eine Münze häufiger von einem Adler fallen gelassen wird, obwohl dies tatsächlich ehrlich ist. Ich werde eine Münze nehmen, ich werde sie werfen, bis ich zufällig ein bisschen mehr Adler bekomme, und dann aufhören. Was dann?Bayesovets: Mach weiter. Wenn Sie die Daten nicht fälschen, werden Sie mich nicht täuschen.Wissenschaftler:Die Frage war, was passieren wird, wenn ich das Wahrscheinlichkeitsverhältnis nach jedem Wurf überprüfe und aufhöre, sobald es meine Lieblingstheorie unterstützt.Bayesovets: Als Idealist, verführt von der trügerischen Schönheit der Wahrscheinlichkeitstheorie, antworte ich Ihnen: Während Sie mir ehrliche Rohdaten geben, kann und sollte ich nur eines tun - nach der Bayes'schen Regel multiplizieren.Wissenschaftler: Wirklich?Bayesovets: Im Ernst.Wissenschaftler: Es ist Ihnen also egal, ob ich das Wahrscheinlichkeitsverhältnis überprüfen kann, bis es mir gefällt?Bayesovets: Mach weiter.Wissenschaftler: Okay. Dann werde ich ein Python-Skript schreiben, das vorher einen Wurf einer ehrlichen Münze simuliertsagen wir 300 Mal, und ich werde sehen, wie oft ich ein Verhältnis von 20: 1 zugunsten der Hypothese erhalten kann, dass in 55% der Fälle eine Münze von einem Adler fallen gelassen wird ... Was?Bayesovets: Ja, nur ein lustiger Zufall. Als ich gerade alles darüber herausgefunden und bezweifelt habe, dass die Wahrscheinlichkeitsbeziehung nicht auf knifflige Weise getäuscht werden kann, habe ich dasselbe Programm in Python geschrieben. Später erfuhr ein Freund von mir auch von der Wahrscheinlichkeitsbeziehung und schrieb das gleiche Programm, auch aus irgendeinem Grund in Python . Er startete es und stellte fest, dass das Verhältnis 20: 1 für die 55% Eagles-Hypothese mindestens einmal in 1,4% der Besetzungsserien gefunden wurde. Wenn Sie beispielsweise 30: 1 oder 50: 1 verlangen, fällt ihre Frequenz noch schneller ab.Wissenschaftler:Wenn Sie Ihren anderthalbprozentigen P-Wert berücksichtigen, sieht er gut aus. Dies ist jedoch eine sehr unhöfliche Methode, um die Analyse zu täuschen. Vielleicht gibt es komplexere und effizientere?Bayesovets: Ich war ... ungefähr fünf Jahre alt, wahrscheinlich, wenn nicht weniger, als ich zum ersten Mal von Addition erfuhr. Eine meiner frühesten Erinnerungen. Ich saß da, fügte 3 zu 5 hinzu und versuchte immer wieder, einen Weg zu finden, um nicht 8 zu bekommen. Das ist natürlich ein sehr schöner und allgemein wichtiger Schritt, um zu verstehen, was Addition ist (und Mathematik im Allgemeinen). Aber jetzt ist es einfach so schön, weil wir Erwachsene sind und verstehen, dass 5 plus 3 unweigerlich gleich 8 ist. Ein Skript, das ständig das Wahrscheinlichkeitsverhältnis überprüft, macht dasselbe wie ich in meiner Kindheit. Als ich die Theorie verstand, wurde mir klar, dass es offensichtlich ist , Bayes 'Regel auszutricksenzum Scheitern verurteilt. Dies ist so, als würde man versuchen, 3 auf clevere Weise in 2 und 1 zu zerlegen und sie einzeln zu 5 zu addieren, oder zuerst 1 und erst dann 2 hinzufügen. Weder die 7 noch die 9 oder 9 funktionieren. Das Ergebnis der Addition ist ein Theorem , und es spielt keine Rolle, welche Abfolge von Operationen wir ausführen. Wenn es wirklich äquivalent ist, 3 zu 5 zu addieren, kann die Ausgabe nichts anderes als 8 sein. Theoreme der Wahrscheinlichkeitstheorie sind auch Theoreme. Wenn das Skript wirklich funktionieren könnte, würde dies einen Widerspruch in der Wahrscheinlichkeitstheorie und damit einen Widerspruch in der Peano-Arithmetik bedeuten, auf der die Wahrscheinlichkeitsanalyse unter Verwendung rationaler Zahlen basiert. Was Sie und ich versucht haben, ist genauso schwierig wie das Addieren von 3 und 5 in der Standardarithmetik-Axiomatik und das Erhalten von 7.Student: E, warum?Wissenschaftler: Ich verstehe auch nicht.Bayesovets: Sei e bezeichnet die Beobachtung, H steht für die Hypothese, X! Represents „nicht X», P ( H ) bezeichnet die Wahrscheinlichkeit der Hypothese, und P ( X | Y ) bezeichnet die bedingte Wahrscheinlichkeit von X , dass die wahren Y. unter der Annahme , Es gibt einen Satz , daß Shows dassP (H) = P ( H | e ) * P ( e )) + (P ( H |! e ) * P ( ! e )Daher gibt es für Wahrscheinlichkeitsfunktionen keineein willkürlich komplexes Analogon von p-Hacking, abgesehen von der Fälschung von Daten, da kein dem Bayes'schen Agenten bekanntes Verfahren ihn zwingen wird, seine a priori-Wahrscheinlichkeiten in eine absichtlich falsche Richtung zu aktualisieren. Für jede Änderung , die wir aus der Beobachtung bekommen eine E gibt es eine inverse Variation , die sich aus der Beobachtung zu erwarten ist ! Eine E .Student: Was?Wissenschaftler: Ich verstehe auch nicht.Bayesovets: Okay, lassen Sie uns die Mathematik erst einmal verschieben und sehen ... ja, die Reproduzierbarkeitskrise. Der Wissenschaftler sagte, er sei misstrauisch gegenüber idealen universellen Lösungen. Aber meiner Meinung nach dem Übergang zur Wahrscheinlichkeitsfunktion wirklich sollteviele Probleme gleichzeitig lösen. Angenommen ... ich werde jetzt darüber nachdenken. Angenommen, ein Unternehmen hat große Probleme mit der Buchhaltung. Diese Probleme hängen mit der Tatsache zusammen, dass in der gesamten Buchhaltung Gleitkommazahlen verwendet werden. und das wäre die halbe Mühe, aber es werden drei verschiedene Implementierungen verwendet (jeweils etwa ein Drittel des Unternehmens), so dass sich herausstellt, dass Gott weiß, was. Jemand nimmt zum Beispiel 1.0, addiert tausendmal 0,0001, subtrahiert dann 0,1 und erhält 0,999999999999989. Dann geht er in eine andere Etage, wiederholt die Berechnungen auf ihren Computern und erhält 1.000000000000004. Und jeder denkt, dass es so ist. Und der Fehler ist WIRKLICH RIESIG, alle drei Erkenntnisse sind das Ergebnis einer unnatürlichen Vereinigung von Höhlenmalereien und römischen Ziffern. Aufgrund der Unterschiede zwischen ihnen können Sie also spürbare Unterschiede in den Ergebnissen erzielen. NatürlichJeder wählt Verkäufe so aus, dass er vierteljährlich Bericht erstattet. Daher wird es als gutes Ergebnis angesehen, wenn das Budget der Abteilung nicht zumindest sich selbst widerspricht und die Abteilung für kognitive Grundierung höchstwahrscheinlich vor 20 Jahren bankrott gegangen ist. Und hier gehe ich ganz in Weiß aus und sage: „Guten Tag. Aber was ist, wenn Sie anstelle Ihrer drei Erkenntnisse dieses coole Ding verwenden, das nicht auf diese Weise manipuliert werden kann und das die Hälfte Ihrer Probleme löst? “die nicht auf diese Weise manipuliert werden können und die die Hälfte Ihrer Probleme lösen. “die nicht auf diese Weise manipuliert werden können und die die Hälfte Ihrer Probleme lösen. “( Bayesovets , in der Stimme des Wissenschaftlers ) : „Ich bin solchen universellen Lösungen misstrauisch“, antwortet mir der Hauptbuchhalter. „Betrachten Sie es nicht als Beleidigung, aber Sie, alter Mann, sind ein Idealist. Nach meiner Erfahrung eignen sich verschiedene Gleitkomma-Notationen gut für verschiedene Operationen, daher sollten Sie nicht alle Werkzeuge außer einem sofort wegwerfen. "Bayesovets: Worauf ich ihm antworte: „Vielleicht klingt das zu mutig, aber ich werde Ihnen das Perfekte zeigenDarstellung von Brüchen, bei denen die Ergebnisse nicht von der Reihenfolge abhängen, in der Sie Zahlen hinzufügen oder auf deren Computer die Berechnungen stattfinden. Vielleicht benötigte Ihr System 1920, als es gerade erstellt wurde, zu viel Speicher. Aber jetzt ist nicht das Jahr 1920, Sie können es sich leisten, keine Computerressourcen zu sparen. Zumal Sie dort 30 Millionen Bankkonten haben? Das ist eigentlich Unsinn. Ja, meine Ansicht hat ihre Nachteile. Zum Beispiel werden Quadratwurzeln viel schwieriger genommen. Aber wie oft, um ehrlich zu sein, müssen Sie die Quadratwurzel des Gehaltsschecks eines anderen ziehen? Für die meisten realen Aufgaben ist dieses System Ihrem nicht unterlegen, und außerdem kann es nicht getäuscht werden, ohne die Eingabewerte zu fälschen. “ Danach erkläre ich es ihnenwie man eine ganze Zahl beliebiger Länge im Speicher darstellt und wie man eine rationale Zahl als Verhältnis von zwei ganzen Zahlen darstellt. Das ist, was wir jetzt die selbstverständliche Art der Darstellung nennen würdenreelle rationale Zahlen im Computerspeicher. Das einzige und einzigartige System von Theoremen über rationale Zahlen, für die Gleitkommazahlen nur eine Annäherung sind. Und wenn Sie mit den unglücklichen 30 Millionen Rechnungen umgehen; wenn in der Praxis Ihre Annäherungen weder miteinander noch mit sich selbst übereinstimmen; wenn sie auch jedem erlauben, dein Geld zu stehlen; Wenn es schließlich nicht 1920 ist und Sie sich normale Computer leisten können, ist die Notwendigkeit, die Buchhaltung auf echte rationale Zahlen zu übertragen, ziemlich offensichtlich. Ebenso sind die Bayes-Regel und ihre Konsequenzen das einzige System von Wahrscheinlichkeitssätzen, die auf Axiomen beruhen und streng bewiesen sind. Und deshalb funktioniert P-Hacking darin nicht.Wissenschaftler: Das ist ... mutig. Auch wenn alles, was Sie sagen, wahr ist, gibt es immer noch praktische Schwierigkeiten. Die Statistiken, die wir jetzt verwenden, nehmen seit mehr als einem Jahrzehnt Gestalt an. sie hat sich bewährt. Wie hat sich Ihr heller Bayes'scher Weg in der Praxis erwiesen?Bayesovets: In den Naturwissenschaften wurde es fast nie verwendet. Beim maschinellen Lernen, wo es, wie bescheidener zu sagen ist, leicht zu bemerken ist, dass das Modell falsch ist - weil die darauf basierende KI nicht funktioniert -, und so habe ich beim maschinellen Lernen vor etwa zehn Jahren zuletzt einen Frequenzansatz für die Wahrscheinlichkeit gesehen. Und ich kann mich an keinen einzigen erinnernArbeit, bei der die KI den P-Wert einer Hypothese berücksichtigen würde. Wenn die Wahrscheinlichkeit zumindest irgendwie in der Studie erscheint, dann ist sie mit ziemlicher Sicherheit Bayesianisch. Wenn etwas nach einheitlichen Codes klassifiziert wird, wird die Kreuzentropie minimiert und nicht ... Ich weiß nicht einmal, was ein Analogon von P-Werten in AI sein könnte. Ich werde vorschlagen, dass dies der Punkt ist. Die Statistiken beim maschinellen Lernen funktionieren entweder oder nicht, und es ist sofort klar: Die KI tut entweder, was sie sollte, oder sie stürzt ab. Und in den Naturwissenschaften braucht jeder vor allem Veröffentlichungen. Da es so passiert ist, dass es üblich ist, P-Werte in den Artikeln anzugeben, aber nicht für irreparable Ergebnisse zu bestrafen, haben wir das, was wir haben.Wissenschaftler:Das heißt, Sie sind eher ein Mathematiker oder Programmierer als ein Naturforscher-Experimentator? Aus irgendeinem Grund überrascht mich das nicht. Ich habe keinen Zweifel daran, dass es einen erfolgreicheren statistischen Apparat geben kann, aber die Erfahrung mit der Verwendung von P-Werten ist auch etwas wert. Ja, jetzt sind sie oft auf die eine oder andere Weise verdreht, aber wir wissen, wie es geht, und wir beginnen zu verstehen, wie wir damit umgehen sollen. Fallstricke sind zumindest bekannt. In jedem neuen System werden sie es auch sein. Aber wo genau - das wird erst nach Jahrzehnten klar. Vielleicht sind sie sogar noch gefährlicher als die aktuellen.Bayesovets:Ja, die diebischen Buchhalter werden wahrscheinlich einige neue und aufregende Manipulationen mit rationalen Zahlen entwickeln. Besonders in den Fällen, in denen sich die genauen Operationen immer noch als zu rechenintensiv herausstellen und irgendwie angenähert werden müssen. Aber ich glaube immer noch, dass, wenn dieselbe experimentelle Psychologie jetzt durch eine Krise der Reproduzierbarkeit auseinandergerissen wird und diese Krise eindeutig mit der Verwendung von P-Werten verbunden ist, die offen gesagt nichts anderes als ein Bündel widersprüchlicher Krücken sind, dann versuchen Sie zumindest , mehr zu verwenden rationale Methode. Obwohl ich auch nicht dränge, alles abzureißen und wieder aufzubauen. In der Praxis können Sie zunächst die P-Werte in einem beliebigen Bereich (auch in der Psychologie) aufgeben und sehen, was passiert.Wissenschaftler:Und wie wollen Sie Psychologen zu einem solchen Experiment überreden?Bayesovets: Ich habe keine Ahnung. Ehrlich gesagt hoffe ich nicht wirklich, dass irgendjemand wirklich etwas ändern wird. Höchstwahrscheinlich verwenden die Leute einfach P-Werte bis zum Ende der Zeit. Solche Dinge.
Es besteht jedoch die Möglichkeit, dass die Idee weiterhin beliebt ist. Ich war angenehm überrascht, wie schnell Open Access Fuß faßte. Ich war angenehm überrascht, dass die Reproduzierbarkeitskrise allgemein bemerkt wurde und die Menschen sich darüber hinaus darum kümmern. Vielleicht werden die P-Werte immer noch auf den Markt gebracht und von einer großen Menschenmenge auf den Kopf gestellt ( ca. Per: Mindestens ein psychologisches Journal im Jahr 2015 weigerte sich, Nullhypothesen zu testen ). Wenn ja, dann werde ich angenehm überrascht sein. In diesem Fall stellte sich heraus, dass meine Arbeit zur Popularisierung der Bayes-Regeln und der Wahrhaftigkeit nicht umsonst war.Wissenschaftler: Es kann sich auch herausstellen, dass niemand die Wahrscheinlichkeit in der experimentellen Wissenschaft mag, und P-Werte werden von jedem als bequem und nützlich angesehen.Bayesovets: Wenn der statistische Kurs der Universität so ungeheuerlich war, dass sie schon bei dem Gedanken an die Wahrscheinlichkeitstheorie zittern - dann müssen Änderungen von außen kommen. Ich persönlich hoffe, dass unser lieber Student eine kurze und ziemlich faszinierende Einführung in die Bayes'sche Wahrscheinlichkeitstheorie liest , sie mit seinem großartigen Lehrbuch über Statistik vergleicht und Sie für die nächsten sechs Monate anfleht. „Nun, bitte, kann ich nur die Glaubwürdigkeit berechnen und das ist es, bitte, erlauben Sie es ".Student: Äh ... nun, ich habe es zuerst gelesen, okay?Bayesovets:Lieber Student, denken Sie über Ihre Wahl nach. Einige Veränderungen in der Wissenschaft treten nur auf, weil die Schüler mit unterschiedlichen Ideen aufwachsen und die richtigen aus ihnen auswählen. Dies ist ein berühmter Max-Planck-Aphorismus, und Max Planck wird keinen Unsinn sagen. Ergo hängt die Fähigkeit der Wissenschaft, schlechte von guten Ideen zu unterscheiden, vollständig von der Intelligenz der Studenten ab.Wissenschaftler: Nun, das ist schon ...Moderator: Und hier schließen wir unseren Transfer ab. Vielen Dank für Ihre Aufmerksamkeit!