Entretien avec Will Kurt à propos de son nouveau livre, Bayesian Statistics - It's Great

Bonjour, Habr!

À la toute fin de l'année, nous parvenons à partager avec vous la nouvelle que nous commençons à travailler sur les statistiques bayésiennes de la manière amusante par No Starch Press. Nous proposons une traduction d'une interview détaillée avec l'auteur du livre; le texte concerne à la fois le livre lui-même et des sujets connexes, et même une lecture supplémentaire.




Comme la plupart des développeurs, je m'intéresse immédiatement à beaucoup de choses: programmation fonctionnelle, systèmes d'exploitation, systèmes de type, systèmes distribués et science des données. C'est pourquoi j'ai été tellement inspiré d'apprendre que Will Kurt , l'auteur de Get Programming with Haskell , a écrit un livre sur les statistiques bayésiennes, qui a été publié par No Starch Press. Il n'y a pas beaucoup de gens qui écrivent des livres sur divers sujets. Je suis sûr que Will a quelque chose à partager avec les lecteurs dans son nouveau livre - et il n'a pas été déçu. Le livre est un excellent matériel d'introduction, en particulier pour ceux qui ne sont pas trop bons en mathématiques dures, mais qui veulent tout de même réaliser quelque chose dans le domaine de la science des données. Je recommande de lire le nouveau livre de Kurt après Think Stats, mais avant la programmation probabiliste en Python: Bayesian Inference and Algorithms, Bayesian Analysis with Python et Doing Bayesian Data Analysis.

1. Pourquoi avons-nous besoin d'un autre livre sur les statistiques?

Presque tous les nombreux livres actuellement disponibles sur les statistiques bayésiennes suggèrent que le lecteur a déjà une idée générale des statistiques et une base solide dans la programmation. Par conséquent, à l'heure actuelle, les statistiques bayésiennes sont souvent perçues comme une alternative avancée aux statistiques classiques (c'est-à-dire la fréquence). Ainsi, bien que les statistiques bayésiennes gagnent en popularité, le matériel qu'elles contiennent est principalement conçu pour les personnes qui ont déjà une bonne formation quantitative.

Lorsqu'une personne décide de simplement "étudier les statistiques", elle prend un livre d'introduction dans lequel les statistiques sont présentées d'un point de vue fréquentiel, la lit, a à moitié compris un tas de tests et de règles, et estime que tout ce sujet est très déroutant. Je voulais écrire un tel livre sur les statistiques bayésiennes que n'importe qui puisse prendre, lire et, après avoir lu, avoir une idée intuitive de ce que c'est que de penser statistiquement et comment résoudre de vrais problèmes en utilisant les statistiques. Je ne vois aucune raison pour laquelle les statistiques bayésiennes ne pourraient pas servir de premier cours d'introduction à ce sujet pour un débutant absolu.

Je serais très heureux si un jour, avec le mot «statistiques», les gens commençaient à signifier les statistiques bayésiennes, et les statistiques de fréquence ne devenaient qu'une des niches académiques. Pour cela, davantage de livres sont nécessaires dans lesquels une connaissance des statistiques pour un large éventail de lecteurs serait proposée en utilisant des méthodes bayésiennes.En outre, l'auteur a tenu compte du fait que cela pourrait être la première connaissance du statistique par le lecteur.
J'ai immédiatement pensé à appeler ce livre "Statistics the Fun Way", mais j'ai pensé que j'obtiendrais probablement un tas de lettres de colère de personnes qui ont acheté un tel livre pour se préparer à l'examen d'entrée pour les statistiques - et j'ai trouvé qu'il s'agit d'autre chose! J'espère que mon livre sera un petit pas vers le moment où les statistiques bayésiennes seront demandées aux examens d'entrée, et il sera conseillé de lire un tel livre même pour ceux qui se préparent juste à l'examen.

2. Quel est le public cible du livre? Une personne peut-elle le lire sans aucune formation mathématique?

En travaillant sur «les statistiques bayésiennes, c'est génial», j'ai essayé de créer un livre, en principe, compréhensible pour tous ceux qui ont appris les mathématiques dans le cadre du programme d'études secondaires. Même si vous ne vous souvenez que vaguement de l'algèbre, le rythme de présentation dans un livre est tel que vous pouvez le suivre. Les statistiques bayésiennes nécessitent très peu d'analyse mathématique et d'autant plus simplifiées avec un peu de support de code logiciel, j'ai donc ajouté deux applications au livre qui donnent les bases du langage R. Ce matériau est suffisant pour que R vous serve de calculatrice avancée, et les idées de base de l'analyse mathématique sont présentées dans à tel point que vous pouvez comprendre tous les exemples de ce livre, en ce qui concerne les intégrales. Cependant, je vous promets que pour lire le livre, vous n'aurez pas à résoudre de problèmes dans le domaine de l'analyse mathématique.

De plus, autant que j'ai travaillé dur, en essayant de minimiser la quantité de connaissances mathématiques nécessaires pour lire un livre, au fur et à mesure que vous le lisez, vous commencerez progressivement à apprendre la façon mathématique de penser. Si vous comprenez correctement les mathématiques avec lesquelles vous travaillez, vous les comprendrez encore mieux. Par conséquent, je n'ai pas essayé d'échapper aux vraies mathématiques, mais plutôt de l'expliquer étape par étape, afin que toutes les mathématiques deviennent progressivement évidentes pour vous. Comme beaucoup, j'ai cru une fois que les mathématiques sont une science complexe et qu'il est difficile de travailler avec elle. Au fil du temps, je suis devenu convaincu qu'avec la bonne approche, les mathématiques ne causaient presque aucune difficulté. Toute confusion dans les mathématiques ne survient généralement qu'en raison de tentatives de parcourir le matériel trop rapidement - pour cette raison, des étapes importantes nécessaires à un bon raisonnement sont manquées.

3. Pourquoi un programmeur devrait-il étudier la théorie des probabilités et les statistiques?

Je crois vraiment que tout le monde devrait étudier la théorie des probabilités et les statistiques dans une certaine mesure, car ces connaissances aideront à juger de l'incertitude qui nous entoure partout dans la vie. Quant au programmeur, il devra certainement faire face à certaines tâches typiques où il est utile de comprendre les statistiques. Il est très probable qu'à un moment donné de votre carrière professionnelle, vous deviez écrire du code dans lequel certaines décisions sont prises en fonction de facteurs flous a priori. Peut-être que ce sera une mesure de la conversion de la page Web, de la génération de récompenses aléatoires dans le jeu, de la distribution aléatoire des utilisateurs en groupes, ou même de la lecture d'informations à partir d'un capteur flou. Dans tous ces cas, une solide compréhension de la théorie des probabilités vous aidera beaucoup. Ma propre pratique montre que l'approche probabiliste aide beaucoup à déboguer de nombreux bogues qui sont difficiles à reproduire ou à retrouver à un problème complexe. S'il s'avère que le bogue est causé par une mémoire insuffisante, pouvez-vous être sûr que le bogue se reproduira plus souvent si la mémoire est encore plus coupée? Si un bug complexe peut être expliqué de deux manières, quelle est la meilleure opportunité à explorer en premier? Dans tous ces cas, la théorie des probabilités peut aider. Bien sûr, l'apogée de l'apprentissage automatique et de la science des données conduit au fait que les ingénieurs doivent de plus en plus gérer des tâches où la programmation offre un travail direct avec des probabilités.

4. Est-il possible de décrire brièvement la différence entre la fréquence et les approches bayésiennes de la théorie des probabilités?

Dans l'interprétation des fréquences, la probabilité est interprétée comme une déclaration sur la fréquence à laquelle un événement doit se produire lors de tentatives répétées. Donc, en jetant une pièce deux fois, on devrait s'attendre à ce qu'elle soit lâchée par l'aigle 1 fois, car la pièce a deux côtés, et l'un d'eux a un aigle. Dans l'interprétation bayésienne, la probabilité est interprétée comme une caractéristique de nos connaissances, en principe, comme une continuation de la logique. La probabilité de lancer une pièce avec un aigle est de 0,5, car je ne vois aucune raison pour laquelle un aigle devrait tomber plus souvent que la queue. Ainsi, dans le cas d'un tirage au sort, les deux approches sont pleinement fonctionnelles. Cependant, quand il s'agit de choses comme les chances que votre équipe préférée remporte la Coupe du monde, le facteur de confiance devient beaucoup plus important. Soit dit en passant, cela signifie également que les statistiques bayésiennes font des déclarations non pas sur le monde, mais sur notre compréhension du monde. Puisque tout le monde comprend le monde un peu différemment, les statistiques bayésiennes nous aident à prendre en compte ces différences dans notre analyse. À bien des égards, l'analyse bayésienne est la science de l'évolution des opinions.

5. Pourquoi le livre met-il l'accent sur l'approche bayésienne?

Il existe de très bonnes raisons philosophiques de se concentrer sur les statistiques bayésiennes, mais j'ai été guidé par une raison tout à fait pratique: avec l'approche bayésienne, tout devient logique. Sur la base d'un ensemble relativement restreint de règles intuitives, vous pouvez développer une solution pour presque tous les problèmes que vous pourriez rencontrer. C'est pourquoi les statistiques bayésiennes sont si puissantes et flexibles, et pourquoi elles sont si faciles à apprendre. Je pense que le raisonnement bayésien convient exactement aux programmeurs. Vous n'essayez pas de résoudre le problème à l'aide de tests impromptus, mais vous raisonnez dessus et parvenez progressivement à une solution vraiment justifiée. En principe, les statistiques bayésiennes - c'est le raisonnement. Vous n'êtes d'accord avec l'analyse statique que si elle est véritablement logique et convaincante pour vous, et non pas parce que votre test qui semble arbitraire vous donne une valeur tout aussi non étayée. De plus, les statistiques bayésiennes permettent de douter du résultat et d'un point de vue qualitatif. Dans la pratique quotidienne, il arrive souvent que deux personnes se voient présenter les mêmes faits, mais leurs conclusions sont différentes. Les statistiques bayésiennes nous permettent de modéliser formellement une telle différence d'opinion, afin que nous puissions vérifier par nous-mêmes quels faits seront nécessaires pour changer notre point de vue. Vous n'avez pas à croire les résultats indiqués sur papier à cause d'une certaine valeur p, vous les croyez, car ils vous semblent vraiment convaincants.

6. Lien entre les statistiques bayésiennes et l'apprentissage automatique

Parmi les similitudes entre l'apprentissage automatique (en particulier, les réseaux de neurones) et les statistiques bayésiennes auxquelles j'ai pensé sont les suivantes: dans ces deux disciplines, l'analyse mathématique peut être extrêmement compliquée. En principe, l'apprentissage automatique est la compréhension et la solution de dérivés très non triviaux. Vous obtenez une fonction, et pour cela, une fonction de perte, puis calculez (automatiquement) la dérivée et essayez de la suivre jusqu'à ce qu'elle vous conduise aux paramètres optimaux. Beaucoup notent avec malveillance que la propagation vers l'arrière n'est qu'une «règle de chaîne», mais dans presque toutes les tâches complexes liées à l'apprentissage automatique, elle est utilisée avec beaucoup de succès.
Les statistiques bayésiennes sont une autre facette de l'analyse mathématique associée à la résolution d'intégrales vraiment complexes. Michael Betancourt, l'auteur de Stan, a parfaitement noté que presque toute l'analyse bayésienne est liée au calcul des attentes, c'est-à-dire au calcul des intégrales. Du fait de l'analyse bayésienne, vous avez toujours une distribution postérieure, mais vous ne pouvez en aucun cas l'utiliser sans l'intégrer et donc ne pas obtenir de réponse concrète. Heureusement, personne ne fait de commentaires vicieux sur les intégrales, car tout le monde sait que même l'intégrale la plus triviale est assez compliquée. Voici comment il est formulé aphoristiquement dans l'une des bandes dessinées xkcd:



Aujourd'hui, l'apprentissage automatique et les statistiques bayésiennes sont dans un état si étrange: nous développons les idées les plus simples de l'analyse mathématique à un degré de complexité qui ne se prête qu'au calcul.

Cette relation met également en évidence un point clé. Lorsque nous parlons de dérivés, nous recherchons un point spécifique lié à une fonction. Donc, si vous connaissez la position et l'heure, la vitesse est un dérivé censé déterminer quand vous vous déplaciez le plus rapidement. Un petit pas vers les progrès dans MO est lorsque vous découvrez qu'une seule métrique est meilleure que quiconque. L'intégration est la somme de l'ensemble du processus. Encore une fois, si vous connaissez le lieu et le temps, alors l'intégrale est la distance, cela vous permet de savoir jusqu'où vous en êtes. Les statistiques bayésiennes sont un résumé de tout ce que vous savez sur un problème, mais elles vous permettent non seulement de faire des prévisions distinctes, mais aussi de caractériser le degré de confiance dans nos prévisions, qui sont dans un large éventail d'options. Les progrès des statistiques bayésiennes sont une compréhension des systèmes d'information de plus en plus complexes.

7. Si les lecteurs veulent approfondir le sujet du livre, quel matériel (livres, cours, blogs) leur conseillerez-vous?

Je me suis inspiré au maximum du livre de I. T. Jane «Probability Theory: the Logic of Science». J'espère secrètement que mon livre «Les statistiques bayésiennes sont excellentes» pourra devenir un analogue de son livre, mais destiné à un large éventail de lecteurs. Travailler avec le livre de Janes n'est pas une tâche facile, et il présente un résultat très radical des statistiques bayésiennes. Aubrey Clayton a rendu un bon service à ses lecteurs en écrivant une série de conférences sur les chapitres de ce livre.

Bien sûr, si vous aimez le livre, vous aimerez probablement mon blog. Récemment, je n’écrivais pas tellement là-bas, parce que j’ai écrit le livre «Les statistiques bayésiennes sont excellentes», et avant cela «Get Programming with Haskell», mais maintenant j’ai plein d’idées, et toutes ne sont pas strictement consacrées au bayésien sujets. En règle générale, je réfléchis sur un sujet du domaine des statistiques / probabilités, et à partir de cette idée, je sélectionne soigneusement un nouvel article pour le blog.

8. D'après votre expérience, quel concept dans le domaine de la théorie des probabilités / statistiques est particulièrement difficile à comprendre?

Honnêtement, la partie la plus difficile est l'interprétation des probabilités. Les gens ont en fait perdu confiance en de nombreux analystes bayésiens, comme Nate Silver (et bien d'autres), lorsqu'ils ont prédit que Hillary Clinton gagnerait les élections de 2016 avec une probabilité de 80% - et elle a perdu. Les gens pensaient que quelqu'un les avait trompés, et tout le monde avait tort, mais, en fait, la probabilité de 80% n'est pas tellement. Si le médecin me dit que mes chances de survie sont de 80%, alors je suis sérieusement nerveux.

En règle générale, ce problème est résolu comme suit: nous indiquons les probabilités en tant que telles et déclarons qu'elles sont mal adaptées pour exprimer l'incertitude. Pour faire face à cet inconvénient, vous devez utiliser des coefficients ou des rapports de vraisemblance, ou une sorte de système de type décibel, comme le concept Jane de «preuves». Cependant, après avoir longuement réfléchi aux probabilités, je suis parvenu à la conclusion qu'il n'y a pas de moyen particulièrement approprié d'exprimer l'incertitude.

L'essence du problème est que chacun de nous est profondément convaincu qu'il existe une certitude dans le monde. Même les spécialistes expérimentés de la théorie des probabilités ont le sentiment que, si vous effectuez la bonne analyse, trouvez les données a priori nécessaires, ajoutez un autre niveau à votre modèle hiérarchique, vous réussirez et vous vous débarrasserez de l'incertitude ou du moins la réduirez . Les probabilités m'attirent en partie à cause de cette combinaison bizarre de ces deux facteurs: le désir de comprendre le monde et la reconnaissance que, peu importe comment vous essayez, le monde vous surprendra de toute façon.

9. Que pensez-vous des valeurs de p comme mesure de la signification statistique? Pourriez-vous décrire brièvement ce qu'est le p-hacking?

Dans le cas des valeurs de p, deux choses sont souvent mal comprises. Tout d'abord, une personne intelligente n'essaiera pas de répondre aux questions avec des valeurs de p. Imaginez à quoi ressemblerait la conversation suivante au travail:

Manager: "Vous avez corrigé ce bug, comment vous a-t-il été attribué?"
Vous: "Eh bien, je suis plus que sûr que je ne l'ai pas réparé ..."
Manager: "Si vous l'avez corrigé, notez que vous l'avez corrigé."
Vous: "Oh, non, je ne peux pas dire que je l'ai réparé ..."
Manager: "Eh bien, allez-vous le marquer" Je ne le réparerai pas "?"
Vous: "Non, non, bien sûr ce n'est pas du tout comme ça"

Les valeurs p de beaucoup sont confuses, car elles sont intrinsèquement obscures. Les statistiques bayésiennes vous indiquent une probabilité postérieure, qui est une réponse positive à une question formulée comme vous le souhaitez. Dans le dialogue ci-dessus, le Bayésien dit: "Je suis presque sûr que le bug a été corrigé." Si le gestionnaire souhaite que vous répondiez avec plus de confiance, le Bayésien peut collecter des informations supplémentaires et dire: "Je suis, en principe, sûr que cela est corrigé".

Le deuxième problème est l'habitude ancrée de choisir 0,05 comme une sorte de sens magique, censé avoir du sens. Pour revenir à la question précédente sur la compréhension des probabilités, la probabilité de 5% qu'un certain événement se produise ne signifie pas que cet événement est rare. Vous aurez 5% de chances d'obtenir 20 points en lançant un dé à 20 faces. Cependant, quiconque a joué à Dungeons and Dragons sait que cela est loin d'être impossible. Au-delà des RPG, jeter un os n'est pas le meilleur outil pour distinguer la vérité des mensonges.

Nous arrivons ici au p-hacking. Imaginez que vous jouez à Dungeons and Dragons avec vos amis et que vous lancez 20 dés à la fois. Ensuite, vous montrez celui sur lequel 20 points sont tombés et déclarez: "c'était cet os que j'allais jeter, et tout le reste était des tests." Formellement, vous avez vraiment marqué 20 points, mais c'est toujours une arnaque, vous voyez. C'est l'essence même du p-hacking. Vous faites l'analyse jusqu'à ce que vous trouviez quelque chose d '«essentiel», puis vous prétendez que c'est ce que vous cherchiez depuis le tout début.

10. Recommandations finales sur quel livre lire après le vôtre?

, , , , . «Bayesian Analysis with Python» (, Not Monad Tutorial). , PyMC3. , . , — “Statistical Rethinking” . , . . « – ». , «Doing Bayesian Data Analysis» .

Source: https://habr.com/ru/post/fr482156/


All Articles