Comment construire un microscope probabiliste

image

Selon des rumeurs, 20th Century Fox sortira un remake du film de science-fiction de 1966 Fantastic Journey dans quelques années. Selon l'intrigue, les protagonistes sont comprimés et injectés dans le corps humain, à travers lesquels ils voyagent dans un sous-marin de taille microscopique. À de telles échelles, le flux sanguin se transforme en turbulence dangereuse, les corps blancs peuvent avaler un navire et la tension de surface d'une goutte se transforme en une barrière insurmontable.

La mise à l'échelle détruit notre compréhension intuitive de ce qui est important pour nous, de ce qui a du pouvoir et de ce qui est dangereux. Pour survivre, vous devez reconfigurer l'intuition. Même si un effet sur des échelles familières peut être négligé, un effet légèrement moins négligeable peut devenir incroyablement important sur des échelles inconnues.

image

Comment comprendre ce qui peut être important à une échelle inconnue? Il s'avère qu'il existe une théorie mathématique des écarts importants qui fonctionne avec les probabilités de la même manière que le rayon décroissant a fonctionné avec l'équipe de Fantastic Travel. Alors que la théorie classique des probabilités traite des probabilités d'événements ordinaires, la théorie des grandes déviations est spécialisée dans les événements extrêmement rares qui surviennent lorsque plusieurs événements plutôt inhabituels fusionnent. Il nous permet de zoomer sur un microscope probabiliste pour déterminer les moyens les moins probables de comment un événement extrêmement improbable peut se produire.

Depuis le moment où la théorie a été formulée il y a 50 ans, le mathématicien S.R. Srinivasa Varadhan, il a été soigneusement étudié et développé. Il montre comment le comportement moyen d'un système aléatoire peut s'écarter de celui typique. En comparant soigneusement toutes les rares possibilités, vous pouvez voir comment nous sous-estimons souvent les probabilités d'événements inhabituels lorsque nous limitons notre attention aux moyens habituels par lesquels ils peuvent se produire.

Partons en voyage avec un microscope entre les mains

Commerçant à haute fréquence


Un trader à haute fréquence effectue de longues séquences de transactions. Sur chacun d'eux, son état d'une valeur initiale de 1 000 000 $ augmente d'un demi pour cent ou diminue d'un demi pour cent, et la probabilité de tout résultat est de ½. Combien d'argent est-il susceptible d'avoir dans un million de transactions?

Il peut raisonner comme ceci: chaque transaction monte ou descend du même montant, donc le montant moyen ne changera pas, et à la fin il devrait avoir 1 million de dollars.

Et voici un autre argument: quand il gagne, sa fortune est multipliée par 1,005. En cas de défaite, puis à 0,995. Cela et un autre le multiplient par 1005 x 0,995 = 0,999975. Pour un million de transactions, 500 000 de ces cas et d'autres se produiront, de sorte que le million d'origine se transformera en 1 000 000 $ x (0,999975) 500 000 , ce qui équivaut approximativement à 3,73 $.

Quel raisonnement est vrai? Curieusement, les deux, mais le second sera plus important. Très probablement, le trader n'aura plus rien, mais si nous augmentons l'ensemble des événements improbables dans lesquels il gagne, nous verrons de telles options dans lesquelles il gagne considérablement. La fonction clé ici est I (x), une fonction de relation qui montre comment la probabilité d'obtenir le résultat x diminue avec une augmentation du nombre de transactions. Ici x est un nombre, mais selon la tâche, il peut s'agir d'une trajectoire aléatoire, d'une structure de réseau aléatoire ou d'une géométrie aléatoire de l'univers. I (x) = 0 correspond à un cas typique avec une probabilité pas très faible - dans notre cas, c'est une option dans laquelle l'état du trader décroît avec un taux exponentiel. Les grandes valeurs de I (x) correspondent au x exponentiellement le moins probable.

La valeur moyenne détermine un compromis entre une probabilité décroissante exponentiellement et un état augmentant exponentiellement. Certains de x s'avèrent être très grands, malgré la petite taille de la probabilité qui leur correspond. L'optimisation de ce compromis confirme la notion intuitive naïve que le résultat commercial moyen sera égal à 1 million de dollars - même si vous pouvez être sûr que presque tous les traders perdront presque tout. S'il y a 1 million de commerçants et que chacun d'entre eux réalise un million d'opérations avec un capital de 1 million de dollars, le résultat moyen sera vraiment égal à 1 million de dollars. Mais cette moyenne sera déterminée par 1 à 2 commerçants, sur le compte desquels il y aura des centaines de milliards de dollars. La plupart de l'argent sera dans les comptes d'un petit nombre de commerçants aléatoires, et la plupart des commerçants perdront tout.

Les chances de gagner ou de rester chez vous ne dépassent pas 1 sur 100.

Nœud de téléphone


Le principal problème des réseaux de communication est de déterminer la probabilité de congestion. Le tampon de données du nœud téléphonique ou d'Internet peut avoir une capacité suffisante pour la charge moyenne, mais pas suffisante pour traiter un nombre inhabituel de demandes simultanées.

Les mathématiciens du laboratoire de Bella, Alan Weiss et Adam Shwartz, ont indiqué l'application de la théorie des grandes déviations aux réseaux de communication en 1995. En théorie, la probabilité d'un événement rare diminue de façon exponentielle avec la taille du système. Dans le langage des mathématiques, la probabilité change comme e -n * I (x) , où n désigne la taille, x est le chemin vers un événement rare, I est la fonction de rapport donnant la probabilité relative de choisir ce chemin. Les événements rares se produisent généralement de manière prévisible - un événement qui minimise la fonction de relation - et se produisent en groupes séparés par de longs intervalles de temps.

Dans toute tâche, la difficulté consiste à déterminer (et à interpréter avec succès) la fonction relationnelle. Il donne la probabilité relative de toutes les séquences de charges, à partir desquelles des combinaisons conduisant à des surcharges et ayant la plus petite valeur de la fonction de rapport, c'est-à-dire la plus grande probabilité, peuvent être dérivées. Ces combinaisons déterminent la fréquence de congestion, ainsi que leur nature: combien de sources seront actives, quelles sources elles seront et à quelle vitesse elle parviendra à faire face à la congestion.

À titre d'exemple simple, considérons un réseau téléphonique dans lequel chacun d'un grand nombre d'utilisateurs - disons, un million - se connecte à des moments aléatoires, de sorte qu'en moyenne, ils restent sur la ligne 1% du temps. (Nous supposons qu'ils font des appels indépendamment les uns des autres et avec des chances égales à tout moment de la journée). Le réseau a besoin de 10 000 lignes de communication pour répondre à la demande moyenne. L'entreprise, en utilisant des écarts importants, a estimé que lorsque 10 500 lignes de communication seraient mises en service, elle serait en état de surcharge pendant environ 2 minutes par an.

Imaginez qu'en plus du réseau, un demi-million de joueurs commencent à utiliser des consoles en ligne 1% du temps, mais nécessitent une large bande passante - ils prennent chacun 5 lignes. Les nouveaux utilisateurs ont également besoin de 10 000 lignes en moyenne, de sorte que la société décide de doubler sa capacité à 21 000 lignes. Mais en conséquence, le réseau est surchargé pendant plusieurs minutes par semaine. Une analyse de la fonction de relation montre que les joueurs utilisant la même capacité de réseau en moyenne que les autres utilisateurs utilisent 8% de lignes supplémentaires pendant la congestion, et que 250 lignes supplémentaires rétabliront la disponibilité du réseau. Si nous traçons la charge du réseau quelques secondes avant la congestion, nous verrons qu'elle suit presque toujours un certain modèle, en se courbant doucement vers le haut avant de buter brutalement au plafond - et cette courbe peut également être calculée comme une fonction de rapport de minimisation.

Dans les réseaux décentralisés modernes échangeant des paquets, la fonction de relation peut aider à détecter les botnets, les réseaux d'ordinateurs infectés par des virus que les criminels utilisent pour envoyer du spam et des attaques sur les systèmes. L'idée est d'identifier l'ordinateur contrôlant le botnet qui communique avec un nombre inhabituellement élevé d'autres ordinateurs, puis de confirmer l'identification en trouvant des corrélations inhabituelles dans les ordinateurs avec lesquels il communique. À cette fin, des chercheurs de l'Université de Boston ont utilisé une fonction de relation qui pourrait décrire, parmi toutes les raisons, pourquoi un ensemble improbable d'ordinateurs non connectés pourrait communiquer avec le même serveur distant, laquelle des options de corrélation de leurs communications serait la plus probable. (Wang, J. & Paschalidis, IC Botnet detection based on anomaly and community detection. IEEE Transactions on Control of Network Systems (2016). Récupéré de DOI: 10.1109 / TCNS.2016.2532804.)

Graine endormie


Diapause - un retard dans le développement biologique, se produisant souvent à un stade précoce. De nombreuses espèces végétales produisent des graines qui ne commencent pas à se développer immédiatement, mais restent dormantes pendant longtemps et forment un approvisionnement stable. Étant donné que la bataille pour la survie se transforme généralement en "qui arrive en premier et en plus", un retard de développement aléatoire est un petit mystère environnemental.

Afin de comprendre la situation, Shripad Tuljapurkar et moi-même avons examiné dans notre travail conjoint un modèle simple: une espèce avec un cycle de vie de deux ans dans laquelle elle passe de la graine à l'adulte pendant la première année et passe la seconde dans la production de graines. (Steinsaltz, D. & Tuljapurkar, S. Taux de croissance stochastiques pour les cycles biologiques avec migration ou diapause rares. ArXiv: 1505.00116 (2015).) Nous avons posé la question suivante: comment le taux de croissance affectera-t-il le fait que certaines graines resteront en hibernation depuis un an?

Dans le cas où la croissance, la survie et la production de graines d'une année à l'autre restent constantes, la réponse est évidente: le retard de croissance des individus retarde la croissance de la population. Mais dans des conditions environnementales variables, tout se passe différemment. Même un léger retard entraîne une forte augmentation de la population.

image

Si 1% des graines attendaient un an, on s'attendrait à ce qu'une trajectoire généalogique typique subisse 1 retard de 100 ans et tomberait dans des conditions environnementales typiques en grandissant. Mais les générations suivantes de semences auront des trajectoires très rares qui persisteront plus souvent, dans lesquelles ces retards se produisent uniquement dans les pires années, lorsque la croissance signifie une mort presque certaine ou l'incapacité de produire des semences. Ces trajectoires servent de grandes déviations - exponentiellement rares - mais au fil du temps, elles produisent exponentiellement plus de descendants. Le taux de croissance de la population est finalement déterminé par ces trajectoires improbables. En d'autres termes, si nous retraçons la trajectoire d'un individu vivant aujourd'hui, cela ressemblera à une séquence d'accidents réussis.

Le même calcul fonctionne pour la migration, soutenant le principe important de la protection de l'habitat: la vue bénéficiera de la possibilité de se déplacer entre deux territoires également bons où les conditions météorologiques changent au hasard d'une année à l'autre. Chaque individu, traçant l'histoire familiale, y trouvera des ancêtres qui se sont enfuis d'un endroit, par hasard, juste avant le début du cataclysme, ou sont arrivés dans un autre endroit juste au moment où il y avait beaucoup de nourriture. C'est un cas particulier d'évolution banale: la plupart des organismes vivants meurent sans laisser de progéniture, mais vous pouvez suivre vos ancêtres pendant des milliards de générations et ne rencontrer aucun de ces perdants. Heureusement pour vous!

Centenaires


Ayant vécu jusqu'à un certain âge - ce qui s'avère être inférieur à ce que la plupart des gens pensent, car la probabilité que vous viviez une autre année est au maximum de 12 ans - vous serez confronté au fait que votre condition physique et votre probabilité de vivre une autre année tout le temps diminue, même si pendant de courtes périodes, vous pouvez obtenir une amélioration. Les démographes théoriques ont considéré les modèles de vieillissement dans lesquels la «capacité de survie» d'un individu sert de variable aléatoire qui change par petites étapes, et qui est plus susceptible de changer vers le bas que vers le haut, et la probabilité de décès augmente d'autant plus que la capacité de survie est faible.

Sans surprise, suivant ce modèle, on peut calculer que la survie moyenne d'une population diminue en fonction de l'âge ... jusqu'à un certain point. Mais une petite partie de la population survit jusqu'à un certain âge, et ce sont des individus exceptionnels. Ils ont peut-être eu la chance de gagner à la loterie génétique. Peut-être que les secousses aléatoires de la vie les ont dirigées dans une direction relativement positive.

Quoi qu'il en soit, le modèle prédit que la capacité de survie des survivants cesse progressivement de diminuer. Chaque individu diminue toujours, mais ceux qui ont diminué sont emmenés par une vieille femme avec une faux. La survivabilité totale des survivants atteint un équilibre appelé «distribution quasi-stationnaire» entre les trajectoires individuelles descendant et éliminant les individus excédentaires dans la partie inférieure de la distribution de survie.

Dans le langage des écarts importants, il y a une fonction du rapport I (x) - où x est le record de survie pour la vie - qui est nul pour les trajectoires qui restent proches de la moyenne. Ceux qui s'écartent fortement de la moyenne ont une fonction de relation positive, c'est-à-dire que leur probabilité est exponentiellement inférieure. Dans un modèle typique, vous pouvez constater que parmi tous les chemins de vie qui durent de façon inhabituelle, les plus probables sont ceux qui ont accidentellement maintenu la survie à un niveau anormalement élevé que ceux qui ont suivi un chemin descendant normal et ne sont pas morts accidentellement.

Il s'ensuit que le taux de mortalité - la probabilité de mourir l'année suivante pour un individu d'un certain âge - augmente à l'âge adulte, puis se stabilise à un âge très respectable. Un tel schéma, le «plateau de mortalité», peut être clairement vu dans des organismes tels que la drosophile et les nématodes, s'il est observé en grande quantité dans les mêmes conditions de laboratoire - le taux de mortalité est égalisé dans la drosophile de laboratoire la plus courante, Drosophila melanogaster, déjà à l'âge de 4 semaines. (Vaupel, JW, et al. Trajectoires biodémographiques de longévité. Science 280, 855-860 (1998).)

Le plateau de la mortalité ne s'est manifesté chez les personnes que lorsque la population a augmenté et que les soins de santé se sont améliorés pour permettre à suffisamment de personnes de vivre jusqu'à 100 ans ou plus. En moyenne, le taux de mortalité d'une personne double tous les 8 ans, allant de 30 s quelque chose à 90 s quelque chose. Si l'on prend un échantillon d'Américains nés en 1900, leur taux de mortalité à 90 ans était d'environ 0,16, soit 16% d'entre eux sont décédés cette année. Il fait plus que doubler à l'âge de 98 ans, puis il ne double jamais. Le taux de mortalité le plus élevé enregistré est de 0,62 à l'âge de 108 ans. Après cela, les données deviennent très petites, mais une analyse approfondie des personnes de plus de 110 ans du monde entier montre de manière convaincante que dans les conditions actuelles, le coefficient égalisera quelque part dans la plage de 0,4 à 0,7. (Vaupel, JW & Robine, JM Emergence of supercentenarians in low-mortalité countries. North American Actuarial Journal 6, 54-63 (2002))

Source: https://habr.com/ru/post/fr401517/


All Articles