Eine kurze EinfĂŒhrung in Markov-Ketten

Bild

Im Jahr 1998 veröffentlichten Lawrence Page, Sergey Brin, Rajiv Motwani und Terry Vinograd den Artikel „Das PageRank-Zitierranking: Ordnung ins Web bringen“, in dem der mittlerweile berĂŒhmte PageRank-Algorithmus beschrieben wurde, der zur Grundlage von Google wurde. Nach etwas weniger als zwei Jahrzehnten wurde Google ein Riese, und obwohl sich sein Algorithmus stark weiterentwickelt hat, ist PageRank immer noch das „Symbol“ fĂŒr Google-Ranking-Algorithmen (obwohl nur wenige Menschen wirklich sagen können, wie viel Gewicht der Algorithmus heute benötigt). .

Aus theoretischer Sicht ist es interessant festzustellen, dass eine der Standardinterpretationen des PageRank-Algorithmus auf einem einfachen, aber grundlegenden Konzept von Markov-Ketten basiert. Aus dem Artikel werden wir sehen, dass Markov-Ketten leistungsstarke Werkzeuge fĂŒr die stochastische Modellierung sind, die fĂŒr jeden Datenwissenschaftler nĂŒtzlich sein können. Insbesondere werden wir solche grundlegenden Fragen beantworten: Was sind Markov-Ketten, welche guten Eigenschaften besitzen sie und was kann mit ihrer Hilfe getan werden?

Kurzer RĂŒckblick


Im ersten Abschnitt geben wir die grundlegenden Definitionen an, die zum VerstĂ€ndnis der Markov-Ketten erforderlich sind. Im zweiten Abschnitt betrachten wir den Sonderfall von Markov-Ketten in einem endlichen Zustandsraum. Im dritten Abschnitt betrachten wir einige der elementaren Eigenschaften von Markov-Ketten und veranschaulichen diese Eigenschaften anhand vieler kleiner Beispiele. Schließlich verknĂŒpfen wir im vierten Abschnitt die Markov-Ketten mit dem PageRank-Algorithmus und sehen anhand eines kĂŒnstlichen Beispiels, wie Markov-Ketten zum Einordnen der Knoten eines Graphen verwendet werden können.

Hinweis Um diesen Beitrag zu verstehen, mĂŒssen Sie die Grundlagen der Wahrscheinlichkeit und der linearen Algebra kennen. Insbesondere werden die folgenden Konzepte verwendet: bedingte Wahrscheinlichkeit , Eigenvektor und Formel mit voller Wahrscheinlichkeit .



Was sind Markov-Ketten?


Zufallsvariablen und zufÀllige Prozesse


Bevor wir das Konzept der Markov-Ketten einfĂŒhren, erinnern wir uns kurz an die grundlegenden, aber wichtigen Konzepte der Wahrscheinlichkeitstheorie.

Erstens ist eine Zufallsvariable X außerhalb der Sprache der Mathematik eine GrĂ¶ĂŸe, die durch das Ergebnis eines ZufallsphĂ€nomens bestimmt wird. Das Ergebnis kann eine Zahl (oder "Ähnlichkeit einer Zahl", beispielsweise Vektoren) oder etwas anderes sein. Zum Beispiel können wir eine Zufallsvariable als Ergebnis eines WĂŒrfelwurfs (Zahl) oder als Ergebnis eines MĂŒnzwurfs definieren (keine Zahl, es sei denn, wir bezeichnen beispielsweise "Adler" als 0, aber "SchwĂ€nze" als 1). Wir erwĂ€hnen auch, dass der Raum möglicher Ergebnisse einer Zufallsvariablen diskret oder stetig sein kann: Beispielsweise ist eine normale Zufallsvariable stetig und eine Poisson-Zufallsvariable diskret.

Ferner können wir einen zufĂ€lligen Prozess (auch als stochastisch bezeichnet) als eine Menge von Zufallsvariablen definieren, die durch die Menge T indiziert werden, die hĂ€ufig unterschiedliche Zeitpunkte bezeichnet (im Folgenden werden wir dies annehmen). Die beiden hĂ€ufigsten FĂ€lle: T kann entweder eine Menge natĂŒrlicher Zahlen (zufĂ€lliger Prozess mit diskreter Zeit) oder eine Menge reeller Zahlen (zufĂ€lliger Prozess mit kontinuierlicher Zeit) sein. Wenn wir beispielsweise jeden Tag eine MĂŒnze werfen, legen wir einen zufĂ€lligen Prozess mit diskreter Zeit fest, und der sich stĂ€ndig Ă€ndernde Wert einer Option an der Börse legt einen zufĂ€lligen Prozess mit kontinuierlicher Zeit fest. ZufĂ€llige Variablen zu verschiedenen Zeitpunkten können unabhĂ€ngig voneinander sein (ein Beispiel mit einem MĂŒnzwurf) oder eine gewisse AbhĂ€ngigkeit aufweisen (ein Beispiel mit dem Optionswert). DarĂŒber hinaus können sie einen kontinuierlichen oder diskreten Zustandsraum haben (den Raum möglicher Ergebnisse zu jedem Zeitpunkt).


Verschiedene Arten von Zufallsprozessen (diskret / kontinuierlich in Raum / Zeit).

Markov-Eigenschaft und Markov-Kette


Es gibt bekannte Familien zufĂ€lliger Prozesse: Gaußsche Prozesse, Poisson-Prozesse, autoregressive Modelle, Modelle mit gleitendem Durchschnitt, Markov-Ketten und andere. Jeder dieser EinzelfĂ€lle hat bestimmte Eigenschaften, die es uns ermöglichen, sie besser zu untersuchen und zu verstehen.

Eine der Eigenschaften, die das Studium eines zufĂ€lligen Prozesses erheblich vereinfacht, ist die Markov-Eigenschaft. Wenn wir es in einer sehr informellen Sprache erklĂ€ren, sagt uns die Markov-Eigenschaft, dass wir, wenn wir den Wert kennen, der durch einen zufĂ€lligen Prozess zu einem bestimmten Zeitpunkt erhalten wird, keine zusĂ€tzlichen Informationen ĂŒber das zukĂŒnftige Verhalten des Prozesses erhalten und andere Informationen ĂŒber seine Vergangenheit sammeln. In einer mathematischeren Sprache: Zu jedem Zeitpunkt hĂ€ngt die bedingte Verteilung zukĂŒnftiger ZustĂ€nde eines Prozesses mit gegebenen aktuellen und vergangenen ZustĂ€nden nur vom aktuellen Zustand ab und nicht von vergangenen ZustĂ€nden (die Eigenschaft des Speichermangels ). Ein zufĂ€lliger Prozess mit einer Markov-Eigenschaft wird als Markov-Prozess bezeichnet .


Die Markov-Eigenschaft bedeutet, dass wir, wenn wir den aktuellen Status zu einem bestimmten Zeitpunkt kennen, keine zusĂ€tzlichen Informationen ĂŒber die Zukunft benötigen, die aus der Vergangenheit stammen.

Basierend auf dieser Definition können wir die Definition von "homogenen Markov-Ketten mit diskreter Zeit" formulieren (im Folgenden werden wir sie der Einfachheit halber "Markov-Ketten" nennen). Die Markov-Kette ist ein Markov-Prozess mit diskreter Zeit und einem diskreten Zustandsraum. Eine Markov-Kette ist also eine diskrete Folge von ZustĂ€nden, von denen jeder aus einem diskreten Zustandsraum (endlich oder unendlich) stammt und die Markov-Eigenschaft erfĂŒllt.

Mathematisch können wir die Markov-Kette wie folgt bezeichnen:


wobei zu jedem Zeitpunkt der Prozess seine Werte aus einer diskreten Menge E bezieht, so dass


Dann impliziert die Markov-Eigenschaft, dass wir haben


Beachten Sie erneut, dass diese letzte Formel die Tatsache widerspiegelt, dass fĂŒr die Chronologie (wo ich jetzt bin und wo ich vorher war) die Wahrscheinlichkeitsverteilung des nĂ€chsten Zustands (wo ich der nĂ€chste sein werde) vom aktuellen Zustand abhĂ€ngt, jedoch nicht von frĂŒheren ZustĂ€nden.

Hinweis In diesem EinfĂŒhrungsbeitrag haben wir beschlossen, nur ĂŒber einfache homogene Markov-Ketten mit diskreter Zeit zu sprechen. Es gibt jedoch auch inhomogene (zeitabhĂ€ngige) Markov-Ketten und / oder zeitkontinuierliche Ketten. In diesem Artikel werden solche Variationen des Modells nicht berĂŒcksichtigt. Es ist auch erwĂ€hnenswert, dass die obige Definition einer Markov-Eigenschaft extrem vereinfacht ist: Die wahre mathematische Definition verwendet das Konzept der Filterung, das weit ĂŒber unsere einfĂŒhrende Kenntnis des Modells hinausgeht.

Wir charakterisieren die Zufallsdynamik einer Markov-Kette


Im vorherigen Unterabschnitt haben wir die allgemeine Struktur einer Markov-Kette kennengelernt. Mal sehen, was wir brauchen, um eine bestimmte "Instanz" eines solchen zufÀlligen Prozesses festzulegen.

ZunĂ€chst stellen wir fest, dass die vollstĂ€ndige Bestimmung der Eigenschaften eines zufĂ€lligen Prozesses mit diskreter Zeit, die die Markov-Eigenschaft nicht erfĂŒllt, schwierig sein kann: Die Wahrscheinlichkeitsverteilung zu einem bestimmten Zeitpunkt kann von einem oder mehreren Momenten in der Vergangenheit und / oder Zukunft abhĂ€ngen. All diese möglichen ZeitabhĂ€ngigkeiten können möglicherweise die Erstellung einer Prozessdefinition erschweren.

Aufgrund der Markov-Eigenschaft ist die Dynamik der Markov-Kette jedoch recht einfach zu bestimmen. Und in der Tat. wir mĂŒssen nur zwei Aspekte bestimmen: die anfĂ€ngliche Wahrscheinlichkeitsverteilung (d. h. die Wahrscheinlichkeitsverteilung zum Zeitpunkt n = 0), bezeichnet mit


und die Übergangswahrscheinlichkeitsmatrix (die uns die Wahrscheinlichkeiten gibt, dass der Zustand zum Zeitpunkt n + 1 der nĂ€chste fĂŒr einen anderen Zustand zum Zeitpunkt n fĂŒr ein beliebiges Zustandspaar ist), bezeichnet mit


Wenn diese beiden Aspekte bekannt sind, ist die vollstÀndige (probabilistische) Dynamik des Prozesses klar definiert. TatsÀchlich kann die Wahrscheinlichkeit eines Ergebnisses des Prozesses dann zyklisch berechnet werden.

Beispiel: Angenommen, wir möchten die Wahrscheinlichkeit wissen, dass die ersten drei ZustĂ€nde des Prozesses Werte haben (s0, s1, s2). Das heißt, wir wollen die Wahrscheinlichkeit berechnen


Hier wenden wir die Formel fĂŒr die Gesamtwahrscheinlichkeit an, die besagt, dass die Wahrscheinlichkeit des Erhaltens (s0, s1, s2) gleich der Wahrscheinlichkeit des Erhaltens des ersten s0-fachen der Wahrscheinlichkeit des Erhaltens von s1 ist, vorausgesetzt, wir haben zuvor das s0-fache der Wahrscheinlichkeit des Erhaltens von s2 unter BerĂŒcksichtigung der Tatsache erhalten, dass wir haben frĂŒher in der Reihenfolge s0 und s1. Mathematisch kann dies geschrieben werden als


Und dann wird eine Vereinfachung offenbart, die durch die Markov-Annahme bestimmt wird. TatsĂ€chlich erhalten wir bei langen Ketten stark bedingte Wahrscheinlichkeiten fĂŒr die letzteren ZustĂ€nde. Im Fall von Markov-Ketten können wir diesen Ausdruck jedoch vereinfachen, indem wir die Tatsache ausnutzen, dass


auf diese Weise bekommen


Da sie die probabilistische Dynamik des Prozesses vollstĂ€ndig charakterisieren, können viele komplexe Ereignisse nur auf der Grundlage der anfĂ€nglichen Wahrscheinlichkeitsverteilung q0 und der Übergangswahrscheinlichkeitsmatrix p berechnet werden. ErwĂ€hnenswert ist auch eine weitere grundlegende Verbindung: der Ausdruck der Wahrscheinlichkeitsverteilung zum Zeitpunkt n + 1, ausgedrĂŒckt in Bezug auf die Wahrscheinlichkeitsverteilung zum Zeitpunkt n


Markov-Ketten in endlichen ZustandsrÀumen


Matrix- und Graphendarstellung


Hier nehmen wir an, dass die Menge E eine endliche Anzahl möglicher ZustÀnde N hat:


Dann kann die anfĂ€ngliche Wahrscheinlichkeitsverteilung als ein Zeilenvektor q0 der GrĂ¶ĂŸe N beschrieben werden, und Übergangswahrscheinlichkeiten können als eine Matrix p der GrĂ¶ĂŸe N durch N beschrieben werden, so dass


Der Vorteil dieser Notation besteht darin, dass wir die Wahrscheinlichkeitsverteilung in Schritt n durch den Zeilenvektor qn so bezeichnen, dass seine Komponenten spezifiziert werden


dann bleiben einfache Matrixrelationen erhalten


(hier werden wir den Beweis nicht betrachten, aber es ist sehr einfach, ihn zu reproduzieren).


Wenn wir den Zeilenvektor rechts, der die Wahrscheinlichkeitsverteilung zu einem bestimmten Zeitpunkt beschreibt, mit der Übergangswahrscheinlichkeitsmatrix multiplizieren, erhalten wir die Wahrscheinlichkeitsverteilung zum nĂ€chsten Zeitpunkt.

Wie wir sehen, wird der Übergang der Wahrscheinlichkeitsverteilung von einer gegebenen Stufe zur nĂ€chsten einfach als die richtige Multiplikation des Zeilenvektors der Wahrscheinlichkeiten des Anfangsschritts mit der Matrix p definiert. DarĂŒber hinaus impliziert dies, dass wir haben


Die zufĂ€llige Dynamik einer Markov-Kette in einem endlichen Zustandsraum kann leicht als normalisierter orientierter Graph dargestellt werden, so dass jeder Knoten des Graphen ein Zustand ist und fĂŒr jedes Zustandspaar (ei, ej) eine Kante existiert, die von ei nach ej geht, wenn p (ei, ej) )> 0. Dann ist der Kantenwert die gleiche Wahrscheinlichkeit p (ei, ej).

Beispiel: ein Leser unserer Website


Lassen Sie uns dies alles anhand eines einfachen Beispiels veranschaulichen. Betrachten Sie das alltÀgliche Verhalten eines fiktiven Besuchers einer Site. Jeden Tag hat er drei mögliche Bedingungen: Der Leser besucht die Site an diesem Tag nicht (N), der Leser besucht die Site, liest jedoch nicht den gesamten Beitrag (V), und der Leser besucht die Site und liest einen gesamten Post (R). Wir haben also den folgenden Zustandsraum:


Angenommen, dieser Leser hat am ersten Tag eine 50% ige Chance, nur auf die Site zuzugreifen, und eine 50% ige Chance, die Site zu besuchen und mindestens einen Artikel zu lesen. Der Vektor, der die anfĂ€ngliche Wahrscheinlichkeitsverteilung beschreibt (n = 0), sieht dann folgendermaßen aus:


Stellen Sie sich auch vor, dass die folgenden Wahrscheinlichkeiten eingehalten werden:

  • Wenn der Leser einen Tag nicht besucht, besteht eine Wahrscheinlichkeit von 25%, ihn am nĂ€chsten Tag nicht zu besuchen, eine Wahrscheinlichkeit von 50%, ihn nur zu besuchen, und eine Wahrscheinlichkeit von 25%, den Artikel zu besuchen und zu lesen
  • Wenn der Leser die Website eines Tages besucht, aber nicht liest, hat er eine 50% ige Chance, sie am nĂ€chsten Tag erneut zu besuchen und den Artikel nicht zu lesen, und eine 50% ige Chance, sie zu besuchen und zu lesen
  • Wenn ein Leser einen Artikel am selben Tag besucht und liest, hat er eine 33% ige Chance, sich am nĂ€chsten Tag nicht anzumelden (ich hoffe, dieser Beitrag hat keinen solchen Effekt!) , eine 33% ige Chance, sich nur auf der Website anzumelden, und 34%, den Artikel erneut zu besuchen und zu lesen

Dann haben wir die folgende Übergangsmatrix:


Aus dem vorherigen Unterabschnitt wissen wir, wie wir fĂŒr diesen Leser die Wahrscheinlichkeit jedes Zustands am nĂ€chsten Tag berechnen können (n = 1).


Die probabilistische Dynamik dieser Markov-Kette kann wie folgt grafisch dargestellt werden:


PrÀsentation in Form eines Diagramms der Markov-Kette, das das Verhalten unseres erfundenen Besuchers der Website modelliert.

Eigenschaften von Markov-Ketten


In diesem Abschnitt werden wir nur auf einige der grundlegendsten Eigenschaften oder Merkmale von Markov-Ketten eingehen. Wir werden nicht auf mathematische Details eingehen, sondern einen kurzen Überblick ĂŒber interessante Punkte geben, die untersucht werden mĂŒssen, um Markov-Ketten zu verwenden. Wie wir gesehen haben, kann im Fall eines endlichen Zustandsraums die Markov-Kette als Graph dargestellt werden. In Zukunft werden wir die grafische Darstellung verwenden, um einige Eigenschaften zu erklĂ€ren. Vergessen Sie jedoch nicht, dass diese Eigenschaften nicht unbedingt auf den Fall eines endlichen Zustandsraums beschrĂ€nkt sind.

Zersetzbarkeit, PeriodizitÀt, Unwiderruflichkeit und Wiederherstellbarkeit


Beginnen wir in diesem Unterabschnitt mit mehreren klassischen Methoden zur Charakterisierung eines Zustands oder einer gesamten Markov-Kette.

ZunÀchst erwÀhnen wir, dass die Markov-Kette nicht zusammensetzbar ist, wenn es möglich ist, einen Zustand von einem anderen Zustand aus zu erreichen (dies ist nicht in einem Schritt erforderlich). Wenn der Zustandsraum endlich ist und die Kette als Graph dargestellt werden kann, können wir sagen, dass der Graph einer nicht zusammensetzbaren Markov-Kette stark verbunden ist (Graphentheorie).


Darstellung der Eigenschaft der Unzusammensetzbarkeit (IrreduzibilitĂ€t). Die Kette links kann nicht gekĂŒrzt werden: von 3 oder 4 können wir nicht in 1 oder 2 gelangen. Die Kette rechts (eine Kante wird hinzugefĂŒgt) kann gekĂŒrzt werden: Jeder Zustand kann von jedem anderen aus erreicht werden.

Ein Zustand hat eine Periode k, wenn beim Verlassen fĂŒr eine RĂŒckkehr in diesen Zustand die Anzahl der Zeitschritte ein Vielfaches von k ist (k ist der grĂ¶ĂŸte gemeinsame Teiler aller möglichen LĂ€ngen von RĂŒckkehrpfaden). Wenn k = 1 ist, sagen sie, dass der Zustand aperiodisch ist und die gesamte Markov-Kette aperiodisch ist, wenn alle ihre ZustĂ€nde aperiodisch sind. Im Fall einer irreduziblen Markov-Kette können wir auch erwĂ€hnen, dass, wenn ein Zustand aperiodisch ist, alle anderen ebenfalls aperiodisch sind.


Darstellung der PeriodizitĂ€tseigenschaft. Die Kette links ist periodisch mit k = 2: Wenn Sie einen Zustand verlassen, erfordert die RĂŒckkehr immer die Anzahl der Schritte multipliziert mit 2. Die Kette rechts hat eine Periode von 3.

Ein Staat ist unwiderruflich, wenn beim Verlassen des Staates eine Wahrscheinlichkeit ungleich Null besteht, dass wir niemals zu ihm zurĂŒckkehren werden. Umgekehrt gilt ein Staat als rĂŒckzahlbar, wenn wir wissen, dass wir nach Verlassen des Staates in Zukunft mit Wahrscheinlichkeit 1 zu ihm zurĂŒckkehren können (wenn er nicht unwiderruflich ist).


Abbildung der RĂŒckgabe- / Unwiderruflichkeitseigenschaft. Die Kette auf der linken Seite hat die folgenden Eigenschaften: 1, 2 und 3 sind unwiderruflich (wenn wir diese Punkte verlassen, können wir nicht absolut sicher sein, dass wir zu ihnen zurĂŒckkehren) und haben eine Periode von 3, und 4 und 5 sind rĂŒckzahlbar (wenn wir diese Punkte verlassen, sind wir absolut sicher dass wir eines Tages zu ihnen zurĂŒckkehren werden) und eine Periode von 2 haben. Die Kette auf der rechten Seite hat eine weitere Rippe, wodurch die gesamte Kette rĂŒckzahlbar und aperiodisch wird.

FĂŒr den RĂŒckgabezustand können wir die durchschnittliche RĂŒckgabezeit berechnen, die die erwartete RĂŒckgabezeit beim Verlassen des Zustands ist. Beachten Sie, dass selbst die Wahrscheinlichkeit einer RĂŒckgabe 1 betrĂ€gt. Dies bedeutet nicht, dass die erwartete RĂŒckgabezeit endlich ist. Daher können wir unter allen RĂŒckkehrzustĂ€nden zwischen positiven RĂŒckkehrzustĂ€nden (mit einer endlichen erwarteten RĂŒckkehrzeit) und Null-RĂŒckkehrzustĂ€nden (mit einer unendlichen erwarteten RĂŒckkehrzeit) unterscheiden.

StationÀre Verteilung, Randverhalten und ErgodizitÀt


In diesem Unterabschnitt betrachten wir Eigenschaften, die einige Aspekte der (zufÀlligen) Dynamik charakterisieren, die von der Markov-Kette beschrieben wird.

Die Wahrscheinlichkeitsverteilung π ĂŒber den Zustandsraum E wird als stationĂ€re Verteilung bezeichnet, wenn sie den Ausdruck erfĂŒllt


Da haben wir


Dann erfĂŒllt die stationĂ€re Verteilung den Ausdruck


Per Definition Ă€ndert sich die stationĂ€re Wahrscheinlichkeitsverteilung nicht ĂŒber die Zeit. Das heißt, wenn die Anfangsverteilung q stationĂ€r ist, ist sie in allen nachfolgenden Zeitstufen gleich. Wenn der Zustandsraum endlich ist, kann p als Matrix und π als Zeilenvektor dargestellt werden, und dann erhalten wir


Dies drĂŒckt erneut die Tatsache aus, dass sich die stationĂ€re Wahrscheinlichkeitsverteilung nicht mit der Zeit Ă€ndert (wie wir sehen, können wir durch Multiplizieren der Wahrscheinlichkeitsverteilung rechts mit p die Wahrscheinlichkeitsverteilung in der nĂ€chsten Zeitstufe berechnen). Beachten Sie, dass eine nicht zusammensetzbare Markov-Kette genau dann eine stationĂ€re Wahrscheinlichkeitsverteilung aufweist, wenn einer ihrer ZustĂ€nde eine positive Rendite aufweist.

Eine weitere interessante Eigenschaft im Zusammenhang mit der stationÀren Wahrscheinlichkeitsverteilung ist wie folgt. Wenn die Kette eine positive Rendite (dh eine stationÀre Verteilung) und eine aperiodische Verteilung aufweist, konvergiert die Wahrscheinlichkeitsverteilung der Kette unabhÀngig von den anfÀnglichen Wahrscheinlichkeiten, wenn die Zeitintervalle gegen unendlich tendieren: Sie sagen, dass die Kette eine begrenzende Verteilung hat , was nichts anderes ist. als stationÀre Verteilung. Im Allgemeinen kann es so geschrieben werden:


Wir betonen noch einmal, dass wir keine Annahmen ĂŒber die anfĂ€ngliche Wahrscheinlichkeitsverteilung treffen: Die Wahrscheinlichkeitsverteilung der Kette reduziert sich unabhĂ€ngig von den Anfangsparametern auf eine stationĂ€re Verteilung (Gleichgewichtsverteilung der Kette).

Schließlich ist ErgodizitĂ€t eine weitere interessante Eigenschaft im Zusammenhang mit dem Verhalten der Markov-Kette. Wenn die Markov-Kette nicht zusammensetzbar ist, wird auch gesagt, dass sie „ergodisch“ ist, weil sie den folgenden ergodischen Satz erfĂŒllt. Angenommen, wir haben eine Funktion f (.), Die vom Zustandsraum E zur Achse geht (dies kann zum Beispiel der Preis sein, in jedem Zustand zu sein). Wir können den Durchschnittswert bestimmen, der diese Funktion entlang einer bestimmten Trajektorie bewegt (zeitlicher Durchschnitt). FĂŒr den n-ten ersten Term wird dies als bezeichnet


Wir können auch den Durchschnittswert der Funktion f auf der Menge E berechnen, gewichtet mit der stationÀren Verteilung (rÀumlicher Durchschnitt), die bezeichnet wird


Dann sagt uns der Ergodensatz, dass, wenn die Flugbahn unendlich lang wird, der Zeitmittelwert gleich dem rÀumlichen Durchschnitt ist (gewichtet mit der stationÀren Verteilung). Die ErgodizitÀtseigenschaft kann wie folgt geschrieben werden:


Mit anderen Worten bedeutet dies, dass in der frĂŒheren Grenze das Verhalten der Trajektorie unbedeutend wird und nur das langfristige stationĂ€re Verhalten bei der Berechnung des zeitlichen Durchschnitts wichtig ist.

Kehren wir zum Beispiel mit dem Site Reader zurĂŒck


Betrachten Sie erneut das Beispiel des Site-Readers. In diesem einfachen Beispiel ist es offensichtlich, dass die Kette nicht zusammensetzbar und aperiodisch ist und alle ihre ZustĂ€nde positiv zurĂŒckgegeben werden können.

Um zu zeigen, welche interessanten Ergebnisse mit Markov-Ketten berechnet werden können, betrachten wir die durchschnittliche Zeit der RĂŒckkehr zum Zustand R (der Zustand „besucht die Site und liest den Artikel“). Mit anderen Worten, wir möchten die folgende Frage beantworten: Wenn unser Leser eines Tages die Website besucht und einen Artikel liest, wie viele Tage mĂŒssen wir dann durchschnittlich warten, bis er zurĂŒckkommt und den Artikel liest? Versuchen wir, ein intuitives Konzept fĂŒr die Berechnung dieses Werts zu erhalten.

Zuerst bezeichnen wir


Wir wollen also m (R, R) berechnen. Wenn wir ĂŒber das erste Intervall sprechen, das nach dem Verlassen von R erreicht wurde, erhalten wir


Dieser Ausdruck erfordert jedoch, dass wir fĂŒr die Berechnung von m (R, R) m (N, R) und m (V, R) kennen. Diese beiden GrĂ¶ĂŸen können auf Ă€hnliche Weise ausgedrĂŒckt werden:


Wir haben also 3 Gleichungen mit 3 Unbekannten und nach dem Lösen erhalten wir m (N, R) = 2,67, m (V, R) = 2,00 und m (R, R) = 2,54. Die durchschnittliche Zeit, um zum Zustand R zurĂŒckzukehren, betrĂ€gt dann 2,54. Das heißt, unter Verwendung der linearen Algebra konnten wir die durchschnittliche Zeit bis zur RĂŒckkehr in den Zustand R berechnen (sowie die durchschnittliche Übergangszeit von N nach R und die durchschnittliche Übergangszeit von V nach R).

Lassen Sie uns zum Abschluss dieses Beispiels sehen, wie die stationĂ€re Verteilung der Markov-Kette aussehen wird. Um die stationĂ€re Verteilung zu bestimmen, mĂŒssen wir die folgende Gleichung der linearen Algebra lösen:


Das heißt, wir mĂŒssen den linken Eigenvektor p finden, der dem Eigenvektor 1 zugeordnet ist. Wenn wir dieses Problem lösen, erhalten wir die folgende stationĂ€re Verteilung:


StationÀre Verteilung im Beispiel mit dem Site Reader.

Sie können auch feststellen, dass π (R) = 1 / m (R, R) ist, und wenn ein wenig reflektiert wird, dann ist diese IdentitĂ€t ziemlich logisch (aber wir werden nicht im Detail darĂŒber sprechen).

Da die Kette nicht zusammensetzbar und aperiodisch ist, bedeutet dies, dass die Wahrscheinlichkeitsverteilung auf lange Sicht gegen eine stationĂ€re Verteilung konvergiert (fĂŒr alle Anfangsparameter). Mit anderen Worten, unabhĂ€ngig vom Ausgangszustand des Lesers der Site erhalten wir, wenn wir lange genug warten und zufĂ€llig einen Tag auswĂ€hlen, die Wahrscheinlichkeit π (N), dass der Leser die Site an diesem Tag nicht besucht, die Wahrscheinlichkeit π (V), dass Der Leser wird vorbeischauen, aber den Artikel nicht lesen, und die Wahrscheinlichkeit ist Ï€Âź, dass der Leser vorbeischaut und den Artikel liest. Um die Eigenschaft der Konvergenz besser zu verstehen, werfen wir einen Blick auf die folgende Grafik, die die Entwicklung der Wahrscheinlichkeitsverteilungen ausgehend von verschiedenen Startpunkten und (schnell) der Konvergenz zu einer stationĂ€ren Verteilung zeigt:


3 (, ) ().

: PageRank


PageRank! , , PageRank, , , . , .

-


PageRank versucht, das folgende Problem zu lösen: Wie ordnen wir einen vorhandenen Satz (wir können davon ausgehen, dass dieser Satz bereits durch eine Abfrage gefiltert wurde) mithilfe von Links, die bereits zwischen den Seiten vorhanden sind?

Um dieses Problem zu lösen und Seiten ordnen zu können, fĂŒhrt PageRank ungefĂ€hr den folgenden Prozess aus. Wir glauben, dass sich ein beliebiger Internetnutzer zum ersten Mal auf einer der Seiten befindet. Dann beginnt dieser Benutzer zufĂ€llig, sich zu bewegen, indem er auf jede Seite eines der Links klickt, die zu einer anderen Seite des betreffenden Satzes fĂŒhren (es wird angenommen, dass alle Links, die außerhalb dieser Seiten fĂŒhren, verboten sind). Auf jeder Seite haben alle gĂŒltigen Links die gleiche Wahrscheinlichkeit zu klicken.

So definieren wir die Markov-Kette: Seiten sind mögliche ZustĂ€nde, Übergangswahrscheinlichkeiten werden durch Links von Seite zu Seite festgelegt (so gewichtet, dass auf jeder Seite alle verknĂŒpften Seiten die gleiche Auswahlwahrscheinlichkeit haben), und die Eigenschaften des Speichermangels werden eindeutig durch das Benutzerverhalten bestimmt. Wenn wir auch annehmen, dass die gegebene Kette positiv zurĂŒckgegeben und aperiodisch ist (kleine Tricks werden verwendet, um diese Anforderungen zu erfĂŒllen), dann konvergiert die Wahrscheinlichkeitsverteilung der „aktuellen Seite“ auf lange Sicht zu einer stationĂ€ren Verteilung. Das heißt, unabhĂ€ngig von der ersten Seite hat jede Seite nach langer Zeit eine (fast feste) Wahrscheinlichkeit, aktuell zu werden, wenn wir einen zufĂ€lligen Zeitpunkt wĂ€hlen.

Der PageRank basiert auf der folgenden Hypothese: Die wahrscheinlichsten Seiten in einer stationĂ€ren Verteilung sollten auch die wichtigsten sein (wir besuchen diese Seiten hĂ€ufig, da sie Links von Seiten erhalten, die auch wĂ€hrend ÜbergĂ€ngen hĂ€ufig besucht werden). Dann bestimmt die stationĂ€re Wahrscheinlichkeitsverteilung den PageRank-Wert fĂŒr jeden Zustand.

KĂŒnstliches Beispiel


Um dies viel klarer zu machen, schauen wir uns ein kĂŒnstliches Beispiel an. Angenommen, wir haben eine winzige Website mit 7 Seiten mit den Bezeichnungen 1 bis 7, und die Links zwischen diesen Seiten entsprechen der folgenden Spalte.


Aus GrĂŒnden der Klarheit sind die Wahrscheinlichkeiten jedes Übergangs in der oben gezeigten Animation nicht gezeigt. Da jedoch davon ausgegangen wird, dass „Navigation“ ausschließlich zufĂ€llig sein sollte (dies wird als „zufĂ€lliges Gehen“ bezeichnet), können die Werte leicht anhand der folgenden einfachen Regel reproduziert werden: FĂŒr eine Site mit K ausgehenden Links (Seite mit K Links zu anderen Seiten) die Wahrscheinlichkeit jedes ausgehenden Links gleich 1 / K. Das heißt, die Übergangswahrscheinlichkeitsmatrix hat die Form:


wobei die Werte von 0,0 der Einfachheit halber durch "." ersetzt werden. Bevor wir weitere Berechnungen durchfĂŒhren, können wir feststellen, dass diese Markov-Kette nicht zusammensetzbar und aperiodisch ist, dh auf lange Sicht konvergiert das System zu einer stationĂ€ren Verteilung. Wie wir gesehen haben, kann diese stationĂ€re Verteilung berechnet werden, indem das folgende Problem des linken Eigenvektors gelöst wird


Auf diese Weise erhalten wir fĂŒr jede Seite die folgenden PageRank-Werte (stationĂ€re Verteilungswerte)


PageRank-Werte berechnet fĂŒr unser kĂŒnstliches Beispiel von 7 Seiten.

Dann ist das PageRank-Ranking dieser winzigen Website 1> 7> 4> 2> 5 = 6> 3.



Schlussfolgerungen


Wichtigste Ergebnisse aus diesem Artikel:

  • Zufallsprozesse sind SĂ€tze von Zufallsvariablen, die hĂ€ufig nach Zeit indiziert sind (Indizes geben hĂ€ufig diskrete oder kontinuierliche Zeit an).
  • FĂŒr einen zufĂ€lligen Prozess bedeutet die Markov-Eigenschaft, dass fĂŒr einen bestimmten Strom die Wahrscheinlichkeit der Zukunft nicht von der Vergangenheit abhĂ€ngt (diese Eigenschaft wird auch als „Speichermangel“ bezeichnet).
  • Die zeitdiskrete Markov-Kette besteht aus zufĂ€lligen Prozessen mit zeitdiskreten Indizes, die die Markov-Eigenschaft erfĂŒllen
  • ( , 
)
  • PageRank ( ) -, ; ( , , , )

, , . , , ( , , ), ( - ), ( ), ( ), .

NatĂŒrlich sind die enormen Möglichkeiten, die Markov-Ketten im Hinblick auf Modellierung und Berechnung bieten, viel grĂ¶ĂŸer als die in dieser bescheidenen Übersicht berĂŒcksichtigten. Wir hoffen daher, dass wir das Interesse des Lesers wecken konnten, diese Tools weiter zu untersuchen, die einen wichtigen Platz im Arsenal eines Wissenschaftlers und Datenexperten einnehmen.

Source: https://habr.com/ru/post/de455762/


All Articles