In einfachen Worten, das Regressionsmodell in der mathematischen Statistik basiert auf bekannten Daten, die Zahlenpaare sind. Die Anzahl solcher Paare ist vorbestimmt. Wenn Sie sich vorstellen, dass die erste Zahl in einem Paar der Wert der Koordinate ist x und der zweite y Dann kann die Menge solcher Zahlenpaare auf der Ebene im kartesischen Koordinatensystem als eine Menge von Punkten dargestellt werden. Diese Zahlenpaare werden nicht zufÀllig genommen. In der Praxis hÀngt die zweite Zahl in der Regel von der ersten ab. Eine Regression aufzubauen bedeutet, eine Linie (genauer gesagt eine Funktion) aufzunehmen, die sich so nah wie möglich vielen der oben genannten Punkte nÀhert (annÀhert).

WofĂŒr ist das alles? Dies ist vor allem fĂŒr die Vorbereitung der sogenannten notwendig Prognosen. MĂŒssen oft herausfinden
y nur wissen
x wenn es sich von denen X unterscheidet, auf deren Grundlage die Regression aufgebaut wurde. Ich werde ein einfaches Beispiel geben. Es gibt Statistiken ĂŒber die AbhĂ€ngigkeit des Wachstums einer Person von ihrem Alter, basierend auf 100 verschiedenen untersuchten Personen. Wir haben also 100 Zahlenpaare {Alter; Wachstum}. Gleichzeitig ist âWachstumâ eine abhĂ€ngige GröĂe und âAlterâ unabhĂ€ngig. Durch die korrekte Erstellung eines Regressionsmodells können wir das Wachstum mit Sicherheit anhand eines beliebigen Alterswerts âvorhersagenâ.
In der Praxis werden je nach Situation lineare, parabolische, Potenz- und andere Arten von Funktionen bei der Konstruktion von Regressionsmodellen verwendet. In der mathematischen Statistik wird am hĂ€ufigsten das lineare Regressionsmodell berĂŒcksichtigt. Manchmal berĂŒhren sie einen komplizierteren Fall - ein parabolisches Modell. Bei einer Verallgemeinerung ist es leicht zu erraten, dass lineare und parabolische Modelle besondere FĂ€lle eines komplexeren Modells sind - Polynom. Ein Regressionsmodell zu erstellen bedeutet, die Parameter der Funktion zu finden, die darin angezeigt werden. FĂŒr die lineare Regression - zwei Parameter: Koeffizient und freier Term.
Die Polynomregression kann in der mathematischen Statistik verwendet werden, um die Trendkomponenten von Zeitreihen zu modellieren. Eine Zeitreihe ist in der Tat eine Reihe von Zahlen, die von der Zeit abhÀngen. Zum Beispiel die durchschnittliche Tagestemperatur des vergangenen Jahres oder das monatliche Einkommen des Unternehmens. Die Reihenfolge des simulierten Polynoms wird durch spezielle Methoden bewertet, beispielsweise durch das Kriterium der Reihe. Das Ziel, ein Modell der Polynomregression im Bereich der Zeitreihen zu konstruieren, ist immer noch dasselbe - Prognose.
ZunĂ€chst betrachten wir das Problem der Polynomregression allgemein. Alle Ăberlegungen basieren auf einer Verallgemeinerung der Ăberlegungen bei linearen und parabolischen Regressionsproblemen. Nach diesen Ăberlegungen werde ich auf einen Sonderfall eingehen - die Betrachtung dieses Modells fĂŒr Zeitreihen.
Es seien zwei Beobachtungsreihen gegeben xi (unabhÀngige Variable) und yi (abhÀngige Variable) i= overline1,n . Die Polynomgleichung hat die Form
y= sum limitkj=0bjxj, (1)
wo
bj - Parameter dieses Polynoms,
j= overline0,k . Unter ihnen
b0 - ein freies Mitglied. Lassen Sie uns die OLS-Parameter (Least Squares) finden
bj gegebene Regression.
In Analogie zur linearen Regression basiert OLS auch auf der Minimierung des folgenden Ausdrucks:
S= sum limitni=1 left( hatyiâyi right)2 to min (2)
Hier hatyi - theoretische Werte, die die Werte des Polynoms (1) an Punkten sind xi . Durch Einsetzen von (1) in (2) erhalten wir
S= sum limitni=1 left( sumkj=0bjxjiâyi right)2 to min.
Basierend auf der notwendigen Bedingung fĂŒr das Extremum der Funktion (k+1) Variablen S=S(b0,b1, dots,bk) wir setzen seine partiellen Ableitungen mit Null gleich, d.h.
SâČbp=2 Summe Grenzenni=1xpi links( Summe Grenzenkj=0bjxjiâyi rechts)=0, p= overline0,k.
Wenn wir die linke und rechte Seite jeder Gleichheit durch 2 teilen, erhalten wir die zweite Summe:
sum limitni=1xpi left(b0+b1xi+b2x2i+ dots+bkxki right)â sum borderni=1xpiyi=0, p= overline0,k.
Durch Ăffnen der Klammern ĂŒbertragen wir jeweils
p th Ausdruck, der letzte Begriff mit
yi nach rechts und teilen Sie beide Seiten durch
n . Als Ergebnis haben wir
(k+1) AusdrĂŒcke, die ein System linearer Normalgleichungen fĂŒr bilden
bp . Es hat die folgende Form:
\ left \ {\ begin {array} {l} b_0 + b_1 \ overline x + b_2 \ overline {x ^ 2} + \ dots + b_k \ overline {x ^ k} = \ overline y \\ b_0 \ overline x + b_1 \ overline {x ^ 2} + b_2 \ overline {x ^ 3} + \ dots + b_k \ overline {x ^ {k + 1}} = \ overline {xy} \\ b_0 \ overline {x ^ 2} + b_1 \ overline {x ^ 3} + b_2 \ overline {x ^ 4} + \ dots + b_k \ overline {x ^ {k + 2}} = \ overline {x ^ 2y} \\ \ ldots \ ldots \ ldots \ ldots \ ldots \ ldots \ ldots \ ldots \ ldots \ ldots \ ldots \ ldots \ ldots \\ b_0 \ overline {x ^ k} + b_1 \ overline {x ^ {k + 1}} + b_2 \ overline {x ^ {k + 2}} + \ dots + b_k \ overline {x ^ {2k}} = \ overline {x ^ ky} \ end {array} \ right. \ \ \ \ \ (3)
\ left \ {\ begin {array} {l} b_0 + b_1 \ overline x + b_2 \ overline {x ^ 2} + \ dots + b_k \ overline {x ^ k} = \ overline y \\ b_0 \ overline x + b_1 \ overline {x ^ 2} + b_2 \ overline {x ^ 3} + \ dots + b_k \ overline {x ^ {k + 1}} = \ overline {xy} \\ b_0 \ overline {x ^ 2} + b_1 \ overline {x ^ 3} + b_2 \ overline {x ^ 4} + \ dots + b_k \ overline {x ^ {k + 2}} = \ overline {x ^ 2y} \\ \ ldots \ ldots \ ldots \ ldots \ ldots \ ldots \ ldots \ ldots \ ldots \ ldots \ ldots \ ldots \ ldots \\ b_0 \ overline {x ^ k} + b_1 \ overline {x ^ {k + 1}} + b_2 \ overline {x ^ {k + 2}} + \ dots + b_k \ overline {x ^ {2k}} = \ overline {x ^ ky} \ end {array} \ right. \ \ \ \ \ (3)
Sie können das System (3) in Matrixform umschreiben: AB=C wo
A = \ left (\ begin {array} {ccccc} 1 & \ overline x & \ overline {x ^ 2} & \ ldots & \ overline {x ^ k} \\ \ overline x & \ overline {x ^ 2 } & \ overline {x ^ 3} & \ ldots & \ overline {x ^ {k + 1}} \\ \ overline {x ^ 2} & \ overline {x ^ 3} & \ overline {x ^ 4} & \ ldots & \ overline {x ^ {k + 2}} \\ \ vdots & \ vdots & \ vdots & \ ddots & \ vdots \\ \ overline {x ^ k} & \ overline {x ^ {k + 1} } & \ overline {x ^ {k + 2}} & \ ldots & \ overline {x ^ {2k}} \ end {array} \ right), \ \ B = \ left (\ begin {array} {c} b_0 \\ b_1 \\ b_2 \\\ vdots \\ b_k \ end {array} \ right), \ \ C = \ left (\ begin {array} {c} \ overline y \\\ overline {xy} \\ \ overline {x ^ 2y} \\\ vdots \\\ overline {x ^ ky} \ end {array} \ right).
A = \ left (\ begin {array} {ccccc} 1 & \ overline x & \ overline {x ^ 2} & \ ldots & \ overline {x ^ k} \\ \ overline x & \ overline {x ^ 2 } & \ overline {x ^ 3} & \ ldots & \ overline {x ^ {k + 1}} \\ \ overline {x ^ 2} & \ overline {x ^ 3} & \ overline {x ^ 4} & \ ldots & \ overline {x ^ {k + 2}} \\ \ vdots & \ vdots & \ vdots & \ ddots & \ vdots \\ \ overline {x ^ k} & \ overline {x ^ {k + 1} } & \ overline {x ^ {k + 2}} & \ ldots & \ overline {x ^ {2k}} \ end {array} \ right), \ \ B = \ left (\ begin {array} {c} b_0 \\ b_1 \\ b_2 \\\ vdots \\ b_k \ end {array} \ right), \ \ C = \ left (\ begin {array} {c} \ overline y \\\ overline {xy} \\ \ overline {x ^ 2y} \\\ vdots \\\ overline {x ^ ky} \ end {array} \ right).
Nun wenden wir uns der Anwendung der obigen Tatsachen im Fall von Zeitreihen zu. Lassen Sie Zeitreihen gegeben werden xt wo t= overline1,n . Es ist erforderlich, einen Polynomordnungstrend zu erstellen k , die die angegebenen Zeitreihen so genau wie möglich approximiert. Als unabhĂ€ngige Variable x wir werden nehmen t basierend auf der Definition einer Zeitreihe. Diese Xs sind eine Reihe natĂŒrlicher Zahlen, die einen Zeitraum bezeichnen. Als y Zeitreihenwerte werden genommen xt . Es ist ersichtlich, dass die Werte der Elemente aij Systemmatrizen A unabhĂ€ngig von xt . Da im allgemeinen Fall natĂŒrlich
aij= overlinexi+jâ2= frac1n sum limitnr=1xi+jâ2r,
dann im Fall von Zeitreihen
aij= frac1n sum limitnr=1ri+jâ2,
wo
i,j= overline1,(k+1).GegenstÀnde cj Matrixvektoren freier Terme C allgemein erhalten als
cj= overlinexjâ1y= frac1n sum limitnr=1xjâ1ryr.
Und im Fall von Zeitreihen
cj= frac1n sum limitnr=1rjâ1xr,
wo
j= overline1,(k+1).Nachdem wir also System (3) gelöst haben, können wir die gewĂŒnschten Parameter des Polynomtrends finden b0, dots,bk.
Um die Matrizen des Systems auszufĂŒllen und zu lösen, kann eine der numerischen Methoden verwendet werden, um einen Trend auf einem Computer zu modellieren. In diesem Fall ist das Berechnungsergebnis ziemlich genau.
Infolgedessen hat die Trendkomponente die Form:
Tt= sum limitki=0biti, t=0,1,2, dots.
Es ist auch erwÀhnenswert, dass die simulierte Trendkomponente
Tt , nicht nur fĂŒr aktuelle Perioden bestimmt
[1;n] , aber auch fĂŒr zukĂŒnftige Perioden
t>n .
Ich stelle sofort fest, dass die Polynomregression nur die Trendkomponente der Zeitreihe modelliert. Ein vollstÀndiges Zeitreihenmodell impliziert auch andere Komponenten, was den Rahmen dieses Artikels sprengt.
In der Praxis habe ich persönlich keine Zeitreihen mit einer Polynomtrendreihenfolge von mehr als 2 gesehen. Dies erklÀrt die PrÀvalenz linearer und prabolischer Regressionsmodelle als besondere FÀlle von Polynomen.