Modelo de regresión polinómica

En términos simples, el modelo de regresión en estadística matemática se basa en datos conocidos, que son pares de números. El número de tales pares está predeterminado. Si imagina que el primer número en un par es el valor de la coordenada x y el segundo y , entonces el conjunto de tales pares de números se puede representar en el plano en el sistema de coordenadas cartesianas como un conjunto de puntos. Estos pares de números no se toman al azar. En la práctica, como regla, el segundo número depende del primero. Construir una regresión significa recoger una línea (más precisamente, una función) que se acerca lo más posible (se aproxima) a muchos de los puntos anteriores.




¿Para qué es todo esto? En primer lugar, esto es necesario para la preparación de los llamados previsiones A menudo necesitan descubrir y sabiendo solo x si difiere de esos X, sobre la base de los cuales se construyó la regresión. Daré un ejemplo simple. Hay estadísticas sobre la dependencia del crecimiento de una persona en su edad basadas en 100 personas diferentes estudiadas. Por lo tanto, tenemos 100 pares de números {edad; crecimiento}. Al mismo tiempo, el "crecimiento" es una cantidad dependiente, y la "edad" es independiente. Al construir correctamente un modelo de regresión, podemos "predecir" el crecimiento con certeza por cualquier valor de edad.

En la práctica, dependiendo de la situación, se utilizan funciones lineales, parabólicas, de potencia y de otro tipo en la construcción de modelos de regresión. En el curso de la estadística matemática, el modelo de regresión lineal se considera con mayor frecuencia. A veces tocan un caso más complicado: un modelo parabólico. Al hacer una generalización, es fácil adivinar que los modelos lineales y parabólicos son casos particulares de un modelo más complejo: el polinomio. Construir un modelo de regresión significa encontrar los parámetros de la función que aparecerá en él. Para la regresión lineal: dos parámetros: coeficiente y término libre.


La regresión polinómica se puede usar en estadística matemática para modelar los componentes de tendencia de series de tiempo. Una serie de tiempo es, de hecho, una serie de números que dependen del tiempo. Por ejemplo, la temperatura diaria promedio del año pasado o el ingreso mensual de la empresa. El orden del polinomio simulado se evalúa por métodos especiales, por ejemplo, por el criterio de serie. El objetivo de construir un modelo de regresión polinómica en el campo de las series temporales sigue siendo el mismo: el pronóstico.


Para comenzar, considere el problema de la regresión polinómica de manera general. Todo razonamiento se basa en una generalización del razonamiento en problemas de regresión lineal y parabólica. Después de estas consideraciones, pasaré a un caso especial: la consideración de este modelo para series temporales.


Que se den dos series de observaciones xi (variable independiente) y yi (variable dependiente) i= overline1,n . La ecuación polinómica tiene la forma

y= sum limitskj=0bjxj,     (1)


donde bj - parámetros de este polinomio, j= overline0,k . Entre ellos b0 - Un miembro gratis. Encontremos los parámetros de mínimos cuadrados (MCO) bj regresión dada.

Por analogía con la regresión lineal, OLS también se basa en minimizar la siguiente expresión:

S= sum limitsni=1 left( hatyiyi right)2 to min     ((2)



Aqui  hatyi - valores teóricos que son los valores del polinomio (1) en los puntos xi . Sustituyendo (1) en (2), obtenemos

S= sum limitsni=1 left( sumkj=0bjxjiyi right)2 to min.



Según la condición necesaria para el extremo de la función (k+1) variables S=S(b0,b1, dots,bk) equiparamos sus derivadas parciales a cero, es decir

Sbp=2 sum limitsni=1xpi left( sum limitskj=0bjxjiyi right)=0,   p= overline0,k.


Dividiendo los lados izquierdo y derecho de cada igualdad por 2, revelamos la segunda suma:

 sum limitsni=1xpi left(b0+b1xi+b2x2i+ dots+bkxki right) sum limitsni=1xpiyi=0,   p= overline0,k.


Abriendo los corchetes, transferimos en cada p th expresión, el último término con yi a la derecha y dividir ambos lados por n . Como resultado, tenemos (k+1) expresiones que forman un sistema de ecuaciones lineales normales para bp . Tiene la siguiente forma:

\ left \ {\ begin {array} {l} b_0 + b_1 \ overline x + b_2 \ overline {x ^ 2} + \ dots + b_k \ overline {x ^ k} = \ overline y \\ b_0 \ overline x + b_1 \ overline {x ^ 2} + b_2 \ overline {x ^ 3} + \ dots + b_k \ overline {x ^ {k + 1}} = \ overline {xy} \\ b_0 \ overline {x ^ 2} + b_1 \ overline {x ^ 3} + b_2 \ overline {x ^ 4} + \ dots + b_k \ overline {x ^ {k + 2}} = \ overline {x ^ 2y} \\ \ ldots \ ldots \ ldots \ ldots \ ldots \ ldots \ ldots \ ldots \ ldots \ ldots \ ldots \ ldots \ ldots \\ b_0 \ overline {x ^ k} + b_1 \ overline {x ^ {k + 1}} + b_2 \ overline {x ^ {k + 2}} + \ dots + b_k \ overline {x ^ {2k}} = \ overline {x ^ ky} \ end {array} \ right. \ \ \ \ \ (3)


Puede reescribir el sistema (3) en forma de matriz: AB=C donde


A = \ left (\ begin {array} {ccccc} 1 & \ overline x & \ overline {x ^ 2} & \ ldots & \ overline {x ^ k} \\ \ overline x & \ overline {x ^ 2 } & \ overline {x ^ 3} & \ ldots & \ overline {x ^ {k + 1}} \\ \ overline {x ^ 2} & \ overline {x ^ 3} & \ overline {x ^ 4} & \ ldots & \ overline {x ^ {k + 2}} \\ \ vdots & \ vdots & \ vdots & \ ddots & \ vdots \\ \ overline {x ^ k} & \ overline {x ^ {k + 1} } & \ overline {x ^ {k + 2}} & \ ldots & \ overline {x ^ {2k}} \ end {array} \ right), \ \ B = \ left (\ begin {array} {c} b_0 \\ b_1 \\ b_2 \\\ vdots \\ b_k \ end {array} \ right), \ \ C = \ left (\ begin {array} {c} \ overline y \\\ overline {xy} \\ \ overline {x ^ 2y} \\\ vdots \\\ overline {x ^ ky} \ end {array} \ right).


Ahora pasamos a la aplicación de los hechos anteriores en el caso de series de tiempo. Deje que se den series temporales xt donde t= overline1,n . Se requiere para construir una tendencia de orden polinomial k , que se aproxima a la serie temporal dada con la mayor precisión posible. Como una variable independiente x tomaremos t basado en la definición de una serie temporal. Estas X son una serie de números naturales que denotan un período de tiempo. Como un y se toman valores de series de tiempo xt . Se puede ver que los valores de los elementos aij matrices del sistema A independiente de xt . Como en el caso general, obviamente,

aij= overlinexi+j2= frac1n sum limitsnr=1xi+j2r,


entonces en el caso de series de tiempo

aij= frac1n sum limitsnr=1ri+j2,


donde i,j= overline1,(k+1).

Artículos cj vectores matriciales de términos libres C generalmente obtenido como

cj= overlinexj1y= frac1n sum limitsnr=1xj1ryr.


Y en el caso de series temporales

cj= frac1n sum limitsnr=1rj1xr,


donde j= overline1,(k+1).

Así, habiendo resuelto el sistema (3), podemos encontrar los parámetros deseados de la tendencia polinómica b0, puntos,bk.


Para completar las matrices del sistema y resolverlo, se puede usar uno de los métodos numéricos al modelar una tendencia en una computadora. En este caso, el resultado del cálculo será bastante preciso.


Como resultado, el componente de tendencia tomará la forma:

Tt= sum limitski=0biti,   t=0,1,2, dots.


También vale la pena señalar que el componente de tendencia simulada Tt , determinado no solo para los períodos actuales [1;n] , pero también para períodos futuros t>n .

Noto de inmediato que la regresión polinómica modela solo el componente de tendencia de la serie temporal. Un modelo de serie temporal completo también implica otros componentes, lo que está más allá del alcance de este artículo.


En la práctica, personalmente no he visto series de tiempo con un orden de tendencia polinómica de más de 2. Esto explica la prevalencia de modelos de regresión lineal y prabólica como casos particulares de polinomios.

Source: https://habr.com/ru/post/es414245/


All Articles