🤹🏽 👨‍👩‍👧 👪 Nous apportons l'équation de régression linéaire sous forme de matrice 🗯️ 👫 🥫

Le but de cet article est de fournir un support aux débutants. Dans l' article précédent, nous avons examiné sur les doigts trois méthodes pour résoudre l'équation de régression linéaire: solution analytique, descente de gradient, descente de gradient stochastique. Ensuite, pour la solution analytique, nous avons appliqué la formule

$X ^ T X \ vec {w} = X ^ T \ vec {y}$ . Dans cet article, comme il ressort du titre, nous justifierons l'utilisation de cette formule, ou en d'autres termes, nous la dériverons indépendamment.

Pourquoi il est logique d'accorder une attention accrue à la formule

$X ^ T X \ vec {w} = X ^ T \ vec {y}$ ?

C'est avec l'équation matricielle que dans la plupart des cas, la connaissance de la régression linéaire commence. Dans le même temps, les calculs détaillés de la façon dont la formule a été dérivée sont rares.

Par exemple, dans les cours de machine learning Yandex, lorsque les étudiants sont initiés à la régularisation, ils suggèrent d'utiliser les fonctions de la bibliothèque sklearn , alors qu'aucun mot n'est mentionné sur la représentation matricielle de l'algorithme. C'est à ce moment que certains auditeurs peuvent vouloir comprendre ce problème plus en détail - écrire du code sans utiliser de fonctions prédéfinies. Et pour cela, nous devons d'abord présenter l'équation avec le régularisateur sous forme matricielle. Cet article permettra à ceux qui souhaitent maîtriser de telles compétences. Commençons.

Référence

Cibles

Nous avons un certain nombre de valeurs cibles. Par exemple, l'objectif peut être le prix d'un actif: pétrole, or, blé, dollar, etc. Dans le même temps, par un certain nombre de valeurs de l'indicateur cible, nous entendons le nombre d'observations. De telles observations peuvent être, par exemple, les prix mensuels du pétrole pour l'année, c'est-à-dire que nous aurons 12 valeurs cibles. Nous commençons à introduire la notation. Nous désignons chaque valeur cible comme

$y_i$ . Total que nous avons

$n$ observations, ce qui signifie que nous pouvons imaginer nos observations comme

$y_1, y_2, y_3 ... y_n$ .

Régresseurs

Nous supposons qu'il existe des facteurs qui expliquent dans une certaine mesure les valeurs de l'indicateur cible. Par exemple, le taux de change de la paire dollar / rouble est fortement influencé par le prix du pétrole, le taux de la Fed, etc. Ces facteurs sont appelés régresseurs. En même temps, chaque valeur de l'indicateur cible doit correspondre à la valeur du régresseur, c'est-à-dire que si nous avons 12 cibles pour chaque mois en 2018, nous devons également avoir 12 régresseurs pour la même période. Notons les valeurs de chaque régresseur par

$x_i: x_1, x_2, x_3 ... x_n$ . Soit dans notre cas il y a

$k$ régresseurs (c.-à-d.

$k$ facteurs qui influencent la valeur de la cible). Nos régresseurs peuvent donc être représentés comme suit: pour le 1er régresseur (par exemple, le prix du pétrole):

$x_ {11}, x_ {12}, x_ {13} ... x_ {1n}$ , pour le 2e régresseur (par exemple, le taux Fed):

$x_ {21}, x_ {22}, x_ {23} ... x_ {2n}$ pour

$k$ e "régresseur:

$x_ {k1}, x_ {k2}, x_ {k3} ... x_ {kn}$

Dépendance des cibles sur les régresseurs

Supposons une dépendance cible

$y_i$ des régresseurs "

$i$ -th "observation peut être exprimée par l'équation de régression linéaire de la forme:

$f (w, x_i) = w_0 + w_1 x_ {1i} + ... + w_k x_ {ki}$

où

$x_i$ - "

$i$ e "valeur de régresseur de 1 à

$n$ ,

$k$ - le nombre de régresseurs de 1 à

$k$

$w$ - des coefficients angulaires qui représentent le montant par lequel l'indicateur cible calculé changera en moyenne lorsque le régresseur change.

En d'autres termes, nous sommes pour tout le monde (sauf

$w_0$ ) du régresseur nous déterminons «notre» coefficient

$w$ , puis multipliez les coefficients par les valeurs des régresseurs "

$i$ -th "observation, on obtient ainsi une certaine approximation"

$i$ e "cible.

Par conséquent, nous devons sélectionner ces coefficients

$w$ pour lequel les valeurs de notre fonction d'approximation

$f (w, x_i)$ sera situé le plus près possible des valeurs des cibles.

Estimation de la qualité de la fonction d'approximation

Nous déterminerons l'estimation de la qualité de la fonction d'approximation par la méthode des moindres carrés. Dans ce cas, la fonction d'évaluation de la qualité prendra la forme suivante:

$Err = \ sum \ limits_ {i = 1} ^ n (y_i-f (x_i)) ^ 2 \ rightarrow min$

Nous devons choisir ces valeurs des coefficients $ w $ pour lesquels la valeur

$Err$ sera le plus petit.

Nous traduisons l'équation sous forme de matrice

Vue vectorielle

Tout d'abord, pour vous faciliter la vie, vous devez faire attention à l'équation de régression linéaire et noter que le premier coefficient

$w_0$ pas multiplié par aucun régresseur. De plus, lorsque nous traduisons les données sous forme de matrice, la circonstance ci-dessus compliquera sérieusement les calculs. À cet égard, il est proposé d'introduire un autre régresseur pour le premier coefficient

$w_0$ et égal à un. Ou plutôt, chacun "

$i$ la "valeur" de ce régresseur à égaler à l'unité - parce que multiplié par l'unité, rien ne changera en termes de résultat des calculs, et du point de vue des règles pour le produit des matrices, notre tourment sera considérablement réduit.

Maintenant, pendant un certain temps, pour simplifier le matériel, supposons que nous n'en avons qu'un "

$i$ e "observation. Ensuite, imaginez les valeurs des régresseurs"

$i$ e observation comme vecteur

$\ vec {x_i}$ . Vecteur

$\ vec {x_i}$ a une dimension

$(k \ fois 1)$ c'est

$k$ lignes et 1 colonne:

$\ vec {x_i} = \ begin {pmatrix} x_ {0i} \\ x_ {1i} \\ ... \\ x_ {ki} \ end {pmatrix} \ qquad$

Les coefficients souhaités peuvent être représentés comme un vecteur

$\ vec {w}$ avoir une dimension

$(k \ fois 1)$ :

$\ vec {w} = \ begin {pmatrix} w_0 \\ w_1 \\ ... \\ w_k \ end {pmatrix} \ qquad$

L'équation de régression linéaire pour "

$i$ -ème "observation prendra la forme:

$f (w, x_i) = \ vec {x_i} ^ T \ vec {w}$

La fonction d'évaluation de la qualité du modèle linéaire prendra la forme:

$Err = \ sum \ limits_ {i = 1} ^ n (y_i- \ vec {x_i} ^ T \ vec {w}) ^ 2 \ rightarrow min$

Notez que conformément aux règles de multiplication matricielle, nous devions transposer le vecteur

$\ vec {x_i}$ .

Représentation matricielle

À la suite de la multiplication des vecteurs, nous obtenons le nombre:

$(1 \ times k) \ centerdot (k \ times 1) = 1 \ times 1$ comme prévu. Ce nombre est approximatif "

$i$ -th "cible. Mais nous devons approximer non pas une valeur de la cible, mais toutes. Pour ce faire, nous écrivons tout"

$i$ régresseurs matriciels

$X$ . La matrice résultante a la dimension

$(n \ fois k)$ :

$$ afficher $$ X = \ begin {pmatrix} x_ {00} & x_ {01} & ... & x_ {0k} \\ x_ {10} & x_ {11} & ... & x_ {1k} \\ ... & ... & ... & ... \\ x_ {n0} & x_ {n1} & ... & x_ {nk} \ end {pmatrix} \ qquad $$ display $$

Maintenant, l'équation de régression linéaire prendra la forme:

$f (w, X) = X \ vec {w}$

Indiquent les valeurs des indicateurs cibles (tous

$y_i$ ) par vecteur

$\ vec {y}$ dimension

$(n \ fois 1)$ :

$\ vec {y} = \ begin {pmatrix} y_ {0} \\ y_ {1} \\ ... \\ y_ {n} \ end {pmatrix} \ qquad$

Maintenant, nous pouvons écrire dans le format matriciel l'équation pour évaluer la qualité d'un modèle linéaire:

$Err = (X \ vec {w} - \ vec {y}) ^ 2 \ rightarrow min$

En fait, à partir de cette formule, nous obtenons en outre la formule connue de nous

$X ^ T X w = X ^ T y$

Comment cela se fait-il? Les crochets sont ouverts, la différenciation est effectuée, les expressions résultantes sont transformées, etc., et c'est ce que nous allons faire maintenant.

Transformations matricielles

Développez les crochets

$(X \ vec {w} - \ vec {y}) ^ 2 = (X \ vec {w} - \ vec {y}) ^ T (X \ vec {w} - \ vec {y})$

$= (X \ vec {w}) ^ TX \ vec {w} - \ vec {y} ^ TX \ vec {w} - (X \ vec {w}) ^ T \ vec {y} + \ vec { y} ^ T \ vec {y}$

Préparer une équation pour la différenciation

Pour ce faire, nous effectuons quelques transformations. Dans les calculs ultérieurs, il nous sera plus commode que le vecteur

$\ vec {w} ^ T$ sera présenté au début de chaque travail dans l'équation.

Conversion 1

$\ vec {y} ^ TX \ vec {w} = (X \ vec {w}) ^ T \ vec {y} = \ vec {w} ^ TX ^ T \ vec {y}$

Comment est-ce arrivé? Pour répondre à cette question, il suffit de regarder les tailles des matrices multipliées et de voir qu'en sortie on obtient un nombre ou autre

$const$ .

Nous écrivons les dimensions des expressions matricielles.

$\ vec {y} ^ TX \ vec {w}: (1 \ times n) \ centerdot (n \ times k) \ centerdot (k \ times 1) = (1 \ times 1) = const$

$(X \ vec {w}) ^ T \ vec {y}: ((n \ times k) \ centerdot (k \ times 1)) ^ T \ centerdot (n \ times 1) = (1 \ times n) \ centerdot (n \ times 1) = (1 \ times 1) = const$

$\ vec {w} ^ TX ^ T \ vec {y}: (1 \ times k) \ centerdot (k \ times n) \ centerdot (n \ times 1) = (1 \ times 1) = const$

Conversion 2

$(X \ vec {w}) ^ TX \ vec {w} = \ vec {w} ^ TX ^ TX \ vec {w}$

Nous écrivons de manière similaire à la transformation 1

$(X \ vec {w}) ^ TX \ vec {w}: ((n \ times k) \ centerdot (k \ times 1)) ^ T \ centerdot (n \ times k) \ centerdot (k \ times 1 ) = (1 \ fois 1) = const$

$\ vec {w} ^ TX ^ TX \ vec {w}: (1 \ times k) \ centerdot (k \ times n) \ centerdot (n \ times k) \ centerdot (k \ times 1) = (1 \ fois 1) = const$

En sortie, nous obtenons une équation que nous devons différencier:

$Err = \ vec {w} ^ TX ^ TX \ vec {w} - 2 \ vec {w} ^ TX ^ T \ vec {y} + \ vec {y} ^ T \ vec {y}$

Nous différencions la fonction d'évaluation de la qualité du modèle

Différencier par vecteur

$\ vec {w}$ :

$\ frac {d (\ vec {w} ^ TX ^ TX \ vec {w} - 2 \ vec {w} ^ TX ^ T \ vec {y} + \ vec {y} ^ T \ vec {y}) } {d \ vec {w}}$

$(\ vec {w} ^ TX ^ TX \ vec {w}) '- (2 \ vec {w} ^ TX ^ T \ vec {y})' + (\ vec {y} ^ T \ vec {y }) '= 0$

$2X ^ TX \ vec {w} - 2X ^ T \ vec {y} + 0 = 0$

$X ^ TX \ vec {w} = X ^ T \ vec {y}$

Questions pourquoi

$(\ vec {y} ^ T \ vec {y}) '= 0$ ne devrait pas être, mais les opérations pour déterminer les dérivées dans les deux autres expressions, nous analyserons plus en détail.

Différenciation 1

Nous révélons la différenciation:

$\ frac {d (\ vec {w} ^ TX ^ TX \ vec {w})} {d \ vec {w}} = 2X ^ TX \ vec {w}$

Afin de déterminer la dérivée d'une matrice ou d'un vecteur, vous devez voir ce qu'ils ont à l'intérieur. Nous regardons:

$ inline $ \ vec {w} ^ T = \ begin {pmatrix} w_0 & w_1 & ... & w_k \ end {pmatrix} \ qquad $ inline $

$\ vec {w} = \ begin {pmatrix} w_0 \\ w_1 \\ ... \\ w_k \ end {pmatrix} \ qquad$

$ en ligne $ X ^ T = \ begin {pmatrix} x_ {00} & x_ {10} & ... & x_ {n0} \\ x_ {01} & x_ {11} & ... & x_ {n1} \\ ... & ... & ... & ... \\ x_ {0k} & x_ {1k} & ... & x_ {nk} \ end {pmatrix} \ qquad $ inline $

$ inline $ X = \ begin {pmatrix} x_ {00} & x_ {01} & ... & x_ {0k} \\ x_ {10} & x_ {11} & ... & x_ {1k} \\ ... & ... & ... & ... \\ x_ {n0} & x_ {n1} & ... & x_ {nk} \ end {pmatrix} \ qquad $ inline $

Indique le produit des matrices

$X ^ TX$ à travers la matrice

$A$ . Matrix

$A$ carré et de plus, il est symétrique. Ces propriétés nous seront utiles plus loin, souvenez-vous-en. Matrix

$A$ a une dimension

$(k \ fois k)$ :

$ inline $ A = \ begin {pmatrix} a_ {00} & a_ {01} & ... & a_ {0k} \\ a_ {10} & a_ {11} & ... & a_ {1k} \\ ... & ... & ... & ... \\ a_ {k0} & a_ {k1} & ... & a_ {kk} \ end {pmatrix} \ qquad $ inline $

Maintenant, notre tâche est de multiplier correctement les vecteurs par la matrice et de ne pas obtenir «deux fois deux cinq», nous allons donc nous concentrer et être extrêmement prudents.

$ inline $ \ vec {w} ^ TA \ vec {w} = \ begin {pmatrix} w_0 & w_1 & ... & w_k \ end {pmatrix} \ qquad \ times \ begin {pmatrix} a_ {00} & a_ {01} & ... & a_ {0k} \\ a_ {10} & a_ {11} & ... & a_ {1k} \\ ... & ... & ... & ... \ \ a_ {k0} & a_ {k1} & ... & a_ {kk} \ end {pmatrix} \ qquad \ times \ begin {pmatrix} w_0 \\ w_1 \\ ... \\ w_k \ end {pmatrix} \ qquad = $ inline $

$ inline $ = \ begin {pmatrix} w_0a_ {00} + w_1a_ {10} + ... + w_ka_ {k0} & ... & w_0a_ {0k} + w_1a_ {1k} + ... + w_ka_ {kk} \ end {pmatrix} \ times \ begin {pmatrix} w_0 \\ w_1 \\ ... \\ w_k \ end {pmatrix} \ qquad = $ inline $

$= \ begin {pmatrix} (w_0a_ {00} + w_1a_ {10} + ... + w_ka_ {k0}) w_0 \ mkern 10mu + \ mkern 10mu ... \ mkern 10mu + \ mkern 10mu (w_0a_ {0k} + w_1a_ {1k} + ... + w_ka_ {kk}) w_k \ end {pmatrix} =$

$= w_0 ^ 2a_ {00} + w_1a_ {10} w_0 + w_ka_ {k0} w_0 \ mkern 10mu + \ mkern 10mu ... \ mkern 10mu + \ mkern 10mu w_0a_ {0k} w_k + w_1a_ {1k} w_k + .. . + w_k ^ 2a_ {kk}$

Cependant, nous avons eu une expression complexe! En fait, nous avons obtenu un nombre - un scalaire. Et maintenant, déjà vraiment, nous passons à la différenciation. Il faut trouver la dérivée de l'expression obtenue pour chaque coefficient

$w_0 w_1 ... w_k$ et obtenir le vecteur de dimension à la sortie

$(k \ fois 1)$ . Au cas où, je décrirai les procédures des actions:

1) différencier par

$w_o$ nous obtenons:

$2w_0a_ {00} + w_1a_ {10} + w_2a_ {20} + ... + w_ka_ {k0} + a_ {01} w_1 + a_ {02} w_2 + ... + a_ {0k} w_ {k}$

2) différencier par

$w_1$ nous obtenons:

$w_0a_ {01} + 2w_1a_ {11} + w_2a_ {21} + ... + w_ka_ {k1} + a_ {10} w_0 + a_ {12} w_2 + ... + a_ {1k} w_ {k}$

3) différencier par

$w_k$ nous obtenons:

$w_0a_ {0k} + w_1a_ {1k} + w_2a_ {2k} + ... + w _ {(k-1)} a _ {(k-1) k} + a_ {k0} w_0 + a_ {k1} w_1 + a_ {k2} w_2 + ... + 2w_ka_ {kk}$

En sortie, le vecteur de taille promis

$(k \ fois 1)$ :

$\ begin {pmatrix} 2w_0a_ {00} + w_1a_ {10} + w_2a_ {20} + ... + w_ka_ {k0} + a_ {01} w_1 + a_ {02} w_2 + ... + a_ {0k} w_ {k} \\ w_0a_ {01} + 2w_1a_ {11} + w_2a_ {21} + ... + w_ka_ {k1} + a_ {10} w_0 + a_ {12} w_2 + ... + a_ {1k} w_ { k} \\ ... \\ ... \\ ... \\ w_0a_ {0k} + w_1a_ {1k} + w_2a_ {2k} + ... + w _ {(k-1)} a _ {(k -1) k} + a_ {k0} w_0 + a_ {k1} w_1 + a_ {k2} w_2 + ... + 2w_ka_ {kk} \ end {pmatrix}$

Si vous regardez de plus près le vecteur, vous remarquerez que les éléments gauche et droit correspondants du vecteur peuvent être regroupés de telle sorte que, par conséquent, le vecteur peut être distingué du vecteur présenté

$\ vec {w}$ la taille

$(k \ fois 1)$ . Par exemple

$w_1a_ {10}$ (élément gauche de la ligne supérieure du vecteur)

$+ a_ {01} w_1$ (l'élément droit de la ligne supérieure du vecteur) peut être représenté comme

$w_1 (a_ {10} + a_ {01})$ et

$w_2a_ {20} + a_ {02} w_2$ - comment

$w_2 (a_ {20} + a_ {02})$ etc. sur chaque ligne. Groupe:

$\ begin {pmatrix} 2w_0a_ {00} + w_1 (a_ {10} + a_ {01}) + w_2 (a_ {20} + a_ {02}) + ... + w_k (a_ {k0} + a_ { 0k}) \\ w_0 (a_ {01} + a_ {10}) + 2w_1a_ {11} + w_2 (a_ {21} + a_ {12}) + ... + w_k (a_ {k1} + a_ {1k }) \\ ... \\ ... \\ ... \\ w_0 (a_ {0k} + a_ {k0}) + w_1 (a_ {1k} + a_ {k1}) + w_2 (a_ {2k } + a_ {k2}) + ... + 2w_ka_ {kk} \ end {pmatrix}$

Sortez le vecteur

$\ vec {w}$ et en sortie on obtient:

$$ afficher $$ \ begin {pmatrix} 2a_ {00} & a_ {10} + a_ {01} & a_ {20} + a_ {02} & ... & a_ {k0} + a_ {0k} \\ a_ {01} + a_ {10} & 2a_ {11} & a_ {21} + a_ {12} & ... & a_ {k1} + a_ {1k} \\ ... & ... & .. . & ... & ... \\ ... & ... & ... & ... & ... \\ ... & ... & ... & ... & .. . \\ a_ {0k} + a_ {k0} & a_ {1k} + a_ {k1} & a_ {2k} + a_ {k2} & ... & 2a_ {kk} \ end {pmatrix} \ times \ begin {pmatrix} w_0 \\ w_1 \\ ... \\ ... \\ ... \\ w_k \ end {pmatrix} \ qquad $$ display $$

Voyons maintenant la matrice résultante. Une matrice est la somme de deux matrices

$A + A ^ T$ :

$$ afficher $$ \ begin {pmatrix} a_ {00} & a_ {01} & a_ {02} & ... & a_ {0k} \\ a_ {10} & a_ {11} & a_ {12} & ... & a_ {1k} \\ ... & ... & ... & ... & ... \\ a_ {k0} & a_ {k1} & a_ {k2} & ... & a_ {kk} \ end {pmatrix} + \ begin {pmatrix} a_ {00} & a_ {10} & a_ {20} & ... & a_ {k0} \\ a_ {01} & a_ {11} & a_ {21} & ... & a_ {k1} \\ ... & ... & ... & ... & ... \\ a_ {0k} & a_ {1k} & a_ {2k} & ... & a_ {kk} \ end {pmatrix} \ qquad $$ display $$

Rappelons qu'un peu plus tôt, nous avons noté une propriété importante de la matrice

$A$ - il est symétrique. Sur la base de cette propriété, nous pouvons affirmer avec confiance que l'expression

$A + A ^ T$ est égal

$2A$ . Ceci est facile à vérifier en révélant le produit matrice par élément

$X ^ TX$ . Nous ne le ferons pas ici, ceux qui le souhaitent peuvent effectuer eux-mêmes un contrôle.

Revenons à notre expression. Après nos transformations, il s'est avéré que nous voulions le voir:

$(A + A ^ T) \ times \ begin {pmatrix} w_0 \\ w_1 \\ ... \\ w_k \ end {pmatrix} \ qquad = 2A \ vec {w} = 2X ^ TX \ vec {w}$

Nous avons donc fait face à la première différenciation. Nous passons à la deuxième expression.

Différenciation 2

$\ frac {d (2 \ vec {w} ^ TX ^ T \ vec {y})} {d \ vec {w}} = 2X ^ T \ vec {y}$

Allons le long des sentiers battus. Il sera beaucoup plus court que le précédent, alors n'allez pas loin de l'écran.

Nous révélons les vecteurs et la matrice par élément:

$ inline $ \ vec {w} ^ T = \ begin {pmatrix} w_0 & w_1 & ... & w_k \ end {pmatrix} \ qquad $ inline $

$\ vec {y} = \ begin {pmatrix} y_0 \\ y_1 \\ ... \\ y_n \ end {pmatrix} \ qquad$

Pendant un certain temps, nous supprimons le diable des calculs - il ne joue pas un grand rôle, puis nous le remettrons à sa place. Multipliez les vecteurs par la matrice. Tout d'abord, nous multiplions la matrice

$X ^ T$ sur le vecteur

$\ vec {y}$ , ici nous n'avons aucune restriction. Obtenez le vecteur de taille

$(k \ fois 1)$ :

$\ begin {pmatrix} x_ {00} y_0 + x_ {10} y_1 + ... + x_ {n0} y_n \\ x_ {01} y_0 + x_ {11} y_1 + ... + x_ {n1} y_n \\ ... \\ x_ {0k} y_0 + x_ {1k} y_1 + ... + x_ {nk} y_n \ end {pmatrix} \ qquad$

Effectuez l'action suivante - multipliez le vecteur

$\ vec {w}$ au vecteur résultant. En sortie, un nombre nous attendra:

$\ begin {pmatrix} w_0 (x_ {00} y_0 + x_ {10} y_1 + ... + x_ {n0} y_n) + w_1 (x_ {01} y_0 + x_ {11} y_1 + ... + x_ {n1 } y_n) \ mkern 10mu + \ mkern 10mu ... \ mkern 10mu + \ mkern 10mu w_k (x_ {0k} y_0 + x_ {1k} y_1 + ... + x_ {nk} y_n) \ end {pmatrix} \ qquad$

Nous le différencions ensuite. En sortie on obtient un vecteur de dimension

$(k \ fois 1)$ :

$\ begin {pmatrix} x_ {00} y_0 + x_ {10} y_1 + ... + x_ {n0} y_n \\ x_ {01} y_0 + x_ {11} y_1 + ... + x_ {n1} y_n \\ ... \\ x_ {0k} y_0 + x_ {1k} y_1 + ... + x_ {nk} y_n \ end {pmatrix} \ qquad$

Ressemble-t-il à quelque chose? D'accord! C'est le produit de la matrice.

$X ^ T$ sur le vecteur

$\ vec {y}$ .

Ainsi, la deuxième différenciation s'est terminée avec succès.

Au lieu d'une conclusion

Nous savons maintenant comment l’égalité est née.

$X ^ T X \ vec {w} = X ^ T \ vec {y}$ .

Enfin, nous décrivons un moyen rapide de transformer les principales formules.

Estimez la qualité du modèle selon la méthode des moindres carrés:

$\ sum \ limits_ {i = 1} ^ n (y_i-f (x_i)) ^ 2 \ mkern 20mu = \ mkern 20mu \ sum \ limits_ {i = 1} ^ n (y_i- \ vec {x_i} ^ T \ vec {w}) ^ 2 =$

$= (X \ vec {w} - \ vec {y}) ^ 2 \ mkern 20mu = \ mkern 20mu (X \ vec {w} - \ vec {y}) ^ T (X \ vec {w} - \ vec {y}) \ mkern 20mu = \ mkern 20mu \ vec {w} ^ TX ^ TX \ vec {w} - 2 \ vec {w} ^ TX ^ T \ vec {y} + \ vec {y} ^ T \ vec {y}$

On différencie l'expression résultante:

$\ frac {d (\ vec {w} ^ TX ^ TX \ vec {w} - 2 \ vec {w} ^ TX ^ T \ vec {y} + \ vec {y} ^ T \ vec {y}) } {d \ vec {w}} =$

$2X ^ TX \ vec {w} - 2X ^ T \ vec {y} = 0$

$X ^ TX \ vec {w} = X ^ T \ vec {y}$

$\ leftarrow$ Travaux antérieurs de l'auteur - «Nous résolvons l'équation de la régression linéaire simple»

$\ rightarrow$ Le prochain travail de l'auteur - "Chewing Logistic Regression"

Littérature

Sources Internet:

1) habr.com/en/post/278513
2) habr.com/ru/company/ods/blog/322076
3) habr.com/en/post/307004
4) nabatchikov.com/blog/view/matrix_der

Manuels, collections de tâches:

1) Notes de cours sur les mathématiques supérieures: cours complet / D.T. Écrit - 4e éd. - M .: Iris Press, 2006
2) Analyse de régression appliquée / N. Draper, G. Smith - 2e éd. - M .: Finance and Statistics, 1986 (traduit de l'anglais)
3) Tâches pour résoudre les équations matricielles:
function-x.ru/matrix_equations.html
mathprofi.ru/deistviya_s_matricami.html

Nous apportons l'équation de régression linéaire sous forme de matrice

Référence

Cibles

Régresseurs

Dépendance des cibles sur les régresseurs

Estimation de la qualité de la fonction d'approximation

Nous traduisons l'équation sous forme de matrice

Vue vectorielle

Représentation matricielle

Transformations matricielles

Développez les crochets

Préparer une équation pour la différenciation

Conversion 1

Conversion 2

Nous différencions la fonction d'évaluation de la qualité du modèle

Différenciation 1

Différenciation 2

Au lieu d'une conclusion

Littérature

More articles: