🐁 🧢 👩‍🍳 机器学习简介。数学分析。梯度下降 🤲🏾 💛 🔣

回顾数学分析

函数连续性和导数

让

$E \ subseteq \ mathbb {R}$ ，

一

$一$ 是设定的极限点

$E$ （即

， （ ， ）

$a \ in E，\ forall \ varepsilon> 0 \ space \ space |（a-\ varepsilon，a + \ varepsilon）\ cap E | = \ infty$ ），

冒 号 到

$f \冒号E \到\ mathbb {R}$ 。

定义1（Cauchy功能限制）：

功能介绍

冒 号 到

$f \冒号E \到\ mathbb {R}$ 致力于

在

$x$ 寻求

一

$一$ 如果

空 间 空 间 存 在 空 间 空 间 在 空 间 空 间 （ （ ） ）

$\ forall \ varepsilon> 0 \空间\空间\存在\ delta> 0 \空间\空间\ forall x \在E \空间\空间（0 <| x- a | <\ delta \ Rightarrow | f（x）- A | <\ varepsilon）$

名称：

到 （ ）

$\ lim \ limits_ {E \ ni x \到a} f（x）= A$ 。

定义2：

间隔时间 $ab$ 被叫集 $] a，b [\ space：= \ {x \ in \ mathbb {R} | a <x <b \}$ ;
点间隔 $x \ in \ mathbb {R}$ 称为这一点的邻域。
点的穿孔邻域是该点本身被排除在外的点的邻域。

名称：

$V（x）$ 或 $U（x）$ -点的附近 $x$ ;
$\ overset {\ circ} {U}（x）$ -刺破点 $x$ ;
$U_E（x）：= E \上限U（x），\\ \上限{\ circ} {U} _E（x）：= E \上限\上限{\ circ} {U}（x）$

定义3（通过社区的功能限制）：

$\ lim \ limits_ {E \ ni x \到a} f（x）= A：= \ forall V_R（A）\ space \ exist \ overset {\ circ} {U} _E（a）\ space \ space（ f（\ overset {\ circ} {U} _E（a））\子集V_R（A））$

定义1和3是等效的。

定义4（某点函数的连续性）：

$f \冒号E \到\ mathbb {R}$ 连续输入 $E中的$ a \ =$
$= \全部V（f（a））\空间\空间\存在U_E（a）\空间\空间（f（U_E（a））\子集V（f（a）））;$
$f \冒号E \到\ mathbb {R}$ 连续输入 $E中的$ a \ =$
$\ forall \ varepsilon> 0 \空间\空间\存在\ delta> 0 \空间\空间\ forall x \在E \空间\空间（| xa | <\ delta \ Rightarrow | f（x）-f（a） | <\ varepsilon）$

定义3和4表明
（

$f \冒号E \到\ mathbb {R}$ 连续输入

$E中的$ a \$ 在哪里

$一$ -极限点

$E$ ）

$\ Leftrightarrow$

$\ Leftrightarrow（\ lim \ limits_ {E \ ni x \ to a} f（x）= f（a））$

定义5：

功能介绍

$f \冒号E \到\ mathbb {R}$ 称为连续

$E$ 如果它在集合的每个点都是连续的

$E$ 。

定义6：

功能介绍 $f \冒号E \到\ mathbb {R}$ 在场景上定义 $E \子集\ mathbb {R}$ 在这一点上称为可微 $E中的$ a \$ 限制集 $E$ 如果增量存在这样的线性关系 $x-a$ 参数函数 $A \ cdot（x-a）$ [功能差异 $f$ 在这一点上 $一$ ]那个增量 $f（x）-f（a）$ 功能 $f$ 表示为
$f（x）-f（a）= A \ cdot（x-a）+ o（x-a）\ quad for \ space x \到a，\ space x \ in E$
价值
$f'（a）= \ lim \ limit_ {E \ ni x \到a} \ frac {f（x）-f（a）} {x-a}$

称为导数函数 $f$ 在这一点上 $一$ 。

也

$f'（x）= \ lim _ {\子堆栈{h \到0 \\ x + h，x \ in E}} \ frac {f（x + h）-f（x）} {h}$

定义7：

点数 $x_0 \在E \子集中\ mathbb {R}$ 称为局部最大值（最小值）的点，函数中的值称为函数的局部最大值（最小值） $f \冒号E \到\ mathbb {R}$ 如果 $\存在U_E（x_0）$ ：
$\ forall x \ in U_E（x_0）\ space \ space f（x）\ leq f（x_0）（分别是f（x）\ geq f（x_0））$
局部最大值和最小值的点称为局部极值点，其中的函数值称为函数的局部极值 。
点数 $x_0 \在E$ 极值功能 $f \冒号E \到\ mathbb {R}$ 称为内部极值点，如果 $x_0$ 是设定的极限点 $E _- = \ {x \ in E | x <x_0 \}$ 和 $E _ + = \ {x \ in E | x> x_0 \}$ 。

引理1（Fermat）：

如果功能

$f \冒号E \到\ mathbb {R}$ 在内部极值点可区分

$x_0 \在E$ ，则此时的导数为零：

$f'（x_0）= 0$ 。

命题1（罗尔定理）：
如果功能

$f \冒号[a，b] \到\ mathbb {R}$ 在一段上连续

$[a，b]$ 区间可微

$] a，b [$ 和

$f（a）= f（b）$ 然后有一点

$\ xi \ in] a，b [$ 这样

$f'（\ xi）= 0$ 。

定理1（拉格朗日有限增量定理）：

如果功能

$f \冒号[a，b] \到\ mathbb {R}$ 在一段上连续

$[a，b]$ 并且在区间上是可区分的

$] a，b [$ 然后有一点

$\ xi \ in] a，b [$ 这样

$f（b）-f（a）= f'（\ xi）（b-a）$

推论1（函数单调性的标志）：
如果该函数的导数在某个时间间隔的任何点都是非负（正），则该函数不会在此时间间隔内减小（增加）。

推论2（函数恒定性的判据）：
连续切割

$[a，b]$ 当且仅当函数的导数在间隔的任意点为零时，该函数才为常数

$[a，b]$ （或至少间隔

$] a，b [$ ）

许多变量的函数的偏导数

通过

$\ mathbb {R} ^ m$ 表示集合：

$\ mathbb {R} ^ m = \底线{\ mathbb {R} \ times \ mathbb {R} \ times \ cdots \ times \ mathbb {R}} _ m = \ {（\ omega_1，\ omega_2，... ，\ omega_m），\ space \ omega_i \ in \ mathbb {R} \ space \ forall i \ in \ overline {1，m} \}$

定义8：

功能介绍

$f \冒号E \到\ mathbb {R}$ 在场景上定义

$E \子集\ mathbb {R} ^ m$ 在这一点上称为可微

$x \在E$ 限制集

$E$ 如果

$f（x + h）-f（x）= L（x）h + \ alpha（x; h），\ qquad（1）$

在哪里

$L（x）\冒号\ mathbb {R} ^ m \到\ mathbb {R}$ -关于

$h$ 功能[功能差异

$f$ 在这一点上

$x$ （参考

$df（x）$ 或

$f'（x）$ ）]，以及

$\ alpha（x; h）= o（h）$ 在

$h \到0，x + h \在E$ 。

关系（1）可以重写如下：

$f（x + h）-f（x）= f'（x）h + \ alpha（x; h）$

或

$\ bigtriangleup f（x; h）= df（x）h + \ alpha（x; h）$

如果我们转到该点的坐标记录

$x =（x ^ 1，...，x ^ m）$ ，向量

$h =（h ^ 1，...，h ^ m）$ 和线性函数

$L（x）h = a_1（x）h ^ 1 + ... + a_m（x）h ^ m$ ，则等式（1）看起来像这样

$f（x ^ 1 + h ^ 1，...，x ^ m + h ^ m）-f（x ^ 1，...，x ^ m）= \\ = a_1（x）h ^ 1 + ... + a_m（x）h ^ m + o（h）\ quad for \ space \ space h \到0，\ qquad（2）$

在哪里

$a_1（x），...，a_m（x）$ -与点相关

$x$ 实数。您需要找到这些数字。

我们表示

$h_i = h ^ ie_i = 0 \ cdot e_1 + ... + 0 \ cdot e_ {i-1} + h ^ i \ cdot e_i + 0 \ cdot e_ {i + 1} + ... + 0 \ cdot e_m，$

在哪里

$\ {e_1，...，e_m \}$ -根据

$\ mathbb {R} ^ m$ 。

在

$h = h_i$ 从（2）我们得到

$f（x ^ 1，...，x ^ {i-1}，x ^ i + h ^ i，x ^ {i + 1}，...，x ^ m）-f（x ^ 1， ...，x ^ i，...，x ^ m）= \\ = a_i（x）h ^ i + o（h ^ i）\ quad for \ space \ space h ^ i \到0。（3）美$

从（3）得到

$a_i（x）= \ lim_ {h_i \到0} \ frac {f（x ^ 1，...，x ^ {i-1}，x ^ i + h ^ i，x ^ {i + 1} ，..，x ^ m）-f（x ^ 1，...，x ^ i，...，x ^ m）} {h ^ i}。 \ qquad（4）$

定义9：
极限（4）称为函数的偏导数

$f（x）$ 在这一点上

$x =（x ^ 1，...，x ^ m）$ 按变量

$x ^ i$ 。它被指定为：

$\ frac {\局部f} {\局部x ^ i}（x），\ quad \ partial_if（x），\ quad f'_ {x ^ i}（x）$

范例1：

$f（u，v）= u ^ 3 + v ^ 2 \ sin u，\\ \ partial_1f（u，v）= \ frac {\部分f} {\部分u}（u，v）= 3u ^ 2 + v ^ 2 \ cos u，\\ \ partial_2 f（u，v）= \ frac {\部分f} {\部分v}（u，v）= 2v \ sin u$

梯度下降

让

$f \冒号\ mathbb {R} ^ n \到\ mathbb {R}$ 在哪里

$\ mathbb {R} ^ n = \底线{\ mathbb {R} \ times \ mathbb {R} \ times \ cdots \ times \ mathbb {R}} _ n = \ {（\ theta_1，\ theta_2，... ，\ theta_n），\ space \ theta_i \ in \ mathbb {R} \ space \ forall i \ in \ overline {1，n} \}$ 。

定义10：

梯度函数

$f \冒号\ mathbb {R} ^ n \到\ mathbb {R}$ 称为向量

$我$ 其元素等于

$\ frac {\部分f} {\部分\ theta_i}$ ：

$\ bigtriangledown _ {\ theta} f = \ left（\ begin {array} {c} \ frac {\部分f} {\部分\ theta_1} \\\ frac {\部分f} {\部分\ theta_2} \\ \ vdots \\\ frac {\部分f} {\部分\ theta_n} \结束{array} \右），\ quad \ theta =（\ theta_1，\ theta_2，...，\ theta_n）$

渐变是功能最快速增加的方向。这意味着它最迅速减小的方向是与梯度相反的方向，即

$-\ bigtriangledown _ {\ theta} f$ 。

梯度下降法的目的是搜索函数的极值点（最小点）。

表示为

$\ theta ^ {{t）}$ 步骤中的功能参数向量

$t$ 。步骤中的参数更新向量

$t$ ：

$u ^ {{t）} =-\ eta \ bigtriangledown _ {\ theta} f（\ theta ^ {{t-1）}），\ quad \ theta ^ {{t）} = \ theta ^ {{t- 1）} + u ^ {（t）}$

在上面的公式中，参数

$\ eta$ 学习速度控制着我们在梯度斜率方向上采取的步长。特别是，可能出现两个相对的问题：

如果步幅太小，则训练将太长，并且卡在道路上的最小局部最小值中的可能性会增加（下图中的第一个图像）；
如果它们太大，则可以无休止地跳过所需的最小来回距离，但永远不会到达最低点（下图中的第三张图像）。

一个例子：
考虑最简单情况下的梯度下降方法示例（

$n = 1$ ）那是

$f \冒号\ mathbb {R} \到\ mathbb {R}$ 。
让

$f（x）= x ^ 2，\ quad \ theta ^ {（0）} = 3，\ quad \ eta = 1$ 。然后：

$\ frac {\部分f} {\部分x}（x）= 2x \ quad \ Rightarrow \ quad \ bigtriangledown f_ \ theta（x）= 2x; \\ \ theta ^ {（（1）} = \ theta ^ {（0）}-1 \ cdot f_ \ theta（\ theta ^ {（0）}）= 3-6 = -3; \\ \ theta ^ {{（2）} = \ theta ^ {（1）}-1 \ cdot f_ \ theta（\ theta ^ {（1）}）=-3 + 6 = 3 = \ theta ^ {（0 ）}。$

在这种情况下

$\ eta = 1$ ，情况如上图的第三张图片所示。我们不断跳过极限点。
让

$\ eta = 0.8$ 。然后：

$\ theta ^ {（1）} = \ theta ^ {（0）}-0.8 \倍f_ \ theta（\ theta ^ {（0）}）= 3-0.8 \ times6 = 3-4.8 = -1.8; \\ \ theta ^ {（2）} = \ theta ^ {（1）}-0.8 \倍f_ \ theta（\ theta ^ {（1）}）=-1.8 + 0.8 \ times3.6 = -1.8 + 2.88 = 1.08; \\ \ theta ^ {（3）} = \ theta ^ {（2）}-0.8 \倍f_ \ theta（\ theta ^ {（2）}）= 1.08-0.8 \ times2.16 = 1.08-1.728 =- 0.648； \\ \ theta ^ {（4）} = \ theta ^ {（3）}-0.8 \倍f_ \ theta（\ theta ^ {（3）}）=-0.648 + 0.8 \ times1.296 = -0.648 + 1.0368 = 0.3888； \\ \ theta ^ {（5）} = \ theta ^ {（4）}-0.8 \倍f_ \ theta（\ theta ^ {（4）}）= 0.3888-0.8 \ times0.7776 = 0.3888-.62208 = -0.23328； \\ \ theta ^ {（6）} = \ theta ^ {（5）}-0.8 \倍f_ \ theta（\ theta ^ {（5）}）=-0.23328 + 0.8 \倍0.46656 = -0.23328 + 0.373248 = \\ = 0.139968$

可以看出，我们正在反复接近极值点。
让

$\ eta = 0.5$ 。然后：

$\ theta ^ {（1）} = \ theta ^ {（0）}-0.5 \倍f_ \ theta（\ theta ^ {（0）}）= 3-0.5 \ times6 = 3-3 = 0; \\ \ theta ^ {（2）} = \ theta ^ {（1）}-0.5 \倍f_ \ theta（\ theta ^ {（1）}）= 0-0.5 \ times0 = 0$

在1个步骤中找到了极值点。

二手文献清单：

“数学分析。第1部分”，V.A。佐里奇，莫斯科，1997年；
“深度学习。沉浸在神经网络世界中”，S。Nikulenko，A。Kadurin，E。Arkhangelskaya，PETER，2018年。

机器学习简介。 数学分析。 梯度下降

回顾数学分析

函数连续性和导数

许多变量的函数的偏导数

梯度下降

二手文献清单：

More articles:

机器学习简介。数学分析。梯度下降