👩🏿‍🏭 🤤 🚴🏽 Sinopsis tentang Pembelajaran Mesin. Analisis matematis. Keturunan gradien 👃🏽 👨🏾‍✈️ 👨🏻‍🚒

Ingat analisis matematika

Fungsi Kontinuitas dan Derivatif

Biarkan

$E \ subseteq \ mathbb {R}$ ,

$a$ Adalah titik batas set

$E$ (mis.

$a \ in E, \ forall \ varepsilon> 0 \ space \ space | (a - \ varepsilon, a + \ varepsilon) \ cap E | = \ infty$ ),

$f \ colon E \ to \ mathbb {R}$ .

Definisi 1 (batas fungsi Cauchy):

Fungsi

$f \ colon E \ to \ mathbb {R}$ berkomitmen untuk

$A$ di

$x$ mencari untuk

$a$ jika

$\ forall \ varepsilon> 0 \ space \ space \ exist \ delta> 0 \ space \ spaceall forall x \ in E \ space \ space (0 <| x- a | <\ delta \ Rightarrow | f (x) - A | <\ varepsilon).$

Penunjukan:

$\ lim \ limit_ {E \ ni x \ to a} f (x) = A$ .

Definisi 2:

Interval $ab$ disebut set $] a, b [\ space: = \ {x \ in \ mathbb {R} | a <x <b \}$ ;
Interval Titik $x \ in \ mathbb {R}$ disebut lingkungan titik ini.
Lingkungan titik yang tertusuk adalah lingkungan titik di mana titik ini sendiri dikecualikan.

Penunjukan:

$V (x)$ atau $U (x)$ - Lingkungan suatu titik $x$ ;
$\ overset {\ circ} {U} (x)$ - Lingkungan titik tertusuk $x$ ;
$U_E (x): = E \ cap U (x), \\ \ overset {\ circ} {U} _E (x): = E \ cap \ overset {\ circ} {U} (x)$

Definisi 3 (batas fungsi melalui lingkungan):

$\ lim \ limit_ {E \ ni x \ ke a} f (x) = A: = \ forall V_R (A) \ space \ exist \ overset {\ circ} {U} _E (a) \ space \ space ( f (\ overset {\ circ} {U} _E (a)) \ subset V_R (A)).$

Definisi 1 dan 3 adalah setara.

Definisi 4 (kontinuitas fungsi pada suatu titik):

$f \ colon E \ to \ mathbb {R}$ terus menerus dalam $a \ dalam E: =$
$= \ forall V (f (a)) \ space \ space \ ada U_E (a) \ space \ space (f (U_E (a)) \ subset V (f (a)));$
$f \ colon E \ to \ mathbb {R}$ terus menerus dalam $a \ dalam E: =$
$\ forall \ varepsilon> 0 \ space \ space \ exist \ delta> 0 \ space \ spaceall forall x \ in E \ space \ space (| xa | <\ delta \ Rightarrow | f (x) -f (a) | <\ varepsilon).$

Definisi 3 dan 4 menunjukkan itu
(

$f \ colon E \ to \ mathbb {R}$ terus menerus dalam

$a \ dalam E$ dimana

$a$ - titik batas

$E$ )

$\ Leftrightarrow$

$\ Leftrightarrow (\ lim \ Limit_ {E \ ni x \ to a} f (x) = f (a)).$

Definisi 5:

Fungsi

$f \ colon E \ to \ mathbb {R}$ disebut kontinu di set

$E$ jika kontinu pada setiap titik set

$E$ .

Definisi 6:

Fungsi $f \ colon E \ to \ mathbb {R}$ didefinisikan di set $E \ subset \ mathbb {R}$ disebut terdiferensiasi pada titik tersebut $a \ dalam E$ membatasi untuk set $E$ jika ada linear seperti itu sehubungan dengan kenaikan $x-a$ fungsi argumen $A \ cdot (x-a)$ [fungsi diferensial $f$ pada intinya $a$ ] kenaikan itu $f (x) -f (a)$ fungsi $f$ direpresentasikan sebagai
$f (x) -f (a) = A \ cdot (x-a) + o (x-a) \ quad untuk \ space x \ to a, \ space x \ dalam E.$
Nilai
$f '(a) = \ lim \ limit_ {E \ ni x \ to a} \ frac {f (x) -f (a)} {x-a}$

disebut fungsi turunan $f$ pada intinya $a$ .

Juga

$f '(x) = \ lim _ {\ subtack {h \ hingga 0 \\ x + h, x \ dalam E}} \ frac {f (x + h) -f (x)} {h}.$

Definisi 7:

Point $x_0 \ dalam E \ subset \ mathbb {R}$ disebut titik maksimum lokal (minimum) , dan nilai fungsi di dalamnya disebut maksimum lokal (minimum) dari fungsi $f \ colon E \ to \ mathbb {R}$ jika $\ ada U_E (x_0)$ :
$\ forall x \ di U_E (x_0) \ space \ space f (x) \ leq f (x_0) (masing-masing, f (x) \ geq f (x_0)).$
Titik maksimum dan minimum lokal disebut titik ekstrim lokal , dan nilai fungsi di dalamnya disebut ekstrema lokal dari fungsi .
Point $x_0 \ dalam E$ fungsi ekstrem $f \ colon E \ to \ mathbb {R}$ disebut titik ekstrem internal jika $x_0$ adalah titik batas untuk set $E _- = \ {x \ dalam E | x <x_0 \}$ , dan untuk set $E _ + = \ {x \ dalam E | x> x_0 \}$ .

Lemma 1 (Fermat):

Jika fungsinya

$f \ colon E \ to \ mathbb {R}$ dapat dibedakan pada titik ekstrim internal

$x_0 \ dalam E$ , maka turunannya pada titik ini adalah nol:

$f '(x_0) = 0$ .

Proposisi 1 (teorema Roll):
Jika fungsinya

$f \ colon [a, b] \ to \ mathbb {R}$ terus menerus pada suatu segmen

$[a, b]$ dibedakan dalam interval

$] a, b [$ dan

$f (a) = f (b)$ lalu ada satu titik

$\ xi \ in] a, b [$ sedemikian rupa

$f '(\ xi) = 0$ .

Teorema 1 (Teorema kenaikan berhingga Lagrange):

Jika fungsinya

$f \ colon [a, b] \ to \ mathbb {R}$ terus menerus pada suatu segmen

$[a, b]$ dan dapat dibedakan dalam interval

$] a, b [$ lalu ada satu titik

$\ xi \ in] a, b [$ sedemikian rupa

$f (b) -f (a) = f '(\ xi) (b-a).$

Akibat wajar 1 (tanda monotonitas suatu fungsi):
Jika pada suatu titik interval turunan dari fungsi tersebut adalah non-negatif (positif), maka fungsi tersebut tidak menurun (meningkat) dalam interval ini.

Konsekuensi 2 (kriteria untuk keteguhan fungsi):
Terus menerus memotong

$[a, b]$ suatu fungsi tidak konstan jika dan hanya jika turunannya nol pada titik mana pun dalam interval

$[a, b]$ (atau setidaknya intervalnya

$] a, b [$ )

Turunan parsial dari fungsi banyak variabel

Melalui

$\ mathbb {R} ^ m$ menunjukkan set:

$\ mathbb {R} ^ m = \ underbrace {\ mathbb {R} \ times \ mathbb {R} \ times \ cdots \ times \ mathbb {R}} _ m = \ {(\ omega_1, \ omega_2, ... , \ omega_m), \ space \ omega_i \ in \ mathbb {R} \ space \ forall i \ in \ overline {1, m} \}.$

Definisi 8:

Fungsi

$f \ colon E \ to \ mathbb {R}$ didefinisikan di set

$E \ subset \ mathbb {R} ^ m$ disebut terdiferensiasi pada titik tersebut

$x \ dalam E$ membatasi untuk set

$E$ jika

$f (x + h) -f (x) = L (x) h + \ alpha (x; h), \ qquad (1)$

dimana

$L (x) \ colon \ mathbb {R} ^ m \ to \ mathbb {R}$ - linear sehubungan dengan

$h$ function [fungsi diferensial

$f$ pada intinya

$x$ (referensi

$df (x)$ atau

$f '(x)$ )], dan

$\ alpha (x; h) = o (h)$ di

$h \ hingga 0, x + h \ dalam E$ .

Relasi (1) dapat ditulis ulang sebagai berikut:

$f (x + h) -f (x) = f '(x) h + \ alpha (x; h)$

atau

$\ bigtriangleup f (x; h) = df (x) h + \ alpha (x; h).$

Jika kita pergi ke catatan koordinat titik

$x = (x ^ 1, ..., x ^ m)$ , vektor

$h = (h ^ 1, ..., h ^ m)$ dan fungsi linier

$L (x) h = a_1 (x) h ^ 1 + ... + a_m (x) h ^ m$ , maka persamaan (1) terlihat seperti ini

$f (x ^ 1 + h ^ 1, ..., x ^ m + h ^ m) -f (x ^ 1, ..., x ^ m) = \\ = a_1 (x) h ^ 1 + ... + a_m (x) h ^ m + o (h) \ quad untuk \ space \ space h \ hingga 0, \ qquad (2)$

dimana

$a_1 (x), ..., a_m (x)$ - Terkait dengan titik

$x$ bilangan real Anda perlu menemukan angka-angka ini.

Kami menunjukkan

$h_i = h ^ ie_i = 0 \ cdot e_1 + ... + 0 \ cdot e_ {i-1} + h ^ i \ cdot e_i + 0 \ cdot e_ {i + 1} + ... + 0 \ cdot e_m,$

dimana

$\ {e_1, ..., e_m \}$ - basis di

$\ mathbb {R} ^ m$ .

Di

$h = h_i$ dari (2) kami dapatkan

$f (x ^ 1, ..., x ^ {i-1}, x ^ i + h ^ i, x ^ {i + 1}, ..., x ^ m) -f (x ^ 1, ..., x ^ i, ..., x ^ m) = \\ = a_i (x) h ^ i + o (h ^ i) \ quad untuk \ spasi \ spasi h ^ i \ hingga 0. \ qquad (3)$

Dari (3) kami dapatkan

$a_i (x) = \ lim_ {h_i \ to 0} \ frac {f (x ^ 1, ..., x ^ {i-1}, x ^ i + h ^ i, x ^ {i + 1} , .., x ^ m) -f (x ^ 1, ..., x ^ i, ..., x ^ m)} {h ^ i}. \ qquad (4)$

Definisi 9:
Batas (4) disebut turunan parsial dari fungsi

$f (x)$ pada intinya

$x = (x ^ 1, ..., x ^ m)$ oleh variabel

$x ^ i$ . Itu ditunjuk:

$\ frac {\ partial f} {\ partial x ^ i} (x), \ quad \ partial_if (x), \ quad f '_ {x ^ i} (x).$

Contoh 1:

$f (u, v) = u ^ 3 + v ^ 2 \ sin u, \\ \ partial_1f (u, v) = \ frac {\ partial f} {\ partial u} (u, v) = 3u ^ 2 + v ^ 2 \ cos u, \\ \ partial_2 f (u, v) = \ frac {\ partial f} {\ partial v} (u, v) = 2v \ sin u.$

Keturunan gradien

Biarkan

$f \ colon \ mathbb {R} ^ n \ to \ mathbb {R}$ dimana

$\ mathbb {R} ^ n = \ underbrace {\ mathbb {R} \ times \ mathbb {R} \ times \ cdots \ times \ mathbb {R}} _ n = \ {(\ theta_1, \ theta_2, ... , \ theta_n), \ space \ theta_i \ in \ mathbb {R} \ space \ forall i \ in \ overline {1, n} \}$ .

Definisi 10:

Fungsi Gradien

$f \ colon \ mathbb {R} ^ n \ to \ mathbb {R}$ disebut vektor,

$i$ yang elemennya sama dengan

$\ frac {\ partial f} {\ partial \ theta_i}$ :

$\ bigtriangledown _ {\ theta} f = \ kiri (\ begin {array} {c} \ frac {\ partial f} {\ partial \ theta_1} \\ frac {\ partial f} {\ partial \ theta_2} \\ \ vdots \\ frac {\ partial f} {\ partial \ theta_n} \ end {array} \ kanan), \ quad \ theta = (\ theta_1, \ theta_2, ..., \ theta_n).$

Gradien adalah arah peningkatan fungsi paling cepat. Ini berarti bahwa arah penurunannya paling cepat adalah arah yang berlawanan dengan gradien, mis.

$- \ bigtriangledown _ {\ theta} f$ .

Tujuan dari metode gradient descent adalah untuk mencari titik ekstrim (minimum) dari suatu fungsi.

Ditunjukkan oleh

$\ theta ^ {(t)}$ vektor parameter fungsi dalam langkah

$t$ . Vektor pembaruan parameter dalam langkah

$t$ :

$u ^ {(t)} = - \ eta \ bigtriangledown _ {\ theta} f (\ theta ^ {(t-1)}), \ quad \ theta ^ {(t)} = \ theta ^ {(t- 1)} + u ^ {(t)}.$

Dalam rumus di atas, parameternya

$\ eta$ Apakah kecepatan belajar yang mengontrol ukuran langkah yang kita ambil dalam arah kemiringan gradien. Secara khusus, dua masalah yang berlawanan dapat muncul:

jika langkah-langkahnya terlalu kecil, pelatihannya akan terlalu lama, dan kemungkinan terjebak dalam minimum minimum lokal yang kecil di sepanjang jalan meningkat (gambar pertama pada gambar di bawah);
jika terlalu besar, Anda dapat melompati batas minimum yang diinginkan tanpa henti, tetapi tidak pernah mencapai titik terendah (gambar ketiga pada gambar di bawah).

Contoh:
Pertimbangkan contoh metode gradient descent dalam kasus paling sederhana (

$n = 1$ ) Yaitu

$f \ colon \ mathbb {R} \ to \ mathbb {R}$ .
Biarkan

$f (x) = x ^ 2, \ quad \ theta ^ {(0)} = 3, \ quad \ eta = 1$ . Lalu:

$\ frac {\ partial f} {\ partial x} (x) = 2x \ quad \ Rightarrow \ quad \ bigtriangledown f_ \ theta (x) = 2x; \\ \ theta ^ {(1)} = \ theta ^ {(0)} - 1 \ cdot f_ \ theta (\ theta ^ {(0)}) = 3 - 6 = -3; \\ \ theta ^ {(2)} = \ theta ^ {(1)} - 1 \ cdot f_ \ theta (\ theta ^ {(1)}) = - 3 + 6 = 3 = \ theta ^ {(0 )}.$

Dalam hal kapan

$\ eta = 1$ , situasinya seperti pada gambar ketiga dari gambar di atas. Kami terus-menerus melompati titik ekstrem.
Biarkan

$\ eta = 0,8$ . Lalu:

$\ theta ^ {(1)} = \ theta ^ {(0)} - 0.8 \ kali f_ \ theta (\ theta ^ {(0)}) = 3 - 0.8 \ times6 = 3 - 4.8 = -1.8; \\ \ theta ^ {(2)} = \ theta ^ {(1)} - 0.8 \ kali f_ \ theta (\ theta ^ {(1)}) = - 1.8 + 0.8 \ times3.6 = -1.8 + 2.88 = 1,08; \\ \ theta ^ {(3)} = \ theta ^ {(2)} - 0,8 \ kali f_ \ theta (\ theta ^ {(2)}) = 1.08 - 0.8 \ times2.16 = 1.08 - 1.728 = - 0,648; \\ \ theta ^ {(4)} = \ theta ^ {(3)} - 0,8 \ kali f_ \ theta (\ theta ^ {(3)}) = - 0,648 + 0,8 \ times1.296 = -0,648 + 1,0368 = 0,3888; \\ \ theta ^ {(5)} = \ theta ^ {(4)} - 0.8 \ kali f_ \ theta (\ theta ^ {(4)}) = 0.3888 - 0.8 \ times0.7776 = 0.3888 - .62208 = -0,23328; \\ \ theta ^ {(6)} = \ theta ^ {(5)} - 0.8 \ kali f_ \ theta (\ theta ^ {(5)}) = - 0.23328 + 0.8 \ times0.46656 = -0.23328 + 0.373248 = \\ = 0,139968.$

Terlihat bahwa secara iteratif kita sedang mendekati titik ekstrem.
Biarkan

$\ eta = 0,5$ . Lalu:

$\ theta ^ {(1)} = \ theta ^ {(0)} - 0,5 \ kali f_ \ theta (\ theta ^ {(0)}) = 3 - 0,5 \ times6 = 3 - 3 = 0; \\ \ theta ^ {(2)} = \ theta ^ {(1)} - 0,5 \ kali f_ \ theta (\ theta ^ {(1)}) = 0 - 0,5 \ times0 = 0.$

Titik ekstrem ditemukan dalam 1 langkah.

Daftar literatur yang digunakan:

“Analisis matematis. Bagian 1 ", V.A. Zorich, Moskow, 1997;
“Pembelajaran yang mendalam. Perendaman dalam dunia jaringan saraf ”, S. Nikulenko, A. Kadurin, E. Arkhangelskaya, PETER, 2018.

Sinopsis tentang Pembelajaran Mesin. Analisis matematis. Keturunan gradien

Ingat analisis matematika

Fungsi Kontinuitas dan Derivatif

Turunan parsial dari fungsi banyak variabel

Keturunan gradien

Daftar literatur yang digunakan:

More articles: