Sinopsis tentang Pembelajaran Mesin. Analisis matematis. Keturunan gradien



Ingat analisis matematika


Fungsi Kontinuitas dan Derivatif


Biarkan E subseteq mathbbR , a Adalah titik batas set E (mis. a inE, forall varepsilon>0 space space|(a varepsilon,a+ varepsilon) capE|= infty ), f colonE to mathbbR .

Definisi 1 (batas fungsi Cauchy):

Fungsi f colonE to mathbbR berkomitmen untuk A di x mencari untuk a jika

 forall varepsilon>0 space space exist delta>0 space spaceallforallx inE space space(0<|xa|< delta Rightarrow|f(x)A|< varepsilon).


Penunjukan:  lim limitE nix toaf(x)=A .

Definisi 2:

  1. Interval ab disebut set ] a, b [\ space: = \ {x \ in \ mathbb {R} | a <x <b \}] a, b [\ space: = \ {x \ in \ mathbb {R} | a <x <b \} ;
  2. Interval Titik x in mathbbR disebut lingkungan titik ini.
  3. Lingkungan titik yang tertusuk adalah lingkungan titik di mana titik ini sendiri dikecualikan.

Penunjukan:

  1. V(x) atau U(x) - Lingkungan suatu titik x ;
  2.  overset circU(x) - Lingkungan titik tertusuk x ;
  3. UE(x):=E capU(x), overset circUE(x):=E cap overset circU(x)

Definisi 3 (batas fungsi melalui lingkungan):


 lim limitE nix keaf(x)=A:= forallVR(A) space exist overset circUE(a) space space(f( overset circUE(a)) subsetVR(A)).


Definisi 1 dan 3 adalah setara.

Definisi 4 (kontinuitas fungsi pada suatu titik):

  1. f colonE to mathbbR terus menerus dalam a dalamE:=

    = forallV(f(a)) space space adaUE(a) space space(f(UE(a)) subsetV(f(a)));

  2. f colonE to mathbbR terus menerus dalam a dalamE:=

     forall varepsilon>0 space space exist delta>0 space spaceallforallx inE space space(|xa|< delta Rightarrow|f(x)f(a)|< varepsilon).


Definisi 3 dan 4 menunjukkan itu
( f colonE to mathbbR terus menerus dalam a dalamE dimana a - titik batas E )  Leftrightarrow
 Leftrightarrow( lim LimitE nix toaf(x)=f(a)).

Definisi 5:

Fungsi f colonE to mathbbR disebut kontinu di set E jika kontinu pada setiap titik set E .

Definisi 6:

  1. Fungsi f colonE to mathbbR didefinisikan di set E subset mathbbR disebut terdiferensiasi pada titik tersebut a dalamE membatasi untuk set E jika ada linear seperti itu sehubungan dengan kenaikan xa fungsi argumen A cdot(xa) [fungsi diferensial f pada intinya a ] kenaikan itu f(x)f(a) fungsi f direpresentasikan sebagai

    f(x)f(a)=A cdot(xa)+o(xa) quaduntuk spacex toa, spacex dalamE.

  2. Nilai

    f(a)= lim limitE nix toa fracf(x)f(a)xa


    disebut fungsi turunan f pada intinya a .

Juga

f(x)= lim subtackh hingga0x+h,x dalamE fracf(x+h)f(x)h.



Definisi 7:

  1. Point x0 dalamE subset mathbbR disebut titik maksimum lokal (minimum) , dan nilai fungsi di dalamnya disebut maksimum lokal (minimum) dari fungsi f colonE to mathbbR jika  adaUE(x0) :

     forallx diUE(x0) space spacef(x) leqf(x0)(masingmasing,f(x) geqf(x0)).

  2. Titik maksimum dan minimum lokal disebut titik ekstrim lokal , dan nilai fungsi di dalamnya disebut ekstrema lokal dari fungsi .
  3. Point x0 dalamE fungsi ekstrem f colonE to mathbbR disebut titik ekstrem internal jika x0 adalah titik batas untuk set E _- = \ {x \ dalam E | x <x_0 \} , dan untuk set E _ + = \ {x \ dalam E | x> x_0 \} .

Lemma 1 (Fermat):

Jika fungsinya f colonE to mathbbR dapat dibedakan pada titik ekstrim internal x0 dalamE , maka turunannya pada titik ini adalah nol: f(x0)=0 .

Proposisi 1 (teorema Roll):
Jika fungsinya f colon[a,b] to mathbbR terus menerus pada suatu segmen [a,b] dibedakan dalam interval ]a,b[ dan f(a)=f(b) lalu ada satu titik  xi in]a,b[ sedemikian rupa f( xi)=0 .

Teorema 1 (Teorema kenaikan berhingga Lagrange):

Jika fungsinya f colon[a,b] to mathbbR terus menerus pada suatu segmen [a,b] dan dapat dibedakan dalam interval ]a,b[ lalu ada satu titik  xi in]a,b[ sedemikian rupa

f(b)f(a)=f( xi)(ba).


Akibat wajar 1 (tanda monotonitas suatu fungsi):
Jika pada suatu titik interval turunan dari fungsi tersebut adalah non-negatif (positif), maka fungsi tersebut tidak menurun (meningkat) dalam interval ini.

Konsekuensi 2 (kriteria untuk keteguhan fungsi):
Terus menerus memotong [a,b] suatu fungsi tidak konstan jika dan hanya jika turunannya nol pada titik mana pun dalam interval [a,b] (atau setidaknya intervalnya ]a,b[ )

Turunan parsial dari fungsi banyak variabel


Melalui  mathbbRm menunjukkan set:

\ mathbb {R} ^ m = \ underbrace {\ mathbb {R} \ times \ mathbb {R} \ times \ cdots \ times \ mathbb {R}} _ m = \ {(\ omega_1, \ omega_2, ... , \ omega_m), \ space \ omega_i \ in \ mathbb {R} \ space \ forall i \ in \ overline {1, m} \}.



Definisi 8:

Fungsi f colonE to mathbbR didefinisikan di set E subset mathbbRm disebut terdiferensiasi pada titik tersebut x dalamE membatasi untuk set E jika

f(x+h)f(x)=L(x)h+ alpha(x;h), qquad(1)

dimana L(x) colon mathbbRm to mathbbR - linear sehubungan dengan h function [fungsi diferensial f pada intinya x (referensi df(x) atau f(x) )], dan  alpha(x;h)=o(h) di h hingga0,x+h dalamE .

Relasi (1) dapat ditulis ulang sebagai berikut:

f(x+h)f(x)=f(x)h+ alpha(x;h)

atau

 bigtriangleupf(x;h)=df(x)h+ alpha(x;h).


Jika kita pergi ke catatan koordinat titik x=(x1,...,xm) , vektor h=(h1,...,hm) dan fungsi linier L(x)h=a1(x)h1+...+am(x)hm , maka persamaan (1) terlihat seperti ini

f(x1+h1,...,xm+hm)f(x1,...,xm)==a1(x)h1+...+am(x)hm+o(h) quaduntuk space spaceh hingga0, qquad(2)

dimana a1(x),...,am(x) - Terkait dengan titik x bilangan real Anda perlu menemukan angka-angka ini.

Kami menunjukkan

hi=hiei=0 cdote1+...+0 cdotei1+hi cdotei+0 cdotei+1+...+0 cdotem,

dimana \ {e_1, ..., e_m \} - basis di  mathbbRm .

Di h=hi dari (2) kami dapatkan

f(x1,...,xi1,xi+hi,xi+1,...,xm)f(x1,...,xi,...,xm)==ai(x)hi+o(hi) quaduntuk spasi spasihi hingga0. qquad(3)



Dari (3) kami dapatkan

ai(x)= limhi to0 fracf(x1,...,xi1,xi+hi,xi+1,..,xm)f(x1,...,xi,...,xm)hi. qquad(4)


Definisi 9:
Batas (4) disebut turunan parsial dari fungsi f(x) pada intinya x=(x1,...,xm) oleh variabel xi . Itu ditunjuk:

 frac partialf partialxi(x), quad partialif(x), quadfxi(x).



Contoh 1:

f(u,v)=u3+v2 sinu, partial1f(u,v)= frac partialf partialu(u,v)=3u2+v2 cosu, partial2f(u,v)= frac partialf partialv(u,v)=2v sinu.





Keturunan gradien


Biarkan f colon mathbbRn to mathbbR dimana \ mathbb {R} ^ n = \ underbrace {\ mathbb {R} \ times \ mathbb {R} \ times \ cdots \ times \ mathbb {R}} _ n = \ {(\ theta_1, \ theta_2, ... , \ theta_n), \ space \ theta_i \ in \ mathbb {R} \ space \ forall i \ in \ overline {1, n} \} .

Definisi 10:

Fungsi Gradien f colon mathbbRn to mathbbR disebut vektor, i yang elemennya sama dengan  frac partialf partial thetai :

 bigtriangledown thetaf= kiri( beginarrayc frac partialf partial theta1frac partialf partial theta2 vdotsfrac partialf partial thetan endarray kanan), quad theta=( theta1, theta2,..., thetan).


Gradien adalah arah peningkatan fungsi paling cepat. Ini berarti bahwa arah penurunannya paling cepat adalah arah yang berlawanan dengan gradien, mis.  bigtriangledown thetaf .

Tujuan dari metode gradient descent adalah untuk mencari titik ekstrim (minimum) dari suatu fungsi.

Ditunjukkan oleh  theta(t) vektor parameter fungsi dalam langkah t . Vektor pembaruan parameter dalam langkah t :

u(t)= eta bigtriangledown thetaf( theta(t1)), quad theta(t)= theta(t1)+u(t).


Dalam rumus di atas, parameternya  eta Apakah kecepatan belajar yang mengontrol ukuran langkah yang kita ambil dalam arah kemiringan gradien. Secara khusus, dua masalah yang berlawanan dapat muncul:

  • jika langkah-langkahnya terlalu kecil, pelatihannya akan terlalu lama, dan kemungkinan terjebak dalam minimum minimum lokal yang kecil di sepanjang jalan meningkat (gambar pertama pada gambar di bawah);
  • jika terlalu besar, Anda dapat melompati batas minimum yang diinginkan tanpa henti, tetapi tidak pernah mencapai titik terendah (gambar ketiga pada gambar di bawah).


Contoh:
Pertimbangkan contoh metode gradient descent dalam kasus paling sederhana ( n=1 ) Yaitu f colon mathbbR to mathbbR .
Biarkan f(x)=x2, quad theta(0)=3, quad eta=1 . Lalu:

 frac partialf partialx(x)=2x quad Rightarrow quad bigtriangledownf theta(x)=2x; theta(1)= theta(0)1 cdotf theta( theta(0))=36=3; theta(2)= theta(1)1 cdotf theta( theta(1))=3+6=3= theta(0).

Dalam hal kapan  eta=1 , situasinya seperti pada gambar ketiga dari gambar di atas. Kami terus-menerus melompati titik ekstrem.
Biarkan  eta=0,8 . Lalu:

 theta(1)= theta(0)0.8 kalif theta( theta(0))=30.8 times6=34.8=1.8; theta(2)= theta(1)0.8 kalif theta( theta(1))=1.8+0.8 times3.6=1.8+2.88=1,08; theta(3)= theta(2)0,8 kalif theta( theta(2))=1.080.8 times2.16=1.081.728=0,648; theta(4)= theta(3)0,8 kalif theta( theta(3))=0,648+0,8 times1.296=0,648+1,0368=0,3888; theta(5)= theta(4)0.8 kalif theta( theta(4))=0.38880.8 times0.7776=0.3888.62208=0,23328; theta(6)= theta(5)0.8 kalif theta( theta(5))=0.23328+0.8 times0.46656=0.23328+0.373248==0,139968.

Terlihat bahwa secara iteratif kita sedang mendekati titik ekstrem.
Biarkan  eta=0,5 . Lalu:

 theta(1)= theta(0)0,5 kalif theta( theta(0))=30,5 times6=33=0; theta(2)= theta(1)0,5 kalif theta( theta(1))=00,5 times0=0.

Titik ekstrem ditemukan dalam 1 langkah.

Daftar literatur yang digunakan:


  • “Analisis matematis. Bagian 1 ", V.A. Zorich, Moskow, 1997;
  • “Pembelajaran yang mendalam. Perendaman dalam dunia jaringan saraf ”, S. Nikulenko, A. Kadurin, E. Arkhangelskaya, PETER, 2018.

Source: https://habr.com/ru/post/id474338/


All Articles