
Ingat analisis matematika
Fungsi Kontinuitas dan Derivatif
Biarkan 
E subseteq mathbbR , 
a Adalah titik batas set 
E (mis. 
a inE, forall varepsilon>0 space space|(a− varepsilon,a+ varepsilon) capE|= infty ), 
f colonE to mathbbR .
Definisi 1 (batas fungsi Cauchy):Fungsi 
f colonE to mathbbR berkomitmen untuk 
A di 
x mencari untuk 
a jika
 forall varepsilon>0 space space exist delta>0 space spaceallforallx inE space space(0<|x−a|< delta Rightarrow|f(x)−A|< varepsilon).
Penunjukan: 
 lim limitE nix toaf(x)=A .
Definisi 2:- Interval ab disebut set ] a, b [\ space: = \ {x \ in \ mathbb {R} | a <x <b \}] a, b [\ space: = \ {x \ in \ mathbb {R} | a <x <b \} ;
- Interval Titik x in mathbbR disebut lingkungan titik ini.
- Lingkungan titik yang tertusuk adalah lingkungan titik di mana titik ini sendiri dikecualikan.
Penunjukan:
- V(x) atau U(x) - Lingkungan suatu titik x ;
-  overset circU(x) - Lingkungan titik tertusuk x ;
- UE(x):=E capU(x), overset circUE(x):=E cap overset circU(x)
Definisi 3 (batas fungsi melalui lingkungan):
 lim limitE nix keaf(x)=A:= forallVR(A) space exist overset circUE(a) space space(f( overset circUE(a)) subsetVR(A)).
Definisi 1 dan 3 adalah setara.
Definisi 4 (kontinuitas fungsi pada suatu titik):- f colonE to mathbbR terus menerus dalam a dalamE:== forallV(f(a)) space space adaUE(a) space space(f(UE(a)) subsetV(f(a))); 
 
- f colonE to mathbbR terus menerus dalam a dalamE:= forall varepsilon>0 space space exist delta>0 space spaceallforallx inE space space(|xa|< delta Rightarrow|f(x)−f(a)|< varepsilon). 
 
Definisi 3 dan 4 menunjukkan itu
( 
f colonE to mathbbR terus menerus dalam 
a dalamE dimana 
a - titik batas 
E ) 
 Leftrightarrow Leftrightarrow( lim LimitE nix toaf(x)=f(a)).Definisi 5:Fungsi 
f colonE to mathbbR disebut 
kontinu di set E jika kontinu pada setiap titik set 
E .
Definisi 6:- Fungsi f colonE to mathbbR didefinisikan di set E subset mathbbR disebut terdiferensiasi pada titik tersebut a dalamE membatasi untuk set E jika ada linear seperti itu sehubungan dengan kenaikan x−a fungsi argumen A cdot(x−a) [fungsi diferensial f pada intinya a ] kenaikan itu f(x)−f(a) fungsi f direpresentasikan sebagaif(x)−f(a)=A cdot(x−a)+o(x−a) quaduntuk spacex toa, spacex dalamE. 
 
- Nilai
 f′(a)= lim limitE nix toa fracf(x)−f(a)x−a 
 
 disebut fungsi turunan f pada intinya a .
Juga
f′(x)= lim subtackh hingga0x+h,x dalamE fracf(x+h)−f(x)h.
Definisi 7:- Point x0 dalamE subset mathbbR disebut titik maksimum lokal (minimum) , dan nilai fungsi di dalamnya disebut maksimum lokal (minimum) dari fungsi f colonE to mathbbR jika  adaUE(x0) : forallx diUE(x0) space spacef(x) leqf(x0)(masing−masing,f(x) geqf(x0)). 
 
- Titik maksimum dan minimum lokal disebut titik ekstrim lokal , dan nilai fungsi di dalamnya disebut ekstrema lokal dari fungsi .
- Point x0 dalamE fungsi ekstrem f colonE to mathbbR disebut titik ekstrem internal jika x0 adalah titik batas untuk set E _- = \ {x \ dalam E | x <x_0 \} , dan untuk set E _ + = \ {x \ dalam E | x> x_0 \} .
Lemma 1 (Fermat):Jika fungsinya 
f colonE to mathbbR dapat dibedakan pada titik ekstrim internal 
x0 dalamE , maka turunannya pada titik ini adalah nol: 
f′(x0)=0 .
Proposisi 1 (teorema Roll):Jika fungsinya 
f colon[a,b] to mathbbR terus menerus pada suatu segmen 
[a,b] dibedakan dalam interval 
]a,b[ dan 
f(a)=f(b) lalu ada satu titik 
 xi in]a,b[ sedemikian rupa 
f′( xi)=0 .
Teorema 1 (Teorema kenaikan berhingga Lagrange):Jika fungsinya 
f colon[a,b] to mathbbR terus menerus pada suatu segmen 
[a,b] dan dapat dibedakan dalam interval 
]a,b[ lalu ada satu titik 
 xi in]a,b[ sedemikian rupa
f(b)−f(a)=f′( xi)(b−a).
Akibat wajar 1 (tanda monotonitas suatu fungsi):Jika pada suatu titik interval turunan dari fungsi tersebut adalah non-negatif (positif), maka fungsi tersebut tidak menurun (meningkat) dalam interval ini.
Konsekuensi 2 (kriteria untuk keteguhan fungsi):Terus menerus memotong 
[a,b] suatu fungsi tidak konstan jika dan hanya jika turunannya nol pada titik mana pun dalam interval 
[a,b] (atau setidaknya intervalnya 
]a,b[ )
Turunan parsial dari fungsi banyak variabel
Melalui 
 mathbbRm menunjukkan set:
\ mathbb {R} ^ m = \ underbrace {\ mathbb {R} \ times \ mathbb {R} \ times \ cdots \ times \ mathbb {R}} _ m = \ {(\ omega_1, \ omega_2, ... , \ omega_m), \ space \ omega_i \ in \ mathbb {R} \ space \ forall i \ in \ overline {1, m} \}.
Definisi 8:Fungsi 
f colonE to mathbbR didefinisikan di set 
E subset mathbbRm disebut 
terdiferensiasi pada titik tersebut x dalamE membatasi untuk set 
E jika
f(x+h)−f(x)=L(x)h+ alpha(x;h), qquad(1)
dimana 
L(x) colon mathbbRm to mathbbR - linear sehubungan dengan 
h function [fungsi 
diferensial f pada intinya 
x (referensi 
df(x) atau 
f′(x) )], dan 
 alpha(x;h)=o(h) di 
h hingga0,x+h dalamE .
Relasi (1) dapat ditulis ulang sebagai berikut:
f(x+h)−f(x)=f′(x)h+ alpha(x;h)
atau
 bigtriangleupf(x;h)=df(x)h+ alpha(x;h).
Jika kita pergi ke catatan koordinat titik 
x=(x1,...,xm) , vektor 
h=(h1,...,hm) dan fungsi linier 
L(x)h=a1(x)h1+...+am(x)hm , maka persamaan (1) terlihat seperti ini
f(x1+h1,...,xm+hm)−f(x1,...,xm)==a1(x)h1+...+am(x)hm+o(h) quaduntuk space spaceh hingga0, qquad(2)
dimana 
a1(x),...,am(x) - Terkait dengan titik 
x bilangan real Anda perlu menemukan angka-angka ini.
Kami menunjukkan
hi=hiei=0 cdote1+...+0 cdotei−1+hi cdotei+0 cdotei+1+...+0 cdotem,
dimana 
\ {e_1, ..., e_m \} - basis di 
 mathbbRm .
Di 
h=hi dari (2) kami dapatkan
f(x1,...,xi−1,xi+hi,xi+1,...,xm)−f(x1,...,xi,...,xm)==ai(x)hi+o(hi) quaduntuk spasi spasihi hingga0. qquad(3)
Dari (3) kami dapatkan
ai(x)= limhi to0 fracf(x1,...,xi−1,xi+hi,xi+1,..,xm)−f(x1,...,xi,...,xm)hi. qquad(4)
Definisi 9:Batas (4) disebut 
turunan parsial dari fungsi 
f(x) pada intinya 
x=(x1,...,xm) oleh variabel 
xi . Itu ditunjuk:
 frac partialf partialxi(x), quad partialif(x), quadf′xi(x).
Contoh 1:f(u,v)=u3+v2 sinu, partial1f(u,v)= frac partialf partialu(u,v)=3u2+v2 cosu, partial2f(u,v)= frac partialf partialv(u,v)=2v sinu.

Keturunan gradien
Biarkan 
f colon mathbbRn to mathbbR dimana 
\ mathbb {R} ^ n = \ underbrace {\ mathbb {R} \ times \ mathbb {R} \ times \ cdots \ times \ mathbb {R}} _ n = \ {(\ theta_1, \ theta_2, ... , \ theta_n), \ space \ theta_i \ in \ mathbb {R} \ space \ forall i \ in \ overline {1, n} \} .
Definisi 10:Fungsi 
Gradien f colon mathbbRn to mathbbR disebut vektor, 
i yang elemennya sama dengan 
 frac partialf partial thetai :
 bigtriangledown thetaf= kiri( beginarrayc frac partialf partial theta1frac partialf partial theta2 vdotsfrac partialf partial thetan endarray kanan), quad theta=( theta1, theta2,..., thetan).
Gradien adalah arah peningkatan fungsi paling cepat. Ini berarti bahwa arah penurunannya paling cepat adalah arah yang berlawanan dengan gradien, mis. 
− bigtriangledown thetaf .
Tujuan dari metode gradient descent adalah untuk mencari titik 
ekstrim (minimum) dari suatu fungsi.
Ditunjukkan oleh 
 theta(t) vektor parameter fungsi dalam langkah 
t . Vektor pembaruan parameter dalam langkah 
t :
u(t)=− eta bigtriangledown thetaf( theta(t−1)), quad theta(t)= theta(t−1)+u(t).
Dalam rumus di atas, parameternya 
 eta Apakah 
kecepatan belajar yang mengontrol ukuran langkah yang kita ambil dalam arah kemiringan gradien. Secara khusus, dua masalah yang berlawanan dapat muncul:
- jika langkah-langkahnya terlalu kecil, pelatihannya akan terlalu lama, dan kemungkinan terjebak dalam minimum minimum lokal yang kecil di sepanjang jalan meningkat (gambar pertama pada gambar di bawah);
- jika terlalu besar, Anda dapat melompati batas minimum yang diinginkan tanpa henti, tetapi tidak pernah mencapai titik terendah (gambar ketiga pada gambar di bawah).
Contoh:Pertimbangkan contoh metode gradient descent dalam kasus paling sederhana ( 
n=1 ) Yaitu 
f colon mathbbR to mathbbR .
Biarkan 
f(x)=x2, quad theta(0)=3, quad eta=1 . Lalu:
 frac partialf partialx(x)=2x quad Rightarrow quad bigtriangledownf theta(x)=2x; theta(1)= theta(0)−1 cdotf theta( theta(0))=3−6=−3; theta(2)= theta(1)−1 cdotf theta( theta(1))=−3+6=3= theta(0).
Dalam hal kapan 
 eta=1 , situasinya seperti pada gambar ketiga dari gambar di atas. Kami terus-menerus melompati titik ekstrem.
Biarkan 
 eta=0,8 . Lalu:
 theta(1)= theta(0)−0.8 kalif theta( theta(0))=3−0.8 times6=3−4.8=−1.8; theta(2)= theta(1)−0.8 kalif theta( theta(1))=−1.8+0.8 times3.6=−1.8+2.88=1,08; theta(3)= theta(2)−0,8 kalif theta( theta(2))=1.08−0.8 times2.16=1.08−1.728=−0,648; theta(4)= theta(3)−0,8 kalif theta( theta(3))=−0,648+0,8 times1.296=−0,648+1,0368=0,3888; theta(5)= theta(4)−0.8 kalif theta( theta(4))=0.3888−0.8 times0.7776=0.3888−.62208=−0,23328; theta(6)= theta(5)−0.8 kalif theta( theta(5))=−0.23328+0.8 times0.46656=−0.23328+0.373248==0,139968.
Terlihat bahwa secara iteratif kita sedang mendekati titik ekstrem.
Biarkan 
 eta=0,5 . Lalu:
 theta(1)= theta(0)−0,5 kalif theta( theta(0))=3−0,5 times6=3−3=0; theta(2)= theta(1)−0,5 kalif theta( theta(1))=0−0,5 times0=0.
Titik ekstrem ditemukan dalam 1 langkah.
Daftar literatur yang digunakan:
- “Analisis matematis. Bagian 1 ", V.A. Zorich, Moskow, 1997;
- “Pembelajaran yang mendalam. Perendaman dalam dunia jaringan saraf ”, S. Nikulenko, A. Kadurin, E. Arkhangelskaya, PETER, 2018.