
Ingat analisis matematika
Fungsi Kontinuitas dan Derivatif
Biarkan
E subseteq mathbbR ,
a Adalah titik batas set
E (mis.
a inE, forall varepsilon>0 space space|(a− varepsilon,a+ varepsilon) capE|= infty ),
f colonE to mathbbR .
Definisi 1 (batas fungsi Cauchy):Fungsi
f colonE to mathbbR berkomitmen untuk
A di
x mencari untuk
a jika
forall varepsilon>0 space space exist delta>0 space spaceallforallx inE space space(0<|x−a|< delta Rightarrow|f(x)−A|< varepsilon).
Penunjukan:
lim limitE nix toaf(x)=A .
Definisi 2:- Interval ab disebut set ] a, b [\ space: = \ {x \ in \ mathbb {R} | a <x <b \}] a, b [\ space: = \ {x \ in \ mathbb {R} | a <x <b \} ;
- Interval Titik x in mathbbR disebut lingkungan titik ini.
- Lingkungan titik yang tertusuk adalah lingkungan titik di mana titik ini sendiri dikecualikan.
Penunjukan:
- V(x) atau U(x) - Lingkungan suatu titik x ;
- overset circU(x) - Lingkungan titik tertusuk x ;
- UE(x):=E capU(x), overset circUE(x):=E cap overset circU(x)
Definisi 3 (batas fungsi melalui lingkungan):
lim limitE nix keaf(x)=A:= forallVR(A) space exist overset circUE(a) space space(f( overset circUE(a)) subsetVR(A)).
Definisi 1 dan 3 adalah setara.
Definisi 4 (kontinuitas fungsi pada suatu titik):- f colonE to mathbbR terus menerus dalam a dalamE:=
= forallV(f(a)) space space adaUE(a) space space(f(UE(a)) subsetV(f(a)));
- f colonE to mathbbR terus menerus dalam a dalamE:=
forall varepsilon>0 space space exist delta>0 space spaceallforallx inE space space(|xa|< delta Rightarrow|f(x)−f(a)|< varepsilon).
Definisi 3 dan 4 menunjukkan itu
(
f colonE to mathbbR terus menerus dalam
a dalamE dimana
a - titik batas
E )
Leftrightarrow Leftrightarrow( lim LimitE nix toaf(x)=f(a)).Definisi 5:Fungsi
f colonE to mathbbR disebut
kontinu di set E jika kontinu pada setiap titik set
E .
Definisi 6:- Fungsi f colonE to mathbbR didefinisikan di set E subset mathbbR disebut terdiferensiasi pada titik tersebut a dalamE membatasi untuk set E jika ada linear seperti itu sehubungan dengan kenaikan x−a fungsi argumen A cdot(x−a) [fungsi diferensial f pada intinya a ] kenaikan itu f(x)−f(a) fungsi f direpresentasikan sebagai
f(x)−f(a)=A cdot(x−a)+o(x−a) quaduntuk spacex toa, spacex dalamE.
- Nilai
f′(a)= lim limitE nix toa fracf(x)−f(a)x−a
disebut fungsi turunan f pada intinya a .
Juga
f′(x)= lim subtackh hingga0x+h,x dalamE fracf(x+h)−f(x)h.
Definisi 7:- Point x0 dalamE subset mathbbR disebut titik maksimum lokal (minimum) , dan nilai fungsi di dalamnya disebut maksimum lokal (minimum) dari fungsi f colonE to mathbbR jika adaUE(x0) :
forallx diUE(x0) space spacef(x) leqf(x0)(masing−masing,f(x) geqf(x0)).
- Titik maksimum dan minimum lokal disebut titik ekstrim lokal , dan nilai fungsi di dalamnya disebut ekstrema lokal dari fungsi .
- Point x0 dalamE fungsi ekstrem f colonE to mathbbR disebut titik ekstrem internal jika x0 adalah titik batas untuk set E _- = \ {x \ dalam E | x <x_0 \} , dan untuk set E _ + = \ {x \ dalam E | x> x_0 \} .
Lemma 1 (Fermat):Jika fungsinya
f colonE to mathbbR dapat dibedakan pada titik ekstrim internal
x0 dalamE , maka turunannya pada titik ini adalah nol:
f′(x0)=0 .
Proposisi 1 (teorema Roll):Jika fungsinya
f colon[a,b] to mathbbR terus menerus pada suatu segmen
[a,b] dibedakan dalam interval
]a,b[ dan
f(a)=f(b) lalu ada satu titik
xi in]a,b[ sedemikian rupa
f′( xi)=0 .
Teorema 1 (Teorema kenaikan berhingga Lagrange):Jika fungsinya
f colon[a,b] to mathbbR terus menerus pada suatu segmen
[a,b] dan dapat dibedakan dalam interval
]a,b[ lalu ada satu titik
xi in]a,b[ sedemikian rupa
f(b)−f(a)=f′( xi)(b−a).
Akibat wajar 1 (tanda monotonitas suatu fungsi):Jika pada suatu titik interval turunan dari fungsi tersebut adalah non-negatif (positif), maka fungsi tersebut tidak menurun (meningkat) dalam interval ini.
Konsekuensi 2 (kriteria untuk keteguhan fungsi):Terus menerus memotong
[a,b] suatu fungsi tidak konstan jika dan hanya jika turunannya nol pada titik mana pun dalam interval
[a,b] (atau setidaknya intervalnya
]a,b[ )
Turunan parsial dari fungsi banyak variabel
Melalui
mathbbRm menunjukkan set:
\ mathbb {R} ^ m = \ underbrace {\ mathbb {R} \ times \ mathbb {R} \ times \ cdots \ times \ mathbb {R}} _ m = \ {(\ omega_1, \ omega_2, ... , \ omega_m), \ space \ omega_i \ in \ mathbb {R} \ space \ forall i \ in \ overline {1, m} \}.
Definisi 8:Fungsi
f colonE to mathbbR didefinisikan di set
E subset mathbbRm disebut
terdiferensiasi pada titik tersebut x dalamE membatasi untuk set
E jika
f(x+h)−f(x)=L(x)h+ alpha(x;h), qquad(1)
dimana
L(x) colon mathbbRm to mathbbR - linear sehubungan dengan
h function [fungsi
diferensial f pada intinya
x (referensi
df(x) atau
f′(x) )], dan
alpha(x;h)=o(h) di
h hingga0,x+h dalamE .
Relasi (1) dapat ditulis ulang sebagai berikut:
f(x+h)−f(x)=f′(x)h+ alpha(x;h)
atau
bigtriangleupf(x;h)=df(x)h+ alpha(x;h).
Jika kita pergi ke catatan koordinat titik
x=(x1,...,xm) , vektor
h=(h1,...,hm) dan fungsi linier
L(x)h=a1(x)h1+...+am(x)hm , maka persamaan (1) terlihat seperti ini
f(x1+h1,...,xm+hm)−f(x1,...,xm)==a1(x)h1+...+am(x)hm+o(h) quaduntuk space spaceh hingga0, qquad(2)
dimana
a1(x),...,am(x) - Terkait dengan titik
x bilangan real Anda perlu menemukan angka-angka ini.
Kami menunjukkan
hi=hiei=0 cdote1+...+0 cdotei−1+hi cdotei+0 cdotei+1+...+0 cdotem,
dimana
\ {e_1, ..., e_m \} - basis di
mathbbRm .
Di
h=hi dari (2) kami dapatkan
f(x1,...,xi−1,xi+hi,xi+1,...,xm)−f(x1,...,xi,...,xm)==ai(x)hi+o(hi) quaduntuk spasi spasihi hingga0. qquad(3)
Dari (3) kami dapatkan
ai(x)= limhi to0 fracf(x1,...,xi−1,xi+hi,xi+1,..,xm)−f(x1,...,xi,...,xm)hi. qquad(4)
Definisi 9:Batas (4) disebut
turunan parsial dari fungsi
f(x) pada intinya
x=(x1,...,xm) oleh variabel
xi . Itu ditunjuk:
frac partialf partialxi(x), quad partialif(x), quadf′xi(x).
Contoh 1:f(u,v)=u3+v2 sinu, partial1f(u,v)= frac partialf partialu(u,v)=3u2+v2 cosu, partial2f(u,v)= frac partialf partialv(u,v)=2v sinu.

Keturunan gradien
Biarkan
f colon mathbbRn to mathbbR dimana
\ mathbb {R} ^ n = \ underbrace {\ mathbb {R} \ times \ mathbb {R} \ times \ cdots \ times \ mathbb {R}} _ n = \ {(\ theta_1, \ theta_2, ... , \ theta_n), \ space \ theta_i \ in \ mathbb {R} \ space \ forall i \ in \ overline {1, n} \} .
Definisi 10:Fungsi
Gradien f colon mathbbRn to mathbbR disebut vektor,
i yang elemennya sama dengan
frac partialf partial thetai :
bigtriangledown thetaf= kiri( beginarrayc frac partialf partial theta1frac partialf partial theta2 vdotsfrac partialf partial thetan endarray kanan), quad theta=( theta1, theta2,..., thetan).
Gradien adalah arah peningkatan fungsi paling cepat. Ini berarti bahwa arah penurunannya paling cepat adalah arah yang berlawanan dengan gradien, mis.
− bigtriangledown thetaf .
Tujuan dari metode gradient descent adalah untuk mencari titik
ekstrim (minimum) dari suatu fungsi.
Ditunjukkan oleh
theta(t) vektor parameter fungsi dalam langkah
t . Vektor pembaruan parameter dalam langkah
t :
u(t)=− eta bigtriangledown thetaf( theta(t−1)), quad theta(t)= theta(t−1)+u(t).
Dalam rumus di atas, parameternya
eta Apakah
kecepatan belajar yang mengontrol ukuran langkah yang kita ambil dalam arah kemiringan gradien. Secara khusus, dua masalah yang berlawanan dapat muncul:
- jika langkah-langkahnya terlalu kecil, pelatihannya akan terlalu lama, dan kemungkinan terjebak dalam minimum minimum lokal yang kecil di sepanjang jalan meningkat (gambar pertama pada gambar di bawah);
- jika terlalu besar, Anda dapat melompati batas minimum yang diinginkan tanpa henti, tetapi tidak pernah mencapai titik terendah (gambar ketiga pada gambar di bawah).
Contoh:Pertimbangkan contoh metode gradient descent dalam kasus paling sederhana (
n=1 ) Yaitu
f colon mathbbR to mathbbR .
Biarkan
f(x)=x2, quad theta(0)=3, quad eta=1 . Lalu:
frac partialf partialx(x)=2x quad Rightarrow quad bigtriangledownf theta(x)=2x; theta(1)= theta(0)−1 cdotf theta( theta(0))=3−6=−3; theta(2)= theta(1)−1 cdotf theta( theta(1))=−3+6=3= theta(0).
Dalam hal kapan
eta=1 , situasinya seperti pada gambar ketiga dari gambar di atas. Kami terus-menerus melompati titik ekstrem.
Biarkan
eta=0,8 . Lalu:
theta(1)= theta(0)−0.8 kalif theta( theta(0))=3−0.8 times6=3−4.8=−1.8; theta(2)= theta(1)−0.8 kalif theta( theta(1))=−1.8+0.8 times3.6=−1.8+2.88=1,08; theta(3)= theta(2)−0,8 kalif theta( theta(2))=1.08−0.8 times2.16=1.08−1.728=−0,648; theta(4)= theta(3)−0,8 kalif theta( theta(3))=−0,648+0,8 times1.296=−0,648+1,0368=0,3888; theta(5)= theta(4)−0.8 kalif theta( theta(4))=0.3888−0.8 times0.7776=0.3888−.62208=−0,23328; theta(6)= theta(5)−0.8 kalif theta( theta(5))=−0.23328+0.8 times0.46656=−0.23328+0.373248==0,139968.
Terlihat bahwa secara iteratif kita sedang mendekati titik ekstrem.
Biarkan
eta=0,5 . Lalu:
theta(1)= theta(0)−0,5 kalif theta( theta(0))=3−0,5 times6=3−3=0; theta(2)= theta(1)−0,5 kalif theta( theta(1))=0−0,5 times0=0.
Titik ekstrem ditemukan dalam 1 langkah.
Daftar literatur yang digunakan:
- “Analisis matematis. Bagian 1 ", V.A. Zorich, Moskow, 1997;
- “Pembelajaran yang mendalam. Perendaman dalam dunia jaringan saraf ”, S. Nikulenko, A. Kadurin, E. Arkhangelskaya, PETER, 2018.