
Lembre-se da análise matemática
Função Continuidade e Derivada
Vamos 
E subseteq mathbbR , 
a É o ponto limite do conjunto 
E (ou seja, 
a emE, forall varepsilon>0 space space|(a− varepsilon,a+ varepsilon) capE|= infty ), 
f colonE to mathbbR .
Definição 1 (limite da função Cauchy):Função 
f colonE to mathbbR comprometido com 
A às 
x procurando 
a se
 forall varepsilon>0 espaço espaço existe delta>0 espaço espaço forallx emE espaço espaço(0<|x−a|< delta Rightarrow|f(x)−A|< varepsilon).
Designação: 
 lim limitsE nix paraaf(x)=A .
Definição 2:- Intervalo ab chamado conjunto ] a, b [\ espaço: = \ {x \ in \ mathbb {R} | a <x <b \}] a, b [\ espaço: = \ {x \ in \ mathbb {R} | a <x <b \} ;
- Intervalo de pontos x in mathbbR é chamado de vizinhança deste ponto.
- Uma vizinhança perfurada de um ponto é uma vizinhança de um ponto do qual esse ponto em si é excluído.
Designação:
- V(x) ou U(x) - vizinhança de um ponto x ;
-  overset circU(x) - vizinhança perfurada de um ponto x ;
- UE(x):=E capU(x), overset circUE(x):=E cap overset circU(x)
Definição 3 (limite de função entre bairros):
 lim limitsE nix paraaf(x)=A:= forVR(A) espaço existe overset circUE(a) space space(f( overset circUE(a)) subconjuntoVR(A)).
As definições 1 e 3 são equivalentes.
Definição 4 (continuidade de uma função em um ponto):- f colonE to mathbbR contínuo em a emE:== forallV(f(a)) space space existeUE(a) space space(f(UE(a)) subconjuntoV(f(a))); 
 
- f colonE to mathbbR contínuo em a emE:= forall varepsilon>0 espaço espaço existe delta>0 espaço espaço forallx emE espaço espaço(|xa|< delta Rightarrow|f(x)−f(a)|< varepsilon). 
 
As definições 3 e 4 mostram que
( 
f colonE to mathbbR contínuo em 
a emE onde 
a - ponto limite 
E ) 
 Leftrightarrow Leftrightarrow( lim limitsE nix paraaf(x)=f(a)).Definição 5:Função 
f colonE to mathbbR chamado 
contínuo no aparelho E se for contínuo em cada ponto do conjunto 
E .
Definição 6:- Função f colonE to mathbbR definido no conjunto E subset mathbbR é chamado diferenciável no ponto a emE limitando para o conjunto E se existe um linear em relação ao incremento x−a função de argumento A cdot(x−a) [ diferencial de função f no ponto a ] esse incremento f(x)−f(a) as funções f representado comof(x)−f(a)=A cdot(x−a)+o(x−a) quadpara espaçox paraa, espaçox emE 
 
- Valor
 f′(a)= lim limitsE nix paraa fracf(x)−f(a)x−a 
 
 chamada função derivada f no ponto a .
Também
f′(x)= lim substackh a0x+h,x inE fracf(x+h)−f(x)h.
Definição 7:- Ponto x0 noE subconjunto mathbbR é chamado ponto máximo local (mínimo) e o valor da função é chamado máximo local (mínimo) da função f colonE to mathbbR se  existeUE(x0) : forallx inUE(x0) space spacef(x) leqf(x0)(respectivamente,f(x) geqf(x0)) 
 
- Os pontos máximo e mínimo locais são chamados pontos extremos locais e os valores da função neles são chamados extremos locais da função .
- Ponto x0 emE função extrema f colonE to mathbbR chamado ponto extremo interno se x0 é o ponto limite como para o conjunto E _- = \ {x \ em E | x <x_0 \} e para o conjunto E _ + = \ {x \ em E | x> x_0 \} .
Lema 1 (Fermat):Se a função 
f colonE to mathbbR diferenciável no ponto do extremo interno 
x0 emE , então sua derivada neste momento é zero: 
f′(x0)=0 .
Proposição 1 (teorema de Roll):Se a função 
f colon[a,b] to mathbbR contínuo em um segmento 
[a,b] diferenciável no intervalo 
]a,b[ e 
f(a)=f(b) então há um ponto 
 xi in]a,b[ tal que 
f′( xi)=0 .
Teorema 1 (teorema do incremento finito de Lagrange):Se a função 
f colon[a,b] to mathbbR contínuo em um segmento 
[a,b] e diferenciável no intervalo 
]a,b[ então há um ponto 
 xi in]a,b[ tal que
f(b)−f(a)=f′( xi)(b−a)
Corolário 1 (um sinal de monotonicidade de uma função):Se em qualquer ponto de um intervalo a derivada da função não for negativa (positiva), a função não diminui (aumenta) nesse intervalo.
Corolário 2 (critério para a constância da função):Contínuo em um corte 
[a,b] uma função não é constante se e somente se sua derivada for zero em qualquer ponto do intervalo 
[a,b] (ou pelo menos o intervalo 
]a,b[ )
Derivada parcial de uma função de muitas variáveis
Através de 
 mathbbRm denotar o conjunto:
\ mathbb {R} ^ m = \ underbrace {\ mathbb {R} \ times \ mathbb {R} \ times \ cdots \ times \ mathbb {R}} _ m = \ {(\ omega_1, \ omega_2, ... , \ omega_m), \ space \ omega_i \ in \ mathbb {R} \ space \ forall i \ in \ overline {1, m} \}.
Definição 8:Função 
f colonE to mathbbR definido no conjunto 
E subconjunto mathbbRm é chamado 
diferenciável no ponto x emE limitando para o conjunto 
E se
f(x+h)−f(x)=L(x)h+ alpha(x;h), qquad(1)
onde 
L(x) colon mathbbRm to mathbbR - linear em relação a 
h função [ 
diferencial de função 
f no ponto 
x (referência 
df(x) ou 
f′(x) )] e 
 alpha(x;h)=o(h) às 
h a0,x+h emE .
A relação (1) pode ser reescrita da seguinte maneira:
f(x+h)−f(x)=f′(x)h+ alpha(x;h)
ou
 bigtriangleupf(x;h)=df(x)h+ alpha(x;h).
Se formos para o registro de coordenadas do ponto 
x=(x1,...,xm) vetor 
h=(h1,...,hm) e funções lineares 
L(x)h=a1(x)h1+...+am(x)hm , então a igualdade (1) fica assim

onde 
a1(x),...,am(x) - associado ao ponto 
x números reais. Você precisa encontrar esses números.
Nós denotamos
hi=hiei=0 cdote1+...+0 cdotei−1+hi cdotei+0 cdotei+1+...+0 cdotem,
onde 
\ {e_1, ..., e_m \} - base em 
 mathbbRm .
At 
h=hi de (2) obtemos
f(x1,...,xi−1,xi+hi,xi+1,...,xm)−f(x1,...,xi,...,xm)==ai(x)hi+o(hi) quadpara espaço espaçohi a0. qquad(3)
De (3) obtemos
ai(x)= limhi to0 fracf(x1,...,xi−1,xi+hi,xi+1,..,xm)−f(x1,...,xi,...,xm)hi. qquad(4)
Definição 9:O limite (4) é chamado 
derivada parcial da função 
f(x) no ponto 
x=(x1,...,xm) por variável 
xi . Está designado:
 frac parcialf parcialxi(x), quad parcialif(x), quadf′xi(x).
Exemplo 1:f(u,v)=u3+v2 senu, parcial1f(u,v)= frac parcialf parcialu(u,v)=3u2+v2 cosu, parcial2f(u,v)= frac parcialf parcialv(u,v)=2v sinu.

Descida de gradiente
Vamos 
f colon mathbbRn to mathbbR onde 
\ mathbb {R} ^ n = \ underbrace {\ mathbb {R} \ times \ mathbb {R} \ times \ cdots \ times \ mathbb {R}} _ n = \ {(\ theta_1, \ theta_2, ... , \ theta_n), \ space \ theta_i \ in \ mathbb {R} \ space \ forall i \ in \ overline {1, n} \} .
Definição 10:Função 
Gradiente f colon mathbbRn to mathbbR chamado vetor 
i cujo elemento é igual a 
 frac parcialf parcial thetai :
 bigtriangledown thetaf= left( beginarrayc frac parcialf parcial theta1 frac parcialf parcial theta2 vdots frac parcialf parcial thetan endarray right), quad theta=( theta1, theta2,..., thetan).
Gradiente é a direção na qual a função aumenta mais rapidamente. Isso significa que a direção em que diminui mais rapidamente é a direção oposta ao gradiente, ou seja, 
− bigtriangledown thetaf .
O objetivo do método de descida de gradiente é procurar o ponto 
extremo (mínimo) de uma função.
Denotar por 
 theta(t) vetor de parâmetro de função na etapa 
t . Vetor de atualização de parâmetro na etapa 
t :
u(t)=− eta bigtriangledown thetaf( theta(t−1)), quad theta(t)= theta(t−1)+u(t).
Na fórmula acima, o parâmetro 
 eta É a 
velocidade de aprendizado que controla o tamanho da etapa que damos na direção da inclinação do gradiente. Em particular, dois problemas opostos podem surgir:
- se os passos forem muito pequenos, o treinamento será muito longo e aumentará a probabilidade de ficar preso em um mínimo local pequeno e sem êxito ao longo da estrada (a primeira imagem na figura abaixo);
- se forem muito grandes, você poderá pular sem parar o mínimo desejado, mas nunca atingir o ponto mais baixo (a terceira imagem na figura abaixo).
Um exemplo:Considere o exemplo do método de descida de gradiente no caso mais simples ( 
n=1 ) Isso é 
f colon mathbbR para mathbbR .
Vamos 
f(x)=x2, quad theta(0)=3, quad eta=1 . Então:
 frac parcialf parcialx(x)=2x quad Rightarrow quad bigtriangledownf theta(x)=2x;theta(1)= theta(0)−1 cdotf theta( theta(0))=3−6=−3;theta(2)= theta(1)−1 cdotf theta( theta(1))=−3+6=3= theta(0).
No caso em que 
 eta=1 , a situação é como na terceira imagem da imagem acima. Saltamos constantemente sobre o ponto extremo.
Vamos 
 eta=0,8 . Então:
 theta(1)= theta(0)−0,8 vezesf theta( theta(0))=3−0,8 times6=3−4,8=−1,8;theta(2)= theta(1)−0,8 vezesf theta( theta(1))=−1,8+0,8 times3,6=−1,8+2,88=1,08;theta(3)= theta(2)−0,8 timesf theta( theta(2))=1,08−0,8 times2,16=1,08−1,728=−0,648;theta(4)= theta(3)−0,8 timesf theta( theta(3))=−0,648+0,8 times1,296=−0,648+1,0368=0,3888;theta(5)= theta(4)−0,8 vezesf theta( theta(4))=0,3888−0,8 times0,7776=0,3888−0,62208=−0,23328;theta(6)= theta(5)−0,8 vezesf theta( theta(5))=−0,23328+0,8 times0.46656=−0,23328+0,373248==0,139968.
É visto que, iterativamente, estamos nos aproximando do ponto extremo.
Vamos 
 eta=0,5 . Então:
 theta(1)= theta(0)−0,5 vezesf theta( theta(0))=3−0,5 times6=3−3=0;theta(2)= theta(1)−0,5 vezesf theta( theta(1))=0−0,5 times0=0
O ponto extremo foi encontrado em 1 passo.
Lista de literatura usada:
- “Análise matemática. Parte 1 ", V.A. Zorich, Moscou, 1997;
- “Aprendizagem profunda. Imersão no mundo das redes neurais ”, S. Nikulenko, A. Kadurin, E. Arkhangelskaya, PETER, 2018.