ملخص عن تعلم الآلة. التحليل الرياضي. نزول التدرج



أذكر التحليل الرياضي


وظيفة الاستمرارية ومشتقاتها


سمح E subseteq mathbbR . دولادولا هي نقطة الحد من مجموعة E (أي a inE، forall varepsilon>0 space space|(a varepsilon،a+ varepsilon) capE|= infty،، ) f colonE to mathbbR .

التعريف 1 (حد وظيفة كوشي):

وظيفة f colonE to mathbbR ملتزم دولادولا في x تسعى ل دولادولا إذا

 forall varepsilon>0 space space موجود delta>0 space space forallx inE space space(0<|xa|< delta Rightarrow|f(x)A|< varepsilon).

موجود


تعيين:  lim limitE nix toaf(x)=A .

التعريف 2:

  1. الفاصلة ab دعا مجموعة ] a ، b [\ space: = \ {x \ in \ mathbb {R} | <x <b \}] a ، b [\ space: = \ {x \ in \ mathbb {R} | <x <b \} .
  2. نقطة الفاصل x in mathbbR ويسمى حي هذه النقطة.
  3. الحي المثقب لنقطة ما هو حي النقطة التي يتم منها استبعاد هذه النقطة نفسها.

تعيين:

  1. V(x) أو U(x) - حي نقطة x .
  2.  overset circU(x) - ثقب ثقب نقطة x .
  3. UE(x):=E capU(x)، overset circUE(x):=E cap overset circU(x)،

تعريف 3 (الحد من وظيفة من خلال الأحياء):


 lim limitE nix toaf(x)=A:= forallVR(A) space موجود overset circUE(a) space space(f( overset circUE(a)) subsetVR(A)).

موجود


التعريفان 1 و 3 متساويان.

التعريف 4 (استمرارية دالة عند نقطة):

  1. f colonE to mathbbR مستمر في a inE:=

    = forallV(f(a)) space space موجودUE(a) space space(f(UE(a)) subsetV(f(a)))؛

    موجود؛
  2. f colonE to mathbbR مستمر في a inE:=

     forall varepsilon>0 space space موجود delta>0 space space forallx inE space space(|xa|< delta Rightarrow|f(x)f(a)|< varepsilon).

    موجود

التعاريف 3 و 4 تبين ذلك
( f colonE to mathbbR مستمر في a inE حيث دولا - نقطة الحد E )  Leftrightarrow
 Leftrightarrow( lim limitE nix toaf(x)=f(a)).

التعريف 5:

وظيفة f colonE to mathbbR دعا المستمر على المجموعة E إذا كانت مستمرة في كل نقطة من المجموعة E .

التعريف 6:

  1. وظيفة f colonE to mathbbR المحددة في المجموعة E subset mathbbR ويسمى التفاضل في هذه النقطة a inE الحد للمجموعة E إذا كان هناك مثل هذا الخطي فيما يتعلق الزيادة سواحددولا وظيفة حجة A cdot(xa) [وظيفة التفاضلية و عند هذه النقطة دولا ] تلك الزيادة f(x)f(a) وظائف و ممثلة

    f(x)f(a)=A cdot(xa)+o(xa) quadلـ spacex to، spacex inE.

  2. قيمة

    f '(a) = \ lim \ limit_ {E \ ni x \ to}} \ frac {f (x) -f (a)} {x-a}


    وظيفة مشتقة و عند هذه النقطة دولا .

أيضا

f(x)= lim substackh to0x+h،x inE fracf(x+h)f(x)h.



التعريف 7:

  1. نقطة x0 inE subset mathbbR تسمى نقطة الحد الأقصى المحلي (الحد الأدنى) ، وتسمى قيمة الوظيفة في الحد الأقصى المحلي (الحد الأدنى) للدالة f colonE to mathbbR إذا  موجودUE(x0) :

     forallx inUE(x0) space spacef(x) leqf(x0)(علىالتوالي،f(x) geqf(x0)).

  2. تسمى نقاط الحد الأقصى والحد الأدنى المحلي نقاط أقصى الطرف المحلي ، وتسمى قيم الوظيفة الموجودة بها extrema المحلية للدالة .
  3. نقطة x0 فيE وظيفة القصوى f colonE to mathbbR دعا نقطة القصوى الداخلية إذا x0دولا هي نقطة الحد بالنسبة للمجموعة E _- = \ {x \ in E | x <x_0 \} وللمجموعة E _ + = \ {x \ in E | x> x_0 \} .

ليما 1 (فيرما):

إذا كانت الوظيفة f colonE to mathbbR متباينة في نقطة القصوى الداخلية x0 فيE ، ثم مشتقها في هذه المرحلة هو صفر: f(x0)=0 .

الاقتراح 1 (نظرية رول):
إذا كانت الوظيفة f colon[a،b] to mathbbR مستمر على قطعة [a،b] التفاضل في الفاصل ]أ،ب[ و f(a)=f(b) ثم هناك نقطة  xi in]a،b[ مثل هذا f( xi)=0 .

النظرية 1 (نظرية لاجرانج للزيادة المحدودة):

إذا كانت الوظيفة f colon[a،b] to mathbbR مستمر على قطعة [a،b] وقابل للتمييز في الفاصل ]أ،ب[ ثم هناك نقطة  xi in]a،b[ مثل هذا

f(b)f(a)=f( xi)(ba).


النتيجة الطبيعية 1 (علامة على رتابة دالة):
إذا كان مشتق الوظيفة في أي وقت من الأوقات غير سالب (موجب) ، فإن الوظيفة لا تنقص (تزيد) في هذا الفاصل.

النتيجة الطبيعية 2 (معيار ثبات الوظيفة):
مستمر على قطع [a،b] وظيفة ليست ثابتة إذا وفقط إذا كان مشتقها هو صفر في أي نقطة من الفاصل [a،b] (أو على الأقل الفاصل الزمني ]أ،ب[ ).

مشتق جزئي من وظيفة العديد من المتغيرات


من خلال  mathbbRm دلالة على المجموعة:

\ mathbb {R} ^ m = \ underbrace {\ mathbb {R} \ times \ mathbb {R} \ times \ cdots \ times \ mathbb {R}} _ m = \ {(\ omega_1، \ omega_2، ... ، \ omega_m)، \ space \ omega_i \ in \ mathbb {R} \ space \ forall i \ in \ overline {1، m} \}.



التعريف 8:

وظيفة f colonE to mathbbR المحددة في المجموعة E subset mathbbRm ويسمى التفاضل في هذه النقطة x فيE الحد للمجموعة E إذا

f(x+h)f(x)=L(x)h+ alpha(x؛h)، qquad(1)

حيث L(x) colon mathbbRm to mathbbR - الخطية فيما يتعلق ح وظيفة [وظيفة الفرق و عند هذه النقطة x (ملحوظة. df(x) أو f(x) )] ، و  alpha(x؛h)=o(h) في h إلى0،x+h inE .

يمكن إعادة كتابة العلاقة (1) على النحو التالي:

f(x+h)f(x)=f(x)h+ alpha(x؛h)

أو

 bigtriangleupf(x؛h)=df(x)h+ alpha(x؛h).


إذا ذهبنا إلى السجل الإحداثي لهذه النقطة x=(x1،...،xm) متجه h=(h1،...،hm) والوظائف الخطية L(x)h=a1(x)h1+...+am(x)hm ، ثم المساواة (1) تبدو هكذا

f(x1+h1،...،xm+hm)f(x1،...،xm)==a1(x)h1+...+am(x)hm+o(h) quadلـ space spaceh to0، qquad(2)

حيث a1(x)،...،am(x) - المرتبطة نقطة x أرقام حقيقية. تحتاج إلى العثور على هذه الأرقام.

نحن نشير

hi=hiei=0 cdote1+...+0 cdotei1+hi cdotei+0 cdotei+1+...+0 cdotem،

حيث \ {e_1، ...، e_m \} - أساس في  mathbbRm .

في h=hi من (2) نحصل عليه

f(x1،...،xi1،xi+hi،xi+1،...،xm)f(x1،...،xi،...،xm)==ai(x)hi+o(hi) quadfor space spacehi to0. qquad(3)دولا



من (3) نحصل عليها

ai(x)= limhi to0 fracf(x1،...،xi1،xi+hi،xi+1،..،xm)f(x1،...،xi،...،xm)hi. qquad(4)


التعريف 9:
يسمى الحد (4) بالمشتق الجزئي للوظيفة f(x) عند هذه النقطة x=(x1،...،xm) بواسطة متغير xi . تم تعيينه:

 frac جزئيةf جزئيةxi(x)، quad جزئية(x)، quadfxi(x).



مثال 1:

f(u،v)=u3+v2 sinu، جزئي1f(u،v)= frac الجزئيf الجزئيu(u،v)=3u2+v2 cosu، جزئية2f(u،v)= frac جزئيةf جزئيةv(u،v)=2v sinu.





نزول التدرج


سمح f colon mathbbRn to mathbbR حيث \ mathbb {R} ^ n = \ underbrace {\ mathbb {R} \ times \ mathbb {R} \ times \ cdots \ times \ mathbb {R}} _ n = \ {(\ theta_1، \ theta_2، ... ، \ theta_n)، \ space \ theta_i \ in \ mathbb {R} \ space \ forall i \ in \ overline {1، n} \} .

التعريف 10:

وظيفة التدرج f colon mathbbRn to mathbbR دعا ناقلات ، i العنصر الذي يساوي  frac جزئيةf جزئية thetai :

 bigtriangledown thetaf= left( startarrayc frac الجزئيf جزئي theta1 frac جزئيf الجزئي theta2 vdots frac جزئيf جزئي thetan endarray right)، quad theta=( theta1، theta2،...، thetan).


التدرج هو الاتجاه الذي تزيد فيه الوظيفة بسرعة أكبر. هذا يعني أن الاتجاه الذي ينخفض ​​فيه بسرعة أكبر هو الاتجاه المعاكس للتدرج ، أي  bigtriangledown thetaf .

الهدف من طريقة النسب التدرج هو البحث عن النقطة القصوى (الحد الأدنى) للدالة.

دلالة بواسطة  theta(t) وظيفة متجه المعلمة في الخطوة t . ناقل تحديث المعلمة في الخطوة t :

u(t)= eta bigtriangledown thetaf( theta(t1))، quad theta(t)= theta(t1)+u(t).


في الصيغة أعلاه ، المعلمة  eta هي سرعة التعلم التي تتحكم في حجم الخطوة التي نتخذها في اتجاه منحدر التدرج. على وجه الخصوص ، قد تنشأ مشكلتان متعارضتان:

  • إذا كانت الخطوات صغيرة جدًا ، فسيكون التدريب طويلًا جدًا ، ويزيد احتمال الوقوع في الحد الأدنى المحلي غير الناجح على طول الطريق (الصورة الأولى في الصورة أدناه) ؛
  • إذا كانت كبيرة جدًا ، فيمكنك القفز بلا نهاية إلى الحد الأدنى المطلوب ذهابًا وإيابًا ، ولكن لا تصل أبدًا إلى أدنى نقطة (الصورة الثالثة في الصورة أدناه).


مثال:
النظر في مثال لطريقة النسب التدرج في أبسط الحالات ( ن=1دولا ). هذا هو f colon mathbbR to mathbbR .
سمح f(x)=x2، quad theta(0)=3، quad eta=1 . ثم:

 frac جزئيf جزئيةx(x)=2x quad Rightarrow quad bigtriangledownf theta(x)=2x؛ theta(1)= theta(0)1 cdotf theta( theta(0))=36=3؛ theta(2)= theta(1)1 cdotf theta( theta(1))=3+6=3= theta(0).

في حالة متى  eta=1 ، الوضع كما في الصورة الثالثة من الصورة أعلاه. نحن نقفز باستمرار على النقطة القصوى.
سمح  eta=0.8دولا . ثم:

 theta(1)= theta(0)0.8 timesf theta( theta(0))=30.8 times6=34.8=1.8؛ theta(2)= theta(1)0.8 timesf theta( theta(1))=1.8+0.8 times3.6=1.8+2.88=1.08؛ theta(3)= theta(2)0.8 timesf theta( theta(2))=1.080.8 times2.16=1.081.728=0.648. theta(4)= theta(3)0.8 timesf theta( theta(3))=0.648+0.8 times1.296=0.648+1.0368=0.3888؛ theta(5)= theta(4)0.8 timesf theta( theta(4))=0.38880.8 times0.7776=0.3888.62208=،23328. theta(6)= theta(5)0.8 timesf theta( theta(5))=0.23328+0.8 times0.46656=0.23328+0.373248==0.139968.

يُرى أننا نقترب من نقطة التطرف.
سمح  eta=0.5 . ثم:

 theta(1)= theta(0)0.5 timesf theta( theta(0))=30.5 times6=33=0؛ theta(2)= theta(1)0.5 timesf theta( theta(1))=00.5 times0=0.

تم العثور على النقطة القصوى في خطوة واحدة.

قائمة الأدبيات المستخدمة:


  • "التحليل الرياضي. الجزء 1 "، V.A. Zorich، Moscow، 1997؛
  • "التعلم العميق. الانغماس في عالم الشبكات العصبية "، S. Nikulenko ، A. Kadurin ، E. Arkhangelskaya ، PETER ، 2018.

Source: https://habr.com/ru/post/ar474338/


All Articles