рдЧрдгрд┐рдд рдФрд░ Numpy рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реБрдП рдПрдХ рд╕рд░рд▓ рддрдВрддреНрд░рд┐рдХрд╛ рдиреЗрдЯрд╡рд░реНрдХ рд▓рд┐рдЦрдирд╛


рдЦрд░реЛрдВрдЪ рд╕реЗ рддрдВрддреНрд░рд┐рдХрд╛ рдиреЗрдЯрд╡рд░реНрдХ рд▓рд┐рдЦрдиреЗ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдЕрдЧрд▓рд╛ рд▓реЗрдЦ рдХреНрдпреЛрдВ? рдХрд╛рд╢, рдореБрдЭреЗ рдРрд╕реЗ рд▓реЗрдЦ рдирд╣реАрдВ рдорд┐рд▓рддреЗ, рдЬрд╣рд╛рдБ рд╕рд┐рджреНрдзрд╛рдВрдд рдФрд░ рд╕рдВрд╣рд┐рддрд╛ рдХреЛ рдЦрд░реЛрдВрдЪ рд╕реЗ рдкреВрд░реА рддрд░рд╣ рдХрд╛рдо рдХрд░рдиреЗ рд╡рд╛рд▓реЗ рдореЙрдбрд▓ рдХреЗ рд░реВрдк рдореЗрдВ рд╡рд░реНрдгрд┐рдд рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛ред рдореИрдВрдиреЗ рддреБрд░рдВрдд рдЪреЗрддрд╛рд╡рдиреА рджреА рдХрд┐ рдмрд╣реБрдд рд╕рд╛рд░рд╛ рдЧрдгрд┐рдд рд╣реЛрдЧрд╛ред рдореБрдЭреЗ рд▓рдЧрддрд╛ рд╣реИ рдХрд┐ рдкрд╛рдардХ рд░реИрдЦрд┐рдХ рдмреАрдЬрдЧрдгрд┐рдд, рдЖрдВрд╢рд┐рдХ рд╡реНрдпреБрддреНрдкрддреНрддрд┐ рдФрд░ рдХрдо рд╕реЗ рдХрдо рдЖрдВрд╢рд┐рдХ рд░реВрдк рд╕реЗ, рдкреНрд░рд╛рдпрд┐рдХрддрд╛ рд╕рд┐рджреНрдзрд╛рдВрдд рдХреЗ рд╕рд╛рде-рд╕рд╛рде рдкрд╛рдпрдерди рдФрд░ рдиреЗрдореНрдкреА рдХреА рдореВрд▓ рдмрд╛рддреЗрдВ рд╕реЗ рдкрд░рд┐рдЪрд┐рдд рд╣реИред рд╣рдо рдкреВрд░реА рддрд░рд╣ рд╕реЗ рдЬреБрдбрд╝реЗ рддрдВрддреНрд░рд┐рдХрд╛ рдиреЗрдЯрд╡рд░реНрдХ рдФрд░ MNIST рд╕реЗ рдирд┐рдкрдЯреЗрдВрдЧреЗред

рдЧрдгрд┐рддред рднрд╛рдЧ 1 (рд╕рд░рд▓)


рдкреВрд░реА рддрд░рд╣ рд╕реЗ рдЬреБрдбрд╝реА рд╣реБрдИ рдкрд░рдд (FC рд▓реЗрдпрд░) рдХреНрдпрд╛ рд╣реИ? рдЖрдорддреМрд░ рдкрд░ рд╡реЗ рдХрд╣рддреЗ рд╣реИрдВ рдХрд┐ "рдПрдХ рдкреВрд░реА рддрд░рд╣ рд╕реЗ рдЬреБрдбрд╝реА рд╣реБрдИ рдкрд░рдд рдПрдХ рдкрд░рдд рд╣реИ, рдЬрд┐рд╕рдореЗрдВ рд╕реЗ рдкреНрд░рддреНрдпреЗрдХ рдиреНрдпреВрд░реЙрди рдкрд┐рдЫрд▓реА рдкрд░рдд рдХреЗ рд╕рднреА рдиреНрдпреВрд░реЙрдиреНрд╕ рд╕реЗ рдЬреБрдбрд╝рд╛ рд╣реЛрддрд╛ рд╣реИ"ред рдпрд╣ рдЕрднреА рд╕реНрдкрд╖реНрдЯ рдирд╣реАрдВ рд╣реИ рдХрд┐ рдиреНрдпреВрд░реЙрдиреНрд╕ рдХреНрдпрд╛ рд╣реИрдВ, рд╡реЗ рдХреИрд╕реЗ рдЬреБрдбрд╝реЗ рд╣реБрдП рд╣реИрдВ, рдЦрд╛рд╕рдХрд░ рдХреЛрдб рдореЗрдВред рдЕрдм рдореИрдВ рдПрдХ рдЙрджрд╛рд╣рд░рдг рдХреЗ рд╕рд╛рде рдЗрд╕реЗ рдкрд╛рд░реНрд╕ рдХрд░рдиреЗ рдХреА рдХреЛрд╢рд┐рд╢ рдХрд░реВрдВрдЧрд╛ред рдмрддрд╛ рджреЗрдВ рдХрд┐ 100 рдиреНрдпреВрд░реЙрдиреНрд╕ рдХреА рдПрдХ рдкрд░рдд рд╣реЛрддреА рд╣реИред рдореБрдЭреЗ рдкрддрд╛ рд╣реИ рдХрд┐ рдореИрдВрдиреЗ рдЕрднреА рддрдХ рдпрд╣ рдирд╣реАрдВ рдмрддрд╛рдпрд╛ рд╣реИ рдХрд┐ рдпрд╣ рдХреНрдпрд╛ рд╣реИ, рд▓реЗрдХрд┐рди рдЪрд▓реЛ рдХрд▓реНрдкрдирд╛ рдХрд░рддреЗ рд╣реИрдВ рдХрд┐ 100 рдиреНрдпреВрд░реЙрдиреНрд╕ рд╣реИрдВ рдФрд░ рдЙрдирдХреЗ рдкрд╛рд╕ рдПрдХ рдЗрдирдкреБрдЯ рд╣реИ рдЬрд╣рд╛рдВ рдбреЗрдЯрд╛ рднреЗрдЬрд╛ рдЬрд╛рддрд╛ рд╣реИ, рдФрд░ рдПрдХ рдЖрдЙрдЯрдкреБрдЯ рдЬрд╣рд╛рдВ рд╡реЗ рдбреЗрдЯрд╛ рджреЗрддреЗ рд╣реИрдВред рдФрд░ 28x28 рдкрд┐рдХреНрд╕реЗрд▓ рдХрд╛ рдПрдХ рдмреНрд▓реИрдХ-рдПрдВрдб-рд╡реНрд╣рд╛рдЗрдЯ рдЪрд┐рддреНрд░ рдЗрдирдкреБрдЯ рдХреЛ рдЦрд┐рд▓рд╛рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ - рдХреЗрд╡рд▓ 784 рдорд╛рди, рдпрджрд┐ рдЖрдк рдЗрд╕реЗ рд╡реЗрдХреНрдЯрд░ рдореЗрдВ рдЦрд┐рдВрдЪрд╛рд╡ рдХрд░рддреЗ рд╣реИрдВред рдПрдХ рддрд╕реНрд╡реАрд░ рдХреЛ рдЗрдирдкреБрдЯ рд▓реЗрдпрд░ рдХрд╣рд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИред рдлрд┐рд░, рдкреНрд░рддреНрдпреЗрдХ "рдиреНрдпреВрд░реЙрди" рд╕реЗ рдЬреБрдбрд╝рдиреЗ рдХреЗ рд▓рд┐рдП 100 рдиреНрдпреВрд░реЙрдиреНрд╕ рдореЗрдВ рд╕реЗ рдкреНрд░рддреНрдпреЗрдХ рдХреЗ рд▓рд┐рдП рдпрд╛, рдпрджрд┐ рдЖрдкрдХреЛ рдкрд╕рдВрдж рд╣реИ, рддреЛ рдкрд┐рдЫрд▓реА рдкрд░рдд (рдпрд╛рдиреА, рдЪрд┐рддреНрд░) рдХрд╛ рдореВрд▓реНрдп, рдпрд╣ рдЖрд╡рд╢реНрдпрдХ рд╣реИ рдХрд┐ 100 рдиреНрдпреВрд░реЙрдиреНрд╕ рдореЗрдВ рд╕реЗ рдкреНрд░рддреНрдпреЗрдХ рдореВрд▓ рдЪрд┐рддреНрд░ рдХреЗ 784 рдореВрд▓реНрдпреЛрдВ рдХреЛ рд╕реНрд╡реАрдХрд╛рд░ рдХрд░рддрд╛ рд╣реИред рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП, рдкреНрд░рддреНрдпреЗрдХ 100 рдиреНрдпреВрд░реЙрдиреНрд╕ рдХреЗ рд▓рд┐рдП рдпрд╣ рддрд╕реНрд╡реАрд░ рдХреЗ 784 рдорд╛рдиреЛрдВ рдХреЛ рдХреБрдЫ 784 рд╕рдВрдЦреНрдпрд╛рдУрдВ рд╕реЗ рдЧреБрдгрд╛ рдХрд░рдиреЗ рдФрд░ рдЙрдиреНрд╣реЗрдВ рдПрдХ рд╕рд╛рде рдЬреЛрдбрд╝рдиреЗ рдХреЗ рд▓рд┐рдП рдкрд░реНрдпрд╛рдкреНрдд рд╣реЛрдЧрд╛, рдкрд░рд┐рдгрд╛рдорд╕реНрд╡рд░реВрдк, рдПрдХ рдирдВрдмрд░ рдмрд╛рд╣рд░ рдЖрддрд╛ рд╣реИред рдЕрд░реНрдерд╛рддреН, рдпрд╣ рдПрдХ рдиреНрдпреВрд░реЙрди рд╣реИ:

$ $ $ $ $ \ рдЯреЗрдХреНрд╕реНрдЯ {рдиреНрдпреВрд░реЙрди рдЖрдЙрдЯрдкреБрдЯ} = \ рдЯреЗрдХреНрд╕реНрдЯ {рдХреБрдЫ рд╕рдВрдЦреНрдпрд╛} _ {1} \ cdot \ text {рдЪрд┐рддреНрд░ рдорд╛рди} _1 ~ + \\ + ~ ... ~ + ~ \ рдкрд╛рда {рдХреБрдЫ- рд╡рд╣ рд╕рдВрдЦреНрдпрд╛} _ {784} \ cdot \ text {рдЪрд┐рддреНрд░ рдорд╛рди} _ {784} $ $ рдкреНрд░рджрд░реНрд╢рди $ $


рдлрд┐рд░ рдпрд╣ рдкрддрд╛ рдЪрд▓рд╛ рдХрд┐ рдкреНрд░рддреНрдпреЗрдХ рдиреНрдпреВрд░реЙрди рдореЗрдВ 784 рд╕рдВрдЦреНрдпрд╛рдПрдБ рд╣реИрдВ, рдФрд░ рдпреЗ рд╕рднреА рд╕рдВрдЦреНрдпрд╛рдПрдБ: (рдЗрд╕ рдкрд░рдд рдкрд░ рдиреНрдпреВрд░реЙрдиреНрд╕ рдХреА рд╕рдВрдЦреНрдпрд╛) x (рдкрд┐рдЫрд▓реА рдкрд░рдд рдкрд░ рдиреНрдпреВрд░реЙрдиреНрд╕ рдХреА рд╕рдВрдЦреНрдпрд╛) = $ рдЗрдирд▓рд╛рдЗрди $ 100 \ times784 $ рдЗрдирд▓рд╛рдЗрди $ = 78,400 рдЕрдВрдХред рдЗрди рдирдВрдмрд░реЛрдВ рдХреЛ рдЖрдорддреМрд░ рдкрд░ рд▓реЗрдпрд░ рд╡реЗрдЯ рдХрд╣рд╛ рдЬрд╛рддрд╛ рд╣реИред рдкреНрд░рддреНрдпреЗрдХ рдиреНрдпреВрд░реЙрди рдЕрдкрдиреА рд╕рдВрдЦреНрдпрд╛ рджреЗ рджреЗрдЧрд╛ рдФрд░ рдкрд░рд┐рдгрд╛рдорд╕реНрд╡рд░реВрдк рд╣рдореЗрдВ 100-рдЖрдпрд╛рдореА рд╡реЗрдХреНрдЯрд░ рдорд┐рд▓реЗрдЧрд╛, рдФрд░ рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ рд╣рдо рд▓рд┐рдЦ рд╕рдХрддреЗ рд╣реИрдВ рдХрд┐ рдпрд╣ 100-рдЖрдпрд╛рдореА рд╡реЗрдХреНрдЯрд░ 784-рдЖрдпрд╛рдореА рд╡реЗрдХреНрдЯрд░ (рд╣рдорд╛рд░реА рдореВрд▓ рдЫрд╡рд┐) рдХреЛ рдЖрдХрд╛рд░ рдХреЗ рдПрдХ рд╡рдЬрди рдореИрдЯреНрд░рд┐рдХреНрд╕ рджреНрд╡рд╛рд░рд╛ рдЧреБрдгрд╛ рдХрд░рдХреЗ рдкреНрд░рд╛рдкреНрдд рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред $ рдЗрдирд▓рд╛рдЗрди $ 100 \ times784 $ рдЗрдирд▓рд╛рдЗрди $ :

$$ рдкреНрд░рджрд░реНрд╢рди $ $ \ boldsymbol {x} ^ {100} = W_ {100 \ times784} \ cdot \ boldsymbol {x} ^ {784} $ $ рдкреНрд░рджрд░реНрд╢рди $ $



рдЗрд╕рдХреЗ рдЕрд▓рд╛рд╡рд╛, рдкрд░рд┐рдгрд╛рдореА 100 рдирдВрдмрд░реЛрдВ рдХреЛ рд╕рдХреНрд░рд┐рдпрдг рд╕рдорд╛рд░реЛрд╣ рдореЗрдВ рдкрд╛рд░рд┐рдд рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ - рдХреБрдЫ рдЧреИрд░-рд░реЗрдЦреАрдп рдХрд╛рд░реНрдп - рдЬреЛ рдкреНрд░рддреНрдпреЗрдХ рд╕рдВрдЦреНрдпрд╛ рдХреЛ рдЕрд▓рдЧ рд╕реЗ рдкреНрд░рднрд╛рд╡рд┐рдд рдХрд░рддреЗ рд╣реИрдВред рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП, рд╕рд┐рдЧреНрдореЛрдЗрдб, рд╣рд╛рдЗрдкрд░рдмреЛрд▓рд┐рдХ рд╕реНрдкрд░реНрд╢рд░реЗрдЦрд╛, ReLU рдФрд░ рдЕрдиреНрдпред рд╕рдХреНрд░рд┐рдпрдг рдлрд╝рдВрдХреНрд╢рди рдЖрд╡рд╢реНрдпрдХ рд░реВрдк рд╕реЗ рдЧреИрд░-рд░реИрдЦрд┐рдХ рд╣реИ, рдЕрдиреНрдпрдерд╛ рддрдВрддреНрд░рд┐рдХрд╛ рдиреЗрдЯрд╡рд░реНрдХ рдХреЗрд╡рд▓ рд╕рд░рд▓ рдкрд░рд┐рд╡рд░реНрддрди рд╕реАрдЦреЗрдВрдЧреЗред



рдлрд┐рд░, рдкрд░рд┐рдгрд╛рдореА рдбреЗрдЯрд╛ рдлрд┐рд░ рд╕реЗ рдПрдХ рдкреВрд░реА рддрд░рд╣ рд╕реЗ рдЬреБрдбрд╝реЗ рдкрд░рдд рдХреЛ рдЦрд┐рд▓рд╛рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ, рд▓реЗрдХрд┐рди рдПрдХ рдЕрд▓рдЧ рд╕рдВрдЦреНрдпрд╛ рдореЗрдВ рдиреНрдпреВрд░реЙрдиреНрд╕ рдХреЗ рд╕рд╛рде, рдФрд░ рдлрд┐рд░ рд╕рдХреНрд░рд┐рдпрдг рдлрд╝рдВрдХреНрд╢рди рдХреЗ рд▓рд┐рдПред рдРрд╕рд╛ рдХрдИ рдмрд╛рд░ рд╣реЛрддрд╛ рд╣реИред рдиреЗрдЯрд╡рд░реНрдХ рдХреА рдЕрдВрддрд┐рдо рдкрд░рдд рд╡рд╣ рдкрд░рдд рд╣реИ рдЬреЛ рдЙрддреНрддрд░ рдХрд╛ рдЙрддреНрдкрд╛рджрди рдХрд░рддреА рд╣реИред рдЗрд╕ рдорд╛рдорд▓реЗ рдореЗрдВ, рдЬрд╡рд╛рдм рддрд╕реНрд╡реАрд░ рдореЗрдВ рд╕рдВрдЦреНрдпрд╛ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдЬрд╛рдирдХрд╛рд░реА рд╣реИред



рдиреЗрдЯрд╡рд░реНрдХ рдХреЗ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдХреЗ рджреМрд░рд╛рди, рдпрд╣ рдЖрд╡рд╢реНрдпрдХ рд╣реИ рдХрд┐ рд╣рдореЗрдВ рдкрддрд╛ рд╣реЛ рдХрд┐ рдЪрд┐рддреНрд░ рдореЗрдВ рдХреМрди рд╕реА рдЖрдХреГрддрд┐ рджрд┐рдЦрд╛рдИ рдЧрдИ рд╣реИред рдпрд╣реА рд╣реИ, рдХрд┐ рдбреЗрдЯрд╛рд╕реЗрдЯ рдКрдкрд░ рдЪрд┐рд╣реНрдирд┐рдд рд╣реИред рдлрд┐рд░ рдЖрдк рдПрдХ рдЕрдиреНрдп рддрддреНрд╡ - рддреНрд░реБрдЯрд┐ рдлрд╝рдВрдХреНрд╢рди рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред рд╡рд╣ рддрдВрддреНрд░рд┐рдХрд╛ рдиреЗрдЯрд╡рд░реНрдХ рдХреА рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛ рдХреЛ рджреЗрдЦрддреА рд╣реИ рдФрд░ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдЙрддреНрддрд░ рдХреЗ рд╕рд╛рде рддреБрд▓рдирд╛ рдХрд░рддреА рд╣реИред рдЗрд╕рдХреЗ рд▓рд┐рдП, рддрдВрддреНрд░рд┐рдХрд╛ рдиреЗрдЯрд╡рд░реНрдХ рд╕реАрдЦ рд░рд╣рд╛ рд╣реИред

рд╕рдорд╕реНрдпрд╛ рдХрд╛ рд╕рд╛рдорд╛рдиреНрдп рд╡рд┐рд╡рд░рдг


рд╕рдВрдкреВрд░реНрдг рдбреЗрдЯрд╛рд╕реЗрдЯ рдПрдХ рдмрдбрд╝рд╛ рдЯреЗрдВрд╕рд░ рд╣реИ (рд╣рдо рдПрдХ рдмрд╣реБрдЖрдпрд╛рдореА рдбреЗрдЯрд╛ рд╕рд░рдгреА рдХреЛ рдЯреЗрдВрд╕рд░ рдХрд╣реЗрдВрдЧреЗ) $ рдЗрдирд▓рд╛рдЗрди $ \ boldsymbol {X} = \ left [\ boldsymbol {x} _1, \ boldsymbol {x} _2, \ ldots, \ boldsymbol {x} _n \ right) $ рдЗрдирд▓рд╛рдЗрди $ рдЬрд╣рд╛рдБ $ рдЗрдирд▓рд╛рдЗрди $ \ boldsymbol {x} _i $ рдЗрдирд▓рд╛рдЗрди $ - i-th рдСрдмреНрдЬреЗрдХреНрдЯ, рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП, рдПрдХ рддрд╕реНрд╡реАрд░, рдЬреЛ рдПрдХ рдЯреЗрдВрд╕рд░ рднреА рд╣реИред рдкреНрд░рддреНрдпреЗрдХ рд╡рд╕реНрддреБ рдХреЗ рд▓рд┐рдП рд╣реИ $ рдЗрдирд▓рд╛рдЗрди $ y_i $ рдЗрдирд▓рд╛рдЗрди $ - i-th рдСрдмреНрдЬреЗрдХреНрдЯ рдкрд░ рд╕рд╣реА рдЙрддреНрддрд░ред рдЗрд╕ рдорд╛рдорд▓реЗ рдореЗрдВ, рдПрдХ рддрдВрддреНрд░рд┐рдХрд╛ рдиреЗрдЯрд╡рд░реНрдХ рдХреЛ рдХреБрдЫ рдлрд╝рдВрдХреНрд╢рди рдХреЗ рд░реВрдк рдореЗрдВ рджрд░реНрд╢рд╛рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ рдЬреЛ рдХрд┐рд╕реА рд╡рд╕реНрддреБ рдХреЛ рдЗрдирдкреБрдЯ рдХреЗ рд░реВрдк рдореЗрдВ рд▓реЗрддрд╛ рд╣реИ рдФрд░ рдЙрд╕ рдкрд░ рдХреБрдЫ рдЙрддреНрддрд░ рджреЗрддрд╛ рд╣реИ:

$ $ рдкреНрд░рджрд░реНрд╢рди $ $ F (\ boldsymbol {x} _i) = \ hat {y} _i $$ рдкреНрд░рджрд░реНрд╢рди $ $


рдЕрдм рдЪрд▓рд┐рдП рдлрдВрдХреНрд╢рди рдкрд░ рдХрд░реАрдм рд╕реЗ рдирдЬрд╝рд░ рдбрд╛рд▓рддреЗ рд╣реИрдВ $ рдЗрдирд▓рд╛рдЗрди $ F (\ boldsymbol {x} _i) $ рдЗрдирд▓рд╛рдЗрди $ ред рдЪреВрдВрдХрд┐ рддрдВрддреНрд░рд┐рдХрд╛ рдиреЗрдЯрд╡рд░реНрдХ рдореЗрдВ рдкрд░рддреЗрдВ рд╣реЛрддреА рд╣реИрдВ, рдкреНрд░рддреНрдпреЗрдХ рд╡реНрдпрдХреНрддрд┐рдЧрдд рдкрд░рдд рдПрдХ рдлрд╝рдВрдХреНрд╢рди рд╣реЛрддреА рд╣реИред рдФрд░ рдЗрд╕рдХрд╛ рдорддрд▓рдм рд╣реИ

$ $ рдкреНрд░рджрд░реНрд╢рди $ $ F (\ boldsymbol {x} _i) = f_k (f_ {k-1) (\ ldots (f_1 (\ boldsymbol {x} _i)))) = \ hat (y) _i $$ рдкреНрд░рджрд░реНрд╢рди $ $


рдпрд╣реА рд╣реИ, рдмрд╣реБрдд рдкрд╣рд▓реЗ рдХрд╛рд░реНрдп рдореЗрдВ - рдкрд╣рд▓реА рдкрд░рдд - рдПрдХ рддрд╕реНрд╡реАрд░ рдХреБрдЫ рдЯреЗрдВрд╕рд░ рдХреЗ рд░реВрдк рдореЗрдВ рдкреНрд░рд╕реНрддреБрдд рдХреА рдЬрд╛рддреА рд╣реИред рд╕рдорд╛рд░реЛрд╣ $ рдЗрдирд▓рд╛рдЗрди $ f_1 $ рдЗрдирд▓рд╛рдЗрди $ рдХреБрдЫ рдЬрд╡рд╛рдм рджреЗрддрд╛ рд╣реИ - рдПрдХ рдЯреЗрдВрд╕рд░ рднреА, рд▓реЗрдХрд┐рди рдПрдХ рдЕрд▓рдЧ рдЖрдпрд╛рдо рдХрд╛ред рдЗрд╕ рдЯреЗрдВрд╕рд░ рдХреЛ рдЖрдВрддрд░рд┐рдХ рдкреНрд░рддрд┐рдирд┐рдзрд┐рддреНрд╡ рдХрд╣рд╛ рдЬрд╛рдПрдЧрд╛ред рдЕрдм рдпрд╣ рдЖрдВрддрд░рд┐рдХ рдкреНрд░рддрд┐рдирд┐рдзрд┐рддреНрд╡ рдлрд╝рдВрдХреНрд╢рди рдХреЗ рдЗрдирдкреБрдЯ рдХреЛ рдЦрд┐рд▓рд╛рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ $ рдЗрдирд▓рд╛рдЗрди $ f_2 $ рдЗрдирд▓рд╛рдЗрди $ , рдЬреЛ рдЗрд╕рдХрд╛ рдЖрдВрддрд░рд┐рдХ рдкреНрд░рддрд┐рдирд┐рдзрд┐рддреНрд╡ рджреЗрддрд╛ рд╣реИред рдФрд░ рдЗрддрдиреЗ рдкрд░, рдлрд╝рдВрдХреНрд╢рди рддрдХ $ рдЗрдирд▓рд╛рдЗрди $ f_k $ рдЗрдирд▓рд╛рдЗрди $ - рдЕрдВрддрд┐рдо рдкрд░рдд - рдЙрддреНрддрд░ рдирд╣реАрдВ рджреЗрдЧреА $ рдЗрдирд▓рд╛рдЗрди $ \ hat {y} _i $ рдЗрдирд▓рд╛рдЗрди $ ред

рдЕрдм, рдХрд╛рд░реНрдп рдиреЗрдЯрд╡рд░реНрдХ рдХреЛ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рдХрд░рдирд╛ рд╣реИ - рдиреЗрдЯрд╡рд░реНрдХ рдЙрддреНрддрд░ рдХреЛ рд╕рд╣реА рдЙрддреНрддрд░ рд╕реЗ рдорд┐рд▓рд╛рди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдПред рд╕рдмрд╕реЗ рдкрд╣рд▓реЗ рдЖрдкрдХреЛ рдпрд╣ рдорд╛рдкрдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ рдХрд┐ рддрдВрддреНрд░рд┐рдХрд╛ рдиреЗрдЯрд╡рд░реНрдХ рдХрд┐рддрдирд╛ рдЧрд▓рдд рд╣реИред рдЗрд╕реЗ рдорд╛рдкрдирд╛ рдПрдХ рддреНрд░реБрдЯрд┐ рдХрд╛рд░реНрдп рд╣реИред $ рдЗрдирд▓рд╛рдЗрди $ L (\ hat {y} _i, y_i) $ рдЗрдирд▓рд╛рдЗрди $ ред рдФрд░ рд╣рдо рдкреНрд░рддрд┐рдмрдВрдз рд▓рдЧрд╛рддреЗ рд╣реИрдВ:

1ред $ рдЗрдирд▓рд╛рдЗрди $ \ hat {y} _i \ xrightarrow {} y_i \ Rightarrow L (\ hat {y} _i, y_i) \ xrightarrow {} 0 $ рдЗрдирд▓рд╛рдЗрди $
2ред $ рдЗрдирд▓рд╛рдЗрди $ \ рдореМрдЬреВрдж рд╣реИ ~ dL (\ hat {y} _i, y_i) $ рдЗрдирд▓рд╛рдЗрди $
3ред $ рдЗрдирд▓рд╛рдЗрди $ L (\ hat {y} _i, y_i) \ geq 0 $ рдЗрдирд▓рд╛рдЗрди $

рдкреНрд░рддрд┐рдмрдВрдз 2 рдкрд░рддреЛрдВ рдХреЗ рд╕рднреА рдХрд╛рд░реНрдпреЛрдВ рдкрд░ рд▓рдЧрд╛рдпрд╛ рдЧрдпрд╛ рд╣реИ $ рдЗрдирд▓рд╛рдЗрди $ f_j $ рдЗрдирд▓рд╛рдЗрди $ - рдЙрди рд╕рднреА рдХреЛ рдЕрд▓рдЧ-рдЕрд▓рдЧ рд╣реЛрдиреЗ рджреЗрдВред

рдЗрд╕рдХреЗ рдЕрд▓рд╛рд╡рд╛, рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ (рдореИрдВрдиреЗ рдЗрд╕рдХрд╛ рдЙрд▓реНрд▓реЗрдЦ рдирд╣реАрдВ рдХрд┐рдпрд╛ рд╣реИ) рдЗрдирдореЗрдВ рд╕реЗ рдХреБрдЫ рдХрд╛рд░реНрдп рдорд╛рдкрджрдВрдбреЛрдВ рдкрд░ рдирд┐рд░реНрднрд░ рдХрд░рддреЗ рд╣реИрдВ - рддрдВрддреНрд░рд┐рдХрд╛ рдиреЗрдЯрд╡рд░реНрдХ рдХрд╛ рд╡рдЬрди - $ рдЗрдирд▓рд╛рдЗрди $ f_j (\ boldsymbol {x} _i | \ boldsymbol {\ omega} _j) $ рдЗрдирд▓рд╛рдЗрди $ ред рдФрд░ рдкреВрд░рд╛ рд╡рд┐рдЪрд╛рд░ рдЗрд╕ рддрд░рд╣ рдХреЗ рд╡рдЬрди рдХреЛ рдЙрдард╛рдирд╛ рд╣реИ рддрд╛рдХрд┐ $ рдЗрдирд▓рд╛рдЗрди $ \ hat {y} _i $ рдЗрдирд▓рд╛рдЗрди $ рдХреЗ рд╕рд╛рде рдореЗрд▓ рдЦрд╛рддрд╛ рд╣реИ $ рдЗрдирд▓рд╛рдЗрди $ y_i $ рдЗрдирд▓рд╛рдЗрди $ рдбреЗрдЯрд╛рд╕реЗрдЯ рдХреА рд╕рднреА рд╡рд╕реНрддреБрдУрдВ рдкрд░ред рдореИрдВ рдзреНрдпрд╛рди рджреЗрддрд╛ рд╣реВрдВ рдХрд┐ рд╕рднреА рдХрд╛рд░реНрдпреЛрдВ рдореЗрдВ рднрд╛рд░ рдирд╣реАрдВ рд╣реИред

рддреЛ рд╣рдо рдХрд╣рд╛рдБ рд░реБрдХ рдЧрдП? рддрдВрддреНрд░рд┐рдХрд╛ рдиреЗрдЯрд╡рд░реНрдХ рдХреЗ рд╕рднреА рдХрд╛рд░реНрдп рдЕрд▓рдЧ-рдЕрд▓рдЧ рд╣реИрдВ, рддреНрд░реБрдЯрд┐ рдлрд╝рдВрдХреНрд╢рди рднреА рднрд┐рдиреНрди рд╣реИред рдЧреНрд░реЗрдбрд┐рдПрдВрдЯ рдХреЗ рдЧреБрдгреЛрдВ рдореЗрдВ рд╕реЗ рдПрдХ рдХреЛ рдпрд╛рдж рдХрд░реЗрдВ - рдлрд╝рдВрдХреНрд╢рди рдХреЗ рд╡рд┐рдХрд╛рд╕ рдХреА рджрд┐рд╢рд╛ рджрд┐рдЦрд╛рдПрдВред рд╣рдо рдЗрд╕рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реИрдВ, рдкреНрд░рддрд┐рдмрдВрдз 1 рдФрд░ 3, рддрдереНрдп рдпрд╣ рд╣реИ рдХрд┐

$$ рдкреНрд░рджрд░реНрд╢рди $ $ L (F (\ boldsymbol {x} _i)) = L (f_k (f_ {k-1) (\ ldots (f_1 (\ boldsymbol {x} _i)))) = L (\ hat) {y} _i) $$ рдкреНрд░рджрд░реНрд╢рди $ $


рдФрд░ рддрдереНрдп рдпрд╣ рд╣реИ рдХрд┐ рдореИрдВ рдПрдХ рдЬрдЯрд┐рд▓ рдлрд╝рдВрдХреНрд╢рди рдХреЗ рдЖрдВрд╢рд┐рдХ рдбреЗрд░рд┐рд╡реЗрдЯрд┐рд╡ рдФрд░ рдбреЗрд░рд┐рд╡реЗрдЯрд┐рд╡ рдкрд░ рд╡рд┐рдЪрд╛рд░ рдХрд░ рд╕рдХрддрд╛ рд╣реВрдВред рдЕрдм рдЧрдгрдирд╛ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдЖрдкрдХреА рдЬрд░реВрд░рдд рдХреА рд╣рд░ рдЪреАрдЬ рдореМрдЬреВрдж рд╣реИ

$$ рдкреНрд░рджрд░реНрд╢рди $ $ \ frac {\ рдЖрдВрд╢рд┐рдХ L (F (\ boldsymbol {x} _i))}} {\ рдЖрдВрд╢рд┐рдХ \ boldsymbol {\ omega_j}} $$ рдкреНрд░рджрд░реНрд╢рди $ $


рдХрд┐рд╕реА рднреА i рдФрд░ j рдХреЗ рд▓рд┐рдПред рдпрд╣ рдЖрдВрд╢рд┐рдХ рд╡реНрдпреБрддреНрдкрдиреНрди рджрд┐рд╢рд╛ рджрд┐рдЦрд╛рддрд╛ рд╣реИ рдЬрд┐рд╕рдореЗрдВ рдкрд░рд┐рд╡рд░реНрддрди рдХрд░рдирд╛ рд╣реИ $ рдЗрдирд▓рд╛рдЗрди $ \ boldsymbol {\ omega_j} $ рдЗрдирд▓рд╛рдЗрди $ рд╡рд┐рд╕реНрддрд╛рд░ рдХрд░рдирд╛ $ рдЗрдирд▓рд╛рдЗрди $ рдПрд▓ $ рдЗрдирд▓рд╛рдЗрди $ ред рдХрдо рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдЖрдкрдХреЛ рдкрдХреНрд╖ рдореЗрдВ рдПрдХ рдХрджрдо рдЙрдард╛рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ $ рдЗрдирд▓рд╛рдЗрди $ - \ frac {\ рдЖрдВрд╢рд┐рдХ L (F (\ boldsymbol {x} _i))}} {\ рдЖрдВрд╢рд┐рдХ \ boldsymbol {\ omega_j}} $ рдЗрдирд▓рд╛рдЗрди $ рдХреБрдЫ рднреА рдЬрдЯрд┐рд▓ рдирд╣реАрдВ рд╣реИред

рддреЛ рдиреЗрдЯрд╡рд░реНрдХ рдХреЗ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдХреА рдкреНрд░рдХреНрд░рд┐рдпрд╛ рдирд┐рдореНрдирд╛рдиреБрд╕рд╛рд░ рдирд┐рд░реНрдорд┐рдд рд╣реИ: рдХрдИ рдмрд╛рд░ рдПрдХ рдЪрдХреНрд░ рдореЗрдВ рд╣рдо рд╕рдВрдкреВрд░реНрдг рдбреЗрдЯрд╛рд╕реЗрдЯ рд╕реЗ рдЧреБрдЬрд░рддреЗ рд╣реИрдВ (рдЗрд╕реЗ рдПрдХ рдпреБрдЧ рдХрд╣рд╛ рдЬрд╛рддрд╛ рд╣реИ), рдкреНрд░рддреНрдпреЗрдХ рдбреЗрдЯрд╛рд╕реЗрдЯ рд╡рд╕реНрддреБ рдХреЗ рд▓рд┐рдП рдЬрд┐рд╕реЗ рд╣рдо рдорд╛рдирддреЗ рд╣реИрдВ $ рдЗрдирд▓рд╛рдЗрди $ L (\ hat {y} _i, y_i) $ рдЗрдирд▓рд╛рдЗрди $ (рдЗрд╕реЗ рдлреЙрд░рд╡рд░реНрдб рдкрд╛рд╕ рдХрд╣рд╛ рдЬрд╛рддрд╛ рд╣реИ) рдФрд░ рдЖрдВрд╢рд┐рдХ рд╡реНрдпреБрддреНрдкрдиреНрди рдкрд░ рд╡рд┐рдЪрд╛рд░ рдХрд░реЗрдВ $ рдЗрдирд▓рд╛рдЗрди $ \ рдЖрдВрд╢рд┐рдХ рдПрд▓ $ рдЗрдирд▓рд╛рдЗрди $ рд╕рднреА рднрд╛рд░ рдХреЗ рд▓рд┐рдП $ рдЗрдирд▓рд╛рдЗрди $ \ boldsymbol {\ omega_j} $ рдЗрдирд▓рд╛рдЗрди $ , рдлрд┐рд░ рд╡реЗрдЯ рдХреЛ рдЕрдкрдбреЗрдЯ рдХрд░реЗрдВ (рдЗрд╕реЗ рдмреИрдХрд╡рд░реНрдб рдкрд╛рд╕ рдХрд╣рд╛ рдЬрд╛рддрд╛ рд╣реИ)ред

рдореИрдВ рдзреНрдпрд╛рди рджреЗрддрд╛ рд╣реВрдВ рдХрд┐ рдореИрдВрдиреЗ рдЕрднреА рддрдХ рдХреЛрдИ рд╡рд┐рд╢рд┐рд╖реНрдЯ рдХрд╛рд░реНрдп рдФрд░ рдкрд░рддреЗрдВ рдкреЗрд╢ рдирд╣реАрдВ рдХреА рд╣реИрдВред рдпрджрд┐ рдЗрд╕ рд╕реНрддрд░ рдкрд░ рдпрд╣ рд╕реНрдкрд╖реНрдЯ рдирд╣реАрдВ рд╣реИ рдХрд┐ рдЗрд╕ рд╕рдм рдХреЗ рд╕рд╛рде рдХреНрдпрд╛ рдХрд░рдирд╛ рд╣реИ, рддреЛ рдореИрдВ рдЖрдЧреЗ рдкрдврд╝рдирд╛ рдЬрд╛рд░реА рд░рдЦрдиреЗ рдХрд╛ рдкреНрд░рд╕реНрддрд╛рд╡ рдХрд░рддрд╛ рд╣реВрдВ - рдЕрдзрд┐рдХ рдЧрдгрд┐рдд рд╣реЛрдЧрд╛, рд▓реЗрдХрд┐рди рдЕрдм рдпрд╣ рдЙрджрд╛рд╣рд░рдгреЛрдВ рдХреЗ рд╕рд╛рде рдЬрд╛рдПрдЧрд╛ред

рдЧрдгрд┐рддред рднрд╛рдЧ 2 (рдХрдард┐рди)


рддреНрд░реБрдЯрд┐ рд╕рдорд╛рд░реЛрд╣


рдореИрдВ рдЕрдВрдд рд╕реЗ рд╢реБрд░реВ рдХрд░реВрдБрдЧрд╛ рдФрд░ рд╡рд░реНрдЧреАрдХрд░рдг рд╕рдорд╕реНрдпрд╛ рдХреЗ рд▓рд┐рдП рддреНрд░реБрдЯрд┐ рдлрд╝рдВрдХреНрд╢рди рдкреНрд░рд╛рдкреНрдд рдХрд░реВрдВрдЧрд╛ред рдкреНрд░рддрд┐рдЧрдорди рд╕рдорд╕реНрдпрд╛ рдХреЗ рд▓рд┐рдП, рддреНрд░реБрдЯрд┐ рдлрд╝рдВрдХреНрд╢рди рдХреА рд╡реНрдпреБрддреНрдкрддреНрддрд┐ рдкреБрд╕реНрддрдХ "рдбреАрдк рд▓рд░реНрдирд┐рдВрдЧ" рдореЗрдВ рдЕрдЪреНрдЫреА рддрд░рд╣ рд╕реЗ рд╡рд░реНрдгрд┐рдд рд╣реИред рддрдВрддреНрд░рд┐рдХрд╛ рдиреЗрдЯрд╡рд░реНрдХ рдХреА рджреБрдирд┐рдпрд╛ рдореЗрдВ рд╡рд┐рд╕рд░реНрдЬрдиред тАЭ

рд╕рд╛рджрдЧреА рдХреЗ рд▓рд┐рдП, рдПрдХ рдиреНрдпреВрд░рд▓ рдиреЗрдЯрд╡рд░реНрдХ (NN) рд╣реИ рдЬреЛ рдмрд┐рд▓реНрд▓реА рдХреА рддрд╕реНрд╡реАрд░реЛрдВ рдХреЛ рдХреБрддреНрддреЗ рдХреА рддрд╕реНрд╡реАрд░реЛрдВ рд╕реЗ рдЕрд▓рдЧ рдХрд░рддрд╛ рд╣реИ, рдФрд░ рдмрд┐рд▓реНрд▓рд┐рдпреЛрдВ рдФрд░ рдХреБрддреНрддреЛрдВ рдХреА рддрд╕реНрд╡реАрд░реЛрдВ рдХрд╛ рдПрдХ рд╕реЗрдЯ рд╣реИ, рдЬрд┐рд╕рдХреЗ рд▓рд┐рдП рдПрдХ рд╕рд╣реА рдЙрддреНрддрд░ рд╣реИ $ рдЗрдирд▓рд╛рдЗрди $ y_ {рд╕рддреНрдп} $ рдЗрдирд▓рд╛рдЗрди $ ред

$ $ рдкреНрд░рджрд░реНрд╢рди $ $ рдПрдирдПрди (рдЪрд┐рддреНрд░ | \ рдУрдореЗрдЧрд╛) = y_ {рдкреВрд░реНрд╡} $ $ рдкреНрд░рджрд░реНрд╢рди $ $


рдореИрдВ рдЬреЛ рдХреБрдЫ рднреА рдХрд░реВрдВрдЧрд╛ рд╡рд╣ рд╕рднреА рдЕрдзрд┐рдХрддрдо рд╕рдВрднрд╛рд╡рдирд╛ рд╡рд┐рдзрд┐ рдХреЗ рд╕рдорд╛рди рд╣реИред рдЗрд╕рд▓рд┐рдП, рдореБрдЦреНрдп рдХрд╛рд░реНрдп рд╕рдВрднрд╛рд╡рдирд╛ рдлрд╝рдВрдХреНрд╢рди рдХреЛ рдвреВрдВрдврдирд╛ рд╣реИред рдпрджрд┐ рд╣рдо рд╡рд┐рд╡рд░рдг рдХреЛ рдЫреЛрдбрд╝ рджреЗрддреЗ рд╣реИрдВ, рддреЛ рдРрд╕рд╛ рдлрд╝рдВрдХреНрд╢рди рдЬреЛ рддрдВрддреНрд░рд┐рдХрд╛ рдиреЗрдЯрд╡рд░реНрдХ рдХреА рднрд╡рд┐рд╖реНрдпрд╡рд╛рдгреА рдФрд░ рд╕рд╣реА рдЙрддреНрддрд░ рдХреА рддреБрд▓рдирд╛ рдХрд░рддрд╛ рд╣реИ, рдФрд░ рдпрджрд┐ рд╡реЗ рдореЗрд▓ рдЦрд╛рддреЗ рд╣реИрдВ, рддреЛ рдПрдХ рдорд╣рд╛рди рдореВрд▓реНрдп рджреЗрддрд╛ рд╣реИ, рдпрджрд┐ рдирд╣реАрдВ, рддреЛ рдЗрд╕рдХреЗ рд╡рд┐рдкрд░реАрддред рдПрдХ рд╕рд╣реА рдЙрддреНрддрд░ рдХреА рд╕рдВрднрд╛рд╡рдирд╛ рджрд┐рдП рдЧрдП рдорд╛рдкрджрдВрдбреЛрдВ рдХреЗ рд╕рд╛рде рдзреНрдпрд╛рди рдореЗрдВ рдЖрддреА рд╣реИ:

$ $ рдкреНрд░рджрд░реНрд╢рди $ $ рдкреА (y_ {рдкреВрд░реНрд╡} = y_ {рд╕рдЪ} | \ рдУрдореЗрдЧрд╛) $ $ рдкреНрд░рджрд░реНрд╢рди $ $


рдФрд░ рдЕрдм рд╣рдо рдХреБрдЫ рд╕рд╛рдордВрдд рдмрдирд╛рдПрдВрдЧреЗ, рдЬреЛ, рдРрд╕рд╛ рд▓рдЧрддрд╛ рд╣реИ, рдХрд╣реАрдВ рд╕реЗ рднреА рдкрд╛рд▓рди рдирд╣реАрдВ рдХрд░рддрд╛ рд╣реИред рддрдВрддреНрд░рд┐рдХрд╛ рдиреЗрдЯрд╡рд░реНрдХ рдХреЛ рджреЛ-рдЖрдпрд╛рдореА рд╡реЗрдХреНрдЯрд░ рдХреЗ рд░реВрдк рдореЗрдВ рдПрдХ рдЙрддреНрддрд░ рджреЗрдВ, рдЬрд┐рдирдореЗрдВ рд╕реЗ рдорд╛рдиреЛрдВ рдХрд╛ рдпреЛрдЧ 1 рд╣реИред рдЗрд╕ рд╡реЗрдХреНрдЯрд░ рдХреЗ рдкрд╣рд▓реЗ рддрддреНрд╡ рдХреЛ рдПрдХ рдЖрддреНрдорд╡рд┐рд╢реНрд╡рд╛рд╕ рдорд╛рдк рдХрд╣рд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ рдХрд┐ рдмрд┐рд▓реНрд▓реА рдлреЛрдЯреЛ рдореЗрдВ рд╣реИ, рдФрд░ рджреВрд╕рд░рд╛ рддрддреНрд╡ рд╡рд┐рд╢реНрд╡рд╛рд╕ рдЙрдкрд╛рдп рд╣реИ рдХрд┐ рдХреБрддреНрддреЗ рддрд╕реНрд╡реАрд░ рдореЗрдВ рд╣реИред рд╣рд╛рдБ, рдпрд╣ рд▓рдЧрднрдЧ рд╕рдВрднрд╛рд╡рдирд╛ рд╣реИ!

$ $ рдкреНрд░рджрд░реНрд╢рди $ $ рдПрдирдПрди (рдЪрд┐рддреНрд░ | \ рдУрдореЗрдЧрд╛) = \ рдЫреЛрдбрд╝ рджрд┐рдпрд╛ [\ start {рдореИрдЯреНрд░рд┐рдХреНрд╕} p_0 \\ p_1 \\\ рдЕрдВрдд {рдореИрдЯреНрд░рд┐рдХреНрд╕} \ рд╕рд╣реА] $ $ рдкреНрд░рджрд░реНрд╢рди $ $


рдЕрдм рд╕рдВрднрд╛рд╡рдирд╛ рд╕рдорд╛рд░реЛрд╣ рдХреЛ рдлрд┐рд░ рд╕реЗ рд▓рд┐рдЦрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ:

$ $ рдкреНрд░рджрд░реНрд╢рди $ $ p (y_ {рдкреВрд░реНрд╡} = y_ {рд╕рдЪ} | \ рдУрдореЗрдЧрд╛) = p_ \ Omega (y_ {рдкреВрд░реНрд╡}) ^ t_ {0} * (1 - p_ \ Omega (y_ {рдкреВрд░реНрд╡}) ^ ^ t_ {1} = \\ p_0 ^ {t_0} * p_1 ^ {t_1} $ $ $ $ рдкреНрд░рджрд░реНрд╢рд┐рдд


рдЬрд╣рд╛рдБ $ рдЗрдирд▓рд╛рдЗрди $ t_0, t_1 $ рдЗрдирд▓рд╛рдЗрди $ рд╕рд╣реА рд╡рд░реНрдЧ рдХреЗ рд▓реЗрдмрд▓, рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП, рдпрджрд┐ $ рдЗрдирд▓рд╛рдЗрди $ y_ {рд╕рддреНрдп} = рдмрд┐рд▓реНрд▓реА $ рдЗрдирд▓рд╛рдЗрди $ рддреЛ $ рдЗрдирд▓рд╛рдЗрди $ t_0 == 1, t_1 == 0 $ рдЗрдирд▓рд╛рдЗрди $ рдЕрдЧрд░ $ рдЗрдирд▓рд╛рдЗрди $ y_ {рд╕рддреНрдп} = рдбреЙрдЧ $ рдЗрдирд▓рд╛рдЗрди $ рддреЛ $ рдЗрдирд▓рд╛рдЗрди $ t_0 == 0, t_1 == 1 $ рдЗрдирд▓рд╛рдЗрди $ ред рдЗрд╕ рдкреНрд░рдХрд╛рд░, рдПрдХ рд╡рд░реНрдЧ рдХреА рд╕рдВрднрд╛рд╡рдирд╛ рдХреА рднрд╡рд┐рд╖реНрдпрд╡рд╛рдгреА рдПрдХ рддрдВрддреНрд░рд┐рдХрд╛ рдиреЗрдЯрд╡рд░реНрдХ рджреНрд╡рд╛рд░рд╛ рдХреА рдЬрд╛рдиреА рдЪрд╛рд╣рд┐рдП (рд▓реЗрдХрд┐рди рдЬрд░реВрд░реА рдирд╣реАрдВ рдХрд┐ рдЗрд╕рдХреЗ рджреНрд╡рд╛рд░рд╛ рднрд╡рд┐рд╖реНрдпрд╡рд╛рдгреА рдХреА рдЬрд╛рдП) рд╣рдореЗрд╢рд╛ рдорд╛рдирд╛ рдЬрд╛рддрд╛ рд╣реИред рдЕрдм рдЗрд╕реЗ рдХрд┐рд╕реА рднреА рд╡рд░реНрдЧ рдХреЗ рд▓рд┐рдП рд╕рд╛рдорд╛рдиреНрдпреАрдХреГрдд рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ (рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП, m рдХрдХреНрд╖рд╛рдПрдВ):

$ $ рдкреНрд░рджрд░реНрд╢рди $ $ p (y_ {рдкреВрд░реНрд╡} = y_ {рд╕рддреНрдп} | \ рдУрдореЗрдЧрд╛) = \ prod_0 ^ m p_i ^ {t_i} $ $ рдкреНрд░рджрд░реНрд╢рди $ $


рд╣рд╛рд▓рд╛рдВрдХрд┐, рдХрд┐рд╕реА рднреА рдбреЗрдЯрд╛рд╕реЗрдЯ рдореЗрдВ рдХрдИ рдСрдмреНрдЬреЗрдХреНрдЯреНрд╕ рд╣реИрдВ (рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП, рдПрди рдСрдмреНрдЬреЗрдХреНрдЯреНрд╕)ред рдореИрдВ рдЪрд╛рд╣рддрд╛ рд╣реВрдВ рдХрд┐ рддрдВрддреНрд░рд┐рдХрд╛ рдиреЗрдЯрд╡рд░реНрдХ рдкреНрд░рддреНрдпреЗрдХ рдпрд╛ рдЕрдзрд┐рдХрд╛рдВрд╢ рд╡рд╕реНрддреБрдУрдВ рдкрд░ рд╕рд╣реА рдЙрддреНрддрд░ рджреЗред рдФрд░ рдЗрд╕рдХреЗ рд▓рд┐рдП рдЖрдкрдХреЛ рдбреЗрдЯрд╛рд╕реЗрдЯ рд╕реЗ рдкреНрд░рддреНрдпреЗрдХ рдСрдмреНрдЬреЗрдХреНрдЯ рдХреЗ рд▓рд┐рдП рдКрдкрд░ рджрд┐рдП рдЧрдП рд╕реВрддреНрд░ рдХреЗ рдкрд░рд┐рдгрд╛рдореЛрдВ рдХреЛ рдЧреБрдгрд╛ рдХрд░рдирд╛ рд╣реЛрдЧрд╛ред

$ $ рдкреНрд░рджрд░реНрд╢рди $ $ рдЕрдзрд┐рдХрддрдо рдЕрдзрд┐рдХрддрдо = = prod_ {j = 0} ^ N \ prod_ {i = 0} ^ m p_ {i, j} ^ {t_ {i, j}} $ $ рдкреНрд░рджрд░реНрд╢рди $ $


рдЕрдЪреНрдЫреЗ рдкрд░рд┐рдгрд╛рдо рдкреНрд░рд╛рдкреНрдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, рдЗрд╕ рдлрд╝рдВрдХреНрд╢рди рдХреЛ рдЕрдзрд┐рдХрддрдо рдХрд░рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИред рд▓реЗрдХрд┐рди, рд╕рдмрд╕реЗ рдкрд╣рд▓реЗ, рдпрд╣ рдХрдо рд╕реЗ рдХрдо рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рд╣реИ, рдХреНрдпреЛрдВрдХрд┐ рд╣рдорд╛рд░реЗ рдкрд╛рд╕ рдПрдХ рд╕реНрдЯреЛрдХреЗрд╕реНрдЯрд┐рдХ рдЧреНрд░реЗрдбрд┐рдПрдВрдЯ рд╡рдВрд╢ рд╣реИ рдФрд░ рдЗрд╕рдХреЗ рд▓рд┐рдП рд╕рднреА рдмрдиреНрд╕ - рдмрд╕ рдПрдХ рдорд╛рдЗрдирд╕ рдЕрд╕рд╛рдЗрди рдХрд░реЗрдВ, рдФрд░ рджреВрд╕рд░реА рдмрд╛рдд, рдпрд╣ рдПрдХ рдмрд╣реБрдд рдмрдбрд╝рд╛ рдХрд╛рдо рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдореБрд╢реНрдХрд┐рд▓ рд╣реИ - рдпрд╣ рд▓реЙрдЧрдЬреАрдердоред

$$ рдкреНрд░рджрд░реНрд╢рди $$ CrossEntropyLoss = - \ sum \ limit_ {j = 0} ^ {N} \ sum \ limit_ {i = 0} ^ {m} t_ {i, j} \ cdot \ log (p {{i, j) }) $ $ рдкреНрд░рджрд░реНрд╢рди $ $


рдЕрджреНрднреБрдд! рдкрд░рд┐рдгрд╛рдо рдмрд╛рдЗрдирд░реА рдХреЗрд╕ рдпрд╛ рд▓реЙрдЧрд▓реЙрд╕ рдореЗрдВ рдПрдВрдЯреНрд░реЙрдкреА рдпрд╛ рдкрд╛рд░ рдерд╛ред рдЗрд╕ рдлрд╝рдВрдХреНрд╢рди рдХреЛ рдЧрд┐рдирдирд╛ рдЖрд╕рд╛рди рд╣реИ рдФрд░ рдЕрдВрддрд░ рдХрд░рдирд╛ рднреА рдЖрд╕рд╛рди рд╣реИ:

$$ рдкреНрд░рджрд░реНрд╢рди $ $ \ frac {\ рдЖрдВрд╢рд┐рдХ CrossEntropyLoss} {\ рдЖрдВрд╢рд┐рдХ p_j} = - \ frac {\ boldsymbol {t_j}} {\ boldsymbol {p_ {j}} $ $ рдкреНрд░рджрд░реНрд╢рди $ $ рдкреНрд░рджрд░реНрд╢рд┐рдд рдХрд░реЗрдВ


рдЖрдкрдХреЛ рдмреИрдХрдкреНрд░реЙрдкреИрдЧреЗрд╢рди рдПрд▓реНрдЧреЛрд░рд┐рдереНрдо рдХреЗ рд▓рд┐рдП рдЕрдВрддрд░ рдХрд░рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИред рдореИрдВ рдзреНрдпрд╛рди рджреЗрддрд╛ рд╣реВрдВ рдХрд┐ рддреНрд░реБрдЯрд┐ рдлрд╝рдВрдХреНрд╢рди рд╡реЗрдХреНрдЯрд░ рдХреЗ рдЖрдпрд╛рдо рдХреЛ рдирд╣реАрдВ рдмрджрд▓рддрд╛ рд╣реИред рдпрджрд┐, рдПрдордПрдирдЖрдИрдПрд╕рдЯреА рдХреЗ рдорд╛рдорд▓реЗ рдореЗрдВ, рдЖрдЙрдЯрдкреБрдЯ рдЙрддреНрддрд░ рдХреЗ 10-рдЖрдпрд╛рдореА рд╡реЗрдХреНрдЯрд░ рд╣реИ, рддреЛ рд╡реНрдпреБрддреНрдкрдиреНрди рдХреА рдЧрдгрдирд╛ рдХрд░рддреЗ рд╕рдордп, рд╣рдореЗрдВ рдбреЗрд░рд┐рд╡реЗрдЯрд┐рд╡ рдХреЗ 10-рдЖрдпрд╛рдореА рд╡реЗрдХреНрдЯрд░ рдорд┐рд▓рддреЗ рд╣реИрдВред рдПрдХ рдФрд░ рджрд┐рд▓рдЪрд╕реНрдк рдмрд╛рдд рдпрд╣ рд╣реИ рдХрд┐ рд╡реНрдпреБрддреНрдкрдиреНрди рдХрд╛ рдХреЗрд╡рд▓ рдПрдХ рддрддреНрд╡ рд╢реВрдиреНрдп рдирд╣реАрдВ рд╣реЛрдЧрд╛, рдЬрд┐рд╕ рдкрд░ $ рдЗрдирд▓рд╛рдЗрди $ t_ {i, j} \ neq 0 $ рдЗрдирд▓рд╛рдЗрди $ , рд╡рд╣ рд╕рд╣реА рдЙрддреНрддрд░ рдХреЗ рд╕рд╛рде рд╣реИред рдФрд░ рдХрд┐рд╕реА рджрд┐рдП рдЧрдП рдСрдмреНрдЬреЗрдХреНрдЯ рдкрд░ рддрдВрддреНрд░рд┐рдХрд╛ рдиреЗрдЯрд╡рд░реНрдХ рджреНрд╡рд╛рд░рд╛ рдЕрдиреБрдорд╛рдирд┐рдд рд╕рд╣реА рдЙрддреНрддрд░ рдХреА рд╕рдВрднрд╛рд╡рдирд╛ рдЬрд┐рддрдиреА рдХрдо рд╣реЛрдЧреА, рдЙрддрдиреА рд╣реА рддреНрд░реБрдЯрд┐ рдлрд╝рдВрдХреНрд╢рди рдЙрд╕ рдкрд░ рд╣реЛрдЧрд╛ред

рд╕рдХреНрд░рд┐рдпрдг рд╕реБрд╡рд┐рдзрд╛рдПрдБ


рдПрдХ рддрдВрддреНрд░рд┐рдХрд╛ рдиреЗрдЯрд╡рд░реНрдХ рдХреЗ рдкреНрд░рддреНрдпреЗрдХ рдкреВрд░реА рддрд░рд╣ рд╕реЗ рдЬреБрдбрд╝реЗ рдкрд░рдд рдХреЗ рдЙрддреНрдкрд╛рджрди рдореЗрдВ, рдПрдХ nonlinear рд╕рдХреНрд░рд┐рдпрдг рдлрд╝рдВрдХреНрд╢рди рдореМрдЬреВрдж рд╣реЛрдирд╛ рдЪрд╛рд╣рд┐рдПред рдЗрд╕рдХреЗ рдмрд┐рдирд╛, рдПрдХ рд╕рд╛рд░реНрдердХ рддрдВрддреНрд░рд┐рдХрд╛ рдиреЗрдЯрд╡рд░реНрдХ рдХреЛ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рдХрд░рдирд╛ рдЕрд╕рдВрднрд╡ рд╣реИред рдЖрдЧреЗ рджреЗрдЦрддреЗ рд╣реБрдП, рдПрдХ рддрдВрддреНрд░рд┐рдХрд╛ рдиреЗрдЯрд╡рд░реНрдХ рдХреА рдПрдХ рдкреВрд░реА рддрд░рд╣ рд╕реЗ рдЬреБрдбрд╝реА рд╣реБрдИ рдкрд░рдд рдХреЗрд╡рд▓ рдПрдХ рд╡рдЬрди рдореИрдЯреНрд░рд┐рдХреНрд╕ рджреНрд╡рд╛рд░рд╛ рдЗрдирдкреБрдЯ рдбреЗрдЯрд╛ рдХрд╛ рдЧреБрдгрди рд╣реИред рд░реИрдЦрд┐рдХ рдмреАрдЬрдЧрдгрд┐рдд рдореЗрдВ, рдЗрд╕реЗ рдПрдХ рд░реЗрдЦреАрдп рдорд╛рдирдЪрд┐рддреНрд░ рдХрд╣рд╛ рдЬрд╛рддрд╛ рд╣реИ - рдПрдХ рд░реИрдЦрд┐рдХ рдХрд╛рд░реНрдпред рд░реИрдЦрд┐рдХ рдХрд╛рд░реНрдпреЛрдВ рдХрд╛ рд╕рдВрдпреЛрдЬрди рднреА рдПрдХ рд░реИрдЦрд┐рдХ рдХрд╛рд░реНрдп рд╣реИред рд▓реЗрдХрд┐рди рдЗрд╕рдХрд╛ рдорддрд▓рдм рдпрд╣ рд╣реИ рдХрд┐ рдРрд╕рд╛ рдлрд╝рдВрдХреНрд╢рди рдХреЗрд╡рд▓ рд░реИрдЦрд┐рдХ рдХрд╛рд░реНрдпреЛрдВ рдХреЛ рдЕрдиреБрдорд╛рдирд┐рдд рдХрд░ рд╕рдХрддрд╛ рд╣реИред рдХрд╛рд╢, рдпрд╣ рдХреНрдпреЛрдВ рддрдВрддреНрд░рд┐рдХрд╛ рдиреЗрдЯрд╡рд░реНрдХ рдХреА рдЬрд░реВрд░рдд рдирд╣реАрдВ рд╣реИред

Softmax


рдЖрдорддреМрд░ рдкрд░ рдЗрд╕ рдлрд╝рдВрдХреНрд╢рди рдХрд╛ рдЙрдкрдпреЛрдЧ рдиреЗрдЯрд╡рд░реНрдХ рдХреА рдЖрдЦрд┐рд░реА рдкрд░рдд рдкрд░ рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ, рдХреНрдпреЛрдВрдХрд┐ рдпрд╣ рд╡реЗрдХреНрдЯрд░ рдХреЛ рдЕрдВрддрд┐рдо рдкрд░рдд рд╕реЗ "рд╕рдВрднрд╛рд╡рдирд╛рдУрдВ" рдХреЗ рд╡реЗрдХреНрдЯрд░ рдореЗрдВ рдмрджрд▓ рджреЗрддрд╛ рд╣реИ: рд╡реЗрдХреНрдЯрд░ рдХрд╛ рдкреНрд░рддреНрдпреЗрдХ рддрддреНрд╡ 0 рд╕реЗ 1 рддрдХ рд░рд╣рддрд╛ рд╣реИ рдФрд░ рдЙрдирдХрд╛ рдпреЛрдЧ 1 рд╣реЛрддрд╛ рд╣реИред рдпрд╣ рд╡реЗрдХреНрдЯрд░ рдХреЗ рдЖрдпрд╛рдо рдХреЛ рдирд╣реАрдВ рдмрджрд▓рддрд╛ рд╣реИред

$ $ рдкреНрд░рджрд░реНрд╢рди $ $ рд╕реЙрдлреНрдЯрдореИрдХреНрд╕_рдЖрдИ = \ frac {e ^ {x_i}} {\ sum \ limit_ {j} e ^ {x_j}} $ $ рдкреНрд░рджрд░реНрд╢рди $ $


рдЕрдм рд╣рдо рд╡реНрдпреБрддреНрдкрдиреНрди рдЦреЛрдЬ рдкрд░ рдЪрд▓рддреЗ рд╣реИрдВред рдХреНрдпреЛрдВрдХрд┐ $ рдЗрдирд▓рд╛рдЗрди $ \ boldsymbol {x} $ рдЗрдирд▓рд╛рдЗрди $ рдПрдХ рд╕рджрд┐рд╢ рд░рд╛рд╢рд┐ рд╣реИ, рдФрд░ рдЗрд╕рдХреЗ рд╕рднреА рддрддреНрд╡ рд╣рдореЗрд╢рд╛ рд╣рд░ рдореЗрдВ рдореМрдЬреВрдж рд╣реЛрддреЗ рд╣реИрдВ, рддрдм рд╡реНрдпреБрддреНрдкрдиреНрди рд▓реЗрдиреЗ рдкрд░ рд╣рдореЗрдВ рдЬреЗрдХрдмрд┐рдпрди рдорд┐рд▓рддрд╛ рд╣реИ:

$ $ рдкреНрд░рджрд░реНрд╢рди $ $ J_ {рд╕реЙрдлреНрдЯрдореИрдХреНрд╕} = \ _ {рдХреЗрд╕} x_i - x_i \ cdot x_j, i = j \\ - x_i \ cdot x_j, i \ neq j \ "рдЕрдВрдд" $ $ $ рдкреНрд░рджрд░реНрд╢рди


рдЕрдм backpropagation рдХреЗ рдмрд╛рд░реЗ рдореЗрдВред рдбреЗрд░рд┐рд╡реЗрдЯрд┐рд╡ рдХреА рд╡реЗрдХреНрдЯрд░ рдкрд┐рдЫрд▓реА рдкрд░рдд рд╕реЗ рдЖрддреА рд╣реИ (рдЖрдорддреМрд░ рдкрд░ рдпрд╣ рдПрдХ рддреНрд░реБрдЯрд┐ рдлрд╝рдВрдХреНрд╢рди рд╣реИ) $ рдЗрдирд▓рд╛рдЗрди $ \ boldsymbol {dz} $ рдЗрдирд▓рд╛рдЗрди $ ред рдорд╛рдорд▓реЗ рдореЗрдВ $ рдЗрдирд▓рд╛рдЗрди $ \ boldsymbol {dz} $ рдЗрдирд▓рд╛рдЗрди $ mnist рдкрд░ рдПрдХ рддреНрд░реБрдЯрд┐ рдлрд╝рдВрдХреНрд╢рди рд╕реЗ рдЖрдпрд╛, $ рдЗрдирд▓рд╛рдЗрди $ \ boldsymbol {dz} $ рдЗрдирд▓рд╛рдЗрди $ - 10-рдЖрдпрд╛рдореА рд╡реЗрдХреНрдЯрд░ред рдлрд┐рд░ рдЬреИрдХрдмрд┐рдпрд╛рди рдХрд╛ рдЖрдпрд╛рдо 10x10 рд╣реИред рдкрд╛рдиреЗ рдХреЗ рд▓рд┐рдП $ рдЗрдирд▓рд╛рдЗрди $ \ boldsymbol {dz_ {new}} $ рдЗрдирд▓рд╛рдЗрди $ , рдЬреЛ рдкрд┐рдЫрд▓реА рдкрд░рдд рдХреЗ рдЖрдЧреЗ рдмрдврд╝рддрд╛ рд╣реИ (рдпрд╣ рдордд рднреВрд▓реЛ рдХрд┐ рд╣рдо рдЕрдВрдд рд╕реЗ рдиреЗрдЯрд╡рд░реНрдХ рдХреА рд╢реБрд░реБрдЖрдд рддрдХ рдЬрд╛рддреЗ рд╣реИрдВ рдЬрдм рддреНрд░реБрдЯрд┐ рд╡рд╛рдкрд╕ рдкреНрд░рдЪрд╛рд░рд┐рдд рд╣реЛрддреА рд╣реИ), рд╣рдореЗрдВ рдЧреБрдгрд╛ рдХрд░рдирд╛ рд╣реЛрдЧрд╛ $ рдЗрдирд▓рд╛рдЗрди $ \ boldsymbol {dz} $ рдЗрдирд▓рд╛рдЗрди $ рдкрд░ $ рдЗрдирд▓рд╛рдЗрди $ J_ {рд╕реЙрдлреНрдЯрдореИрдХреНрд╕} $ рдЗрдирд▓рд╛рдЗрди $ (рдкрдВрдХреНрддрд┐ рдкреНрд░рддрд┐ рд╕реНрддрдВрдн):

$ $ рдкреНрд░рджрд░реНрд╢рди $ $ dz_ {рдирдпрд╛} = \ boldsymbol {dz} \ рдЧреБрдирд╛ J_ {рд╕реЙрдлреНрдЯрдореИрдХреНрд╕} $ $ рдкреНрд░рджрд░реНрд╢рди $ $


рдЖрдЙрдЯрдкреБрдЯ рдкрд░, рд╣рдореЗрдВ рдбреЗрд░рд┐рд╡реЗрдЯрд┐рд╡ рдХреЗ 10-рдЖрдпрд╛рдореА рд╡реЗрдХреНрдЯрд░ рдорд┐рд▓рддреЗ рд╣реИрдВ $ рдЗрдирд▓рд╛рдЗрди $ \ boldsymbol {dz_ {new}} $ рдЗрдирд▓рд╛рдЗрди $ ред

Relu


$$ рдкреНрд░рджрд░реНрд╢рди $$ ReLU (x) = \ start {рдХреЗрд╕} x, x> 0 \\ 0, x <0 \ end {рдХреЗрд╕} $ $ рдкреНрд░рджрд░реНрд╢рди $$


2011 рдХреЗ рдмрд╛рдж, рдЬрдм "рдбреАрдк рд╕реНрдкрд╛рд░реНрд╕ рд░реЗрдХреНрдЯрд┐рдлрд╛рдпрд░ рдиреНрдпреВрд░рд▓ рдиреЗрдЯрд╡рд░реНрдХреНрд╕" рдирд╛рдордХ рд▓реЗрдЦ рдкреНрд░рдХрд╛рд╢рд┐рдд рд╣реБрдЖ, рддрдм ReLU рдХрд╛ рдмрдбрд╝реЗ рдкреИрдорд╛рдиреЗ рдкрд░ рдЗрд╕реНрддреЗрдорд╛рд▓ рдХрд┐рдпрд╛ рдЬрд╛рдиреЗ рд▓рдЧрд╛ред рд╣рд╛рд▓рд╛рдВрдХрд┐, рдЗрд╕ рддрд░рд╣ рдХреЗ рдПрдХ рд╕рдорд╛рд░реЛрд╣ рдкрд╣рд▓реЗ рд╕реЗ рдЬрд╛рдирд╛ рдЬрд╛рддрд╛ рдерд╛ред "рд╕рдХреНрд░рд┐рдпрдг рд╢рдХреНрддрд┐" рдХреА рдЕрд╡рдзрд╛рд░рдгрд╛ ReLU (рдЕрдзрд┐рдХ рд╡рд┐рд╡рд░рдг рдХреЗ рд▓рд┐рдП, "рдбреАрдк рд▓рд░реНрдирд┐рдВрдЧ (рддрдВрддреНрд░рд┐рдХрд╛ рд╕реАрдЦрдиреЗ рдХреА рджреБрдирд┐рдпрд╛ рдореЗрдВ рд╡рд┐рд╕рд░реНрдЬрди)" рдкреБрд╕реНрддрдХ рджреЗрдЦреЗрдВ) рдХреЗ рд▓рд┐рдП рд▓рд╛рдЧреВ рд╣реИред рд▓реЗрдХрд┐рди рдореБрдЦреНрдп рд╡рд┐рд╢реЗрд╖рддрд╛ рдЬреЛ ReLU рдХреЛ рдЕрдиреНрдп рд╕рдХреНрд░рд┐рдпрдг рдХрд╛рд░реНрдпреЛрдВ рдХреА рддреБрд▓рдирд╛ рдореЗрдВ рдЕрдзрд┐рдХ рдЖрдХрд░реНрд╖рдХ рдмрдирд╛рддреА рд╣реИ, рд╡рд╣ рдЗрд╕рдХреА рд╕рд░рд▓ рд╡реНрдпреБрддреНрдкрдиреНрди рдЧрдгрдирд╛ рд╣реИ:

$$ рдкреНрд░рджрд░реНрд╢рди $$ d (ReLU (x)) = \ start {рдорд╛рдорд▓реЛрдВ} 1, x> 0 \\ 0, x <0 \ end {рдорд╛рдорд▓реЛрдВ} $ $ рдкреНрд░рджрд░реНрд╢рди $ $


рдЗрд╕ рдкреНрд░рдХрд╛рд░, ReLU рдЕрдиреНрдп рд╕рдХреНрд░рд┐рдпрдг рдХрд╛рд░реНрдпреЛрдВ (рд╕рд┐рдЧреНрдореЛрдЗрдб, рд╣рд╛рдЗрдкрд░рдмреЛрд▓рд┐рдХ рд╕реНрдкрд░реНрд╢рд░реЗрдЦрд╛, рдЖрджрд┐) рдХреА рддреБрд▓рдирд╛ рдореЗрдВ рдХрдореНрдкреНрдпреВрдЯреЗрд╢рдирд▓ рд░реВрдк рд╕реЗ рдЕрдзрд┐рдХ рдХреБрд╢рд▓ рд╣реИред

рдкреВрд░реА рддрд░рд╣ рд╕реЗ рдЬреБрдбрд╝реА рд╣реБрдИ рдкрд░рдд


рдЕрдм рдПрдХ рдкреВрд░реА рддрд░рд╣ рд╕реЗ рдЬреБрдбрд╝реЗ рдкрд░рдд рдкрд░ рдЪрд░реНрдЪрд╛ рдХрд░рдиреЗ рдХрд╛ рд╕рдордп рд╣реИред рдЕрдиреНрдп рд╕рднреА рдХреЗ рд▓рд┐рдП рд╕рдмрд╕реЗ рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╣реИ, рдХреНрдпреЛрдВрдХрд┐ рдпрд╣ рдЗрд╕ рдкрд░рдд рдореЗрдВ рд╣реИ рдХрд┐ рд╕рднреА рднрд╛рд░ рд╕реНрдерд┐рдд рд╣реИрдВ, рдЬреЛ рддрдВрддреНрд░рд┐рдХрд╛ рдиреЗрдЯрд╡рд░реНрдХ рдХреЛ рдЕрдЪреНрдЫреА рддрд░рд╣ рд╕реЗ рдХрд╛рдо рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рд╕рдорд╛рдпреЛрдЬрд┐рдд рдХрд┐рдпрд╛ рдЬрд╛рдирд╛ рдЪрд╛рд╣рд┐рдПред рдПрдХ рдкреВрд░реА рддрд░рд╣ рд╕реЗ рдЬреБрдбрд╝реА рдкрд░рдд рдмрд╕ рдПрдХ рд╡рдЬрди рдореИрдЯреНрд░рд┐рдХреНрд╕ рд╣реИ:

$ $ рдкреНрд░рджрд░реНрд╢рди $ $ W = | w_ {i, j} | $ $ рдкреНрд░рджрд░реНрд╢рди $ $


рд╡реЗрдЯ рдореИрдЯреНрд░рд┐рдХреНрд╕ рдХреЛ рдЗрдирдкреБрдЯ рдХреЙрд▓рдо рд╕реЗ рдЧреБрдгрд╛ рдХрд░рдиреЗ рдкрд░ рдПрдХ рдирдпрд╛ рдЖрдВрддрд░рд┐рдХ рдкреНрд░рддрд┐рдирд┐рдзрд┐рддреНрд╡ рдкреНрд░рд╛рдкреНрдд рд╣реЛрддрд╛ рд╣реИ:

$$ рдбрд┐рд╕реНрдкреНрд▓реЗ $$ \ boldsymbol {x} _ {new} = W \ cdot \ boldsymbol {x} $$ рдбрд┐рд╕реНрдкреНрд▓реЗ $$ рдкреНрд░рджрд░реНрд╢рд┐рдд рдХрд░рддрд╛ рд╣реИ


рдЬрд╣рд╛рдБ $ рдЗрдирд▓рд╛рдЗрди $ \ boldsymbol {x} $ рдЗрдирд▓рд╛рдЗрди $ рдХрд╛ рдЖрдХрд╛рд░ рд╣реИ $ рдЗрдирд▓рд╛рдЗрди $ рдЗрдирдкреБрдЯ \ _shape $ рдЗрдирд▓рд╛рдЗрди $ , рдФрд░ $ рдЗрдирд▓рд╛рдЗрди $ x_ {рдирдпрд╛} $ рдЗрдирд▓рд╛рдЗрди $ - $ рдЗрдирд▓рд╛рдЗрди $ рдЖрдЙрдЯрдкреБрдЯ \ _shape $ рдЗрдирд▓рд╛рдЗрди $ ред рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП $ рдЗрдирд▓рд╛рдЗрди $ \ boldsymbol {x} $ рдЗрдирд▓рд╛рдЗрди $ - 784-рдЖрдпрд╛рдореА рд╡реЗрдХреНрдЯрд░, рдФрд░ $ рдЗрдирд▓рд╛рдЗрди $ \ boldsymbol {x} _ {new} $ рдЗрдирд▓рд╛рдЗрди $ 100-рдЖрдпрд╛рдореА рд╡реЗрдХреНрдЯрд░ рд╣реИ, рдлрд┐рд░ рдореИрдЯреНрд░рд┐рдХреНрд╕ W рдХрд╛ рдЖрдХрд╛рд░ 100x784 рд╣реИред рдпрд╣ рдкрддрд╛ рдЪрд▓рд╛ рд╣реИ рдХрд┐ рдЗрд╕ рдкрд░рдд рдкрд░ 100x784 = 78,400 рд╡рдЬрд╝рди рд╣реИред

рддреНрд░реБрдЯрд┐ рдХреЗ рдкреАрдЫреЗ рдкреНрд░рд╕рд╛рд░ рдХреЗ рд╕рд╛рде, рдЗрд╕ рдореИрдЯреНрд░рд┐рдХреНрд╕ рдХреЗ рдкреНрд░рддреНрдпреЗрдХ рд╡рдЬрди рдХреЗ рд╕рдВрдмрдВрдз рдореЗрдВ рд╡реНрдпреБрддреНрдкрдиреНрди рдХреЛ рд▓реЗрдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИред рд╕рдорд╕реНрдпрд╛ рдХреЛ рд╕рд░рд▓ рдХрд░реЗрдВ рдФрд░ рд╕рдореНрдорд╛рди рдХреЗ рд╕рд╛рде рдХреЗрд╡рд▓ рд╡реНрдпреБрддреНрдкрдиреНрди рд▓реЗрдВ $ рдЗрдирд▓рд╛рдЗрди $ w_ {1,1} $ рдЗрдирд▓рд╛рдЗрди $ ред рдореИрдЯреНрд░рд┐рдХреНрд╕ рдФрд░ рд╡реЗрдХреНрдЯрд░ рдХреЛ рдЧреБрдгрд╛ рдХрд░рддреЗ рд╕рдордп, рдирдП рд╡реЗрдХреНрдЯрд░ рдХрд╛ рдкрд╣рд▓рд╛ рддрддреНрд╡ $ рдЗрдирд▓рд╛рдЗрди $ \ boldsymbol {x} _ {new} $ рдЗрдирд▓рд╛рдЗрди $ рдХреЗ рдмрд░рд╛рдмрд░ рд╣реИ $ рдЗрдирд▓рд╛рдЗрди $ x_ {рдирдпрд╛ ~ 1} = w_ {1,1} \ cdot x_1 + ... + w_ {1,784} \ cdot x_ {784} $ рдЗрдирд▓рд╛рдЗрди $ , рдФрд░ рд╡реНрдпреБрддреНрдкрдиреНрди $ рдЗрдирд▓рд╛рдЗрди $ x_ {рдирдпрд╛ ~ 1} $ рдЗрдирд▓рд╛рдЗрди $ рдкрд░ $ рдЗрдирд▓рд╛рдЗрди $ w_ {1,1} $ рдЗрдирд▓рд╛рдЗрди $ рд╕рд░рд▓ рд╣реЛрдЧрд╛ $ рдЗрдирд▓рд╛рдЗрди $ x_1 $ рдЗрдирд▓рд╛рдЗрди $ , рдЖрдкрдХреЛ рдХреЗрд╡рд▓ рдЙрдкрд░реЛрдХреНрдд рд░рд╛рд╢рд┐ рдХрд╛ рд╡реНрдпреБрддреНрдкрдиреНрди рд▓реЗрдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИред рдЗрд╕реА рддрд░рд╣ рдЕрдиреНрдп рд╕рднреА рднрд╛рд░реЛрдВ рдХреЗ рд▓рд┐рдП рд╣реЛрддрд╛ рд╣реИред рд▓реЗрдХрд┐рди рдпрд╣ рдПрдХ рддреНрд░реБрдЯрд┐ рд╡рд╛рдкрд╕ рдкреНрд░рд╕рд╛рд░ рдПрд▓реНрдЧреЛрд░рд┐рдереНрдо рдирд╣реАрдВ рд╣реИ, рдЬрдм рддрдХ рдХрд┐ рдпрд╣ рд╕рд┐рд░реНрдл рдбреЗрд░рд┐рд╡реЗрдЯрд┐рд╡ рдХрд╛ рдПрдХ рдореИрдЯреНрд░рд┐рдХреНрд╕ рд╣реИред рдЖрдкрдХреЛ рдпрд╣ рдпрд╛рдж рд░рдЦрдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ рдХрд┐ рдЕрдЧрд▓реА рдкрд░рдд рд╕реЗ рдЗрд╕ рддрдХ (рддреНрд░реБрдЯрд┐ рдЕрдВрдд рд╕реЗ рд╢реБрд░реВ рддрдХ рдЬрд╛рддреА рд╣реИ) 100-рдЖрдпрд╛рдореА рдЧреНрд░реЗрдбрд┐рдПрдВрдЯ рд╡реЗрдХреНрдЯрд░ рдЖрддреА рд╣реИ $ рдЗрдирд▓рд╛рдЗрди $ d \ boldsymbol {z} $ рдЗрдирд▓рд╛рдЗрди $ ред рдЗрд╕ рд╡реЗрдХреНрдЯрд░ рдХрд╛ рдкрд╣рд▓рд╛ рддрддреНрд╡ $ рдЗрдирд▓рд╛рдЗрди $ dz_1 $ рдЗрдирд▓рд╛рдЗрди $ рдирд┐рд░реНрдорд╛рдг рдореЗрдВ "рднрд╛рдЧ рд▓реЗрдиреЗ рд╡рд╛рд▓реЗ" рдбреЗрд░рд┐рд╡реЗрдЯрд┐рд╡ рдХреЗ рдореИрдЯреНрд░рд┐рдХреНрд╕ рдХреЗ рд╕рднреА рддрддреНрд╡реЛрдВ рд╕реЗ рдЧреБрдгрд╛ рдХрд┐рдпрд╛ рдЬрд╛рдПрдЧрд╛ $ рдЗрдирд▓рд╛рдЗрди $ x_ {рдирдпрд╛ ~ 1} $ рдЗрдирд▓рд╛рдЗрди $ , рдЕрд░реНрдерд╛рддреН рдкрд░ $ рдЗрдирд▓рд╛рдЗрди $ x_1, x_2, ..., x_ {784} $ рдЗрдирд▓рд╛рдЗрди $ ред рдЗрд╕реА рддрд░рд╣, рдмрд╛рдХреА рддрддреНрд╡ред рдпрджрд┐ рдЖрдк рдЗрд╕реЗ рд░реЗрдЦреАрдп рдмреАрдЬрдЧрдгрд┐рдд рдХреА рднрд╛рд╖рд╛ рдореЗрдВ рдЕрдиреБрд╡рд╛рджрд┐рдд рдХрд░рддреЗ рд╣реИрдВ, рддреЛ рдЗрд╕реЗ рдЗрд╕ рддрд░рд╣ рд▓рд┐рдЦрд╛ рдЬрд╛рддрд╛ рд╣реИ:

$$ рдкреНрд░рджрд░реНрд╢рди $ $ \ frac {\ рдЖрдВрд╢рд┐рдХ L} {\ рдЖрдВрд╢рд┐рдХ W} = ((d \ boldsymbol {z}, ~ dW) = \ left (\ start {рдореИрдЯреНрд░рд┐рдХреНрд╕} dz_ {1} \ cdot \ boldsymol {x} \) \ ... \\ dz_ {100} \ cdot \ boldsymbol {x} \ end {рдореИрдЯреНрд░рд┐рдХреНрд╕} \ right) _ {100} $ $ рдкреНрд░рджрд░реНрд╢рди $ $


рдЖрдЙрдЯрдкреБрдЯ рдПрдХ 100x784 рдореИрдЯреНрд░рд┐рдХреНрд╕ рд╣реИред


рдЕрдм рдЖрдкрдХреЛ рдпрд╣ рд╕рдордЭрдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ рдХрд┐ рдкрд┐рдЫрд▓реА рдкрд░рдд рдХреЛ рдХреНрдпрд╛ рд╕реНрдерд╛рдирд╛рдВрддрд░рд┐рдд рдХрд░рдирд╛ рд╣реИред рдЗрд╕рдХреЗ рд▓рд┐рдП рдФрд░ рдЕрдм рдЬреЛ рдХреБрдЫ рд╣реБрдЖ рд╣реИ, рдЙрд╕рдХреА рдмреЗрд╣рддрд░ рд╕рдордЭ рдХреЗ рд▓рд┐рдП, рдореИрдВ рдЗрд╕ рдмрд╛рдд рдкрд░ рд▓рд┐рдЦрдирд╛ рдЪрд╛рд╣рддрд╛ рд╣реВрдВ рдХрд┐ рдЗрд╕ рдкрд░рдд рдкрд░ рд╡реНрдпреБрддреНрдкрдиреНрди рд╣реЛрдиреЗ рдкрд░ рдХреНрдпрд╛ рд╣реБрдЖ, рдереЛрдбрд╝реА рднрд┐рдиреНрди рднрд╛рд╖рд╛ рдореЗрдВ "рдХреНрдпрд╛ рд╣реИ рдЧреБрдгрд╛" рд╕реЗ рдлрд╝рдВрдХреНрд╢рдВрд╕ (рдлрд┐рд░ рд╕реЗ) рдХреА рдмрд╛рд░реАрдХрд┐рдпреЛрдВ рд╕реЗ рджреВрд░ рд╣реЛрдиреЗ рдХреЗ рд▓рд┐рдПред

рдЬрдм рдореИрдВ рд╡рдЬрд╝рди рд╕рдорд╛рдпреЛрдЬрд┐рдд рдХрд░рдирд╛ рдЪрд╛рд╣рддрд╛ рдерд╛, рддреЛ рдореИрдВ рдЗрди рд╡рдЬрд╝рди рдХреЗ рд▓рд┐рдП рддреНрд░реБрдЯрд┐ рдлрд╝рдВрдХреНрд╢рди рдХрд╛ рд╡реНрдпреБрддреНрдкрдиреНрди рд▓реЗрдирд╛ рдЪрд╛рд╣рддрд╛ рдерд╛: $ рдЗрдирд▓рд╛рдЗрди $ \ frac {\ рдЖрдВрд╢рд┐рдХ рдПрд▓} {\ рдЖрдВрд╢рд┐рдХ рдбрдмреНрд▓реНрдпреВ} $ рдЗрдирд▓рд╛рдЗрди $ ред рдпрд╣ рдКрдкрд░ рджрд┐рдЦрд╛рдпрд╛ рдЧрдпрд╛ рдерд╛ рдХрд┐ рдХреИрд╕реЗ рддреНрд░реБрдЯрд┐ рдХрд╛рд░реНрдпреЛрдВ рдФрд░ рд╕рдХреНрд░рд┐рдпрдг рдХрд╛рд░реНрдпреЛрдВ рдХреЗ рдбреЗрд░рд┐рд╡реЗрдЯрд┐рд╡ рд▓реЗрдиреЗ рдХреЗ рд▓рд┐рдПред рдЗрд╕рд▓рд┐рдП, рд╣рдо рдЗрд╕ рддрд░рд╣ рдХреЗ рдПрдХ рдорд╛рдорд▓реЗ рдкрд░ рд╡рд┐рдЪрд╛рд░ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ $ рдЗрдирд▓рд╛рдЗрди $ d \ boldsymbol {z} $ рдЗрдирд▓рд╛рдЗрди $ рддреНрд░реБрдЯрд┐ рдлрд╝рдВрдХреНрд╢рди рдФрд░ рд╕рдХреНрд░рд┐рдпрдг рдлрд╝рдВрдХреНрд╢рди рдХреЗ рд╕рднреА рдбреЗрд░рд┐рд╡реЗрдЯрд┐рд╡ рдкрд╣рд▓реЗ рд╕реЗ рд╣реА рдмреИрдареЗ рд╣реИрдВ):

$$ рдкреНрд░рджрд░реНрд╢рди $ $ \ frac {\ рдЖрдВрд╢рд┐рдХ L} {\ рдЖрдВрд╢рд┐рдХ W} = d \ boldsymbol {z} \ cdot \ frac {\ рдЖрдВрд╢рд┐рдХ \ boldsymbol {x} _ {new} (W)} {\ n рдЖрдВрд╢рд┐рдХ рд░реВрдк рд╕реЗ} $ $ рдкреНрд░рджрд░реНрд╢рди $ $


рдпрд╣ рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ, рдХреНрдпреЛрдВрдХрд┐ рдЖрдк рд╡рд┐рдЪрд╛рд░ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ $ рдЗрдирд▓рд╛рдЗрди $ \ boldsymbol {x} _ {new} $ рдЗрдирд▓рд╛рдЗрди $ рдбрдмреНрд▓реНрдпреВ рдХреЗ рдПрдХ рд╕рдорд╛рд░реЛрд╣ рдХреЗ рд░реВрдк рдореЗрдВ: $ рдЗрдирд▓рд╛рдЗрди $ \ boldsymbol {x} _ {new} = W \ cdot \ boldsymbol {x} рдЗрдирд▓рд╛рдЗрди $ ред
рдЖрдк рдЗрд╕реЗ рдКрдкрд░ рджрд┐рдП рдЧрдП рд╕реВрддреНрд░ рдореЗрдВ рд╕реНрдерд╛рдирд╛рдкрдиреНрди рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ:

$$ рдкреНрд░рджрд░реНрд╢рди $ $ \ frac {\ рдЖрдВрд╢рд┐рдХ L} {\ рдЖрдВрд╢рд┐рдХ W} = d \ boldsymbol {z} \ cdot \ frac {\ рдЖрдВрд╢рд┐рдХ W \ cdot \ boldsymbol {x}} {{рдЖрдВрд╢рд┐рдХ w} = = \ boldsymbol {$ z} \ cdot E \ cdot \ boldsymbol {x} $ $ рдкреНрд░рджрд░реНрд╢рди $ $


рдЬрд╣рд╛рдБ E рдПрдХ рдореИрдЯреНрд░рд┐рдХреНрд╕ рд╣реИ рдЬрд┐рд╕рдореЗрдВ рдЗрдХрд╛рдЗрдпрд╛рдБ рд╣реЛрддреА рд╣реИрдВ (рдПрдХ рдЗрдХрд╛рдИ рдореИрдЯреНрд░рд┐рдХреНрд╕ рдирд╣реАрдВ)ред

рдЕрдм рдЬрдм рдЖрдкрдХреЛ рдкрд┐рдЫрд▓реА рдкрд░рдд рдХреЗ рд╡реНрдпреБрддреНрдкрдиреНрди рдХреЛ рд▓реЗрдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ (рднрд▓реЗ рд╣реА рдЧрдгрдирд╛ рдХреА рд╕рд╛рджрдЧреА рдХреЗ рд▓рд┐рдП рдпрд╣ рдкреВрд░реА рддрд░рд╣ рд╕реЗ рдЬреБрдбрд╝рд╛ рд╣реБрдЖ рдкрд░рдд рднреА рд╣реЛрдЧрд╛, рд▓реЗрдХрд┐рди рд╕рд╛рдорд╛рдиреНрдп рд╕реНрдерд┐рддрд┐ рдореЗрдВ рдпрд╣ рдХреБрдЫ рднреА рдирд╣реАрдВ рдмрджрд▓рддрд╛ рд╣реИ), рддреЛ рдЖрдкрдХреЛ рд╡рд┐рдЪрд╛рд░ рдХрд░рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ $ рдЗрдирд▓рд╛рдЗрди $ \ boldsymbol {x} $ рдЗрдирд▓рд╛рдЗрди $ рдкрд┐рдЫрд▓реА рдкрд░рдд рдХреЗ рдПрдХ рдХрд╛рд░реНрдп рдХреЗ рд░реВрдк рдореЗрдВ $ рдЗрдирд▓рд╛рдЗрди $ \ boldsymbol {x} (W_ {рдкреБрд░рд╛рдирд╛}) $ рдЗрдирд▓рд╛рдЗрди $ :

$ $ рдкреНрд░рджрд░реНрд╢рди $ $ \ _ рд╢реБрд░реВ {рдЗрдХрдЯреНрдард╛} \ frac {\ рдЖрдВрд╢рд┐рдХ рдПрд▓} {\ рдЖрдВрд╢рд┐рдХ W_ {рдкреБрд░рд╛рдирд╛}} = d \ boldsymbol {z} \ cdot \ frac {\ рдЖрдВрд╢рд┐рдХ \ boldsymbol {x} _ рдПрдХ рдирдпрд╛} (W) )} {\ рдЖрдВрд╢рд┐рдХ W_ {рдкреБрд░рд╛рдирд╛}} = d \ boldsymbol {z} \ cdot \ frac {\ рдЖрдВрд╢рд┐рдХ W \ cdot \ boldsymbol {x} (W_ {рдкреБрд░рд╛рдирд╛})} {\ рдЖрдВрд╢рд┐рдХ W_ \ _ {}} = \\ = d \ boldsymbol {z} \ cdot \ frac {\ рдЖрдВрд╢рд┐рдХ W \ cdot W_ {рдкреБрд░рд╛рдирд╛} \ _ W \ cdot рдИ \ _ \ _ \ _ \ _ \ _ \ _ \ _ \ _ \ _ \ _ \ _ \ _ \ _ \ _ \ _ \ _ \ _ \ _ \ _ \ _ рдЗрд╕рдореЗрдВ рдХрд┐рдП рдореЗрдВ рднреА рд╢рд╛рдорд┐рд▓ рдирд╣реАрдВ рд╣реЛрдиреЗ рдореЗрдВ \ _ \ _ \ _ \ _ \ _ \ _ \ _ \ _ \ _ \ _ \ _ \ _ \ _ \ _ \ _ \ _ рдЯреЗрдВрд╢рди рд╡рд╛рд▓рд╛ рд╢рдмреНрдж рдЕрднреА рднреА рд╣реИ $ $ рдкреНрд░рджрд░реНрд╢рд┐рдд рдХрд░реЗрдВ


рдпрд╛рдиреА $ рдЗрдирд▓рд╛рдЗрди $ d \ boldsymbol {z} _ {new} = d \ boldsymbol {z} \ cdot W $ рдЗрдирд▓рд╛рдЗрди $ рдФрд░ рдЖрдкрдХреЛ рдкрд┐рдЫрд▓реА рдкрд░рдд рдкрд░ рднреЗрдЬрдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИред

рдХреЛрдб


рдпрд╣ рд▓реЗрдЦ рдореБрдЦреНрдп рд░реВрдк рд╕реЗ рддрдВрддреНрд░рд┐рдХрд╛ рдиреЗрдЯрд╡рд░реНрдХ рдХреЗ рдЧрдгрд┐рдд рдХреА рд╡реНрдпрд╛рдЦреНрдпрд╛ рдХрд░рдиреЗ рдХреЗ рдЙрджреНрджреЗрд╢реНрдп рд╕реЗ рд╣реИред рдореИрдВ рдХреЛрдб рдХреЗ рд▓рд┐рдП рдмрд╣реБрдд рдХрдо рд╕рдордп рд╕рдорд░реНрдкрд┐рдд рдХрд░реВрдВрдЧрд╛ред

рдпрд╣ рддреНрд░реБрдЯрд┐ рдлрд╝рдВрдХреНрд╢рди рдХрд╛ рдПрдХ рдЙрджрд╛рд╣рд░рдг рдХрд╛рд░реНрдпрд╛рдиреНрд╡рдпрди рд╣реИ:

class CrossEntropy: def forward(self, y_true, y_hat): self.y_hat = y_hat self.y_true = y_true self.loss = -np.sum(self.y_true * np.log(y_hat)) return self.loss def backward(self): dz = -self.y_true / self.y_hat return dz 

рдХрдХреНрд╖рд╛ рдореЗрдВ рд╕реАрдзреЗ рдФрд░ рд░рд┐рд╡рд░реНрд╕ рдкрд╛рд╕ рдХреЗ рд▓рд┐рдП рд╡рд┐рдзрд┐рдпрд╛рдВ рд╣реИрдВред рдбрд╛рдпрд░реЗрдХреНрдЯ рдкрд╛рд╕ рдХреЗ рд╕рдордп, рдХреНрд▓рд╛рд╕ рдЗрдВрд╕реНрдЯреЗрдВрд╕ рд▓реЗрдпрд░ рдХреЗ рдЕрдВрджрд░ рдбреЗрдЯрд╛ рдХреЛ рд╕реНрдЯреЛрд░ рдХрд░рддрд╛ рд╣реИ, рдФрд░ рд░рд┐рдЯрд░реНрди рдкрд╛рд╕ рдХреЗ рд╕рдордп, рдпрд╣ рдЧреНрд░реЗрдбрд┐рдПрдВрдЯ рдХреА рдЧрдгрдирд╛ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдЙрдирдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддрд╛ рд╣реИред рд╢реЗрд╖ рдкрд░рддреЛрдВ рдХрд╛ рдирд┐рд░реНрдорд╛рдг рдЙрд╕реА рддрд░рд╣ рд╕реЗ рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред рдЗрд╕рдХреЗ рд▓рд┐рдП рдзрдиреНрдпрд╡рд╛рдж, рдЗрд╕ рд╢реИрд▓реА рдореЗрдВ рдкреВрд░реА рддрд░рд╣ рд╕реЗ рдЬреБрдбрд╝рд╛ рд╣реБрдЖ рддрдВрддреНрд░рд┐рдХрд╛ рд▓рд┐рдЦрдирд╛ рд╕рдВрднрд╡ рд╣реЛ рдЬрд╛рддрд╛ рд╣реИ:

 class MnistNet: def __init__(self): self.d1_layer = Dense(784, 100) self.a1_layer = ReLu() self.drop1_layer = Dropout(0.5) self.d2_layer = Dense(100, 50) self.a2_layer = ReLu() self.drop2_layer = Dropout(0.25) self.d3_layer = Dense(50, 10) self.a3_layer = Softmax() def forward(self, x, train=True): ... def backward(self, dz, learning_rate=0.01, mini_batch=True, update=False, len_mini_batch=None): ... 

рдкреВрд░реНрдг рдХреЛрдб рдпрд╣рд╛рдВ рдкрд╛рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ ред
рдЗрд╕рдХреЗ рдЕрд▓рд╛рд╡рд╛, рдореИрдВ рд╣реИрдмреЗ рдкрд░ рдЗрд╕ рд▓реЗрдЦ рдХрд╛ рдЕрдзреНрдпрдпрди рдХрд░рдиреЗ рдХреА рд╕рд▓рд╛рд╣ рджреЗрддрд╛ рд╣реВрдВред

рдирд┐рд╖реНрдХрд░реНрд╖


рдореБрдЭреЗ рдЖрд╢рд╛ рд╣реИ рдХрд┐ рдореИрдВ рд╕рдордЭрд╛рдиреЗ рдФрд░ рджрд┐рдЦрд╛рдиреЗ рдореЗрдВ рд╕рдХреНрд╖рдо рдерд╛ рдХрд┐ рдХрд╛рдлреА рд╕рд░рд▓ рдЧрдгрд┐рдд рддрдВрддреНрд░рд┐рдХрд╛ рдиреЗрдЯрд╡рд░реНрдХ рдХреЗ рдкреАрдЫреЗ рд╣реИ рдФрд░ рдпрд╣ рдмрд┐рд▓реНрдХреБрд▓ рдбрд░рд╛рд╡рдирд╛ рдирд╣реАрдВ рд╣реИред рдлрд┐рд░ рднреА, рдЧрд╣рд░реА рд╕рдордЭ рдХреЗ рд▓рд┐рдП, рдЕрдкрдиреА рдЦреБрдж рдХреА "рдмрд╛рдЗрдХ" рд▓рд┐рдЦрдиреЗ рдХреА рдХреЛрд╢рд┐рд╢ рдХрд░рдирд╛ рд▓рд╛рдпрдХ рд╣реИред рд╕реБрдзрд╛рд░ рдФрд░ рд╕реБрдЭрд╛рд╡ рдЯрд┐рдкреНрдкрдгрд┐рдпреЛрдВ рдореЗрдВ рдкрдврд╝рдиреЗ рдХреЗ рд▓рд┐рдП рдЦреБрд╢ рд╣реИрдВред

Source: https://habr.com/ru/post/hi460589/


All Articles