Naive Bayes, рдпрд╛ рдЧрдгрд┐рдд рдХреИрд╕реЗ рдЖрдкрдХреЛ рд╕реНрдкреИрдо рдлрд╝рд┐рд▓реНрдЯрд░ рдХрд░рдиреЗ рдХреА рдЕрдиреБрдорддрд┐ рджреЗрддрд╛ рд╣реИ

рдирдорд╕реНрддреЗ! рдЗрд╕ рд▓реЗрдЦ рдореЗрдВ рдореИрдВ рдмреЗрдпрд╕рд┐рдпрди рдХреНрд▓рд╛рд╕рд┐рдлрд╛рдпрд░рд┐рдпрд░ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рд╕реНрдкреИрдо рдИрдореЗрд▓реНрд╕ рдХреЛ рдлрд╝рд┐рд▓реНрдЯрд░ рдХрд░рдиреЗ рдХреЗ рд╡рд┐рдХрд▓реНрдкреЛрдВ рдореЗрдВ рд╕реЗ рдПрдХ рдХреЗ рд░реВрдк рдореЗрдВ рдмрд╛рдд рдХрд░реВрдБрдЧрд╛ред рд╕рд┐рджреНрдзрд╛рдВрдд рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдЬрд╛рдиреЗ рджреЛ, рдлрд┐рд░ рдЗрд╕реЗ рдЕрднреНрдпрд╛рд╕ рдХреЗ рд╕рд╛рде рдареАрдХ рдХрд░ рджреЛ, рдФрд░ рдЕрдВрдд рдореЗрдВ рдореИрдВ рдЕрдкрдиреА рдкреНрд░рд┐рдп рднрд╛рд╖рд╛ рдЖрд░ рдореЗрдВ рдХреЛрдб рдХрд╛ рдЕрдкрдирд╛ рд╕реНрдХреЗрдЪ рджреВрдВрдЧрд╛ред рдореИрдВ рдЕрднрд┐рд╡реНрдпрдХреНрддрд┐ рдФрд░ рдпреЛрдЧреЛрдВ рдХреЗ рд╕рд╛рде рдЬрд┐рддрдирд╛ рд╕рдВрднрд╡ рд╣реЛ рдЙрддрдирд╛ рд╣рд▓реНрдХреЗ рдврдВрдЧ рд╕реЗ рдЙрдЬрд╛рдЧрд░ рдХрд░рдиреЗ рдХрд╛ рдкреНрд░рдпрд╛рд╕ рдХрд░реВрдВрдЧрд╛ред рдЪрд▓реЛ рд╢реБрд░реВ рд╣реЛ рдЬрд╛рдУ!

рдЫрд╡рд┐

рдХреЛрдИ рд╕реВрддреНрд░ рдХрд╣реАрдВ рднреА, рдЕрдЪреНрдЫреА рддрд░рд╣ рд╕реЗ, рдПрдХ рд╕рдВрдХреНрд╖рд┐рдкреНрдд рд╕рд┐рджреНрдзрд╛рдВрдд


рдмрд╛рдпреЗрд╕рд┐рдпрди рдХреНрд▓рд╛рд╕рд┐рдлрд╛рдпрд░ рдорд╢реАрди рд╕реАрдЦрдиреЗ рдХреА рд╢реНрд░реЗрдгреА рд╕реЗ рд╕рдВрдмрдВрдзрд┐рдд рд╣реИред рд▓рдмреНрдмреЛрд▓реБрдЖрдм рдпрд╣ рд╣реИ: рд╡рд╣ рд╕рд┐рд╕реНрдЯрдо рдЬреЛ рдпрд╣ рдирд┐рд░реНрдзрд╛рд░рд┐рдд рдХрд░рдиреЗ рдХреЗ рдХрд╛рд░реНрдп рдХреЗ рд╕рд╛рде рд╕рд╛рдордирд╛ рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ рдХрд┐ рдХреНрдпрд╛ рдЕрдЧрд▓рд╛ рдкрддреНрд░ рд╕реНрдкреИрдо рд╣реИ рдпрд╛ рдирд╣реАрдВ, рдпрд╣ рдирд┐рд╢реНрдЪрд┐рдд рд░реВрдк рд╕реЗ рдЕрдХреНрд╖рд░реЛрдВ рдХреА рдПрдХ рдирд┐рд╢реНрдЪрд┐рдд рд╕рдВрдЦреНрдпрд╛ рд╕реЗ рдкрд╣рд▓реЗ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИ, рдЬрд╣рд╛рдВ рдкрддрд╛ рд╣реИ рдХрд┐ "рд╕реНрдкреИрдо" рдФрд░ рдЬрд╣рд╛рдВ "рд╕реНрдкреИрдо рдирд╣реАрдВ рд╣реИред" рдпрд╣ рдкрд╣рд▓реЗ рд╣реА рд╕реНрдкрд╖реНрдЯ рд╣реЛ рдЧрдпрд╛ рд╣реИ рдХрд┐ рдпрд╣ рдПрдХ рд╢рд┐рдХреНрд╖рдХ рдХреЗ рд╕рд╛рде рд╢рд┐рдХреНрд╖рдг рдХрд░ рд░рд╣рд╛ рд╣реИ, рдЬрд╣рд╛рдБ рд╣рдо рд╢рд┐рдХреНрд╖рдХ рдХреА рднреВрдорд┐рдХрд╛ рдирд┐рднрд╛рддреЗ рд╣реИрдВред рдмрд╛рдпреЗрд╕рд┐рдпрди рдХреНрд▓рд╛рд╕рд┐рдлрд╛рдпрд░ рд╢рдмреНрдж рдХреЗ рд╕реЗрдЯ рдХреЗ рд░реВрдк рдореЗрдВ рдПрдХ рджрд╕реНрддрд╛рд╡реЗрдЬ (рд╣рдорд╛рд░реЗ рдорд╛рдорд▓реЗ рдореЗрдВ, рдПрдХ рдкрддреНрд░) рдкреНрд░рд╕реНрддреБрдд рдХрд░рддрд╛ рд╣реИ рдЬреЛ рдорд╛рдирд╛ рдЬрд╛рддрд╛ рд╣реИ рдХрд┐ рдПрдХ рджреВрд╕рд░реЗ рдкрд░ рдирд┐рд░реНрднрд░ рдирд╣реАрдВ рд╣реИ (рдФрд░ рдпрд╣ рдмрд╣реБрдд рднреЛрд▓рд╛рдкрди рдпрд╣рд╛рдВ рд╕реЗ рдЪрд▓рддрд╛ рд╣реИ)ред

рдкреНрд░рддреНрдпреЗрдХ рд╡рд░реНрдЧ (рд╕реНрдкреИрдо / рдЧреИрд░-рд╕реНрдкреИрдо) рдХреЗ рд▓рд┐рдП рдЧреНрд░реЗрдб рдХреА рдЧрдгрдирд╛ рдХрд░рдирд╛ рдЖрд╡рд╢реНрдпрдХ рд╣реИ рдФрд░ рд╡рд╣ рдЪреБрдиреЗрдВ рдЬреЛ рдЕрдзрд┐рдХрддрдо рд╣реИред рдРрд╕рд╛ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, рдирд┐рдореНрди рд╕реВрддреНрд░ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░реЗрдВ:


рдХрдХреНрд╖рд╛рдХреЗрджрд╕реНрддрд╛рд╡реЗрдЬреЛрдВрдХреАрд╕рдВрдЦреНрдпрд╛рджрд╕реНрддрд╛рд╡реЗрдЬреЛрдВрдХреАрдХреБрд▓рд╕рдВрдЦреНрдпрд╛
- рд╢рдмреНрдж рдШрдЯрдирд╛ рдХрдХреНрд╖рд╛ рдХреЗ рджрд╕реНрддрд╛рд╡реЗрдЬрд╝ рдореЗрдВ (рдЪреМрд░рд╕рд╛рдИ рдХреЗ рд╕рд╛рде) *
- рдХрдХреНрд╖рд╛ рджрд╕реНрддрд╛рд╡реЗрдЬрд╝ рдореЗрдВ рд╢рд╛рдорд┐рд▓ рд╢рдмреНрджреЛрдВ рдХреА рд╕рдВрдЦреНрдпрд╛
рдПрдо - рдкреНрд░рд╢рд┐рдХреНрд╖рдг рд╕реЗрдЯ рд╕реЗ рд╢рдмреНрджреЛрдВ рдХреА рд╕рдВрдЦреНрдпрд╛
- рд╢рдмреНрдж рдХреА рдШрдЯрдирд╛рдУрдВ рдХреА рд╕рдВрдЦреНрдпрд╛ рдХрдХреНрд╖рд╛ рдХреЗ рджрд╕реНрддрд╛рд╡реЗрдЬрд╝ рдореЗрдВ
рдЕрд▓реНрдлрд╛- рдЪреМрд░рд╕рд╛рдИ рдХреЗ рд▓рд┐рдП рдкреИрд░рд╛рдореАрдЯрд░

рдЬрдм рдкрд╛рда рдХрд╛ рдЖрдпрддрди рдмрд╣реБрдд рдмрдбрд╝рд╛ рд╣реЛ, рддреЛ рдЖрдкрдХреЛ рдмрд╣реБрдд рдХрдо рд╕рдВрдЦреНрдпрд╛рдУрдВ рдХреЗ рд╕рд╛рде рдХрд╛рдо рдХрд░рдирд╛ рд╣реЛрдЧрд╛ред рдЗрд╕рд╕реЗ рдмрдЪрдиреЗ рдХреЗ рд▓рд┐рдП, рдЖрдк рд▓рдШреБрдЧрдгрдХ рд╕рдВрдкрддреНрддрд┐ ** рдХреЗ рдЕрдиреБрд╕рд╛рд░ рд╕реВрддреНрд░ рдХреЛ рдкрд░рд┐рд╡рд░реНрддрд┐рдд рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ:


рд╕реНрдерд╛рдирд╛рдкрдиреНрди рдФрд░ рдкреНрд░рд╛рдкреНрдд рдХрд░реЗрдВ:


* рдЧрдгрдирд╛ рдХреЗ рджреМрд░рд╛рди рдЖрдк рдПрдХ рд╢рдмреНрдж рднрд░ рдореЗрдВ рдЖ рд╕рдХрддреЗ рд╣реИрдВ рдЬреЛ рд╕рд┐рд╕реНрдЯрдо рдХреЗ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдХреЗ рдЪрд░рдг рдореЗрдВ рдирд╣реАрдВ рдерд╛ред рдЗрд╕рд╕реЗ рдореВрд▓реНрдпрд╛рдВрдХрди рд╢реВрдиреНрдп рдХреЗ рдмрд░рд╛рдмрд░ рд╣реЛ рд╕рдХрддрд╛ рд╣реИ рдФрд░ рджрд╕реНрддрд╛рд╡реЗрдЬрд╝ рдХреЛ рдХрд┐рд╕реА рднреА рд╢реНрд░реЗрдгреА (рд╕реНрдкреИрдо / рдЧреИрд░-рд╕реНрдкреИрдо) рдХреЛ рдирд╣реАрдВ рд╕реМрдВрдкрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИред рдХреЛрдИ рдлрд░реНрдХ рдирд╣реАрдВ рдкрдбрд╝рддрд╛ рдХрд┐ рдЖрдк рдХреИрд╕реЗ рдЪрд╛рд╣рддреЗ рд╣реИрдВ, рдЖрдк рдЕрдкрдиреЗ рд╕рд┐рд╕реНрдЯрдо рдХреЛ рд╕рднреА рд╕рдВрднрд╡ рд╢рдмреНрдж рдирд╣реАрдВ рд╕рд┐рдЦрд╛рддреЗ рд╣реИрдВред рдРрд╕рд╛ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, рдЪреМрд░рд╕рд╛рдИ рдХреЛ рд▓рд╛рдЧреВ рдХрд░рдирд╛ рдЖрд╡рд╢реНрдпрдХ рд╣реИ, рдпрд╛ рдмрд▓реНрдХрд┐, рджрд╕реНрддрд╛рд╡реЗрдЬрд╝ рдореЗрдВ рдкреНрд░рд╡реЗрд╢ рдХрд░рдиреЗ рд╡рд╛рд▓реЗ рд╢рдмреНрджреЛрдВ рдХреА рд╕рднреА рд╕рдВрднрд╛рд╡рдирд╛рдУрдВ рдХреЗ рд▓рд┐рдП рдЫреЛрдЯреЗ рд╕реБрдзрд╛рд░ рдХрд░реЗрдВред рдкреИрд░рд╛рдореАрдЯрд░ 0 <╬▒тЙд1 рдЪреБрдирд╛ рдЧрдпрд╛ рд╣реИ (рдпрджрд┐ ╬▒ = 1 рд╣реИ, рддреЛ рдпрд╣ рд▓рд╛рдкреНрд▓рд╛рд╕ рд╕реНрдореВрдерд┐рдВрдЧ рд╣реИ)

** рд▓рдШреБрдЧрдгрдХ рдПрдХ рдиреАрд░рд╕ рд░реВрдк рд╕реЗ рдмрдврд╝рддрд╛ рд╣реБрдЖ рдХрд╛рд░реНрдп рд╣реИред рдЬреИрд╕рд╛ рдХрд┐ рдкрд╣рд▓реЗ рд╕реВрддреНрд░ рд╕реЗ рджреЗрдЦрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ - рд╣рдо рдЕрдзрд┐рдХрддрдо рдХреА рддрд▓рд╛рд╢ рдХрд░ рд░рд╣реЗ рд╣реИрдВред рдлрд╝рдВрдХреНрд╢рди рдХрд╛ рд▓рдШреБрдЧрдгрдХ рдлрд╝рдВрдХреНрд╢рди рдХреЗ рд░реВрдк рдореЗрдВ рдПрдХ рд╣реА рдмрд┐рдВрджреБ (abscissa) рдкрд░ рдЪрд░рдо рд╣реЛрдЧрд╛ред рдпрд╣ рдЧрдгрдирд╛ рдХреЛ рд╕рд░рд▓ рдХрд░рддрд╛ рд╣реИ, рдХреНрдпреЛрдВрдХрд┐ рдХреЗрд╡рд▓ рд╕рдВрдЦреНрдпрд╛рддреНрдордХ рдорд╛рди рдмрджрд▓рддрд╛ рд╣реИред

рд╕рд┐рджреНрдзрд╛рдВрдд рд╕реЗ рдЕрднреНрдпрд╛рд╕ рддрдХ


рд╣рдорд╛рд░реЗ рд╕рд┐рд╕реНрдЯрдо рдХреЛ рдирд┐рдореНрдирд▓рд┐рдЦрд┐рдд рдЕрдХреНрд╖рд░реЛрдВ рд╕реЗ рд╕реАрдЦрддреЗ рд╣реИрдВ, рдЬреЛ рдкрд╣рд▓реЗ рд╕реЗ рдЬрд╛рдирд╛ рдЬрд╛рддрд╛ рд╣реИ рдХрд┐ "рд╕реНрдкреИрдо" рдФрд░ рдХрд╣рд╛рдБ "рд╕реНрдкреИрдо рдирд╣реАрдВ" (рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдирдореВрдирд╛):

рд╕реНрдкреИрдо:

  • "рдХрдо рдХреАрдордд рдкрд░ рд╡рд╛рдЙрдЪрд░"
  • "рдПрдХреНрд╢рди! рдЪреЙрдХрд▓реЗрдЯ рдмрд╛рд░ рдЦрд░реАрджреЗрдВ рдФрд░ рдЙрдкрд╣рд╛рд░ рдХреЗ рд░реВрдк рдореЗрдВ рдПрдХ рдлреЛрди рдкреНрд░рд╛рдкреНрдд рдХрд░реЗрдВ ┬╗

рд╕реНрдкреИрдо рдирд╣реАрдВ:

  • "рдмреИрдардХ рдХрд▓ рдЖрдпреЛрдЬрд┐рдд рдХреА рдЬрд╛рдПрдЧреА"
  • "рдПрдХ рдХрд┐рд▓реЛрдЧреНрд░рд╛рдо рд╕реЗрдм рдФрд░ рдПрдХ рдЪреЙрдХрд▓реЗрдЯ рдмрд╛рд░ рдЦрд░реАрджреЗрдВ"

рдЕрд╕рд╛рдЗрдирдореЗрдВрдЯ: рдирд┐рд░реНрдзрд╛рд░рд┐рдд рдХрд░реЗрдВ рдХрд┐ рдирд┐рдореНрди рдкрддреНрд░ рдХрд┐рд╕ рд╢реНрд░реЗрдгреА рдХрд╛ рд╣реИ:

  • тАЬрджреБрдХрд╛рди рдореЗрдВ рд╕реЗрдм рдХрд╛ рдПрдХ рдкрд╣рд╛рдбрд╝ рд╣реИред рд╕рд╛рдд рдХрд┐рд▓реЛрдЧреНрд░рд╛рдо рдФрд░ рдПрдХ рдЪреЙрдХрд▓реЗрдЯ рдмрд╛рд░ рдЦрд░реАрджреЗрдВ тАЭ

рд╕рдорд╛рдзрд╛рди:

рд╣рдо рдПрдХ рдЯреЗрдмрд▓ рдмрдирд╛рддреЗ рд╣реИрдВред рд╣рдо рд╕рднреА "рд░реЛрдХ рд╢рдмреНрджреЛрдВ" рдХреЛ рд╣рдЯрд╛рддреЗ рд╣реИрдВ, рд╕рдВрднрд╛рд╡рдирд╛рдУрдВ рдХреА рдЧрдгрдирд╛ рдХрд░рддреЗ рд╣реИрдВ, рдПрдХ рдХреЗ рд░реВрдк рдореЗрдВ рдЪреМрд░рд╕рд╛рдИ рдХреЗ рд▓рд┐рдП рдкреИрд░рд╛рдореАрдЯрд░ рд▓реЗрддреЗ рд╣реИрдВред

рдЫрд╡рд┐

рд╢реНрд░реЗрдгреА рд╕реНрдкреИрдо рдХреЗ рд▓рд┐рдП рд░реЗрдЯрд┐рдВрдЧ:

\ frac {2} {4} \ cdot \ frac {2} {23} \ cdot \ frac {2} {23} \ cdot \ frac {1} {23} \ cdot \ frac {1} [23} \ " cdot \ frac {1} {23} \ cdot \ frac {1} {23} \ cdot \ frac {1} {23} \ approx0,000000000587 (\ рдкрд╛рда {рдпрд╛ 5.87E-10}}


"рдЧреИрд░-рд╕реНрдкреИрдо" рд╢реНрд░реЗрдгреА рдХреЗ рд▓рд┐рдП рд░реЗрдЯрд┐рдВрдЧ:

\ frac {2} {4} \ cdot \ frac {2} {21} \ cdot \ frac {2} {21} \ cdot \ frac {2} {21} \ cdot \ frac {2} [21} \ " cdot \ frac {1} {21} \ cdot \ frac {1} {21} \ cdot \ frac {1} {21} \ approx0,00000000444 (\ рдкрд╛рда {рдпрд╛ 4.44E-9):


рдЙрддреНрддрд░: "рд╕реНрдкреИрдо рдирд╣реАрдВ" рд░реЗрдЯрд┐рдВрдЧ "рд╕реНрдкреИрдо" рд░реЗрдЯрд┐рдВрдЧ рд╕реЗ рдЕрдзрд┐рдХ рд╣реИред рддреЛ рд╕рддреНрдпрд╛рдкрди рдкрддреНрд░ рд╕реНрдкреИрдо рдирд╣реАрдВ рд╣реИ!

рд╣рдо рд▓рдШреБрдЧрдгрдХ рдХреА рд╕рдВрдкрддреНрддрд┐ рджреНрд╡рд╛рд░рд╛ рд░реВрдкрд╛рдВрддрд░рд┐рдд рдПрдХ рдлрд╝рдВрдХреНрд╢рди рдХреА рд╕рд╣рд╛рдпрддрд╛ рд╕реЗ рдЙрд╕реА рдХреА рдЧрдгрдирд╛ рдХрд░рддреЗ рд╣реИрдВ:
рд╢реНрд░реЗрдгреА рд╕реНрдкреИрдо рдХреЗ рд▓рд┐рдП рд░реЗрдЯрд┐рдВрдЧ:

рд▓рдЧрднрдЧ


"рдЧреИрд░-рд╕реНрдкреИрдо" рд╢реНрд░реЗрдгреА рдХреЗ рд▓рд┐рдП рд░реЗрдЯрд┐рдВрдЧ:

рд▓рдЧрднрдЧ


рдЙрддреНрддрд░: рдкрд┐рдЫрд▓реЗ рдЙрддреНрддрд░ рдХреЗ рд╕рдорд╛рдиред рд╕рддреНрдпрд╛рдкрди рдИрдореЗрд▓ - рдХреЛрдИ рд╕реНрдкреИрдо рдирд╣реАрдВ!

рдкреНрд░реЛрдЧреНрд░рд╛рдорд┐рдВрдЧ рднрд╛рд╖рд╛ рдХрд╛рд░реНрдпрд╛рдиреНрд╡рдпрди рдЖрд░


рдЙрдиреНрд╣реЛрдВрдиреЗ рд▓рдЧрднрдЧ рд╣рд░ рдХрд╛рд░реНрд░рд╡рд╛рдИ рдкрд░ рдЯрд┐рдкреНрдкрдгреА рдХреА, рдХреНрдпреЛрдВрдХрд┐ рдореБрдЭреЗ рдкрддрд╛ рд╣реИ рдХрд┐ рдореИрдВ рдХрд┐рддрдиреА рдмрд╛рд░ рдХрд┐рд╕реА рдФрд░ рдХреЗ рдХреЛрдб рдХреЛ рд╕рдордЭрдирд╛ рдЪрд╛рд╣рддрд╛ рд╣реВрдВ, рдЗрд╕рд▓рд┐рдП рдореБрдЭреЗ рдЖрд╢рд╛ рд╣реИ рдХрд┐ рдореЗрд░рд╛ рдкрдврд╝рдиреЗ рд╕реЗ рдЖрдкрдХреЛ рдХреЛрдИ рдХрдард┐рдирд╛рдИ рдирд╣реАрдВ рд╣реЛрдЧреАред (рдУрд╣, рдореИрдВ рдХреИрд╕реЗ рдЖрд╢рд╛ рдХрд░рддрд╛ рд╣реВрдВ)

рдФрд░ рдпрд╣рд╛рдБ, рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ, рдХреЛрдб рд╣реА
library("tm") #  stopwords library("stringr") #     #    : spam <- c( '   ', '!       ' ) #     : not_spam <- c( '  ', '    ' ) #   test_letter <- "   .     " #---------------- -------------------- #    spam <- str_replace_all(spam, "[[:punct:]]", "") #    spam <- tolower(spam) #    spam_words <- unlist(strsplit(spam, " ")) # ,      stopwords spam_words <- spam_words[! spam_words %in% stopwords("ru")] #        unique_words <- table(spam_words) # data frame main_table <- data.frame(u_words=unique_words) #  names(main_table) <- c("","") #---------------  ------------------ not_spam <- str_replace_all(not_spam, "[[:punct:]]", "") not_spam <- tolower(not_spam) not_spam_words <- unlist(strsplit(not_spam, " ")) not_spam_words <- not_spam_words[! not_spam_words %in% stopwords("ru")] #--------------- ------------------ test_letter <- str_replace_all(test_letter, "[[:punct:]]", "") test_letter <- tolower(test_letter) test_letter <- unlist(strsplit(test_letter, " ")) test_letter <- test_letter[! test_letter %in% stopwords("ru")] #--------------------------------------------- #        main_table$_ <- 0 for(i in 1:length(not_spam_words)){ #   need_word <- TRUE for(j in 1:(nrow(main_table))){ # " "  ,      +1 if(not_spam_words[i]==main_table[j,1]) { main_table$_[j] <- main_table$_[j]+1 need_word <- FALSE } } #    ,      data frame    if(need_word==TRUE) { main_table <- rbind(main_table,data.frame(=not_spam_words[i],=0,_=1)) } } #------------- #    ,    -  main_table$_ <- NA #    ,    -   main_table$__ <- NA #------------- #      Xi    Qk formula_1 <- function(N_ik,M,N_k) { (1+N_ik)/(M+N_k) } #------------- #      quantity <- nrow(main_table) for(i in 1:length(test_letter)) { #    ,     need_word <- TRUE for(j in 1:nrow(main_table)) { #               if(test_letter[i]==main_table$[j]) { main_table$_[j] <- formula_1(main_table$[j],quantity,sum(main_table$)) main_table$__[j] <- formula_1(main_table$_[j],quantity,sum(main_table$_)) need_word <- FALSE } } #  ,      data frame,    /  if(need_word==TRUE) { main_table <- rbind(main_table,data.frame(=test_letter[i],=0,_=0,_=NA,__=NA)) main_table$_[nrow(main_table)] <- formula_1(main_table$[nrow(main_table)],quantity,sum(main_table$)) main_table$__[nrow(main_table)] <- formula_1(main_table$_[nrow(main_table)],quantity,sum(main_table$_)) } } #     "" probability_spam <- 1 #     " " probability_not_spam <- 1 for(i in 1:nrow(main_table)) { if(!is.na(main_table$_[i])) { # 1.1   ,   -  probability_spam <- probability_spam * main_table$_[i] } if(!is.na(main_table$__[i])) { # 1.2   ,   -   probability_not_spam <- probability_not_spam * main_table$__[i] } } # 2.1   ,   -  probability_spam <- (length(spam)/(length(spam)+length(not_spam)))*probability_spam # 2.2   ,   -   probability_not_spam <- (length(not_spam)/(length(spam)+length(not_spam)))*probability_not_spam #   -    ifelse(probability_spam>probability_not_spam,"  - !","  -  !") 


рдЖрдкрдХрд╛ рд╕рдордп рдореЗрд░реЗ рд▓реЗрдЦ рдкрдврд╝рдиреЗ рдХреЗ рд▓рд┐рдП рдмрд╣реБрдд рдмрд╣реБрдд рдзрдиреНрдпрд╡рд╛рджред рдореБрдЭреЗ рдЖрд╢рд╛ рд╣реИ рдХрд┐ рдЖрдкрдиреЗ рдЕрдкрдиреЗ рд▓рд┐рдП рдХреБрдЫ рдирдпрд╛ рд╕реАрдЦрд╛ рд╣реИ, рдпрд╛ рдмрд╕ рдЙрди рдХреНрд╖рдгреЛрдВ рдкрд░ рдкреНрд░рдХрд╛рд╢ рдбрд╛рд▓рд╛ рд╣реИ рдЬреЛ рдЖрдкрдХреЗ рд▓рд┐рдП рд╕реНрдкрд╖реНрдЯ рдирд╣реАрдВ рд╣реИрдВред рд╕реМрднрд╛рдЧреНрдп рд╣реИ

рд╕реВрддреНрд░реЛрдВ рдХрд╛ рдХрд╣рдирд╛ рд╣реИ:
  1. рднреЛрд▓реА рдмреЗрдпрд╕ рдХреНрд▓рд╛рд╕рд┐рдлрд╛рдпрд░ рдкрд░ рдПрдХ рдмрд╣реБрдд рдЕрдЪреНрдЫрд╛ рд▓реЗрдЦ
  2. рд╡рд┐рдХреА рд╕реЗ рдкреНрд░рд╛рдкреНрдд рдЬреНрдЮрд╛рди: рдпрд╣рд╛рдБ , рдпрд╣рд╛рдБ , рдФрд░ рдпрд╣рд╛рдБ
  3. рдбрд╛рдЯрд╛ рдорд╛рдЗрдирд┐рдВрдЧ рдкрд░ рд╡реНрдпрд╛рдЦреНрдпрд╛рди рдЪреБрдмрдХреЛрд╡рд╛ I.A.

Source: https://habr.com/ru/post/hi415963/


All Articles