рдЗрд╕реА рддрд░рд╣ рдХреА рдШрдЯрдирд╛рдУрдВ рдФрд░ рджрд╛рд╡реЛрдВ рдХреЗ рд▓рд┐рдП рдЦреЛрдЬреЗрдВред рдореЗрдЯреНрд░рд┐рдХреНрд╕ рдФрд░ рдСрдкреНрдЯрд┐рдорд╛рдЗрдЬрд╝реЗрд╢рди

рдкрд┐рдЫрд▓реЗ рд▓реЗрдЦ рдореЗрдВ, рдореИрдВрдиреЗ рдЗрд╕реА рддрд░рд╣ рдХреЗ рдЕрдиреБрдкреНрд░рдпреЛрдЧреЛрдВ рдХреЗ рд▓рд┐рдП рд╣рдорд╛рд░реЗ рдЦреЛрдЬ рдЗрдВрдЬрди рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдмрд╛рдд рдХреА рдереАред рдЗрд╕рдХреЗ рд▓реЙрдиреНрдЪ рдХреЗ рдмрд╛рдж, рд╣рдореЗрдВ рдкрд╣рд▓реА рд╕рдореАрдХреНрд╖рд╛ рдкреНрд░рд╛рдкреНрдд рд╣реЛрдиреА рд╢реБрд░реВ рд╣реБрдИред рд╡рд┐рд╢реНрд▓реЗрд╖рдХреЛрдВ рдиреЗ рдХреБрдЫ рд╕рд┐рдлрд╛рд░рд┐рд╢реЛрдВ рдХреЛ рдкрд╕рдВрдж рдХрд┐рдпрд╛ рдФрд░ рдХреБрдЫ рдХреА рд╕рд┐рдлрд╛рд░рд┐рд╢ рдирд╣реАрдВ рдХреАред


рдЖрдЧреЗ рдмрдврд╝рдиреЗ рдФрд░ рдмреЗрд╣рддрд░ рдореЙрдбрд▓ рдЦреЛрдЬрдиреЗ рдХреЗ рд▓рд┐рдП, рдкрд╣рд▓реЗ рдореМрдЬреВрджрд╛ рдореЙрдбрд▓ рдХреЗ рдкреНрд░рджрд░реНрд╢рди рдХрд╛ рдореВрд▓реНрдпрд╛рдВрдХрди рдХрд░рдирд╛ рдЖрд╡рд╢реНрдпрдХ рдерд╛ред рдорд╛рдкрджрдВрдб рдХрд╛ рдЪрдпрди рдХрд░рдирд╛ рднреА рдЖрд╡рд╢реНрдпрдХ рдерд╛ рдЬрд┐рд╕рдХреЗ рджреНрд╡рд╛рд░рд╛ рджреЛрдиреЛрдВ рдореЙрдбрд▓реЛрдВ рдХреА рдПрдХ рджреВрд╕рд░реЗ рдХреЗ рд╕рд╛рде рддреБрд▓рдирд╛ рдХреА рдЬрд╛ рд╕рдХрддреА рд╣реИред


рдХрдЯреМрддреА рдХреЗ рддрд╣рдд, рдореИрдВ рдЗрд╕ рдмрд╛рд░реЗ рдореЗрдВ рдмрд╛рдд рдХрд░реВрдВрдЧрд╛:


  • рд╕рд┐рдлрд╛рд░рд┐рд╢реЛрдВ рдкрд░ рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛ рдПрдХрддреНрд░ рдХрд░рдирд╛
  • рд╕рд┐рдлрд╛рд░рд┐рд╢реЛрдВ рдХреА рдЧреБрдгрд╡рддреНрддрд╛ рдХрд╛ рдЖрдХрд▓рди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдореАрдЯреНрд░рд┐рдХ рдХрд╛ рд╡рд┐рдХрд╛рд╕
  • рдПрдХ рдореЙрдбрд▓ рдЕрдиреБрдХреВрд▓рди рдЪрдХреНрд░ рдХрд╛ рдирд┐рд░реНрдорд╛рдг
  • рдЕрдВрддрд░реНрджреГрд╖реНрдЯрд┐ рдФрд░ рдПрдХ рдирдпрд╛ рдореЙрдбрд▓ рдкреНрд░рд╛рдкреНрдд рдХрд┐рдпрд╛

рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛ рд╕рдВрдЧреНрд░рд╣


рд╡рд┐рд╢реНрд▓реЗрд╖рдХреЛрдВ рд╕реЗ рд╕реНрдкрд╖реНрдЯ рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛ рдПрдХрддреНрд░ рдХрд░рдирд╛ рдЖрджрд░реНрд╢ рд╣реЛрдЧрд╛: рдкреНрд░рд╕реНрддрд╛рд╡рд┐рдд рдШрдЯрдирд╛рдУрдВ рдореЗрдВ рд╕реЗ рдкреНрд░рддреНрдпреЗрдХ рдХреА рд╕рд┐рдлрд╛рд░рд┐рд╢ рдХрд┐рддрдиреА рдкреНрд░рд╛рд╕рдВрдЧрд┐рдХ рд╣реИред рдпрд╣ рд╣рдореЗрдВ рд╡рд░реНрддрдорд╛рди рд╕реНрдерд┐рддрд┐ рдХреЛ рд╕рдордЭрдиреЗ рдФрд░ рдорд╛рддреНрд░рд╛рддреНрдордХ рд╕рдВрдХреЗрддрдХреЛрдВ рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рдкреНрд░рдгрд╛рд▓реА рдореЗрдВ рд╕реБрдзрд╛рд░ рдЬрд╛рд░реА рд░рдЦрдиреЗ рдХреА рдЕрдиреБрдорддрд┐ рджреЗрдЧрд╛ред


рдпрд╣ рдПрдХ рдмрд╣реБрдд рд╣реА рд╕рд░рд▓ рдкреНрд░рд╛рд░реВрдк рдореЗрдВ рд╕рдореАрдХреНрд╖рд╛ рдПрдХрддреНрд░ рдХрд░рдиреЗ рдХрд╛ рдирд┐рд░реНрдгрдп рд▓рд┐рдпрд╛ рдЧрдпрд╛ рдерд╛:


  • рдЙрд╕ рдШрдЯрдирд╛ рдХреА рд╕рдВрдЦреНрдпрд╛ рдЬрд┐рд╕рдХрд╛ рд╣рдо рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХрд░ рд░рд╣реЗ рд╣реИрдВ
  • рдЕрдиреБрд╢рдВрд╕рд┐рдд рдШрдЯрдирд╛ рд╕рдВрдЦреНрдпрд╛
  • рд╕рд┐рдлрд╛рд░рд┐рд╢ рдХреА рд╕рдореАрдХреНрд╖рд╛: рдЕрдЪреНрдЫрд╛ / рдмреБрд░рд╛

"рд╡реЛрдЯ" (рдПрдХ рдЫреЛрдЯрд╛ рдкреНрд░реЛрдЬреЗрдХреНрдЯ рдЬрд┐рд╕рдиреЗ рдорд╛рдкрджрдВрдбреЛрдВ рдХреЗ рд╕рд╛рде рдЬреАрдИрдЯреА рдЕрдиреБрд░реЛрдзреЛрдВ рдХреЛ рд╕реНрд╡реАрдХрд╛рд░ рдХрд┐рдпрд╛ рдФрд░ рдПрдХ рдлрд╛рдЗрд▓ рдореЗрдВ рдЬрд╛рдирдХрд╛рд░реА рдбрд╛рд▓ рджреА) рдХреЛ рд╕реАрдзреЗ рд╕рд┐рдлрд╛рд░рд┐рд╢реЛрдВ рдмреНрд▓реЙрдХ рдореЗрдВ рд░рдЦрд╛ рдЧрдпрд╛ рдерд╛ рддрд╛рдХрд┐ рд╡рд┐рд╢реНрд▓реЗрд╖рдХ рдХреЗрд╡рд▓ рдПрдХ рд▓рд┐рдВрдХ рдкрд░ рдХреНрд▓рд┐рдХ рдХрд░рдХреЗ рдЕрдкрдиреА рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛ рдЫреЛрдбрд╝ рд╕рдХреЗрдВ: "рдЕрдЪреНрдЫрд╛" рдпрд╛ "рдмреБрд░рд╛"ред


рдЗрд╕рдХреЗ рдЕрддрд┐рд░рд┐рдХреНрдд, рдЕрдиреБрд╢рдВрд╕рд╛ рдХреА рдкреВрд░реНрд╡рд╡реНрдпрд╛рдкреА рд╕рдореАрдХреНрд╖рд╛ рдХреЗ рд▓рд┐рдП, рдПрдХ рдмрд╣реБрдд рд╣реА рд╕рд░рд▓ рд╕рдорд╛рдзрд╛рди рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛:


  • рдРрддрд┐рд╣рд╛рд╕рд┐рдХ рдбреЗрдЯрд╛ рдХреЗ рдПрдХ рдмрдбрд╝реЗ рд╣рд┐рд╕реНрд╕реЗ рдХреЗ рд▓рд┐рдП, рдПрдХ рдореЙрдбрд▓ рд▓реЙрдиреНрдЪ рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛;
  • рдПрдХрддреНрд░рд┐рдд рд╕рд┐рдлрд╛рд░рд┐рд╢реЛрдВ рдХреЛ рдХрдИ рд╕реНрдЯреИрдВрдбрдЕрд▓реЛрди HTML рдлрд╝рд╛рдЗрд▓реЛрдВ рдХреЗ рд░реВрдк рдореЗрдВ рдкреНрд░рд╕реНрддреБрдд рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛, рдЬрд┐рд╕рдореЗрдВ рдЙрд╕реА "рд╡реЛрдЯрд┐рдВрдЧ" рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛;
  • 50-100 рдШрдЯрдирд╛рдУрдВ рдХреЗ рдкрд░рд┐рдгрд╛рдореЛрдВ рдХреЛ рджреЗрдЦрдиреЗ рдХреЗ рд▓рд┐рдП рд╡рд┐рд╢реНрд▓реЗрд╖рдХреЛрдВ рдХреЛ рддреИрдпрд╛рд░ рдлрд╛рдЗрд▓реЗрдВ рд╕реМрдВрдкреА рдЧрдИрдВред

рдЗрд╕рд▓рд┐рдП рдШрдЯрдирд╛-рдЕрдиреБрд╢рдВрд╕рд╛ рдХреЗ рд▓рдЧрднрдЧ 4000+ рдЬреЛрдбрд╝реЗ рдкрд░ рдбреЗрдЯрд╛ рдПрдХрддреНрд░ рдХрд░рдирд╛ рд╕рдВрднрд╡ рдерд╛ред


рдкреНрд░рд╛рд░рдВрднрд┐рдХ рд╕рдореАрдХреНрд╖рд╛ рд╡рд┐рд╢реНрд▓реЗрд╖рдг


рд╢реБрд░реБрдЖрддреА рдореЗрдЯреНрд░рд┐рдХреНрд╕ "рд╕реЛ-рд╕реЛ" рдереЗ - рд╕рд╣рдпреЛрдЧрд┐рдпреЛрдВ рдХреЗ рдЕрдиреБрд╕рд╛рд░, "рдЕрдЪреНрдЫреА" рд╕рд┐рдлрд╛рд░рд┐рд╢реЛрдВ рдХрд╛ рд╣рд┐рд╕реНрд╕рд╛ рдХреЗрд╡рд▓ 25% рдерд╛ред


рдкрд╣рд▓реЗ рдореЙрдбрд▓ рдХреА рдореБрдЦреНрдп рд╕рдорд╕реНрдпрд╛рдПрдВ:


  1. "рдирдИ" рд╕рдорд╕реНрдпрд╛рдУрдВ рдкрд░ рдШрдЯрдирд╛рдУрдВ рдХреЛ рд╕рд┐рд╕реНрдЯрдо рд╕реЗ рдЕрдкреНрд░рд╛рд╕рдВрдЧрд┐рдХ рд╕рд┐рдлрд╛рд░рд┐рд╢реЗрдВ рдорд┐рд▓реАрдВ; рдпрд╣ рдкрддрд╛ рдЪрд▓рд╛ рдХрд┐ рдЕрдкреАрд▓ рдХреА рд╕рд╛рдордЧреНрд░реА рдореЗрдВ рд╕рдВрдпреЛрдЧ рдХреА рдЕрдиреБрдкрд╕реНрдерд┐рддрд┐ рдореЗрдВ, рд╕рд┐рд╕реНрдЯрдо рдиреЗ рд╕рдВрдкрд░реНрдХ рдХрд░рдиреЗ рд╡рд╛рд▓реЗ рдХрд░реНрдордЪрд╛рд░реА рдХреЗ рд╡рд┐рднрд╛рдЧ рдХреЗ рдХрд░реАрдм рдХреА рдШрдЯрдирд╛рдУрдВ рдХрд╛ рдЪрдпрди рдХрд┐рдпрд╛ред
  2. рдПрдХ рдкреНрд░рдгрд╛рд▓реА рдкрд░ рдПрдХ рдШрдЯрдирд╛ рдХреЗ рд▓рд┐рдП рд╕рд┐рдлрд╛рд░рд┐рд╢реЗрдВ рдЕрдиреНрдп рдкреНрд░рдгрд╛рд▓рд┐рдпреЛрдВ рд╕реЗ рдШрдЯрдирд╛рдУрдВ рдХреЛ рдорд╛рд░рд╛ред рдЕрдкреАрд▓ рдореЗрдВ рдЗрд╕реНрддреЗрдорд╛рд▓ рдХрд┐рдП рдЧрдП рд╢рдмреНрдж рд╕рдорд╛рди рдереЗ, рд▓реЗрдХрд┐рди рдЕрдиреНрдп рдкреНрд░рдгрд╛рд▓рд┐рдпреЛрдВ рдХреА рд╕рдорд╕реНрдпрд╛рдУрдВ рдХрд╛ рд╡рд░реНрдгрди рдХрд┐рдпрд╛ рдФрд░ рдЕрд▓рдЧ-рдЕрд▓рдЧ рдереЗред

рд╕рд┐рдлрд╛рд░рд┐рд╢реЛрдВ рдХреА рдЧреБрдгрд╡рддреНрддрд╛ рдореЗрдВ рд╕реБрдзрд╛рд░ рдХреЗ рд╕рдВрднрд╛рд╡рд┐рдд рддрд░реАрдХреЗ рдЪреБрдиреЗ рдЧрдП:


  • рдЕрдВрддрд┐рдо рд╡реЗрдХреНрдЯрд░ рдореЗрдВ рд╢рд╛рдорд┐рд▓ рдЙрдкрдЪрд╛рд░ рд╡рд┐рд╢реЗрд╖рддрд╛рдУрдВ рдХреА рд╕рдВрд░рдЪрдирд╛ рдФрд░ рд╡рдЬрди рдХрд╛ рд╕рдорд╛рдпреЛрдЬрди
  • TfidfVectorizer рд╕реЗрдЯрд┐рдВрдЧреНрд╕ рдХрд╛ рдЪрдпрди TfidfVectorizer
  • рд╕рд┐рдлрд╛рд░рд┐рд╢реЛрдВ рдХреА "рдХрдЯрдСрдл" рджреВрд░реА рдХрд╛ рдЪрдпрди

рдЧреБрдгрд╡рддреНрддрд╛ рдорд╛рдирджрдВрдб рдФрд░ рдореВрд▓реНрдпрд╛рдВрдХрди рд╡рд┐рдзрд┐рдпреЛрдВ рдХрд╛ рд╡рд┐рдХрд╛рд╕


рдореЙрдбрд▓ рдХреЗ рдмреЗрд╣рддрд░ рд╕рдВрд╕реНрдХрд░рдг рдХреА рдЦреЛрдЬ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, рдореЙрдбрд▓ рдкрд░рд┐рдгрд╛рдореЛрдВ рдХреА рдЧреБрдгрд╡рддреНрддрд╛ рдХрд╛ рдЖрдХрд▓рди рдХрд░рдиреЗ рдХреЗ рд╕рд┐рджреНрдзрд╛рдВрдд рдХреЛ рдирд┐рд░реНрдзрд╛рд░рд┐рдд рдХрд░рдирд╛ рдЖрд╡рд╢реНрдпрдХ рд╣реИред рдпрд╣ рдЖрдкрдХреЛ рджреЛ рдореЙрдбрд▓реЛрдВ рдХреА рддреБрд▓рдирд╛рддреНрдордХ рд░реВрдк рд╕реЗ рддреБрд▓рдирд╛ рдХрд░рдиреЗ рдФрд░ рд╕рд░реНрд╡рд╢реНрд░реЗрд╖реНрда рдЪреБрдирдиреЗ рдХреА рдЕрдиреБрдорддрд┐ рджреЗрдЧрд╛ред


рдПрдХрддреНрд░рд┐рдд рд╕рдореАрдХреНрд╖рд╛рдУрдВ рд╕реЗ рдХреНрдпрд╛ рдкреНрд░рд╛рдкреНрдд рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ


рд╣рдорд╛рд░реЗ рдкрд╛рд╕ рдлреЙрд░реНрдо рдХреЗ рдХрдИ рдореАрдЯрд░ рдЯреНрдпреВрдкрд▓ рд╣реИрдВ: "рд╣рд╛рджрд╕рд╛", "рдЕрдиреБрд╢рдВрд╕рд┐рдд рд╣рд╛рджрд╕рд╛", "рд╕рд┐рдлрд╛рд░рд┐рд╢ рдХрд╛ рдЖрдХрд▓рди"ред


  • "рдЕрдиреБрд╢рдВрд╕рд╛ рд░реЗрдЯрд┐рдВрдЧ" ( v ) - рджреНрд╡рд┐рдЖрдзрд╛рд░реА рд╕реЗрдЯ рд╣реИ: "рдЕрдЪреНрдЫрд╛" | рдЦрд░рд╛рдм (1 / -1);
  • "рдШрдЯрдирд╛" рдФрд░ "рдЕрдиреБрд╢рдВрд╕рд┐рдд рдШрдЯрдирд╛" рдХреЗрд╡рд▓ рдШрдЯрдирд╛ рд╕рдВрдЦреНрдпрд╛рдПрдВ рд╣реИрдВред рдЙрди рдкрд░ рдЖрдк рдбреЗрдЯрд╛рдмреЗрд╕ рдореЗрдВ рдШрдЯрдирд╛ рдкрд╛ рд╕рдХрддреЗ рд╣реИрдВред

рдЗрд╕ рддрд░рд╣ рдХреЗ рдбреЗрдЯрд╛ рд╣реЛрдиреЗ рдкрд░, рдЖрдк рдЧрдгрдирд╛ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ:


  • n_inc_total - рдЙрди рдШрдЯрдирд╛рдУрдВ рдХреА рдХреБрд▓ рд╕рдВрдЦреНрдпрд╛ рдЬрд┐рдирдХреЗ рд▓рд┐рдП рд╕рд┐рдлрд╛рд░рд┐рд╢реЗрдВ рд╣реИрдВ
  • n_inc_good - рдЙрди рдШрдЯрдирд╛рдУрдВ рдХреА рд╕рдВрдЦреНрдпрд╛ рдЬрд┐рдирдХреЗ рд▓рд┐рдП "рдЕрдЪреНрдЫреА" рд╕рд┐рдлрд╛рд░рд┐рд╢реЗрдВ рд╣реИрдВ
  • avg_inc_good - рдШрдЯрдирд╛рдУрдВ рдХреЗ рд▓рд┐рдП "рдЕрдЪреНрдЫреА" рд╕рд┐рдлрд╛рд░рд┐рд╢реЛрдВ рдХреА рдФрд╕рдд рд╕рдВрдЦреНрдпрд╛
  • n_rec_total - рд╕рд┐рдлрд╛рд░рд┐рд╢реЛрдВ рдХреА рдХреБрд▓ рд╕рдВрдЦреНрдпрд╛
  • n_rec_good - "рдЕрдЪреНрдЫреА" рд╕рд┐рдлрд╛рд░рд┐рд╢реЛрдВ рдХреА рдХреБрд▓ рд╕рдВрдЦреНрдпрд╛
  • pct_inc_good - рдЙрди рдШрдЯрдирд╛рдУрдВ рдХрд╛ рд╣рд┐рд╕реНрд╕рд╛ рдЬрд┐рдирдХреЗ рд▓рд┐рдП "рдЕрдЪреНрдЫреА" рд╕рд┐рдлрд╛рд░рд┐рд╢реЗрдВ рд╣реИрдВ
    pct_inc_good = n_inc_good / n_inc_total
  • pct_rec_good - "рдЕрдЪреНрдЫрд╛" рд╕рд┐рдлрд╛рд░рд┐рд╢реЛрдВ рдХрд╛ рдХреБрд▓ рд╣рд┐рд╕реНрд╕рд╛
    pct_rec_good = n_rec_good / n_rec_total

рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛рдУрдВ рд╕реЗ рдЕрдиреБрдорд╛рдиреЛрдВ рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рдЧрдгрдирд╛ рдХрд┐рдП рдЧрдП рдЗрди рд╕рдВрдХреЗрддрдХреЛрдВ рдХреЛ рдореВрд▓ рдореЙрдбрд▓ рдХрд╛ "рдореВрд▓ рд╕рдВрдХреЗрддрдХ" рдорд╛рдирд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИред рдЗрд╕рдХреЗ рд╕рд╛рде рд╣рдо рдореЙрдбрд▓ рдХреЗ рдирдП рд╕рдВрд╕реНрдХрд░рдгреЛрдВ рдХреЗ рд╕рдорд╛рди рд╕рдВрдХреЗрддрдХреЛрдВ рдХреА рддреБрд▓рдирд╛ рдХрд░реЗрдВрдЧреЗред


рдореА рд╕реЗ рд╕рднреА рдЕрджреНрд╡рд┐рддреАрдп "рдШрдЯрдирд╛рдПрдВ" рд▓реЗрдВ, рдФрд░ рдЙрдиреНрд╣реЗрдВ рдирдП рдореЙрдбрд▓ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдЪрд▓рд╛рдПрдВред


рдирддреАрдЬрддрди, рд╣рдореЗрдВ рдХрдИ рдПрдо * рдЯреБрдкрд▓реНрд╕ рдорд┐рд▓рддреЗ рд╣реИрдВ: "рд╣рд╛рджрд╕рд╛", "рдЕрдиреБрд╢рдВрд╕рд┐рдд рд╣рд╛рджрд╕рд╛", "рджреВрд░реА"ред
рдпрд╣рд╛рдБ, "рджреВрд░реА" рдирд┐рдпрд░реЗрд╕реНрдЯреАрдирдмрд░реНрдЧ рдореЗрдВ рдкрд░рд┐рднрд╛рд╖рд┐рдд рдореАрдЯреНрд░рд┐рдХ рд╣реИред рд╣рдорд╛рд░реЗ рдореЙрдбрд▓ рдореЗрдВ, рдпрд╣ рдХреЛрдЬреНрдпрд╛ рджреВрд░реА рд╣реИред рдорд╛рди "0" рд╡реИрдХреНрдЯрд░ рдХреЗ рдкреВрд░реНрдг рд╕рдВрдпреЛрдЧ рд╕реЗ рдореЗрд▓ рдЦрд╛рддрд╛ рд╣реИред


"рдХрдЯрдСрдл рджреВрд░реА" рдХрд╛ рдЪрдпрди


рдПрдо рдХреЗ рдЕрдиреБрдорд╛рдиреЛрдВ рдХреЗ рдкреНрд░рд╛рд░рдВрднрд┐рдХ рд╕реЗрдЯ рд╕реЗ v рдХреЗ рд╕рд╣реА рдЕрдиреБрдорд╛рди рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдЬрд╛рдирдХрд╛рд░реА рдХреЗ рд╕рд╛рде рд╕рд┐рдлрд╛рд░рд┐рд╢реЛрдВ рдХреЗ рд╕реЗрдЯ * m рдХреЗ рдкреВрд░рдХ, рд╣рдо рдЗрд╕ рдореЙрдбрд▓ рдХреЗ рд▓рд┐рдП рджреВрд░реА d рдФрд░ v рдХреЗ рд╕рд╣реА рдЕрдиреБрдорд╛рди рдХреЗ рдмреАрдЪ рдкрддреНрд░рд╛рдЪрд╛рд░ рдкреНрд░рд╛рдкреНрдд рдХрд░рддреЗ рд╣реИрдВред


рд╕реЗрдЯ ( рдбреА , рд╡реА ) рд╣реЛрдиреЗ рдХреЗ рдмрд╛рдж, рдЗрд╖реНрдЯрддрдо рдХрдЯрдСрдл рд╕реНрддрд░ рдЯреА рдЪреБрдирдирд╛ рд╕рдВрднрд╡ рд╣реИ, рдЬреЛ рдбреА <= рдЯреА рдХреЗ рд▓рд┐рдП рд╕рд┐рдлрд╛рд░рд┐рд╢ "рдЕрдЪреНрдЫрд╛" рд╣реЛрдЧрд╛, рдФрд░ рдбреА> рдЯреА - "рдЦрд░рд╛рдм" рдХреЗ рд▓рд┐рдПред T рдХрд╛ рдЪрдпрди рд╕рдмрд╕реЗ рд╕рд░рд▓ рдмрд╛рдЗрдирд░реА рдХреНрд▓рд╛рд╕рд┐рдлрд╛рдпрд░рд┐рдпрд░ v = -1 if d>t else 1 рдЕрдиреБрдХреВрд▓рди рдХрд░рдХреЗ рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ v = -1 if d>t else 1 рдХреЛ рд╣рд╛рдЗрдкрд░рдкрд░рдореЗрдЯрд░ t рдХреЗ рд╕рдВрдмрдВрдз рдореЗрдВ, рдФрд░ рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП, AUC ROC рдПрдХ рдореАрдЯреНрд░рд┐рдХ рдХреЗ рд░реВрдк рдореЗрдВред


 #     class BinarizerClassifier(Binarizer): def transform(self, x): return np.array([-1 if _x > self.threshold else 1 for _x in np.array(x, dtype=float)]).reshape(-1, 1) def predict_proba(self, x): z = self.transform(x) return np.array([[0 if _x > 0 else 1, 1 if _x > 0 else 0] for _x in z.ravel()]) def predict(self, x): return self.transform(x) # #   : # -  , # -    m* # -   (d,v)  z_data_for_t # #   t b = BinarizerClassifier() z_x = z_data_for_t[['distance']] z_y = z_data_for_t['TYPE'] cv = GridSearchCV(b, param_grid={'threshold': np.arange(0.1, 0.7, 0.01)}, scoring='roc_auc', cv=5, iid=False, n_jobs=-1) cv.fit(z_x, z_y) score = cv.best_score_ t = cv.best_params_['threshold'] best_b = cv.best_estimator_ 

рдкреНрд░рд╛рдкреНрдд рдЯреА рдореВрд▓реНрдп рд╕рд┐рдлрд╛рд░рд┐рд╢реЛрдВ рдХреЛ рдлрд╝рд┐рд▓реНрдЯрд░ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдЗрд╕реНрддреЗрдорд╛рд▓ рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИред


рдмреЗрд╢рдХ, рдпрд╣ рджреГрд╖реНрдЯрд┐рдХреЛрдг рдЕрднреА рднреА "рдЦрд░рд╛рдм" рд╕рд┐рдлрд╛рд░рд┐рд╢реЛрдВ рдХреЛ рдЫреЛрдбрд╝ рд╕рдХрддрд╛ рд╣реИ рдФрд░ "рдЕрдЪреНрдЫреЗ" рд▓реЛрдЧреЛрдВ рдХреЛ рдХрд╛рдЯ рд╕рдХрддрд╛ рд╣реИред рдЗрд╕рд▓рд┐рдП, рдЗрд╕ рд╕реНрддрд░ рдкрд░ рд╣рдо рд╣рдореЗрд╢рд╛ "рдЯреЙрдк 5" рд╕рд┐рдлрд╛рд░рд┐рд╢реЗрдВ рджрд┐рдЦрд╛рддреЗ рд╣реИрдВ, рд▓реЗрдХрд┐рди рд╣рдо рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ рдЙрди рд▓реЛрдЧреЛрдВ рдХреЛ рдЪрд┐рд╣реНрдирд┐рдд рдХрд░рддреЗ рд╣реИрдВ рдЬрд┐рдиреНрд╣реЗрдВ "рдЕрдЪреНрдЫрд╛" рдорд╛рдирд╛ рдЬрд╛рддрд╛ рд╣реИ, рдЬреЛ рдХрд┐ рдкрд╛рдпрд╛ рдЧрдпрд╛ рд╣реИ ред
рд╡реИрдХрд▓реНрдкрд┐рдХ: рдпрджрд┐ рдХрдо рд╕реЗ рдХрдо рдПрдХ "рдЕрдЪреНрдЫреА" рдЕрдиреБрд╢рдВрд╕рд╛ рдкрд╛рдИ рдЬрд╛рддреА рд╣реИ, рддреЛ рдХреЗрд╡рд▓ "рдЕрдЪреНрдЫрд╛" рджрд┐рдЦрд╛рдПрдВред рдЕрдиреНрдпрдерд╛, рд╕рднреА рдЙрдкрд▓рдмреНрдз рджрд┐рдЦрд╛рдПрдВ (рдпрд╣ рднреА - "рдЯреЙрдк рдПрди")ред


рдореЙрдбрд▓ рдХреА рддреБрд▓рдирд╛ рдХреЗ рд▓рд┐рдП рдзрд╛рд░рдгрд╛


рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдореЙрдбрд▓ рдХреЗ рд▓рд┐рдП, рдПрдХ рд╣реА рдШрдЯрдирд╛ рдХреЗ рдорд╛рдорд▓реЗ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред
рдорд╛рди рд▓реАрдЬрд┐рдП рдХрд┐ рдпрджрд┐ рдкрд╣рд▓реЗ рдПрдХ "рдЕрдЪреНрдЫреА" рд╕рд┐рдлрд╛рд░рд┐рд╢ рдкрд╛рдИ рдЧрдИ рдереА, рддреЛ рдирдП рдореЙрдбрд▓ рдХреЛ рдЙрд╕реА рдШрдЯрдирд╛ рдХреЗ рд▓рд┐рдП "рдЕрдЪреНрдЫрд╛" рд╕рд┐рдлрд╛рд░рд┐рд╢ рднреА рдорд┐рд▓рдиреА рдЪрд╛рд╣рд┐рдПред рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ, рдирдпрд╛ рдореЙрдбрд▓ рдкреБрд░рд╛рдиреЗ рдХреЗ рд╕рдорд╛рди "рдЕрдЪреНрдЫреА" рд╕рд┐рдлрд╛рд░рд┐рд╢реЗрдВ рдкрд╛ рд╕рдХрддрд╛ рд╣реИред рд╣рд╛рд▓рд╛рдВрдХрд┐, рдирдП рдореЙрдбрд▓ рдХреЗ рд╕рд╛рде, рд╣рдо рдЙрдореНрдореАрдж рдХрд░рддреЗ рд╣реИрдВ рдХрд┐ "рдЦрд░рд╛рдм" рд╕рд┐рдлрд╛рд░рд┐рд╢реЛрдВ рдХреА рд╕рдВрдЦреНрдпрд╛ рдХрдо рд╣реЛ рдЬрд╛рдПрдЧреАред


рдлрд┐рд░, рдирдП рдореЙрдбрд▓ рдХреА рд╕рд┐рдлрд╛рд░рд┐рд╢реЛрдВ m * рдХреЗ рд▓рд┐рдП рд╕рдорд╛рди рд╕рдВрдХреЗрддрдХреЛрдВ рдкрд░ рд╡рд┐рдЪрд╛рд░ рдХрд░рддреЗ рд╣реБрдП, рдЙрдирдХреА рддреБрд▓рдирд╛ m рдХреЗ рд▓рд┐рдП рд╕рдВрдмрдВрдзрд┐рдд рд╕рдВрдХреЗрддрдХреЛрдВ рдХреЗ рд╕рд╛рде рдХреА рдЬрд╛ рд╕рдХрддреА рд╣реИред рддреБрд▓рдирд╛ рдХреЗ рдЖрдзрд╛рд░ рдкрд░, рдЖрдк рд╕рдмрд╕реЗ рдЕрдЪреНрдЫрд╛ рдореЙрдбрд▓ рдЪреБрди рд╕рдХрддреЗ рд╣реИрдВред


рд╕реЗрдЯ * рдХреЗ рд▓рд┐рдП "рдЕрдЪреНрдЫреА" рд╕рд┐рдлрд╛рд░рд┐рд╢реЛрдВ рдХреЛ рдзреНрдпрд╛рди рдореЗрдВ рд░рдЦрдиреЗ рдХреЗ рджреЛ рддрд░реАрдХреЗ рд╣реИрдВ:


  1. рдкрд╛рдпрд╛ рдЯреА рдХреЗ рдЖрдзрд╛рд░ рдкрд░: рд╡рд┐рдЪрд╛рд░ рдХрд░реЗрдВ рдХрд┐ d * t рдХреЗ рд╕рд╛рде m * рд╕реЗ рд╕рднреА рд╕рд┐рдлрд╛рд░рд┐рд╢реЗрдВ "рдЕрдЪреНрдЫреА" рд╣реИрдВ рдФрд░ рдореИрдЯреНрд░рд┐рдХреНрд╕ рдХреА рдЧрдгрдирд╛ рдХреЗ рд▓рд┐рдП рдЙрдиреНрд╣реЗрдВ рдзреНрдпрд╛рди рдореЗрдВ рд░рдЦреЗрдВред
  2. рд╕реЗрдЯ m рд╕реЗ рд╕рдВрдмрдВрдзрд┐рдд рд╕рд╣реА рдЕрдиреБрдорд╛рдиреЛрдВ рдХреЗ рдЖрдзрд╛рд░ рдкрд░: рд╕рд┐рдлрд╛рд░рд┐рд╢реЛрдВ m * рд╕реЗ, рдХреЗрд╡рд▓ рдЙрдиреНрд╣реАрдВ рдХрд╛ рдЪрдпрди рдХрд░реЗрдВ рдЬрд┐рдирдХреЗ рд▓рд┐рдП m рдореЗрдВ рд╕рд╣реА рдЕрдиреБрдорд╛рди рд╣реИ, рдФрд░ рдмрд╛рдХреА рдХреЛ рдЫреЛрдбрд╝ рджреЗрдВред

рдкрд╣рд▓реЗ рдорд╛рдорд▓реЗ рдореЗрдВ, рдирдП рдореЙрдбрд▓ рдХреЗ "рдкреВрд░реНрдг" рд╕рдВрдХреЗрддрдХ ( n_inc_good , n_rec_good ) рдмреЗрд╕ рдореЙрдбрд▓ рдХреЗ рд▓рд┐рдП рдЕрдзрд┐рдХ рд╕реЗ рдЕрдзрд┐рдХ рд╣реЛрдирд╛ рдЪрд╛рд╣рд┐рдПред рджреВрд╕рд░реЗ рдорд╛рдорд▓реЗ рдореЗрдВ, рд╕рдВрдХреЗрддрдХ рдХреЛ рдмреЗрд╕ рдореЙрдбрд▓ рдХреЗ рд╕рдВрдХреЗрддрдХреЛрдВ рд╕реЗ рд╕рдВрдкрд░реНрдХ рдХрд░рдирд╛ рдЪрд╛рд╣рд┐рдПред
рджреВрд╕рд░реА рд╡рд┐рдзрд┐ рдХреА рд╕рдорд╕реНрдпрд╛: рдпрджрд┐ рдирдпрд╛ рдореЙрдбрд▓ рдореВрд▓ рдПрдХ рд╕реЗ рдмреЗрд╣рддрд░ рд╣реИ, рдФрд░ рдпрд╣ рдкрд╣рд▓реЗ рд╕реЗ рдЕрдЬреНрдЮрд╛рдд рдХреБрдЫ рдкрд╛рддрд╛ рд╣реИ, рддреЛ рдЗрд╕ рддрд░рд╣ рдХреА рд╕рд┐рдлрд╛рд░рд┐рд╢ рдХреА рдЧрдгрдирд╛ рдореЗрдВ рдзреНрдпрд╛рди рдирд╣реАрдВ рджрд┐рдпрд╛ рдЬрд╛рдПрдЧрд╛ред


рдореЙрдбрд▓ рддреБрд▓рдирд╛ рд╡рд┐рдХрд▓реНрдкреЛрдВ рдХрд╛ рдЪрдпрди рдХрд░реЗрдВ


рдирдпрд╛ рдореЙрдбрд▓ рдЪреБрдирддреЗ рд╕рдордп, рдореИрдВ рдЪрд╛рд╣рддрд╛ рд╣реВрдВ рдХрд┐ рд╕рдВрдХреЗрддрдХ рдореМрдЬреВрджрд╛ рдореЙрдбрд▓ рдХреА рддреБрд▓рдирд╛ рдореЗрдВ рд╕реБрдзрд╛рд░ рдХрд░реЗрдВ:


  • рдкреНрд░рддрд┐ рдШрдЯрдирд╛ "рдФрд╕рдд" рд╕рд┐рдлрд╛рд░рд┐рд╢реЛрдВ рдХреА рдФрд╕рдд рд╕рдВрдЦреНрдпрд╛ ( avg_inc_good )
  • рдШрдЯрдирд╛рдУрдВ рдХреА рд╕рдВрдЦреНрдпрд╛ рдЬрд┐рд╕рдХреЗ рд▓рд┐рдП "рдЕрдЪреНрдЫреА" рд╕рд┐рдлрд╛рд░рд┐рд╢реЗрдВ ( n_inc_good ) рд╣реИрдВред

рдореВрд▓ рдореЙрдбрд▓ рдХреЗ рд╕рд╛рде рддреБрд▓рдирд╛ рдХреЗ рд▓рд┐рдП, рд╣рдо рдирдП рдореЙрдбрд▓ рдФрд░ рдореВрд▓ рдХреЗ рдЗрди рдорд╛рдкрджрдВрдбреЛрдВ рдХреЗ рд╕рдВрдмрдВрдзреЛрдВ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░реЗрдВрдЧреЗред рдЗрд╕ рдкреНрд░рдХрд╛рд░, рдпрджрд┐ рдирдП рдореЙрдбрд▓ рдФрд░ рдкреБрд░рд╛рдиреЗ рдХреЗ рдкреИрд░рд╛рдореАрдЯрд░ рдХрд╛ рдЕрдиреБрдкрд╛рдд 1 рд╕реЗ рдЕрдзрд┐рдХ рд╣реИ, рддреЛ рдирдпрд╛ рдореЙрдбрд▓ рдмреЗрд╣рддрд░ рд╣реИред


 benchmark_agv_inc_good = avg_inc_good* / avg_inc_good benchmark_n_inc_good = n_inc_good* / n_inc_good 

рдЪрдпрди рдХреЛ рд╕рд░рд▓ рдмрдирд╛рдиреЗ рдХреЗ рд▓рд┐рдП, рдПрдХрд▓ рдкреИрд░рд╛рдореАрдЯрд░ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдирд╛ рдмреЗрд╣рддрд░ рд╣реИред рд╣рдо рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдкреЗрдХреНрд╖ рд╕рдВрдХреЗрддрдХреЛрдВ рдХреЗ рд╣рд╛рд░реНрдореЛрдирд┐рдХ рдорддрд▓рдм рд▓реЗрддреЗ рд╣реИрдВ рдФрд░ рдЗрд╕реЗ рдирдП рдореЙрдбрд▓ рдХреЗ рд▓рд┐рдП рдПрдХрдорд╛рддреНрд░ рд╕рдордЧреНрд░ рдЧреБрдгрд╡рддреНрддрд╛ рдорд╛рдирджрдВрдб рдХреЗ рд░реВрдк рдореЗрдВ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реИрдВред


 composite = 2 / ( 1/benchmark_agv_inc_good + 1/benchmark_n_inc_good) 

рдирдпрд╛ рдореЙрдбрд▓ рдФрд░ рдЙрд╕рдХрд╛ рдЕрдиреБрдХреВрд▓рди


рдирдП рдореЙрдбрд▓ рдХреЗ рд▓рд┐рдП, рдЕрдВрддрд┐рдо рд╡реЗрдХреНрдЯрд░ рдореЗрдВ рдШрдЯрдирд╛ рдХрд╛ рдкреНрд░рддрд┐рдирд┐рдзрд┐рддреНрд╡ рдХрд░рддреЗ рд╣реБрдП, "рдШрдЯрдирд╛ рдХреНрд╖реЗрддреНрд░" (рд╣рдорд╛рд░реА рдЯреАрдо рджреНрд╡рд╛рд░рд╛ рд╕реЗрд╡рд┐рдд рдХрдИ рдкреНрд░рдгрд╛рд▓рд┐рдпреЛрдВ рдореЗрдВ рд╕реЗ рдПрдХ) рдХреЗ рд▓рд┐рдП рдЬрд┐рдореНрдореЗрджрд╛рд░ рдШрдЯрдХреЛрдВ рдХреЛ рдЬреЛрдбрд╝реЗрдВред
рдШрдЯрдирд╛ рдХреЛ рдмрдирд╛рдиреЗ рд╡рд╛рд▓реЗ рдХрд░реНрдордЪрд╛рд░реА рдХреА рдЗрдХрд╛рдИ рдФрд░ рд╕реНрдерд╛рди рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдЬрд╛рдирдХрд╛рд░реА рднреА рдПрдХ рдЕрд▓рдЧ рд╡реЗрдХреНрдЯрд░ рдШрдЯрдХ рдореЗрдВ рд░рдЦреА рдЧрдИ рд╣реИред рдЕрдВрддрд┐рдо рд╡реЗрдХреНрдЯрд░ рдореЗрдВ рд╕рднреА рдШрдЯрдХреЛрдВ рдХрд╛ рд╡рдЬрди рд╣реЛрддрд╛ рд╣реИред


 p = Pipeline( steps=[ ('grp', ColumnTransformer( transformers=[ ('text', Pipeline(steps=[ ('pp', CommentsTextTransformer(n_jobs=-1)), ("tfidf", TfidfVectorizer(stop_words=get_stop_words(), ngram_range=(1, 3), max_features=10000, min_df=0)) ]), ['short_description', 'comments'] ), ('area', OneHotEncoder(handle_unknown='ignore'), ['area'] ), ('dept', OneHotEncoder(handle_unknown='ignore'), ['u_impacted_department'] ), ('loc', OneHotEncoder(handle_unknown='ignore'), ['u_impacted_location'] ) ], transformer_weights={'text': 1, 'area': 0.5, 'dept': 0.1, 'loc': 0.1}, n_jobs=-1 )), ('norm', Normalizer()), ("nn", NearestNeighborsTransformer(n_neighbors=10, metric='cosine')) ], memory=None) 

рдореЙрдбрд▓ рд╣рд╛рдЗрдкрд░рдкреИрд░рдореАрдЯрд░ рд╕реЗ рдореЙрдбрд▓ рд▓рдХреНрд╖реНрдп рдХреЛ рдкреНрд░рднрд╛рд╡рд┐рдд рдХрд░рдиреЗ рдХреА рдЙрдореНрдореАрдж рдХреА рдЬрд╛рддреА рд╣реИред рдЪрдпрдирд┐рдд рдореЙрдбрд▓ рд╡рд╛рд╕реНрддреБрдХрд▓рд╛ рдореЗрдВ, рд╣рдо рд╣рд╛рдЗрдкрд░рдкрд░рдореЗрдЯрд░реНрд╕ рдХреЗ рд░реВрдк рдореЗрдВ рд╡рд┐рдЪрд╛рд░ рдХрд░реЗрдВрдЧреЗ:


  • TF-IDF рд╡реЗрдХреНрдЯрд░рд╛рдЗрдЬреЗрд╢рди рдкреИрд░рд╛рдореАрдЯрд░реНрд╕ - n-gr (ngram_range), рдбрд┐рдХреНрд╢рдирд░реА рд╕рд╛рдЗрдЬ (max_features), рдорд┐рдирд┐рдордо рдЯрд░реНрдо рдбреНрд░рд╛рдЗрд╡рд┐рдВрдЧ (min_df)
  • рдЕрдВрддрд┐рдо рд╡реЗрдХреНрдЯрд░ рдореЗрдВ рдШрдЯрдХ рдпреЛрдЧрджрд╛рди - Transform_weightsред

рдкрд╛рда рд╡реИрд╢реНрд╡реАрдХрд░рдг рд╣рд╛рдЗрдкрд░рдкрд░рдореЗрдЯрд░реНрд╕ рдХреЗ рдкреНрд░рд╛рд░рдВрднрд┐рдХ рдорд╛рди рдкрд┐рдЫрд▓реЗ рдореЙрдбрд▓ рд╕реЗ рд▓рд┐рдП рдЧрдП рд╣реИрдВред рдкреНрд░рд╛рд░рдВрднрд┐рдХ рдШрдЯрдХ рд╡рдЬрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮ рдирд┐рд░реНрдгрдп рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рдЪреБрдирд╛ рдЬрд╛рддрд╛ рд╣реИред


рдкреИрд░рд╛рдореАрдЯрд░ рдЪрдпрди рдЪрдХреНрд░


рддреБрд▓рдирд╛ рдХреИрд╕реЗ рдХрд░реЗрдВ, рдорд┐рд╕рдлрд╛рдпрд░ рд╕реНрддрд░ рдХрд╛ рдЪрдпрди рдХрд░реЗрдВ рдФрд░ рдЖрдкрд╕ рдореЗрдВ рдореЙрдбрд▓ рдХреА рддреБрд▓рдирд╛ рдкрд╣рд▓реЗ рд╣реА рдирд┐рд░реНрдзрд╛рд░рд┐рдд рдХрд░ рдЪреБрдХреЗ рд╣реИрдВред рдЕрдм рд╣рдо рд╣рд╛рдЗрдкрд░рдкрд░рдореЗрдЯрд░реНрд╕ рдХреЗ рдЪрдпрди рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдЕрдиреБрдХреВрд▓рди рдХреЗ рд▓рд┐рдП рдЖрдЧреЗ рдмрдврд╝ рд╕рдХрддреЗ рд╣реИрдВред


рдЕрдиреБрдХреВрд▓рди рдЪрдХреНрд░


 param_grid = { 'grp__text__tfidf__ngram_range': [(1, 1), (1, 2), (1, 3), (2, 2)], 'grp__text__tfidf__max_features': [5000, 10000, 20000], 'grp__text__tfidf__min_df': [0, 0.0001, 0.0005, 0.001], 'grp__transformer_weights': [{'text': 1, 'area': 0.5, 'dept': 0.1, 'loc': 0.1}, {'text': 1, 'area': 0.75, 'dept': 0.1, 'loc': 0.1}, {'text': 1, 'area': 0.5, 'dept': 0.3, 'loc': 0.3}, {'text': 1, 'area': 0.75, 'dept': 0.3, 'loc': 0.3}, {'text': 1, 'area': 1, 'dept': 0.1, 'loc': 0.1}, {'text': 1, 'area': 1, 'dept': 0.3, 'loc': 0.3}, {'text': 1, 'area': 1, 'dept': 0.5, 'loc': 0.5}], } for param in ParameterGrid(param_grid=param_grid): p.set_params(**param) p.fit(x) ... 

рдЕрдиреБрдХреВрд▓рди рдкрд░рд┐рдгрд╛рдо


рддрд╛рд▓рд┐рдХрд╛ рдЙрди рдкреНрд░рдпреЛрдЧреЛрдВ рдХреЗ рдкрд░рд┐рдгрд╛рдореЛрдВ рдХреЛ рджрд┐рдЦрд╛рддреА рд╣реИ рдЬрд┐рдирдореЗрдВ рджрд┐рд▓рдЪрд╕реНрдк рдкрд░рд┐рдгрд╛рдо рдкреНрд░рд╛рдкреНрдд рд╣реБрдП рдереЗ - рд╢реАрд░реНрд╖ 5 рд╕рдмрд╕реЗ рдЕрдЪреНрдЫреЗ рдФрд░ рдирд┐рдпрдВрддреНрд░рд┐рдд рд╕рдВрдХреЗрддрдХреЛрдВ рдХреЗ рд▓рд┐рдП рд╕рдмрд╕реЗ рдЦрд░рд╛рдм рдорд╛рдиред



рддрд╛рд▓рд┐рдХрд╛ рдореЗрдВ рд╕рдВрдХреЗрддрдХ рд╡рд╛рд▓реА рдХреЛрд╢рд┐рдХрд╛рдУрдВ рдХреЛ рдирд┐рдореНрдирд╛рдиреБрд╕рд╛рд░ рдЪрд┐рд╣реНрдирд┐рдд рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИ:


  • рдЧрд╣рд░реЗ рд╣рд░реЗ рд░рдВрдЧ рд╕рднреА рдкреНрд░рдпреЛрдЧреЛрдВ рдХреЗ рдмреАрдЪ рд╕рдмрд╕реЗ рдЕрдЪреНрдЫрд╛ рд╕рдВрдХреЗрддрдХ рд╣реИ
  • рдкреАрд▓рд╛ рд╣рд░рд╛ - рд╕реВрдЪрдХ рдорд╛рди рд╢реАрд░реНрд╖ -5 рдореЗрдВ рд╣реИ
  • рдЧрд╣рд░реЗ рд▓рд╛рд▓ - рд╕рднреА рдкреНрд░рдпреЛрдЧреЛрдВ рдХреЗ рдмреАрдЪ рд╕рдмрд╕реЗ рдЦрд░рд╛рдм рд╕рдВрдХреЗрддрдХ
  • рдкреАрд▓рд╛ рд▓рд╛рд▓ - рд╕реВрдЪрдХ рд╕рдмрд╕реЗ рдЦрд░рд╛рдм -5 рдореЗрдВ рд╣реИ

рдорд╛рдкрджрдВрдбреЛрдВ рдХреЗ рд╕рд╛рде рдПрдХ рдореЙрдбрд▓ рдХреЗ рд▓рд┐рдП рд╕рдмрд╕реЗ рдЕрдЪреНрдЫрд╛ рд╕рдордЧреНрд░ рд╕рдВрдХреЗрддрдХ рдкреНрд░рд╛рдкреНрдд рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛:


 ngram_range = (1,2) min_df = 0.0001 max_features = 20000 transformer_weights = {'text': 1, 'area': 1, 'dept': 0.1, 'loc': 0.1} 

рдЗрди рдорд╛рдкрджрдВрдбреЛрдВ рдХреЗ рд╕рд╛рде рдПрдХ рдореЙрдбрд▓ рдореЗрдВ рдореВрд▓ рдореЙрдбрд▓ 24% рдХреА рддреБрд▓рдирд╛ рдореЗрдВ рд╕рдордЧреНрд░ рд╕рдВрдХреЗрддрдХ рдореЗрдВ рд╕реБрдзрд╛рд░ рджрд┐рдЦрд╛рдпрд╛ рдЧрдпрд╛


рдХреБрдЫ рдЕрд╡рд▓реЛрдХрди рдФрд░ рдирд┐рд╖реНрдХрд░реНрд╖


рдЕрдиреБрдХреВрд▓рди рдкрд░рд┐рдгрд╛рдореЛрдВ рдХреЗ рдЕрдиреБрд╕рд╛рд░:


  1. ngram_range = (1,3) ( ngram_range = (1,3) ) рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдирд╛ рдЙрдЪрд┐рдд рдирд╣реАрдВ рд▓рдЧрддрд╛ рд╣реИред рд╡реЗ рдбрд┐рдХреНрд╢рдирд░реА рдХреЛ рдлреБрд▓рд╛рддреЗ рд╣реИрдВ рдФрд░ рдмрд┐рдЧреНрд░реЗрдб рдХреА рддреБрд▓рдирд╛ рдореЗрдВ рд╕рдЯреАрдХрддрд╛ рдмрдврд╝рд╛рддреЗ рд╣реИрдВред


  2. рдПрдХ рджрд┐рд▓рдЪрд╕реНрдк рд╡реНрдпрд╡рд╣рд╛рд░ рдЬрдм рдХреЗрд╡рд▓ рд╢рдмреНрджрдХреЛрд╢ ( ngram_range = (2,2) ) рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реБрдП рдПрдХ рд╢рдмреНрджрдХреЛрд╢ рдХрд╛ рдирд┐рд░реНрдорд╛рдг рд╣реЛрддрд╛ рд╣реИ: рд╕рд┐рдлрд╛рд░рд┐рд╢реЛрдВ рдХреА "рд╕рдЯреАрдХрддрд╛" рдмрдврд╝рддреА рд╣реИ, рдФрд░ рдорд┐рд▓рдиреЗ рд╡рд╛рд▓реА рд╕рд┐рдлрд╛рд░рд┐рд╢реЛрдВ рдХреА рд╕рдВрдЦреНрдпрд╛ рдШрдЯ рдЬрд╛рддреА рд╣реИред рдЬреИрд╕реЗ рдХреНрд▓рд╛рд╕рд┐рдлрд╛рдпрд░ рдореЗрдВ рд╕рдЯреАрдХ / рд░рд┐рдХреЙрд▓ рдмреИрд▓реЗрдВрд╕ред рдЗрд╕реА рддрд░рд╣ рдХрд╛ рд╡реНрдпрд╡рд╣рд╛рд░ рдХрдЯрдСрдл рдХреЗ рд╕реНрддрд░ рдЯреА рдХреЗ рдЪрдпрди рдореЗрдВ рджреЗрдЦрд╛ рдЬрд╛рддрд╛ рд╣реИ - рдмрдбрд╝реЗрдЧреНрд░рд╛рдореЛрдВ рдХреЗ рд▓рд┐рдП рдХрдЯрдСрдл рдХрд╛ рдПрдХ рд╕рдВрдХреАрд░реНрдг "рд╢рдВрдХреБ" рдФрд░ "рдЕрдЪреНрдЫрд╛" рдФрд░ "рдЦрд░рд╛рдм" рдЕрдиреБрд╢рдВрд╕рд╛рдУрдВ рдХрд╛ рдмреЗрд╣рддрд░ рдкреГрдердХреНрдХрд░рдг рд╡рд┐рд╢реЗрд╖рддрд╛ рд╣реИред


  3. Nonzero рдкреИрд░рд╛рдореАрдЯрд░ min_df, рдмреАрдЧреНрд░рд╛рдореЛрдВ рдХреЗ рд╕рд╛рде, рд╕рд┐рдлрд╛рд░рд┐рд╢реЛрдВ рдХреА рд╕рдЯреАрдХрддрд╛ рдХреЛ рдмрдврд╝рд╛рддрд╛ рд╣реИред рд╡реЗ рдРрд╕реЗ рд╢рдмреНрджреЛрдВ рдкрд░ рдЖрдзрд╛рд░рд┐рдд рд╣реЛрдиреЗ рд▓рдЧрддреЗ рд╣реИрдВ рдЬреЛ рдХрдо рд╕реЗ рдХрдо рдХрдИ рдмрд╛рд░ рд╣реЛрддреЗ рд╣реИрдВред рдЬреИрд╕реЗ-рдЬреИрд╕реЗ рдкреИрд░рд╛рдореАрдЯрд░ рдмрдврд╝рддрд╛ рд╣реИ, рдбрд┐рдХреНрд╢рдирд░реА рддреЗрдЬреА рд╕реЗ рд╕рд┐рдХреБрдбрд╝рдиреЗ рд▓рдЧрддреА рд╣реИред рдЫреЛрдЯреЗ рдирдореВрдиреЛрдВ рдХреЗ рд▓рд┐рдП, рдЬреИрд╕рд╛ рдХрд┐ рд╣рдорд╛рд░реЗ рдорд╛рдорд▓реЗ рдореЗрдВ, рджрд╕реНрддрд╛рд╡реЗрдЬреЛрдВ рдХреЗ рдЕрдВрд╢ (рдЖрдВрд╢рд┐рдХ рдорд╛рди min_df) рд╢рдмреНрдж рдХреА рддреБрд▓рдирд╛ рдореЗрдВ рджрд╕реНрддрд╛рд╡реЗрдЬреЛрдВ рдХреА рд╕рдВрдЦреНрдпрд╛ (рдкреВрд░реНрдгрд╛рдВрдХ рдорд╛рди min_df) рдХреЗ рд╕рд╛рде рд╕рдВрдЪрд╛рд▓рд┐рдд рдХрд░рдирд╛ рдЕрдзрд┐рдХ рд╕рдВрднрд╡ рд╣реЛрдЧрд╛ред


  4. рдЕрдЪреНрдЫреЗ рдкрд░рд┐рдгрд╛рдо рддрдм рдкреНрд░рд╛рдкреНрдд рд╣реЛрддреЗ рд╣реИрдВ, рдЬрдм "рдХреНрд╖реЗрддреНрд░" рдХреЗ рд▓рд┐рдП рдЬрд┐рдореНрдореЗрджрд╛рд░ рд╡рд┐рд╢реЗрд╖рддрд╛ рдХреЛ рдЕрдВрддрд┐рдо рд╡реЗрдХреНрдЯрд░ рдореЗрдВ рдкрд╛рда рдШрдЯрдХ рдХреЗ рдмрд░рд╛рдмрд░ рдпрд╛ рдЙрд╕рдХреЗ рдХрд░реАрдм рд╡рдЬрди рдХреЗ рд╕рд╛рде рд╢рд╛рдорд┐рд▓ рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред рдЕрдиреНрдп рдХреНрд╖реЗрддреНрд░реЛрдВ рдХреЗ рджрд╕реНрддрд╛рд╡реЗрдЬреЛрдВ рдореЗрдВ рд╕рдорд╛рди рд╢рдмреНрдж рдЦреЛрдЬрдиреЗ рдХреЗ рдХрд╛рд░рдг рдХрдо рдорд╛рди "рдЦрд░рд╛рдм" рд╕рд┐рдлрд╛рд░рд┐рд╢реЛрдВ рдХреЗ рдЕрдиреБрдкрд╛рдд рдореЗрдВ рд╡реГрджреНрдзрд┐ рдХрд░рддреЗ рд╣реИрдВред рд▓реЗрдХрд┐рди рдЧреНрд░рд╛рд╣рдХ рдХреЗ рд╕реНрдерд╛рди рдХреЗ рд╕рдВрдХреЗрдд рд╣рдорд╛рд░реЗ рдорд╛рдорд▓реЗ рдореЗрдВ рд╕рд┐рдлрд╛рд░рд┐рд╢реЛрдВ рдХреЗ рдкрд░рд┐рдгрд╛рдореЛрдВ рдХреЛ рдЕрдЪреНрдЫреА рддрд░рд╣ рд╕реЗ рдкреНрд░рднрд╛рд╡рд┐рдд рдирд╣реАрдВ рдХрд░рддреЗ рд╣реИрдВред



рдХреБрдЫ рдирдП рд╡рд┐рдЪрд╛рд░ рд╕рд╛рдордиреЗ рдЖрдП рд╣реИрдВ:


  • рдПрдХ "рд╕рдордп" рдШрдЯрдХ рдЬреЛрдбрд╝реЗрдВ рддрд╛рдХрд┐ рд╣рд╛рд▓ рдХреА рдШрдЯрдирд╛рдПрдВ рд╕рдорд╛рди рдШрдЯрдирд╛рдУрдВ рдкрд░ рдкреВрд░реНрд╡рддрд╛ рд▓реЗ рд╕рдХреЗрдВред
  • рджреЗрдЦреЗрдВ рдХрд┐ рдХреИрд╕реЗ max_df рдкреИрд░рд╛рдореАрдЯрд░ рдХреА рд╢реБрд░реВрдЖрдд рдкреНрд░рднрд╛рд╡рд┐рдд рдХрд░реЗрдЧреА - рд╣рд╛рд▓рд╛рдБрдХрд┐ рдкрд░рд┐рднрд╛рд╖рд╛ рдХреЗ рдЕрдиреБрд╕рд╛рд░ tf-idf рдХреЗ рд▓рд┐рдП рднреА рд╕рд╛рдорд╛рдиреНрдп рд╢рдмреНрджреЛрдВ рдореЗрдВ рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╡рдЬрди рдирд╣реАрдВ рд╣реЛрдирд╛ рдЪрд╛рд╣рд┐рдПред
  • рдЕрдВрдд рдореЗрдВ рд╡реЗрдХреНрдЯрд░ рд╕рд╛рдордЧреНрд░реА рдХреЗ рдЕрдиреНрдп рддрд░реАрдХреЛрдВ рдХреА рдХреЛрд╢рд┐рд╢ рдХрд░реЗрдВ, рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП, рд╢рдмреНрдж-рд╕реЗ-рд╡реЗрдХреНрдЯрд░ рдХреЗ рдЖрдзрд╛рд░ рдкрд░, рдпрд╛ рдиреЗрдЯрд╡рд░реНрдХ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ tf-idf рд╡рд┐рдЪрд╛рд░реЛрдВ рдХреЗ рджреГрдврд╝ рд╡рд┐рд╢реНрд╡рд╛рд╕ рдкрд░ рдЖрдзрд╛рд░рд┐рдд рд╣реИред

Source: https://habr.com/ru/post/hi472772/


All Articles