рдПрдХ рдкрд░рд┐рджреГрд╢реНрдп рдкрд░ рд╡рд┐рдЪрд╛рд░ рдХрд░реЗрдВ рдЬрд╣рд╛рдВ рдЖрдкрдХрд╛ рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдореЙрдбрд▓ рдмреЗрдХрд╛рд░ рд╣реЛ рд╕рдХрддрд╛ рд╣реИред
рдПрдХ рдХрд╣рд╛рд╡рдд рд╣реИ:
"рд╕реЗрдм рдХреА рддреБрд▓рдирд╛ рд╕рдВрддрд░реЗ рд╕реЗ рди рдХрд░реЗрдВ ред
" рд▓реЗрдХрд┐рди рдХреНрдпрд╛ рд╣реЛрдЧрд╛ рдпрджрд┐ рдЖрдкрдХреЛ рд╕реЗрдм рдХреЗ рдПрдХ рд╕реЗрдЯ рдХреЛ рджреВрд╕рд░реЗ рдХреЗ рд╕рд╛рде рд╕рдВрддрд░реЗ рдХреА рддреБрд▓рдирд╛ рдХрд░рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ, рд▓реЗрдХрд┐рди рджреЛ рд╕реЗрдЯреЛрдВ рдореЗрдВ рдлрд▓реЛрдВ рдХрд╛ рд╡рд┐рддрд░рдг рдЕрд▓рдЧ рд╣реИ? рдХреНрдпрд╛ рдЖрдк рдбреЗрдЯрд╛ рдХреЗ рд╕рд╛рде рдХрд╛рдо рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ? рдФрд░ рдЖрдк рдЗрд╕реЗ рдХреИрд╕реЗ рдХрд░реЗрдВрдЧреЗ?

рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдорд╛рдорд▓реЛрдВ рдореЗрдВ, рдпрд╣ рд╕реНрдерд┐рддрд┐ рдЖрдо рд╣реИред рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдореЙрдбрд▓ рд╡рд┐рдХрд╕рд┐рдд рдХрд░рддреЗ рд╕рдордп, рд╣рдореЗрдВ рдПрдХ рдРрд╕реА рд╕реНрдерд┐рддрд┐ рдХрд╛ рд╕рд╛рдордирд╛ рдХрд░рдирд╛ рдкрдбрд╝рддрд╛ рд╣реИ рдЬрд╣рд╛рдВ рд╣рдорд╛рд░рд╛ рдореЙрдбрд▓ рдПрдХ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рд╕реЗрдЯ рдХреЗ рд╕рд╛рде рдЕрдЪреНрдЫрд╛ рдХрд╛рдо рдХрд░рддрд╛ рд╣реИ, рд▓реЗрдХрд┐рди рдореЙрдбрд▓ рдХреА рдЧреБрдгрд╡рддреНрддрд╛ рдкрд░реАрдХреНрд╖рдг рдбреЗрдЯрд╛ рдкрд░ рддреЗрдЬреА рд╕реЗ рдЧрд┐рд░рддреА рд╣реИред
рдФрд░ рдпрд╣ рд░рд┐рдЯреНрд░реАрдЯрд┐рдВрдЧ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдирд╣реАрдВ рд╣реИред рдорд╛рди рд▓реАрдЬрд┐рдП рдХрд┐ рд╣рдордиреЗ рдПрдХ рдореЙрдбрд▓ рдмрдирд╛рдпрд╛ рд╣реИ, рдЬреЛ рдХреНрд░реЙрд╕-рд╡реИрд▓рд┐рдбреЗрд╢рди рдкрд░ рдПрдХ рдЙрддреНрдХреГрд╖реНрдЯ рдкрд░рд┐рдгрд╛рдо рджреЗрддрд╛ рд╣реИ, рд▓реЗрдХрд┐рди рдкрд░реАрдХреНрд╖рдг рдкрд░ рдЦрд░рд╛рдм рдкрд░рд┐рдгрд╛рдо рджрд┐рдЦрд╛рддрд╛ рд╣реИред рдЗрд╕рд▓рд┐рдП рдкрд░реАрдХреНрд╖рдг рдХреЗ рдирдореВрдиреЗ рдореЗрдВ рдРрд╕реА рдЬрд╛рдирдХрд╛рд░реА рд╣реИ рдЬрд┐рд╕реЗ рд╣рдо рдзреНрдпрд╛рди рдореЗрдВ рдирд╣реАрдВ рд░рдЦрддреЗ рд╣реИрдВред
рдРрд╕реА рд╕реНрдерд┐рддрд┐ рдХреА рдХрд▓реНрдкрдирд╛ рдХрд░реЗрдВ рдЬрд┐рд╕рдореЗрдВ рд╣рдо рдПрдХ рд╕реНрдЯреЛрд░ рдореЗрдВ рдЧреНрд░рд╛рд╣рдХ рд╡реНрдпрд╡рд╣рд╛рд░ рдХреА рднрд╡рд┐рд╖реНрдпрд╡рд╛рдгреА рдХрд░рддреЗ рд╣реИрдВред рдпрджрд┐ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдФрд░ рдкрд░реАрдХреНрд╖рдг рдХреЗ рдирдореВрдиреЗ рдиреАрдЪреЗ рдХреА рдЫрд╡рд┐ рдХреА рддрд░рд╣ рджрд┐рдЦрддреЗ рд╣реИрдВ, рддреЛ рдпрд╣ рдПрдХ рд╕реНрдкрд╖реНрдЯ рд╕рдорд╕реНрдпрд╛ рд╣реИ:
рдЗрд╕ рдЙрджрд╛рд╣рд░рдг рдореЗрдВ, рдореЙрдбрд▓ рдХреЛ рдкрд░реАрдХреНрд╖рдг рдкрд░ рдПрдХ рд╕рдорд╛рди рд╡рд┐рд╢реЗрд╖рддрд╛ рдХреЗ рдФрд╕рдд рдореВрд▓реНрдп рд╕реЗ рдХрдо "рдЧреНрд░рд╛рд╣рдХ рдЖрдпреБ" рд╡рд┐рд╢реЗрд╖рддрд╛ рдХреЗ рдФрд╕рдд рдореВрд▓реНрдп рдХреЗ рд╕рд╛рде рдбреЗрдЯрд╛ рдкрд░ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред рд╕реАрдЦрдиреЗ рдХреА рдкреНрд░рдХреНрд░рд┐рдпрд╛ рдореЗрдВ, рдореЙрдбрд▓ рдиреЗ "рдЙрдореНрд░" рд╡рд┐рд╢реЗрд╖рддрд╛ рдХреЗ рдмрдбрд╝реЗ рдореВрд▓реНрдпреЛрдВ рдХреЛ рдХрднреА рдирд╣реАрдВ рджреЗрдЦрд╛ рд╣реИред рдпрджрд┐ рдореЙрдбрд▓ рдХреЗ рд▓рд┐рдП рдЙрдореНрд░ рдПрдХ рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╡рд┐рд╢реЗрд╖рддрд╛ рд╣реИ, рддреЛ рдХрд┐рд╕реА рдХреЛ рдкрд░реАрдХреНрд╖рдг рдирдореВрдиреЗ рдкрд░ рдЕрдЪреНрдЫреЗ рдкрд░рд┐рдгрд╛рдо рдХреА рдЙрдореНрдореАрдж рдирд╣реАрдВ рдХрд░рдиреА рдЪрд╛рд╣рд┐рдПредрдЗрд╕ рдкрд╛рда рдореЗрдВ, рд╣рдо "рднреЛрд▓реЗ" рджреГрд╖реНрдЯрд┐рдХреЛрдгреЛрдВ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдмрд╛рдд рдХрд░реЗрдВрдЧреЗ рдЬреЛ рд╣рдореЗрдВ рдЗрд╕ рддрд░рд╣ рдХреА рдШрдЯрдирд╛рдУрдВ рдХреА рдкрд╣рдЪрд╛рди рдХрд░рдиреЗ рдФрд░ рдЙрдиреНрд╣реЗрдВ рдЦрддреНрдо рдХрд░рдиреЗ рдХреА рдХреЛрд╢рд┐рд╢ рдХрд░рддреЗ рд╣реИрдВред
рд╕рд╣рд╕рдВрдпреЛрдЬрдХ рдкрд╛рд░реА
рдЖрдЗрдП рд╣рдо рдЗрд╕ рдЕрд╡рдзрд╛рд░рдгрд╛ рдХреА рдЕрдзрд┐рдХ рд╕рдЯреАрдХ рдкрд░рд┐рднрд╛рд╖рд╛ рджреЗрдВред
рдХреЛрд╡рд░рд┐рдпрдирд╕ рд╡рд┐рд╢реЗрд╖рддрд╛рдУрдВ рдХреЗ рдореВрд▓реНрдпреЛрдВ рдХреЛ рд╕рдВрджрд░реНрднрд┐рдд рдХрд░рддрд╛ рд╣реИ, рдФрд░
рд╕рд╣рд╕рдВрдпреЛрдЬрдХ рдкрд╛рд░реА рдПрдХ рдРрд╕реА рд╕реНрдерд┐рддрд┐ рдХреЛ рд╕рдВрджрд░реНрднрд┐рдд рдХрд░рддрд╛ рд╣реИ рдЬрд╣рд╛рдВ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдФрд░ рдкрд░реАрдХреНрд╖рдг рдирдореВрдиреЛрдВ рдореЗрдВ рд╡рд┐рд╢реЗрд╖рддрд╛рдУрдВ рдХреЗ рдореВрд▓реНрдпреЛрдВ рдХрд╛ рд╡рд┐рддрд░рдг рдЕрд▓рдЧ-рдЕрд▓рдЧ рд╡рд┐рд╢реЗрд╖рддрд╛рдУрдВ (рдкреИрд░рд╛рдореАрдЯрд░) рд╣реИред
рдмрдбрд╝реА рд╕рдВрдЦреНрдпрд╛ рдореЗрдВ рдЪрд░ рдХреЗ рд╕рд╛рде рд╡рд╛рд╕реНрддрд╡рд┐рдХ рджреБрдирд┐рдпрд╛ рдХреА рд╕рдорд╕реНрдпрд╛рдУрдВ рдореЗрдВ, рд╕рд╣рд╕рдВрдпреЛрдЬрдХ рдкрд╛рд░реА рдХрд╛ рдкрддрд╛ рд▓рдЧрд╛рдирд╛ рдореБрд╢реНрдХрд┐рд▓ рд╣реИред рд▓реЗрдЦ рдкрд╣рдЪрд╛рди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рд╡рд┐рдзрд┐, рд╕рд╛рде рд╣реА рдбреЗрдЯрд╛ рдореЗрдВ рд╕рд╣рд╕рдВрдпреЛрдЬрдХ рдкрд╛рд░реА рдХреЗ рд▓рд┐рдП рд▓реЗрдЦрд╛рдВрдХрди рдкрд░ рдЪрд░реНрдЪрд╛ рдХрд░рддрд╛ рд╣реИред

рдореБрдЦреНрдп рд╡рд┐рдЪрд╛рд░
рдпрджрд┐ рдбреЗрдЯрд╛ рдореЗрдВ рдХреЛрдИ рдмрджрд▓рд╛рд╡ рд╣реЛрддрд╛ рд╣реИ, рддреЛ рджреЛ рдирдореВрдиреЛрдВ рдХреЛ рдорд┐рд▓рд╛рддреЗ рд╕рдордп, рд╣рдо рдПрдХ рдХреНрд▓рд╛рд╕рд┐рдлрд╛рдпрд░рд┐рдпрд░ рдХрд╛ рдирд┐рд░реНрдорд╛рдг рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ рдЬреЛ рдпрд╣ рдирд┐рд░реНрдзрд╛рд░рд┐рдд рдХрд░ рд╕рдХрддрд╛ рд╣реИ рдХрд┐ рдСрдмреНрдЬреЗрдХреНрдЯ рдПрдХ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдпрд╛ рдкрд░реАрдХреНрд╖рдг рдирдореВрдиреЗ рдХрд╛ рд╣реИред
рдЖрдЗрдП рд╕рдордЭрддреЗ рд╣реИрдВ рдХрд┐ рдРрд╕рд╛ рдХреНрдпреЛрдВ рд╣реИред рдЖрдЗрдП рд╣рдо рдЧреНрд░рд╛рд╣рдХреЛрдВ рдХреЗ рд╕рд╛рде рдЙрджрд╛рд╣рд░рдг рдкрд░ рд▓реМрдЯрддреЗ рд╣реИрдВ, рдЬрд╣рд╛рдВ рдЙрдореНрд░ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдФрд░ рдкрд░реАрдХреНрд╖рдг рдХреЗ рдирдореВрдиреЛрдВ рдХрд╛ "рд╕реНрдерд╛рдирд╛рдВрддрд░рд┐рдд" рд╕рдВрдХреЗрдд рдерд╛ред рдпрджрд┐ рд╣рдо рдПрдХ рдХреНрд▓рд╛рд╕рд┐рдлрд╛рдпрд░рд┐рдпрд░ (рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП, рдПрдХ рдпрд╛рджреГрдЪреНрдЫрд┐рдХ рдЬрдВрдЧрд▓ рдкрд░ рдЖрдзрд╛рд░рд┐рдд) рд▓реЗрддреЗ рд╣реИрдВ рдФрд░ рдорд┐рд╢реНрд░рд┐рдд рдирдореВрдиреЗ рдХреЛ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдФрд░ рдкрд░реАрдХреНрд╖рдг рдореЗрдВ рд╡рд┐рднрд╛рдЬрд┐рдд рдХрд░рдиреЗ рдХрд╛ рдкреНрд░рдпрд╛рд╕ рдХрд░рддреЗ рд╣реИрдВ, рддреЛ рдЗрд╕ рддрд░рд╣ рдХреЗ рд╡рд░реНрдЧреАрдХрд░рдг рдХреЗ рд▓рд┐рдП рдЙрдореНрд░ рдПрдХ рдмрд╣реБрдд рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╕рдВрдХреЗрдд рд╣реЛрдЧрд╛ред
рдХрд╛рд░реНрдпрд╛рдиреНрд╡рдпрди
рдЖрдЗрдП, рд╡рд░реНрдгрд┐рдд рд╡рд┐рдЪрд╛рд░ рдХреЛ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдбреЗрдЯрд╛рд╕реЗрдЯ рдореЗрдВ рд▓рд╛рдЧреВ рдХрд░рдиреЗ рдХрд╛ рдкреНрд░рдпрд╛рд╕ рдХрд░реЗрдВред рдХрд╛рдЧрд▓ рдкреНрд░рддрд┐рдпреЛрдЧрд┐рддрд╛ рд╕реЗ
рдбреЗрдЯрд╛рд╕реЗрдЯ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░реЗрдВред
рдЪрд░рдг 1: рдбреЗрдЯрд╛ рддреИрдпрд╛рд░реА
рд╕рдмрд╕реЗ рдкрд╣рд▓реЗ, рд╣рдо рдорд╛рдирдХ рдЪрд░рдгреЛрдВ рдХреА рдПрдХ рд╢реНрд░реГрдВрдЦрд▓рд╛ рдХрд╛ рдкрд╛рд▓рди рдХрд░реЗрдВрдЧреЗ: рд╕рд╛рдл, рд░рд┐рдХреНрдд рд╕реНрдерд╛рди рднрд░реЗрдВ, рд╢реНрд░реЗрдгреАрдмрджреНрдз рд╕рдВрдХреЗрддреЛрдВ рдХреЗ рд▓рд┐рдП рд▓реЗрдмрд▓ рдПрдиреНрдХреЛрдбрд┐рдВрдЧ рдХрд╛ рдкреНрд░рджрд░реНрд╢рди рдХрд░реЗрдВред рдкреНрд░рд╢реНрдирдХрд░реНрддрд╛ рдХреЗ рдбреЗрдЯрд╛рд╕реЗрдЯ рдХреЗ рд▓рд┐рдП рдХреЛрдИ рднреА рдЪрд░рдг рдЖрд╡рд╢реНрдпрдХ рдирд╣реАрдВ рдерд╛, рдЗрд╕рд▓рд┐рдП рдЗрд╕рдХреЗ рд╡рд┐рд╡рд░рдг рдХреЛ рдЫреЛрдбрд╝ рджреЗрдВред
import pandas as pd
рдЪрд░рдг 2: рдПрдХ рдбреЗрдЯрд╛ рд╕реНрд░реЛрдд рд╕рдВрдХреЗрддрдХ рдЬреЛрдбрд╝рдирд╛
рдбреЗрдЯрд╛рд╕реЗрдЯ рдХреЗ рджреЛрдиреЛрдВ рднрд╛рдЧреЛрдВ рдореЗрдВ рдПрдХ рдирдпрд╛ рд╕рдВрдХреЗрддрдХ рд╕рдВрдХреЗрддрдХ рдЬреЛрдбрд╝рдирд╛ рдЖрд╡рд╢реНрдпрдХ рд╣реИ - рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдФрд░ рдкрд░реАрдХреНрд╖рдгред рдкрд░реАрдХреНрд╖рдг рдХреЗ рд▓рд┐рдП рдХреНрд░рдорд╢рдГ "1" рдХреЗ рд╕рд╛рде рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдирдореВрдиреЗ рдХреЗ рд▓рд┐рдП, "0"ред
рдЪрд░рдг 3: рд╕реАрдЦрдиреЗ рдФрд░ рдкрд░реАрдХреНрд╖рдг рдХреЗ рдирдореВрдиреЛрдВ рдХрд╛ рдореЗрд▓
рдЕрдм рдЖрдкрдХреЛ рджреЛ рдбреЗрдЯрд╛рд╕реЗрдЯ рдХреЛ рд╕рдВрдпреЛрдЬрд┐рдд рдХрд░рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИред рдЪреВрдВрдХрд┐ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдбреЗрдЯрд╛рд╕реЗрдЯ рдореЗрдВ рд▓рдХреНрд╖реНрдп рдорд╛рди 'рд▓рдХреНрд╖реНрдп' рдХрд╛ рдПрдХ рдХреЙрд▓рдо рд╣реЛрддрд╛ рд╣реИ, рдЬреЛ рдкрд░реАрдХреНрд╖рдг рдбреЗрдЯрд╛рд╕реЗрдЯ рдореЗрдВ рдирд╣реАрдВ рд╣реИ, рдЗрд╕рд▓рд┐рдП рдЗрд╕ рдХреЙрд▓рдо рдХреЛ рд╣рдЯрд╛ рджрд┐рдпрд╛ рдЬрд╛рдирд╛ рдЪрд╛рд╣рд┐рдПред
рдЪрд░рдг 4: рдХреНрд▓рд╛рд╕рд┐рдлрд╛рдпрд░рд┐рдпрд░ рдХрд╛ рдирд┐рд░реНрдорд╛рдг рдФрд░ рдкрд░реАрдХреНрд╖рдг
рд╡рд░реНрдЧреАрдХрд░рдг рдЙрджреНрджреЗрд╢реНрдпреЛрдВ рдХреЗ рд▓рд┐рдП, рд╣рдо рд░реИрдВрдбрдо рдлрд╝реЙрд░реЗрд╕реНрдЯ рдХреНрд▓рд╛рд╕рд┐рдлрд╝рд╛рдпрд░ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░реЗрдВрдЧреЗ, рдЬрд┐рд╕реЗ рд╣рдо рд╕рдВрдпреБрдХреНрдд рдбреЗрдЯрд╛рд╕реЗрдЯ рдореЗрдВ рдбреЗрдЯрд╛ рд╕реНрд░реЛрдд рдХреЗ рд▓реЗрдмрд▓ рдХреА рднрд╡рд┐рд╖реНрдпрд╡рд╛рдгреА рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХреЙрдиреНрдлрд╝рд┐рдЧрд░ рдХрд░реЗрдВрдЧреЗред рдЖрдк рдХрд┐рд╕реА рднреА рдЕрдиреНрдп рд╡рд░реНрдЧреАрдХрд░рдг рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред
from sklearn.ensemble import RandomForestClassifier import numpy as np rfc = RandomForestClassifier(n_jobs=-1, max_depth=5, min_samples_leaf = 5) predictions = np.zeros(y.shape)
рд╣рдо 4 рд╕рд┐рд▓рд╡рдЯреЛрдВ рдХреЗ рд╕реНрддрд░реАрдХреГрдд рд░реИрдВрдбрдорд╛рдЗрдЬреНрдб рд╡рд┐рднрд╛рдЬрди рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реИрдВред рдЗрд╕ рддрд░рд╣ рд╕реЗ рд╣рдо рдкреНрд░рддреНрдпреЗрдХ рдЬреЛрдбрд╝ рдореЗрдВ 'is_train' рд▓реЗрдмрд▓ рдХреЗ рдЕрдиреБрдкрд╛рдд рдХреЛ рдореВрд▓ рд╕рдВрдпреБрдХреНрдд рдирдореВрдиреЗ рдХреА рддрд░рд╣ рд░рдЦреЗрдВрдЧреЗред рдкреНрд░рддреНрдпреЗрдХ рд╡рд┐рднрд╛рдЬрди рдХреЗ рд▓рд┐рдП рд╣рдо рд╡рд┐рднрд╛рдЬрди рдХреЗ рдмрд╣реБрдордд рдкрд░ рдХреНрд▓рд╛рд╕рд┐рдлрд╛рдпрд░рд┐рдпрд░ рдХреЛ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рдХрд░рддреЗ рд╣реИрдВ рдФрд░ рдЫреЛрдЯреЗ рдЖрд╕реНрдердЧрд┐рдд рднрд╛рдЧ рдХреЗ рд▓рд┐рдП рд╡рд░реНрдЧ рд▓реЗрдмрд▓ рдХреА рднрд╡рд┐рд╖реНрдпрд╡рд╛рдгреА рдХрд░рддреЗ рд╣реИрдВред
from sklearn.model_selection import StratifiedKFold, cross_val_score skf = StratifiedKFold(n_splits=4, shuffle=True, random_state=100) for fold, (train_idx, test_idx) in enumerate(skf.split(x, y)): X_train, X_test = x[train_idx], x[test_idx] y_train, y_test = y[train_idx], y[test_idx] rfc.fit(X_train, y_train) probs = rfc.predict_proba(X_test)[:, 1]
рдЪрд░рдг 5: рдкрд░рд┐рдгрд╛рдореЛрдВ рдХреА рд╡реНрдпрд╛рдЦреНрдпрд╛ рдХрд░реЗрдВ
рд╣рдо рдЕрдкрдиреЗ рд╡рд░реНрдЧреАрдХрд░рдг рдХреЗ рд▓рд┐рдП рдЖрд░рдУрд╕реА рдПрдпреВрд╕реА рдореАрдЯреНрд░рд┐рдХ рдХреЗ рдореВрд▓реНрдп рдХреА рдЧрдгрдирд╛ рдХрд░рддреЗ рд╣реИрдВред рдЗрд╕ рдореВрд▓реНрдп рдХреЗ рдЖрдзрд╛рд░ рдкрд░, рд╣рдо рдпрд╣ рдирд┐рд╖реНрдХрд░реНрд╖ рдирд┐рдХрд╛рд▓рддреЗ рд╣реИрдВ рдХрд┐ рд╣рдорд╛рд░рд╛ рдХреНрд▓рд╛рд╕рд┐рдлрд╛рдпрд░ рдбреЗрдЯрд╛ рдореЗрдВ рдПрдХ рд╕рд╣рд╕рдВрдпреЛрдЬрдХ рдмрджрд▓рд╛рд╡ рдХреЛ рдХрд┐рддрдиреА рдЕрдЪреНрдЫреА рддрд░рд╣ рдкреНрд░рдХрдЯ рдХрд░рддрд╛ рд╣реИред
рдпрджрд┐ рдХреНрд▓рд╛рд╕рд┐рдлрд╛рдпрд░ c рд╡рд╕реНрддреБрдУрдВ рдХреЛ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдФрд░ рдкрд░реАрдХреНрд╖рдг рдбреЗрдЯрд╛рд╕реЗрдЯ рдореЗрдВ рдЕрдЪреНрдЫреА рддрд░рд╣ рд╕реЗ рдЕрд▓рдЧ рдХрд░рддрд╛ рд╣реИ, рддреЛ ROC AUC рдореАрдЯреНрд░рд┐рдХ рдХрд╛ рдорд╛рди 0.5 рд╕реЗ рдЕрдзрд┐рдХ рд╣реЛрдирд╛ рдЪрд╛рд╣рд┐рдП, рдЖрджрд░реНрд╢ рд░реВрдк рд╕реЗ 1 рдХреЗ рдХрд░реАрдмред рдпрд╣ рдЪрд┐рддреНрд░ рдбреЗрдЯрд╛ рдореЗрдВ рдПрдХ рдордЬрдмреВрдд рд╕рд╣рд╕рдВрдпреЛрдЬрдХ рдкрд╛рд░реА рдХреЛ рдЗрдВрдЧрд┐рдд рдХрд░рддрд╛ рд╣реИредROC AUC рдХрд╛ рдорд╛рди рдЬреНрдЮрд╛рдд рдХрд░реЗрдВ:
from sklearn.metrics import roc_auc_score print('ROC-AUC:', roc_auc_score(y_true=y, y_score=predictions))
рдкрд░рд┐рдгрд╛рдореА рдореВрд▓реНрдп 0.5 рдХреЗ рдХрд░реАрдм рд╣реИред рдФрд░ рдЗрд╕рдХрд╛ рдорддрд▓рдм рд╣реИ рдХрд┐ рд╣рдорд╛рд░реА рдЧреБрдгрд╡рддреНрддрд╛ рдХреНрд▓рд╛рд╕рд┐рдлрд╛рдпрд░рд┐рдпрд░ рдПрдХ рдпрд╛рджреГрдЪреНрдЫрд┐рдХ рдЯреИрдЧ рдкреВрд░реНрд╡рд╕реВрдЪрдХ рдХреЗ рд╕рдорд╛рди рд╣реИред рдбреЗрдЯрд╛ рдореЗрдВ рдПрдХ рд╕рд╣рд╕рдВрдпреЛрдЬрдХ рдкрд╛рд░реА рдХрд╛ рдХреЛрдИ рд╕рдмреВрдд рдирд╣реАрдВ рд╣реИред
рдЪреВрдВрдХрд┐ рд╕рд┐рд╕рд┐рд▓реА рдХреЛ рдХрд╛рдЧрд▓реЗ рд╕реЗ рд▓рд┐рдпрд╛ рдЧрдпрд╛ рд╣реИ, рдЗрд╕рд▓рд┐рдП рдкрд░рд┐рдгрд╛рдо рдмрд╣реБрдд рдЕрдиреБрдорд╛рдирд┐рдд рд╣реИред рдЕрдиреНрдп рдорд╢реАрди рд╕реАрдЦрдиреЗ рдХреА рдкреНрд░рддрд┐рдпреЛрдЧрд┐рддрд╛рдУрдВ рдХреА рддрд░рд╣, рдпрд╣ рд╕реБрдирд┐рд╢реНрдЪрд┐рдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдбреЗрдЯрд╛ рдХреЛ рд╕рд╛рд╡рдзрд╛рдиреАрдкреВрд░реНрд╡рдХ рд╕рддреНрдпрд╛рдкрд┐рдд рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ рдХрд┐ рдХрд╣реАрдВ рдХреЛрдИ рдмрджрд▓рд╛рд╡ рди рд╣реЛред
рд▓реЗрдХрд┐рди рдпрд╣ рджреГрд╖реНрдЯрд┐рдХреЛрдг рд╕рдорд╛рдзрд╛рди рдХреА рд╢реБрд░реБрдЖрдд рд╕реЗ рдареАрдХ рдкрд╣рд▓реЗ рдПрдХ рд╕рд╣рд╕рдВрдпреЛрдЬрдХ рдкрд╛рд░реА рдХреА рдЙрдкрд╕реНрдерд┐рддрд┐ рдХреА рдЬрд╛рдВрдЪ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдбреЗрдЯрд╛ рд╡рд┐рдЬреНрдЮрд╛рди рдХреА рдЕрдиреНрдп рд╕рдорд╕реНрдпрд╛рдУрдВ рдореЗрдВ рд▓рд╛рдЧреВ рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИред
рдЖрдЧреЗ рдХреЗ рдХрджрдо
рдЗрд╕рд▓рд┐рдП, рдпрд╛ рддреЛ рд╣рдо рдПрдХ рд╕рд╣рд╕рдВрдпреЛрдЬрдХ рдмрджрд▓рд╛рд╡ рдХрд╛ рдирд┐рд░реАрдХреНрд╖рдг рдХрд░рддреЗ рд╣реИрдВ рдпрд╛ рдирд╣реАрдВред рдкрд░реАрдХреНрд╖рдг рдореЗрдВ рдореЙрдбрд▓ рдХреА рдЧреБрдгрд╡рддреНрддрд╛ рдореЗрдВ рд╕реБрдзрд╛рд░ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХреНрдпрд╛ рдХрд░реЗрдВ?
- рдкрдХреНрд╖рдкрд╛рддреА рд╕реБрд╡рд┐рдзрд╛рдУрдВ рдХреЛ рд╣рдЯрд╛ рджреЗрдВ
- рдШрдирддреНрд╡ рдЧреБрдгрд╛рдВрдХ рдЕрдиреБрдорд╛рдиреЛрдВ рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рд╡рд╕реНрддреБ рдорд╣рддреНрд╡ рднрд╛рд░ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░реЗрдВ
рдкрдХреНрд╖рдкрд╛рддреА рд╕реБрд╡рд┐рдзрд╛рдУрдВ рдХреЛ рд╣рдЯрд╛рдирд╛:
рдиреЛрдЯ: рдбреЗрдЯрд╛ рдореЗрдВ рд╕рд╣рд╕рдВрдпреЛрдЬрдХ рдмрджрд▓рд╛рд╡ рд╣реЛрдиреЗ рдкрд░ рдпрд╣ рд╡рд┐рдзрд┐ рд▓рд╛рдЧреВ рд╣реЛрддреА рд╣реИред- рд░реИрдВрдбрдо рдлрд╝реЙрд░реЗрд╕реНрдЯ рдХреНрд▓рд╛рд╕рд┐рдлрд╛рдпрд░ рд╕реЗ рд╡рд┐рд╢реЗрд╖рддрд╛рдУрдВ рдХрд╛ рдорд╣рддреНрд╡ рдирд┐рдХрд╛рд▓реЗрдВ, рдЬрд┐рд╕реЗ рд╣рдордиреЗ рдкрд╣рд▓реЗ рдмрдирд╛рдпрд╛ рдФрд░ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рдХрд┐рдпрд╛ рдерд╛ред
- рд╕рдмрд╕реЗ рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╕рдВрдХреЗрдд рдареАрдХ рд╡реЗ рд╣реИрдВ рдЬреЛ рдкрдХреНрд╖рдкрд╛рддреА рд╣реИрдВ рдФрд░ рдбреЗрдЯрд╛ рдореЗрдВ рдмрджрд▓рд╛рд╡ рдХрд╛ рдХрд╛рд░рдг рдмрдирддреЗ рд╣реИрдВред
- рд╕рдмрд╕реЗ рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╕реЗ рд╢реБрд░реВ рдХрд░рддреЗ рд╣реБрдП, рдПрдХ рдЖрдзрд╛рд░ рдкрд░ рд╣рдЯрд╛рдПрдВ, рд▓рдХреНрд╖реНрдп рдореЙрдбрд▓ рдмрдирд╛рдПрдВ рдФрд░ рдЗрд╕рдХреА рдЧреБрдгрд╡рддреНрддрд╛ рджреЗрдЦреЗрдВред рдЙрди рд╕рднреА рд╕рдВрдХреЗрддреЛрдВ рдХреЛ рдЗрдХрдЯреНрдард╛ рдХрд░реЗрдВ рдЬрд┐рдирдХреЗ рд▓рд┐рдП рдореЙрдбрд▓ рдХреА рдЧреБрдгрд╡рддреНрддрд╛ рдореЗрдВ рдХрдореА рдирд╣реАрдВ рд╣реЛрддреА рд╣реИред
- рдбреЗрдЯрд╛ рд╕реЗ рдПрдХрддреНрд░рд┐рдд рд╡рд┐рд╢реЗрд╖рддрд╛рдУрдВ рдХреЛ рддреНрдпрд╛рдЧреЗрдВ рдФрд░ рдЕрдВрддрд┐рдо рдореЙрдбрд▓ рдХрд╛ рдирд┐рд░реНрдорд╛рдг рдХрд░реЗрдВред
рдпрд╣ рдПрд▓реНрдЧреЛрд░рд┐рджрдо рдЖрдкрдХреЛ рдЖрд░реЗрдЦ рдореЗрдВ рд▓рд╛рд▓ рдЯреЛрдХрд░реА рд╕реЗ рд╕рдВрдХреЗрдд рдирд┐рдХрд╛рд▓рдиреЗ рдХреА рдЕрдиреБрдорддрд┐ рджреЗрддрд╛ рд╣реИредрдШрдирддреНрд╡ рдЧреБрдгрд╛рдВрдХ рдЕрдиреБрдорд╛рдиреЛрдВ рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рд╡рд╕реНрддреБ рдорд╣рддреНрд╡ рднрд╛рд░ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдирд╛
рдиреЛрдЯ: рдпрд╣ рд╡рд┐рдзрд┐ рдЗрд╕ рдмрд╛рдд рдкрд░ рдзреНрдпрд╛рди рджрд┐рдП рдмрд┐рдирд╛ рд╣реИ рдХрд┐ рдбреЗрдЯрд╛ рдореЗрдВ рд╕рд╣рд╕рдВрдпреЛрдЬрдХ рдмрджрд▓рд╛рд╡ рд╣реИ рдпрд╛ рдирд╣реАрдВредрдЖрдЗрдП рд╣рдо рдкрд┐рдЫрд▓реЗ рдЕрдиреБрднрд╛рдЧ рдореЗрдВ рдкреНрд░рд╛рдкреНрдд рднрд╡рд┐рд╖реНрдпрд╡рд╛рдгрд┐рдпреЛрдВ рдХреЛ рджреЗрдЦреЗрдВред рдкреНрд░рддреНрдпреЗрдХ рдСрдмреНрдЬреЗрдХреНрдЯ рдХреЗ рд▓рд┐рдП, рднрд╡рд┐рд╖реНрдпрд╡рд╛рдгреА рдореЗрдВ рдпрд╣ рд╕рдВрднрд╛рд╡рдирд╛ рд╣реЛрддреА рд╣реИ рдХрд┐ рдпрд╣ рдСрдмреНрдЬреЗрдХреНрдЯ рд╣рдорд╛рд░реЗ рдХреНрд▓рд╛рд╕рд┐рдлрд╛рдпрд░рд┐рдпрд░ рдХреЗ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рд╕реЗрдЯ рдХрд╛ рд╣реИред
predictions[:10]
рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП, рдкрд╣рд▓реА рд╡рд╕реНрддреБ рдХреЗ рд▓рд┐рдП, рд╣рдорд╛рд░реЗ рд░реИрдВрдбрдо рдлрд╝реЙрд░реЗрд╕реНрдЯ рдХреНрд▓рд╛рд╕рд┐рдлрд╝рд╛рдпрд░ рдХрд╛ рдорд╛рдирдирд╛ тАЛтАЛрд╣реИ рдХрд┐ рдпрд╣ 0.397 рдХреА рд╕рдВрднрд╛рд╡рдирд╛ рд╡рд╛рд▓реЗ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рд╕реЗрдЯ рдХреЗ рдЕрдВрддрд░реНрдЧрдд рдЖрддрд╛ рд╣реИред рдЗрд╕ рдорд╛рди рдХреЛ рдмреБрд▓рд╛рдУ
ред рдпрд╛ рд╣рдо рдХрд╣ рд╕рдХрддреЗ рд╣реИрдВ рдХрд┐ рдкрд░реАрдХреНрд╖рдг рдбреЗрдЯрд╛ рд╕реЗ рд╕рдВрдмрдВрдзрд┐рдд рд╣реЛрдиреЗ рдХреА рд╕рдВрднрд╛рд╡рдирд╛ 0.603 рд╣реИред рдЗрд╕реА рддрд░рд╣, рд╣рдо рд╕рдВрднрд╛рд╡реНрдпрддрд╛ рдХрд╣рддреЗ рд╣реИрдВ
ред
рдЕрдм рдПрдХ рдЫреЛрдЯреА рд╕реА рдЪрд╛рд▓: рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдбрд╛рдЯрд╛рд╕реЗрдЯ рдХреЗ рдкреНрд░рддреНрдпреЗрдХ рд╡рд╕реНрддреБ рдХреЗ рд▓рд┐рдП, рд╣рдо рдЧреБрдгрд╛рдВрдХ рдХреА рдЧрдгрдирд╛ рдХрд░рддреЗ рд╣реИрдВ
ред
рдлрд╝реИрдХреНрдЯрд░
рд╣рдореЗрдВ рдмрддрд╛рддрд╛ рд╣реИ рдХрд┐ рдбреЗрдЯрд╛ рд╕реЗрдЯ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдкреНрд░рд╢рд┐рдХреНрд╖рдг рд╕реЗрдЯ рд╕реЗ рдХреЛрдИ рдСрдмреНрдЬреЗрдХреНрдЯ рдХрд┐рддрдирд╛ рдХрд░реАрдм рд╣реИред рдореБрдЦреНрдп рд╡рд┐рдЪрд╛рд░:
рд╣рдо рдЙрдкрдпреЛрдЧ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ рдХрд┐рд╕реА рднреА рдореЙрдбрд▓ рдореЗрдВ рд╡рдЬрди рдХреА рддрд░рд╣ рдЙрди рдЕрд╡рд▓реЛрдХрдиреЛрдВ рдХрд╛ рд╡рдЬрди рдмрдврд╝рд╛рдиреЗ рдХреЗ рд▓рд┐рдП рдЬреЛ рдкрд░реАрдХреНрд╖рдг рдХреЗ рдирдореВрдиреЗ рдХреЗ рд╕рдорд╛рди рджрд┐рдЦрддреЗ рд╣реИрдВред рд╕рд╣рдЬ рд░реВрдк рд╕реЗ, рдпрд╣ рд╕рдордЭ рдореЗрдВ рдЖрддрд╛ рд╣реИ, рдХреНрдпреЛрдВрдХрд┐ рд╣рдорд╛рд░рд╛ рдореЙрдбрд▓ рдЯреЗрд╕реНрдЯ рд╕реВрдЯ рдХреА рддрд░рд╣ рдЕрдзрд┐рдХ рдбреЗрдЯрд╛-рдЙрдиреНрдореБрдЦ рд╣реЛрдЧрд╛редрдЗрди рд╡рдЬрд╝рди рдХреА рдЧрдгрдирд╛ рдХреЛрдб рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдХреА рдЬрд╛ рд╕рдХрддреА рд╣реИ:
import seaborn as sns import matplotlib.pyplot as plt plt.figure(figsize=(20,10)) predictions_train = predictions[:len(trn)] weights = (1./predictions_train) - 1. weights /= np.mean(weights)
рдкреНрд░рд╛рдкреНрдд рдЧреБрдгрд╛рдВрдХ рдХреЛ рдореЙрдбрд▓ рдореЗрдВ рд╕реНрдерд╛рдирд╛рдВрддрд░рд┐рдд рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ, рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП, рдирд┐рдореНрдирд╛рдиреБрд╕рд╛рд░:
rfc = RandomForestClassifier(n_jobs=-1,max_depth=5) m.fit(X_train, y_train, sample_weight=weights)

рдкрд░рд┐рдгрд╛рдореА рд╣рд┐рд╕реНрдЯреЛрдЧреНрд░рд╛рдо рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдХреБрдЫ рд╢рдмреНрдж:
- рдмрдбрд╝реЗ рд╡рдЬрди рдорд╛рди рдкрд░реАрдХреНрд╖рдг рдирдореВрдиреЗ рдХреЗ рд╕рдорд╛рди рдЕрдзрд┐рдХ рдЯрд┐рдкреНрдкрдгрд┐рдпреЛрдВ рдХреЗ рдЕрдиреБрд░реВрдк рд╣реИрдВред
- рдкреНрд░рд╢рд┐рдХреНрд╖рдг рд╕реЗрдЯ рд╕реЗ рд▓рдЧрднрдЧ 70% рд╡рд╕реНрддреБрдУрдВ рдХрд╛ рд╡рдЬрди 1 рдХреЗ рдХрд░реАрдм рд╣реИ, рдФрд░, рдЗрд╕рд▓рд┐рдП, рдПрдХ рдЙрдк-рд╕рдореВрд╣ рдореЗрдВ рд╕реНрдерд┐рдд рд╣реИрдВ рдЬреЛ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рд╕реЗрдЯ рдФрд░ рдкрд░реАрдХреНрд╖рдг рд╕реЗрдЯ рдХреЗ рд╕рдорд╛рди рд╣реИред рдпрд╣ рдПрдпреВрд╕реА рдореВрд▓реНрдп рд╕реЗ рдореЗрд▓ рдЦрд╛рддрд╛ рд╣реИ рдЬрд┐рд╕реЗ рд╣рдордиреЗ рдкрд╣рд▓реЗ рдЧрдгрдирд╛ рдХреА рдереАред
рдирд┐рд╖реНрдХрд░реНрд╖
рд╣рдо рдЖрд╢рд╛ рдХрд░рддреЗ рд╣реИрдВ рдХрд┐ рдпрд╣ рдкреЛрд╕реНрдЯ рдЖрдкрдХреЛ рдбреЗрдЯрд╛ рдореЗрдВ "рд╕рд╣рд╕рдВрдпреЛрдЬрдХ рдкрд╛рд░реА" рдХреА рдкрд╣рдЪрд╛рди рдХрд░рдиреЗ рдФрд░ рдЗрд╕реЗ рд╕рдВрдпреЛрдЬрд┐рдд рдХрд░рдиреЗ рдореЗрдВ рдорджрдж рдХрд░реЗрдЧреАред
рд╕рдВрджрд░реНрдн
[рез] рд╢рд┐рдореЛрджреИрд░рд╛, рдПрдЪред (реирежрежреж)ред рд▓реЙрдЧ-рд▓рд╛рдЗрдмрд┐рд▓рд┐рдЯреА рдлрд╝рдВрдХреНрд╢рди рдХреЛ рд╡реЗрдЯ рдХрд░рдХреЗ рдХреЛрд╡рд░рд┐рдПрдЯ рд╢рд┐рдлреНрдЯ рдХреЗ рддрд╣рдд рднрд╡рд┐рд╖реНрдп рдХрд╣рдиреЗрд╡рд╛рд▓рд╛ рдЕрдиреБрдорд╛рди рдореЗрдВ рд╕реБрдзрд╛рд░ред рд╕рд╛рдВрдЦреНрдпрд┐рдХреА рдФрд░ рдирд┐рдпреЛрдЬрди рдХреЗ рдЬрд░реНрдирд▓, 90, 227-244ред
[реи] рдмрд┐рдХреЗрд▓, рдПрд╕ред рдПрдЯ рдЕрд▓ред (2009)ред рдХреЛрд╡рд┐рд░реЗрдЯ рд╢рд┐рдлреНрдЯ рдХреЗ рддрд╣рдд рднреЗрджрднрд╛рд╡рдкреВрд░реНрдг рд╢рд┐рдХреНрд╖рд╛ред рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рд░рд┐рд╕рд░реНрдЪ рдЬрд░реНрдирд▓, 10, 2137-2155
[рей]
github.com/erlendd/covariate-shift-adaption[рек]
рдЙрдкрдпреЛрдЧ рдХрд┐рдП рдЧрдП рдбреЗрдЯрд╛рд╕реЗрдЯ рдХрд╛ рд▓рд┐рдВрдХPS рд▓реЗрдЦ рд╕реЗ рдХреЛрдб рд╡рд╛рд▓рд╛ рд▓реИрдкрдЯреЙрдк
рдпрд╣рд╛рдВ рджреЗрдЦрд╛ рдЬрд╛ рд╕рдХрддрд╛
рд╣реИ ред