рдЕрд▓рдЧ рдХреЛрдг рд╕реЗ рдИ.рдбреА.рдП.

рдЫрд╡рд┐

рд╣рдо рднреЛрдЬрди рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдмрд╛рдд рдирд╣реАрдВ рдХрд░реЗрдВрдЧреЗ, рд▓реЗрдХрд┐рди рдЦреЛрдЬрдкреВрд░реНрдг рдбреЗрдЯрд╛ рд╡рд┐рд╢реНрд▓реЗрд╖рдг (рдИрдбреАрдП ) рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ, рдЬреЛ рдХрд┐рд╕реА рднреА рдХрдареЛрд░ рдПрдордПрд▓ рдХреЗ рд▓рд┐рдП рдПрдХ рдкреНрд░рд╕реНрддрд╛рд╡ рд╣реИред

рдЪрд▓реЛ рдИрдорд╛рдирджрд╛рд░ рд░рд╣реЗрдВ, рдкреНрд░рдХреНрд░рд┐рдпрд╛ рдмрд▓реНрдХрд┐ рдЙрдмрд╛рдК рд╣реИ, рдФрд░ рд╣рдорд╛рд░реЗ рдбреЗрдЯрд╛ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдХрдо рд╕реЗ рдХрдо рдХреБрдЫ рд╕рд╛рд░реНрдердХ рдЕрдВрддрд░реНрджреГрд╖реНрдЯрд┐ рдкреНрд░рд╛рдкреНрдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, рдЖрдкрдХреЛ рдЕрдкрдиреЗ рдкрд╕рдВрджреАрджрд╛ рд╡рд┐рдЬрд╝реБрдЕрд▓рд╛рдЗрдЬрд╝реЗрд╢рди рд▓рд╛рдЗрдмреНрд░реЗрд░реА рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рд╕рдХреНрд░рд┐рдп рд░реВрдк рд╕реЗ рдкрд░реНрдпрд╛рдкреНрдд рд╕рдордп рдмрд┐рддрд╛рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИред

рдЕрдм рдХрд▓реНрдкрдирд╛ рдХрд░реЗрдВ рдХрд┐ рд╣рдо рдмрд╣реБрдд рдЖрд▓рд╕реА рд╣реИрдВ (рд▓реЗрдХрд┐рди рдЬрд┐рдЬреНрдЮрд╛рд╕реБ) рдФрд░ рдЗрд╕ рдкреВрд░реЗ рд▓реЗрдЦ рдореЗрдВ рдЗрд╕ рдЕрдиреБрд╡рд░реНрддреА рдХрд╛ рдЕрдиреБрд╕рд░рдг рдХрд░реЗрдВрдЧреЗред

рдЗрд╕рдХреЗ рдЖрдзрд╛рд░ рдкрд░, рд╣рдо рдЦреБрдж рд╕реЗ рдирд┐рдореНрдирд▓рд┐рдЦрд┐рдд рдкреНрд░рд╢реНрди рдкреВрдЫрддреЗ рд╣реИрдВ: рдХреНрдпрд╛ рдкреНрд░рдХреГрддрд┐ рдореЗрдВ рдПрдХ рдкреЗрдЪреАрджрд╛ рдЙрдкрдХрд░рдг рд╣реИ рдЬреЛ рдЖрдкрдХреЛ рдмрд╕ рдЕрдкрдиреЗ рдкрд╕рдВрджреАрджрд╛ IDE рдореЗрдВ CTRL + ENTER рджрдмрд╛рдиреЗ рдФрд░ рдПрдХ рд╕реНрдХреНрд░реАрди рдкрд░ (рдмрд┐рдирд╛ рд╕реНрдХреНрд░реЙрд▓ рдХрд┐рдП рдФрд░ рдЕрдирдЧрд┐рдирдд рд╕реВрдХреНрд╖реНрдо рдкрд╣рд▓реБрдУрдВ рдХреЛ рдкреНрд░рджрд░реНрд╢рд┐рдд рдХрд┐рдП) рд╣рдорд╛рд░реЗ рдбреЗрдЯрд╛рд╕реЗрдЯ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдЙрдкрдпреЛрдЧреА рдЬрд╛рдирдХрд╛рд░реА рдкреНрд░рджрд╛рди рдХрд░реЗрдЧрд╛?

рдЗрд╕реА рд╕рдордп, рд╣рдо рдПрдХ рдЕрд▓рдЧ рд╡рд┐рдЪрд╛рд░ рдХреЛ рдзреНрдпрд╛рди рдореЗрдВ рд░рдЦрддреЗ рд╣реИрдВ - рдпрджрд┐ рдРрд╕рд╛ рдХреЛрдИ рдЙрдкрдХрд░рдг рдореМрдЬреВрдж рд╣реИ, рддреЛ рдпрд╣ рдХреНрд▓рд╛рд╕рд┐рдХ рдИрдбреАрдП рдХреЛ рдкреНрд░рддрд┐рд╕реНрдерд╛рдкрд┐рдд рдирд╣реАрдВ рдХрд░реЗрдЧрд╛, рд▓реЗрдХрд┐рди рдпрд╣ рд╣рдорд╛рд░реЗ рд▓рд┐рдП рдЙрди рдорд╛рдорд▓реЛрдВ рдореЗрдВ рдмрд╣реБрдд рдорджрдж рдХрд░реЗрдЧрд╛, рдЬрдм рдЖрдкрдХреЛ рд╣рдорд╛рд░реЗ рдбреЗрдЯрд╛ рдореЗрдВ рдореБрдЦреНрдп рдкреИрдЯрд░реНрди рдХреЛ рдЬрд▓реНрджреА рд╕реЗ рдЬрд╝реЛрд░ рджреЗрдиреЗ рдХреЗ рд▓рд┐рдП рд╡рд┐рдЬрд╝реБрдЕрд▓рд╛рдЗрдЬрд╝реЗрд╢рди рдкрд░ рдШрдВрдЯреЗ рдЦрд░реНрдЪ рдХрд░рдиреЗ рдХреА рдЬрд╝рд░реВрд░рдд рдирд╣реАрдВ рд╣реИред

рдЗрд╕ рд▓реЗрдЦ рдХреА рд╕рдВрд░рдЪрдирд╛:

  1. рдЫреЛрдЯрд╛ рдкреНрд░реАрдкреНрд░реЛрд╕реЗрд╕рд┐рдВрдЧ
  2. рдкреНрд░реЗрдбрд┐рдХреНрдЯрд░ рд╡рд┐рдЬрд╝реБрдЕрд▓рд╛рдЗрдЬрд╝реЗрд╢рди
  3. рдЪрд░реЛрдВ рдХрд╛ рд╡рд┐рд╡реЗрдХ
  4. Correlationfunnel
  5. рдХреНрд░реЙрд╕-рдХреЛрд░рд┐рд▓реЗрд╢рди рдХреЛ рд░реИрдВрдХ рдХрд┐рдпрд╛
  6. easyalluvial

рд╣рдо рдкрд░рд┐рдЪрдпрд╛рддреНрдордХ рдХреЗ рд╕рд╛рде рд╕рдорд╛рдкреНрдд рдХрд░рддреЗ рд╣реИрдВ рдФрд░ рдПрдХ рдЖрдзрд╛рд░ рдХреЗ рд░реВрдк рдореЗрдВ рдПрдХ рд╡реНрдпрд╛рд╡рд╣рд╛рд░рд┐рдХ рдЙрджрд╛рд╣рд░рдг рд▓реЗрддреЗ рд╣реИрдВред

рдЙрджрд╛рд╣рд░рдг рджреГрд╖реНрдЯрд┐рдХреЛрдг
рдкреНрд░рд╛рд░рдВрдн рдореЗрдВ, рдореИрдВ рдХреБрдЫ рдкреНрд░рдХрд╛рд░ рдХреЗ рдЕрд╕реНрдкрд╖реНрдЯ рдбреЗрдЯрд╛ рдРрд░реЗ рд▓реЗрдирд╛ рдЪрд╛рд╣рддрд╛ рдерд╛, рд▓реЗрдХрд┐рди рдЕрдВрдд рдореЗрдВ рдореИрдВрдиреЗ рдорд╣рд╕реВрд╕ рдХрд┐рдпрд╛ рдХрд┐ рдПрдХ рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП рдпрд╣ рдмрд╣реБрдд рдЕрдЪреНрдЫрд╛ рдирд╣реАрдВ рд╣реЛрдЧрд╛ - рдкрд╛рдпрд╛ рдЧрдпрд╛ рдкреИрдЯрд░реНрди рдЕрд╕реНрдкрд╖реНрдЯ рд▓рдЧ рд╕рдХрддрд╛ рд╣реИ рдФрд░ рдЗрд╕рд▓рд┐рдП рд╡рд┐рд╡рд╛рджрд╛рд╕реНрдкрдж рд╣реИ, рд▓реЗрдХрд┐рди рд╣рдорд╛рд░рд╛ рд▓рдХреНрд╖реНрдп рдПрд▓реНрдЧреЛрд░рд┐рджрдо рдХреЗ рд╕рд╛рде рдПрд░реЗ рддреИрдпрд╛рд░ рдХрд░рдирд╛ рд╣реИ, рдЬрд┐рд╕рдореЗрдВ рдПрдХ рдкреВрд░реНрд╡ рд╕реВрдЪрдирд╛ рдирд╣реАрдВ рд╣реИ рдФрд░ рд╣рдореЗрдВ рд╡рд╣ рджрд┐рдЦрд╛рдПрдЧрд╛ рдЬреЛ рд╣рдореЗрдВ рджрд┐рдЦрд╛рдПрдЧрд╛ред рд╣рдо рдкрд╣рд▓реЗ рд╕реЗ рд╣реА рдЬрд╛рдирддреЗ рд╣реИрдВ, рдЬрд┐рд╕рд╕реЗ рд╣рдорд╛рд░реА рд╡реНрдпрд╡рд╣рд╛рд░реНрдпрддрд╛ рдХреА рдкреБрд╖реНрдЯрд┐ рд╣реЛрддреА рд╣реИред


рдЯрд╛рдЗрдЯреИрдирд┐рдХ рдореБрдЭреЗ рдПрдХ рдЙрджрд╛рд╣рд░рдг рдХреЗ рд░реВрдк рдореЗрдВ рд╕рдмрд╕реЗ рд╕реБрд╡рд┐рдзрд╛рдЬрдирдХ рд▓рдЧ рд░рд╣рд╛ рдерд╛, рдЗрд╕рдХрд╛ рдЖрдХрд╛рд░ рдЖрдЗрд░рд┐рд╕ рдХреЗ рд░реВрдк рдореЗрдВ рдмрд╣реБрдд рдЫреЛрдЯрд╛ рдирд╣реАрдВ рд╣реИ, рдЗрд╕рдореЗрдВ рдЕрд╕рдВрдХреНрд░рд╛рдордХ рдЪрд░ рд╣реИрдВ, рдЗрд╕рдХрд╛ рдЕрдЪреНрдЫреА рддрд░рд╣ рд╕реЗ рдЕрдзреНрдпрдпрди рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИ рдФрд░ рд╕реНрдкрд╖реНрдЯ рднрд╡рд┐рд╖реНрдпрд╡рдХреНрддрд╛ рд╣реИрдВ рдФрд░, рдорд╣рддреНрд╡рдкреВрд░реНрдг рд░реВрдк рд╕реЗ, рдПрдХ рдРрддрд┐рд╣рд╛рд╕рд┐рдХ рдЖрдзрд╛рд░ рд╣реИред

рдЗрд╕рдХреЗ рдЕрд▓рд╛рд╡рд╛, рдореБрдЭреЗ рд╣рдмреЗрд░рд╛ рдкрд░ рдПрдХ рд▓реЗрдЦ рдорд┐рд▓рд╛, рдЬрд╣рд╛рдВ рд▓реЗрдЦрдХ рдиреЗ рдЗрд╕ рдбреЗрдЯрд╛ рд╕реЗрдЯ рдХрд╛ рдПрдХ рдмрд▓реНрдХрд┐ рд╕рд╛рд╡рдзрд╛рдиреАрдкреВрд░реНрд╡рдХ рдИрдбреАрдП рдЖрдпреЛрдЬрд┐рдд рдХрд┐рдпрд╛ рдФрд░ рдЙрди рдЪрд┐рддреНрд░реЛрдВ рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рдЬреЛ рдореИрдВрдиреЗ рдирд┐рд╖реНрдХрд░реНрд╖реЛрдВ рдХрд╛ рдкреНрд░рджрд░реНрд╢рди рдХрд┐рдпрд╛ред рдпрд╣ рд╣рдорд╛рд░реА рдмреЗрд╕рд▓рд╛рдЗрди рдХрд╛ рдПрдХ рдкреНрд░рдХрд╛рд░ рд╣реЛрдЧрд╛ред

рд╣рдорд╛рд░реЗ "рдмреЗрд╕рд▓рд╛рдЗрди_рдИрдбреАрдП" рдХреЗ рдПрдХ рдмрдбрд╝реЗ рдирд╛рдо рдХреЗ рд╕рд╛рде рд▓реЗрдЦ рдХрд╛ рд▓рд┐рдВрдХ:
рдХрд╛рдЧрд▓ рдкрд░ рдЯрд╛рдЗрдЯреИрдирд┐рдХ: рдЖрдк рдЗрд╕ рдкреЛрд╕реНрдЯ рдХреЛ рдЕрдВрдд рддрдХ рдирд╣реАрдВ рдкрдврд╝реЗрдВрдЧреЗ ред

рд╕реАрдПрд╕рд╡реА рдХреЛ рдиреЗрдЯрд╡рд░реНрдХ рд╕реЗ рдбрд╛рдЙрдирд▓реЛрдб / рдкрдврд╝рдиреЗ рдХреЗ рд╕рд╛рде рдкрд░реЗрд╢рд╛рди рди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, рд╣рдо рддреБрд░рдВрдд рд╕реАрдЖрд░рдПрдПрди рд╕реЗ рдореВрд▓ рдбреЗрдЯрд╛ рд╕реЗрдЯ рдХреЛ рдкрдХрдбрд╝рддреЗ рд╣реИрдВ

install.packages("titanic") data("titanic_train",package="titanic") 

рд╕рдВрдХреНрд╖рд┐рдкреНрдд рдкреНрд░реАрдкреНрд░реЛрд╕реЗрд╕рд┐рдВрдЧ


рдЗрд╕ рдЙрджрд╛рд╣рд░рдг рдХреЛ рдКрдкрд░-рдиреАрдЪреЗ рдХрд░рдХреЗ рдиреЗрдЯрд╡рд░реНрдХ рдореЗрдВ рдЗрд╕ рддрд░рд╣ рд╕реЗ рдкреНрд░рд╕рд╛рд░рд┐рдд рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ рдХрд┐ рдореИрдВрдиреЗ рдЗрд╕ рд╡рд┐рд╖рдп рдкрд░ рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ рдзреНрдпрд╛рди рдирд╣реАрдВ рджрд┐рдпрд╛ рд╣реИ, рдореИрдВ рдмреБрдирд┐рдпрд╛рджреА рдЪреАрдЬреЗрдВ рдХрд░ рд░рд╣рд╛ рд╣реВрдВ: рдореИрдВ рдПрдХ рдорд╣рддреНрд╡рдкреВрд░реНрдг рднрд╡рд┐рд╖реНрдпрд╡рдХреНрддрд╛ рдХреЗ рд░реВрдк рдореЗрдВ рдирд╛рдо рдЧреЛрдВрдЯреЛрд░реЗрдЯрд░ (рд╢реАрд░реНрд╖рдХ) рд╕реЗ рдирд┐рдХрд╛рд▓рддрд╛ рд╣реВрдВ, рдореИрдВ рдЗрд╕рдХрд╛ рдЙрдкрдпреЛрдЧ рдЙрдореНрд░ рдХреЗ рдЕрдВрддрд░рд╛рд▓ рдХреЛ рднрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрд░рддрд╛ рд╣реВрдВред

 library(tidyverse) titanic_train %>% str d <- titanic_train %>% as_tibble %>% mutate(title=str_extract(Name,"\\w+\\.") %>% str_replace(fixed("."),"")) %>% mutate(title=case_when(title %in% c('Mlle','Ms')~'Miss', #   title=='Mme'~ 'Mrs', title %in% c('Capt','Don','Major','Sir','Jonkheer', 'Col')~'Sir', title %in% c('Dona', 'Lady', 'Countess')~'Lady', TRUE~title)) %>% mutate(title=as_factor(title), Survived=factor(Survived,levels = c(0,1),labels=c("no","yes")), Sex=as_factor(Sex), Pclass=factor(Pclass,ordered = T)) %>% group_by(title) %>% #  -      mutate(Age=replace_na(Age,replace = median(Age,na.rm = T))) %>% ungroup #             table(d$title,d$Sex) 

рд╢реАрд░реНрд╖рдХрдирд░рдорд╣рд┐рд▓рд╛
рд╢реНрд░реА5170
рд╢реНрд░реАрдорддреА0126
рдХрдореА0185
рд╕реНрд╡рд╛рдореА400
рд╢реНрд░реАрдорд╛рди80
рдлрд┐рд░рдирд╛60
рдбреЙ61
рдорд╣рд┐рд▓рд╛02

рд╕рднреА рдпреЛрдЧ рд╕рдорд╛рди рд░реВрдк рд╕реЗ рд╕реНрд╡рд╕реНрде рдирд╣реАрдВ рд╣реИрдВ ...


рдЖрдорддреМрд░ рдкрд░, рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХреА рд╢реБрд░реБрдЖрдд рдореЗрдВ, рдореИрдВ рдПрдХ рддрд░рдл рдЕрд▓рдЧ-рдЕрд▓рдЧ рд╡реЗрд░рд┐рдПрдмрд▓ рд╕реЗрдЯ рдХрд░рддрд╛ рд╣реВрдВ (рдореИрдВ рдЕрд▓рдЧ рд╕реЗрдЯ рдХрд░рддрд╛ рд╣реВрдВ рдФрд░ рд╕реНрдерд╛рдпреА рд░реВрдк рд╕реЗ рд╣рдЯрд╛рддрд╛ рдирд╣реАрдВ рд╣реВрдВ, рдХреНрдпреЛрдВрдХрд┐ рдЬрдм рдореИрдВ рдореЙрдбрд▓ рд╕реЗ рдЕрдзрд┐рдХрддрдо рдкреНрд░рд╛рдкреНрдд рдХрд░рддрд╛ рд╣реВрдВ, рддреЛ рдХреБрдЫ рд▓рдВрдмрд┐рдд рдЪрд░ рдХреЗ рд▓рд┐рдП рдЗрдВрдЬреАрдирд┐рдпрд░рд┐рдВрдЧ рдореЙрдбрд▓ рдХреА рдЧреБрдгрд╡рддреНрддрд╛ рдХрд╛ рдПрдХ рдирд┐рд╢реНрдЪрд┐рдд рдкреНрд░рддрд┐рд╢рдд рджреЗрддрд╛ рд╣реИ)ред

рдПрдХ рдЪрд░ рдХреА "рдЙрдкрдпреЛрдЧрд┐рддрд╛" рдХрд╛ рдЖрдХрд▓рди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдореИрдЯреНрд░рд┐рдХреНрд╕ рдлреНрд░реАрдХрд░рд╛рдЯрд┐рдпреЛ (рдЖрд╡реГрддреНрддрд┐ рдореЗрдВ рджреВрд╕рд░реЗ рдореВрд▓реНрдп рдХреЗ рд╕рд╛рдкреЗрдХреНрд╖ рд╕рдмрд╕реЗ рд▓реЛрдХрдкреНрд░рд┐рдп рдореВрд▓реНрдп рдХреА рдЖрд╡реГрддреНрддрд┐рдпреЛрдВ рдХрд╛ рдЕрдиреБрдкрд╛рдд) рдФрд░ рд╕реЗрдВрдЯреАрдиреАрдХ (рд╢рдХреНрддрд┐ рдпрд╛ рдХрд╛рд░реНрдбрд┐рдиреИрд▓рд┐рдЯреА - рдореВрд▓реНрдпреЛрдВ рдХреА рдХреБрд▓ рд╕рдВрдЦреНрдпрд╛ рд╕реЗ рдЕрджреНрд╡рд┐рддреАрдп рд╕рдВрдЦреНрдпрд╛ рдХреЗ рдЕрдиреБрдкрд╛рдд) рд╣реИрдВ
рд╡рд┐рд╕реНрддреГрдд рдорджрдж рдХреИрд░реЗрдЯ рдкреИрдХреЗрдЬ рд╕реЗ рджреЗрдЦреА рдЬрд╛ рд╕рдХрддреА рд╣реИ
?caret::nearZeroVar

 (feat.scan <- caret::nearZeroVar(x = d,saveMetrics = T) %>% rownames_to_column("featName") %>% as_tibble) 

рдЫрд╡рд┐

рджреЛ-рдЖрдпрд╛рдореА рд╡рд┐рдорд╛рди рдореЗрдВ рдЪрд░ рдХреА рдирд┐рдЧрд░рд╛рдиреА рдХрд░рдирд╛ рдореЗрд░реЗ рд▓рд┐рдП рд╕рдмрд╕реЗ рд╕реБрд╡рд┐рдзрд╛рдЬрдирдХ рд╣реИ (рджреЛрдиреЛрдВ рдХреБрд▓реНрд╣рд╛рдбрд╝рд┐рдпреЛрдВ рдХреЛ рд▓реЙрдЧ рдХрд░рдХреЗ рддрд╛рдХрд┐ рдЕрдВрдХ рдПрдХ рдЫреЛрдЯреЗ рд╕реЗ рдвреЗрд░ рдореЗрдВ рдЕрддрд┐рд░рдВрдЬрд┐рдд рдмрд┐рдВрджреБрдУрдВ рдХреЗ рдХрд╛рд░рдг рдУрд╡рд░рдкреНрд▓реЗрдЯрд┐рдВрдЧ рди рдХрд░реЗрдВ)ред
рдореБрдЭреЗ рдХрднреА рдЖрд╢реНрдЪрд░реНрдп рдирд╣реАрдВ рд╣реБрдЖ рдХрд┐ рдХреНрдпрд╛ рдпрд╣ рдХрджрдо рдИрдбреАрдП рд╣реИ, рд▓реЗрдХрд┐рди рдЗрд╕ рд▓реЗрдЦ рдХреЛ рд▓рд┐рдЦрддреЗ рд╕рдордп рдореБрдЭреЗ рд▓рдЧрд╛: рд╣рдо рдЕрдм рднрд╡рд┐рд╖реНрдпрд╡рдХреНрддрд╛рдУрдВ рдХреА рдХреБрдЫ рдЙрдкрдпреЛрдЧрд┐рддрд╛, рдЙрдирдХреЗ рджреГрд╢реНрдп рдореВрд▓реНрдпрд╛рдВрдХрди рдХреА рдЦреЛрдЬрдкреВрд░реНрдг рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХрд░ рд░рд╣реЗ рд╣реИрдВ, рддреЛ рдпрд╣ рдИрдбреАрдП рдХреНрдпреЛрдВ рдирд╣реАрдВ рд╣реИ?

 # install.packages("ggrepel") library(ggrepel) ggplot(feat.scan,aes(x=percentUnique,y=freqRatio,label=featName,col=featName))+ geom_point(size=2)+ geom_text_repel(data = feat.scan,size=5)+scale_x_log10()+scale_y_log10()+theme_bw() 

рдЫрд╡рд┐

рд╣рдо рдмрд╛рд╣реНрдп рднрд╡рд┐рд╖реНрдпрд╡рдХреНрддрд╛рдУрдВ рдХреЛ рд╢рдХреНрддрд┐ (рдПрдХреНрд╕ рдЕрдХреНрд╖) рдпрд╛ рдЖрд╡реГрддреНрддрд┐ рдЕрдиреБрдкрд╛рдд (Y рдЕрдХреНрд╖) рдХреЗ рд╕рдВрджрд░реНрдн рдореЗрдВ рдПрдХрд░реВрдк рдорд╛рдирддреЗ рд╣реИрдВ рдФрд░, рддрджрдиреБрд╕рд╛рд░, рдЕрд▓рдЧ рд╕реЗрдЯ рдХрд░рддреЗ рд╣реИрдВ:
PassengerId; рдирд╛рдо; рдЯрд┐рдХрдЯ; рдХреЗрдмрд┐рди

 useless.feature <- c("PassengerId","Name","Ticket","Cabin") d <- d %>% select_at(vars(-useless.feature)) 

рдпрд╣ рдмреНрд░рд╣реНрдорд╛рдВрдб рдЕрд╕рдд рд╣реИ


рдпрд╣ рд╕рдордЭрдиреЗ рдХреЗ рд▓рд┐рдП рдХрд┐ рдиреАрдЪреЗ рд╕реВрдЪреАрдмрджреНрдз рдкреБрд╕реНрддрдХрд╛рд▓рдп рдХреИрд╕реЗ рдбреЗрдЯрд╛ рддреИрдпрд╛рд░ рдХрд░рддреЗ рд╣реИрдВ - рдЗрд╕ рдЦрдВрдб рдореЗрдВ рд╣рдо рдЫреЛрдЯреЗ рдЙрджрд╛рд╣рд░рдгреЛрдВ рдХреЗ рд╕рд╛рде рджрд┐рдЦрд╛рддреЗ рд╣реИрдВ рдХрд┐ рдЗрди рдкреБрд╕реНрддрдХрд╛рд▓рдпреЛрдВ рдореЗрдВ рдбреЗрдЯрд╛ рддреИрдпрд╛рд░ рдХрд░рдиреЗ рдХреЗ рдЪрд░рдг рдореЗрдВ рдХреНрдпрд╛ рд╣реЛрддрд╛ рд╣реИред

рдкрд╣рд▓реЗ рдЪрд░рдг рдореЗрдВ, рд╕рднреА рдбреЗрдЯрд╛ рдХреЛ рдПрдХ рд╣реА рдкреНрд░рдХрд╛рд░ рдкрд░ рд▓рд╛рдирд╛ рдЖрд╡рд╢реНрдпрдХ рд╣реИ - рдЕрдХреНрд╕рд░ рдПрдХ рд╕реЗрдЯ рдореЗрдВ рдбреЗрдЯрд╛ рд╢реНрд░реЗрдгреАрдмрджреНрдз рдФрд░ рд╕рдВрдЦреНрдпрд╛рддреНрдордХ рд╣реЛ рд╕рдХрддрд╛ рд╣реИ, рдЗрд╕рдХреЗ рдЕрд▓рд╛рд╡рд╛, рд╕рдВрдЦреНрдпрд╛ рдореЗрдВ рдЖрдЙрдЯрд▓реЗрдпрд░ рд╣реЛ рд╕рдХрддреЗ рд╣реИрдВ рдФрд░ рд╢реНрд░реЗрдгреАрдмрджреНрдз рдбреЗрдЯрд╛ рджреБрд░реНрд▓рдн рд╢реНрд░реЗрдгреА рд╣реЛ рд╕рдХрддреЗ рд╣реИрдВред

рдирд┐рд░рдВрддрд░ рдЪрд░ рдХреЛ рд╢реНрд░реЗрдгреАрдмрджреНрдз рдореЗрдВ рдмрджрд▓рдиреЗ рдХреЗ рд▓рд┐рдП, рд╣рдо рдПрдХ рдирд┐рд╢реНрдЪрд┐рдд рдирдореВрдиреЗ рдЕрд╡рдзрд┐ рдХреЗ рд╕рд╛рде рд╣рдорд╛рд░реА рд╕рдВрдЦреНрдпрд╛ рдХреЛ рдбрд┐рдмреНрдмреЗ рдореЗрдВ рд╡рд┐рдШрдЯрд┐рдд рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред

5 рдмрд┐рди рдореЗрдВ рдЕрдкрдШрдЯрди рдХрд╛ рд╕рдмрд╕реЗ рд╕рд░рд▓ рдЙрджрд╛рд╣рд░рдг:

 iris %>% as_tibble %>% mutate_if(is.numeric,.funs = ggplot2::cut_number,n=5) 

рдЫрд╡рд┐

рднрд╡рд┐рд╖реНрдпрд╡рдХреНрддрд╛рдУрдВ рдХреЗ рдмреАрдЪ рд╡реНрдпрдХреНрддрд┐рдЧрдд рддрддреНрд╡реЛрдВ рдХреЗ рд╕рдВрдмрдВрдзреЛрдВ рдХреА рддрд╛рдХрдд рдФрд░ рдкреНрд░рддреНрдпрдХреНрд╖рддрд╛ рдкреНрд░рд╛рдкреНрдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, рдПрдХ рджреВрд╕рд░реА рдЪрд╛рд▓ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ - рдПрдХ рдЧрд░реНрдо рдПрдиреНрдХреЛрдбрд┐рдВрдЧ

 library(recipes) iris %>% as_tibble %>% mutate_if(is.numeric,cut_number,n=5) %>% recipe(x = .) %>% step_dummy(all_nominal(),one_hot = T) %>% prep %>% juice %>% glimpse 

5 рднрд╡рд┐рд╖реНрдпрд╡рдХреНрддрд╛рдУрдВ рдХреЗ рдмрдЬрд╛рдп, рд╣рдорд╛рд░реЗ рдкрд╛рд╕ рдЕрдм рдЙрдирдореЗрдВ рд╕реЗ 23 рд╣реИрдВ, рд▓реЗрдХрд┐рди рджреНрд╡рд┐рдЖрдзрд╛рд░реА:

рдЫрд╡рд┐

рд╕рд╛рдорд╛рдиреНрдп рддреМрд░ рдкрд░, рд░реВрдкрд╛рдВрддрд░рдг рдЪрд╛рд▓реЗрдВ рд╕рдорд╛рдкреНрдд рд╣реЛ рдЬрд╛рддреА рд╣реИрдВ, рд▓реЗрдХрд┐рди рд╣рдорд╛рд░реЗ "рдЧреИрд░-рд╢рд╛рд╕реНрддреНрд░реАрдп" рдИрдбреАрдП рдХреЗ рд▓рд┐рдП 3 рдкреБрд╕реНрддрдХрд╛рд▓рдпреЛрдВ рдореЗрдВ рд╕реЗ 2 рдХрд╛ рдХрд╛рдо рдЗрди рдЪрд░рдгреЛрдВ рд╕реЗ рд╢реБрд░реВ рд╣реЛрддрд╛ рд╣реИред

рдЕрдЧрд▓рд╛, рдореИрдВ 3 рд╡рд┐рдЬрд╝реБрдЕрд▓рд╛рдЗрдЬрд╝реЗрд╢рди рд▓рд╛рдЗрдмреНрд░реЗрд░реА рдХреА рдХрд╛рд░реНрдпрдХреНрд╖рдорддрд╛ рдХрд╛ рдкрд░рд┐рдЪрдп рджреЗрддрд╛ рд╣реВрдВ:

  1. Correlationfunnel - рдПрдХ рд▓рдХреНрд╖реНрдп рдкрд░ рд╡реНрдпрдХреНрддрд┐рдЧрдд рднрд╡рд┐рд╖реНрдп рдХрд╣рдиреЗрд╡рд╛рд▓рд╛ рдореВрд▓реНрдпреЛрдВ рдХрд╛ рдкреНрд░рднрд╛рд╡ рджрд┐рдЦрд╛рддрд╛ рд╣реИ (рдпрд╛рдиреА, рдЖрдк рдЗрд╕реЗ рдИрдбреАрдП рдкрд░реНрдпрд╡реЗрдХреНрд╖рдХ рдЕрдзрд┐рдЧрдо рдХрд╣ рд╕рдХрддреЗ рд╣реИрдВ)
  2. рд▓рд╛рд░реЗрд╕ - рдЕрдиреНрдп рднрд╡рд┐рд╖реНрдпрд╡рдХреНрддрд╛рдУрдВ рдХреЗ рдЕрдиреНрдп рд╡реНрдпрдХреНрддрд┐рдЧрдд рдореВрд▓реНрдпреЛрдВ рдкрд░ рд╡реНрдпрдХреНрддрд┐рдЧрдд рднрд╡рд┐рд╖реНрдпрд╡рдХреНрддрд╛ рдореВрд▓реНрдпреЛрдВ рдХреЗ рдкреНрд░рднрд╛рд╡ рдХреЛ рджрд░реНрд╢рд╛рддрд╛ рд╣реИ (рдпрд╛рдиреА, рдЖрдк рдЗрд╕реЗ рдИрдбреАрдП рдЕрдирд╕реБрдирд╛ рдЕрдзрд┐рдЧрдо рдХрд╣ рд╕рдХрддреЗ рд╣реИрдВ)
  3. рдЖрд╕рд╛рди - рд▓рдХреНрд╖реНрдп рдХреЗ рдЕрдиреБрд╕рд╛рд░ рдкреНрд░рддрд┐ "рд╢реАрд░реНрд╖" рдПрдХреНрд╕ рднрд╡рд┐рд╖реНрдпрд╡рдХреНрддрд╛рдУрдВ рдХреЗ рд╕рдореВрд╣реАрдХреГрдд рдореВрд▓реНрдпреЛрдВ рдХреЗ рд╕рдВрдЪрдпреА рд╕рдВрдмрдВрдз рдХреЛ рджрд░реНрд╢рд╛рддрд╛ рд╣реИ (рдпрд╛рдиреА, рдЖрдк рдЗрд╕реЗ рдИрдбреАрдП рдкрд░реНрдпрд╡реЗрдХреНрд╖рд┐рдд рдЕрдзрд┐рдЧрдо рдХрд╣ рд╕рдХрддреЗ рд╣реИрдВ)

рдпрд╣ рд╕реНрдкрд╖реНрдЯ рд╣реИ рдХрд┐ рдЙрдирдХреА рдХрд╛рд░реНрдпрдХреНрд╖рдорддрд╛ рдЕрд▓рдЧ рд╣реИ, рдЗрд╕рд▓рд┐рдП, рдЗрди рдкреБрд╕реНрддрдХрд╛рд▓рдпреЛрдВ рдХрд╛ рдкреНрд░рджрд░реНрд╢рди рдХрд░рддреЗ рд╣реБрдП, рдореИрдВ рдЗрд╕ рдкреИрдХреЗрдЬ рдХреА рдЙрдкрд░реНрдпреБрдХреНрдд рдХрд╛рд░реНрдпрдХреНрд╖рдорддрд╛ рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рд╣рдорд╛рд░реЗ "рдмреЗрд╕рд▓рд╛рдЗрди_рдИрдбреАрдП" рдХреЗ рд▓реЗрдЦ рд╕реЗ рд▓реЗрдЦрдХ рдХреЗ рдирд┐рд╖реНрдХрд░реНрд╖ рдХреЛ рдЙрджреНрдзреГрдд рдХрд░реВрдВрдЧрд╛ред (рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП, рдпрджрд┐ рд▓реЗрдЦрдХ рдЙрддреНрддрд░рдЬреАрд╡рд┐рддрд╛ рдкрд░ рдЙрдореНрд░ рдХреА рдирд┐рд░реНрднрд░рддрд╛ рджрд┐рдЦрд╛рддрд╛ рд╣реИ, рддреЛ рдореИрдВ рдЗрд╕ рддрд░рд╣ рдХреЗ рдЙрджреНрдзрд░рдг рдХреЛрд░рд┐рд▓реЗрд╢рдирдлрдиреЗрд▓ рдореЗрдВ рдбрд╛рд▓реВрдВрдЧрд╛, рдпрджрд┐ рдЙрдореНрд░ рд╡рд░реНрдЧ рдкрд░ рд╣реИ, рддреЛ рд▓рд╛рд░реНрд╕ рдореЗрдВ, рдЖрджрд┐)

рдкрд╣рд▓рд╛ рдкреБрд╕реНрддрдХрд╛рд▓рдп рдордВрдЪ рдкрд░ рд╣реИред

correlationfunnel


correlationfunnel рдХреЛ Exploratory Data Analysis (EDA) рдХреЛ рдЧрддрд┐ рджреЗрдирд╛ рд╣реИ
рдЫрд╡рд┐

рд▓рд╛рдЗрдмреНрд░реЗрд░реА рд╡рд┐рдЧрдиреЗрдЯ рдореЗрдВ рдХрд╛рд░реНрдпрдкреНрд░рдгрд╛рд▓реА рдЕрдЪреНрдЫреА рддрд░рд╣ рд╕реЗ рд╡рд░реНрдгрд┐рдд рд╣реИ, рдореИрдВ рджреНрд╡рд┐рдЖрдзрд╛рд░реА рдореВрд▓реНрдпреЛрдВ рджреНрд╡рд╛рд░рд╛ рд╕рд╣рд╕рдВрдмрдВрдз рдХреА рдЧрдгрдирд╛ рдХрд░рдиреЗ рдХрд╛ рдПрдХ рдЯреБрдХрдбрд╝рд╛ рджреВрдВрдЧрд╛

рдЫрд╡рд┐

рдкреБрд╕реНрддрдХрд╛рд▓рдп рд╣рдорд╛рд░реЗ рдбреЗрдЯрд╛ рдореЗрдВ рдПрдХ рд▓рдХреНрд╖реНрдп (рдЖрд╢реНрд░рд┐рдд рдЪрд░) рдХреА рдЙрдкрд╕реНрдерд┐рддрд┐ рдХреЛ рдорд╛рдирддрд╛ рд╣реИ рдФрд░ рддреБрд░рдВрдд рдПрдХ рддрд╕реНрд╡реАрд░ рдкрд░ рд░рд┐рд╢реНрддреЗ рдХреА рддрд╛рдХрдд рдФрд░ рджрд┐рд╢рд╛ рдХреЛ рджрд░реНрд╢рд╛рддрд╛ рд╣реИ рдФрд░ рдпрд╣ рджреГрд╢реНрдп рдлрд╝рдирд▓ рдмрдирд╛рдиреЗ рд╡рд╛рд▓реЗ рдЗрд╕ рдмрд▓ рдХреЗ рдЕрд╡рд░реЛрд╣реА рдХреНрд░рдо рдореЗрдВ рднреА рд░реИрдВрдХ рдХрд░рддрд╛ рд╣реИ (рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ, рдпрд╣ рд╡рд╣ рдЬрдЧрд╣ рд╣реИ рдЬрд╣рд╛рдВ рд╕реЗ рдирд╛рдо рдЖрддрд╛ рд╣реИ)ред

рд▓рд╛рдЗрдмреНрд░реЗрд░реА рдореЗрдВ рдмрдирд╛рдпрд╛ рдЧрдпрд╛ рдмрд╛рдЗрдирд░реАрдХрд░рдг рдХрд╛рд░реНрдп рдЖрдкрдХреЛ рджреВрд╕рд░реЛрдВ рдореЗрдВ рдЫреЛрдЯреА рд╢реНрд░реЗрдгрд┐рдпреЛрдВ рдХреЛ рдХрдо рдХрд░рдиреЗ рдХреА рдЕрдиреБрдорддрд┐ рджреЗрддрд╛ рд╣реИред

рдЪреВрдВрдХрд┐ рд▓рд╛рдЗрдмреНрд░реЗрд░реА рдкреВрд░реНрдгрд╛рдВрдХ рдЪрд░ рдХреЗ рд╕рд╛рде рдХрд╛рдо рдирд╣реАрдВ рдХрд░рддреА рд╣реИ, рдЗрд╕рд▓рд┐рдП рд╣рдо рдЙрдиреНрд╣реЗрдВ рд╕рдВрдЦреНрдпрд╛рддреНрдордХ рдореЗрдВ рдмрджрд▓ рджреЗрдВрдЧреЗ рдФрд░ рд╣рдорд╛рд░реЗ рдЯрд╛рдЗрдЯреИрдирд┐рдХ рдореЗрдВ рд╡рд╛рдкрд╕ рдЖ рдЬрд╛рдПрдВрдЧреЗред

 #install.packages("correlationfunnel") library(correlationfunnel) d <- d %>% mutate_if(is.integer,as.numeric) d %>% binarize(n_bins = 5,thresh_infreq = .02,one_hot = T) %>% #    correlate(target = Survived__yes) %>% plot_correlation_funnel() # "interactive = T" - plotly! 

рдЫрд╡рд┐

рдПрдХреНрд╕-рдПрдХреНрд╕рд┐рд╕ рдкрд░, рд╣рдорд╛рд░реЗ рдкрд╛рд╕ рд╕рд╣-рд╕рдВрдмрдВрдз рдХреА рддрд╛рдХрдд рдФрд░ рджрд┐рд╢рд╛ рд╣реИ, рд╡рд╛рдИ-рдПрдХреНрд╕рд┐рд╕ рдкрд░, рд╣рдорд╛рд░реЗ рднрд╡рд┐рд╖реНрдпрд╡рдХреНрддрд╛рдУрдВ рдХреЛ рдЕрд╡рд░реЛрд╣реА рдХреНрд░рдо рдореЗрдВ рд░реИрдВрдХ рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИред рдкрд╣рд▓реЗ рд╡рд╛рд▓рд╛ рд╣рдореЗрд╢рд╛ рд▓рдХреНрд╖реНрдп рдХреЛ рджрд░реНрд╢рд╛рддрд╛ рд╣реИ рд╡рд╣ рдЦреБрдж рдХреЗ рд╕рд╛рде рд╕рдмрд╕реЗ рдордЬрдмреВрдд рд╕рдВрдмрдВрдз рд╣реИ (-1; 1)ред

рдЖрдЗрдП рджреЗрдЦреЗрдВ рдХрд┐ рдЗрд╕ рдЧреНрд░рд╛рдл рдХреЗ рдирд┐рд╖реНрдХрд░реНрд╖ рд╣рдорд╛рд░реЗ "рдмреЗрд╕рд▓рд╛рдЗрди_рдИрдбреАрдП" рдХреЗ рд▓реЗрдЦрдХ рдХреЗ рдирд┐рд╖реНрдХрд░реНрд╖ рдХреЗ рд╕рд╛рде рдХреИрд╕реЗ рдУрд╡рд░рд▓реИрдк рд╣реЛрддреЗ рд╣реИрдВред
рдирд┐рдореНрдирд▓рд┐рдЦрд┐рдд рдЧреНрд░рд╛рдл рдЗрд╕ рд╕рд┐рджреНрдзрд╛рдВрдд рдХреА рдкреБрд╖реНрдЯрд┐ рдХрд░рддрд╛ рд╣реИ рдХрд┐ рдпрд╛рддреНрд░реА рдХреЗрдмрд┐рди рд╡рд░реНрдЧ рдЬрд┐рддрдирд╛ рдЕрдзрд┐рдХ рд╣реЛрдЧрд╛, рдЕрд╕реНрддрд┐рддреНрд╡ рдХреА рд╕рдВрднрд╛рд╡рдирд╛ рдЙрддрдиреА рд╣реА рдЕрдзрд┐рдХ рд╣реЛрдЧреАред ("рдКрдкрд░" "" рдореЗрд░рд╛ рдорддрд▓рдм рд╣реИ рдХрд┐ рд░рд┐рд╡рд░реНрд╕ рдСрд░реНрдбрд░, рдХреНрдпреЛрдВрдХрд┐ рдкрд╣рд▓реА рдХрдХреНрд╖рд╛ рджреВрд╕рд░реА рдФрд░ рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ рддреАрд╕рд░реА рд╕реЗ рдЕрдзрд┐рдХ рд╣реИред)
рдлрд╝рдирд▓ рд╕реЗ рдкрддрд╛ рдЪрд▓рддрд╛ рд╣реИ рдХрд┐ рд╕рд╣рд╕рдВрдмрдВрдз рд╢рдХреНрддрд┐ рдХреЗ рдорд╛рдорд▓реЗ рдореЗрдВ рд╡рд░реНрдЧ рддреАрд╕рд░рд╛ рднрд╡рд┐рд╖реНрдпрд╡рдХреНрддрд╛ рд╣реИ, рдФрд░ рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ, рддреГрддреАрдп рд╢реНрд░реЗрдгреА рдореЗрдВ, рд╡реНрдпреБрддреНрдХреНрд░рдо рд╕рд╣рд╕рдВрдмрдВрдз, 1 рдореЗрдВ, рдПрдХ рдордЬрдмреВрдд рд╕рдХрд╛рд░рд╛рддреНрдордХ рд╣реИред
рдкреБрд░реБрд╖реЛрдВ рдФрд░ рдорд╣рд┐рд▓рд╛рдУрдВ рдХреЗ рд▓рд┐рдП рдЬреАрд╡рд┐рдд рд░рд╣рдиреЗ рдХреА рд╕рдВрднрд╛рд╡рдирд╛рдУрдВ рдХреА рддреБрд▓рдирд╛ рдХрд░реЗрдВред рдбреЗрдЯрд╛ рдкрд╣рд▓реЗ рд╡реНрдпрдХреНрдд рдХрд┐рдП рдЧрдП рд╕рд┐рджреНрдзрд╛рдВрдд рдХреА рдкреБрд╖реНрдЯрд┐ рдХрд░рддрд╛ рд╣реИред

(рд╕рд╛рдорд╛рдиреНрдп рддреМрд░ рдкрд░, рд╣рдо рдкрд╣рд▓реЗ рд╕реЗ рд╣реА рдХрд╣ рд╕рдХрддреЗ рд╣реИрдВ рдХрд┐ рдореЙрдбрд▓ рдХрд╛ рдореБрдЦреНрдп рдХрд╛рд░рдХ рдпрд╛рддреНрд░реА рдХрд╛ рд▓рд┐рдВрдЧ рд╣реЛрдЧрд╛)

рдлрд╝рдирд▓ рд╕реЗ рдкрддрд╛ рдЪрд▓рддрд╛ рд╣реИ рдХрд┐ рдпрд╛рддреНрд░реА рдХрд╛ рд▓рд┐рдВрдЧ рд╕рд╣рд╕рдВрдмрдВрдз рдХреА рдбрд┐рдЧреНрд░реА рдХреЗ рдЕрдиреБрд╕рд╛рд░ 2 рд╣реИ, рдорд╣рд┐рд▓рд╛ рд▓рд┐рдВрдЧ рдХреЛ рдЬреАрд╡рд┐рдд рд░рд╣рдиреЗ рдХреЗ рд╕рд╛рде рд╕рд╣рд╕рдВрдмрджреНрдз рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ, рдкреБрд░реБрд╖ рд▓рд┐рдВрдЧ рдореГрддреНрдпреБ рдХреЗ рд╕рд╛рде рд╕рд╣рд╕рдВрдмрджреНрдз рд╣реЛрддрд╛ рд╣реИред
рдЖрдк рдЙрд╕ рдкрд░рд┐рдХрд▓реНрдкрдирд╛ рдХрд╛ рднреА рдкрд░реАрдХреНрд╖рдг рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ рдХрд┐ рдпреБрд╡рд╛ рд▓реЛрдЧ рдЬреАрд╡рд┐рдд рд░рд╣рддреЗ рд╣реИрдВ, рдХреНрдпреЛрдВрдХрд┐ рд╡реЗ рддреЗрдЬреА рд╕реЗ рдЖрдЧреЗ рдмрдврд╝рддреЗ рд╣реИрдВ, рдмреЗрд╣рддрд░ рддреИрд░рддреЗ рд╣реИрдВ, рдЖрджрд┐ред

рдЬреИрд╕рд╛ рдХрд┐ рдЖрдк рджреЗрдЦ рд╕рдХрддреЗ рд╣реИрдВ, рдПрдХ рд╕реНрдкрд╖реНрдЯ рдирд┐рд░реНрднрд░рддрд╛ рдпрд╣рд╛рдВ рджрд┐рдЦрд╛рдИ рдирд╣реАрдВ рджреЗ рд░рд╣реА рд╣реИред

рдлрд╝рдирд▓ рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ рдЗрд╕ рднрд╡рд┐рд╖реНрдпрд╡рдХреНрддрд╛ рдХреЗ рдХрдордЬреЛрд░ рдорд╣рддреНрд╡ рдХреА рдмрд╛рдд рдХрд░рддрд╛ рд╣реИ (рдореБрдЭреЗ рдпрд╛рдж рд╣реИ рдХрд┐ рдЧреЛрдиреЛрд░реЗрдВрдЯ / рд╢реАрд░реНрд╖рдХ рдореЗрдВ рдЙрдореНрд░ рд╢рд╛рдорд┐рд▓ рд╣реИ, рдпрд╣реА рд╡рдЬрд╣ рд╣реИ рдХрд┐ рдЙрдореНрд░ рдЗрддрдиреА рдорд╣рддреНрд╡рдкреВрд░реНрдг рдирд╣реАрдВ рд╣реИ), рд▓реЗрдХрд┐рди рдпрд╣рд╛рдВ рддрдХ тАЛтАЛрдХрд┐ рдлрд╝рдирд▓ рд╕реЗ рдкрддрд╛ рдЪрд▓рддрд╛ рд╣реИ рдХрд┐ рд╢реНрд░реЗрдгрд┐рдпреЛрдВ рдореЗрдВ "рдорд╛рдЗрдирд╕ рдЗрдирдлрд┐рдирд┐рдЯреА - 20 рд╡рд░реНрд╖" (рдпрд╛рдиреА рдмрдЪреНрдЪреЗ) рдЬреАрд╡рд┐рдд рд░рд╣рдиреЗ рдХреА рдЕрдзрд┐рдХ рд╕рдВрднрд╛рд╡рдирд╛ рд╣реИред ) рдФрд░ 30-38 (рдзрдиреА рд▓реЛрдЧ, рд╕рдВрднрд╡рддрдГ 1 рд╡рд░реНрдЧ)ред
рдЖрдЗрдП рд╕рд░реНрд╡рд╛рдЗрд╡рд▓ рдкрд░рд╕реЗрдВрдЯреЗрдЬ рдЬреИрд╕реЗ рдЗрдВрдбрд┐рдХреЗрдЯрд░ рдХреЛ рдкреЗрд╢ рдХрд░реЗрдВ рдФрд░ рдкрд┐рдЫрд▓реЗ рдЪрд░рдг рдореЗрдВ рдирд┐рдХрд▓реЗ рд╕рдореВрд╣реЛрдВ рдкрд░ рдЗрд╕рдХреА рдирд┐рд░реНрднрд░рддрд╛ рдХреЛ рджреЗрдЦреЗрдВ

(рд▓реЗрдЦрдХ рдХреЗ рд╕рдореВрд╣ рдХрд╛ рдЕрд░реНрде рд╣реИ рд╢реАрд░реНрд╖рдХ)ред

рдлрд╝рдирд▓ рдкреВрд░реА рддрд░рд╣ рд╕реЗ рд▓реЗрдЦрдХ рдХреЗ рдирд┐рд╖реНрдХрд░реНрд╖реЛрдВ рдХреА рдкреБрд╖реНрдЯрд┐ рдХрд░рддрд╛ рд╣реИ
рдЕрдм рдЖрдЗрдП рдЙрд╕ рдЬрд╛рдирдХрд╛рд░реА рдХреЛ рджреЗрдЦреЗрдВ рдЬреЛ рдЬрд╣рд╛рдЬ рдкрд░ рд░рд┐рд╢реНрддреЗрджрд╛рд░реЛрдВ рдХреА рд╕рдВрдЦреНрдпрд╛ рд╕реЗ рдкреНрд░рд╛рдкреНрдд рдХреА рдЬрд╛ рд╕рдХрддреА рд╣реИред

рдпрд╣ рдмрд╣реБрдд рд╕рдВрднрд╛рд╡рдирд╛ рд╣реИ рдХрд┐ рд░рд┐рд╢реНрддреЗрджрд╛рд░реЛрдВ рдХреА рдЕрдиреБрдкрд╕реНрдерд┐рддрд┐, рд╕рд╛рде рд╣реА рдмрдбрд╝реА рд╕рдВрдЦреНрдпрд╛ рдореЗрдВ, рдЕрд╕реНрддрд┐рддреНрд╡ рдХреЛ рдирдХрд╛рд░рд╛рддреНрдордХ рд░реВрдк рд╕реЗ рдкреНрд░рднрд╛рд╡рд┐рдд рдХрд░рддрд╛ рд╣реИред

рдлрд╝рдирд▓ рдореЗрдВ SibSP рд╕реНрдкрд╖реНрдЯ рд░реВрдк рд╕реЗ рдПрдХ рд╣реА рдмрд╛рдд рдХрд╣рддрд╛ рд╣реИред

рдФрд░ рд╣рд╛рдВ, рд▓реЗрдЦрдХ рдХреЗ рдирд┐рд╖реНрдХрд░реНрд╖реЛрдВ рдХреЗ рдЕрд▓рд╛рд╡рд╛, рдпрд╣рд╛рдВ рдЖрдк рдЕрдиреНрдп рдкреИрдЯрд░реНрди рджреЗрдЦ рд╕рдХрддреЗ рд╣реИрдВ, рдореИрдВ рдкрд╛рдардХ рдХреЗ рд▓рд┐рдП рдЪрд┐рдВрддрди рдХрд╛ рдЖрдирдВрдж рдЫреЛрдбрд╝ рджреВрдВрдЧрд╛

рдЪреВрд▓реНрд╣рд╛


рд░реИрдВрдХ-рдХреНрд░реЙрд╕-рд╕рд╣рд╕рдВрдмрдВрдзреЛрдВ рдХреЗ рд╕рд╛рде рдЕрдВрддрд░реНрджреГрд╖реНрдЯрд┐ рдкреНрд░рд╛рдкреНрдд рдХрд░реЗрдВ

рдЫрд╡рд┐

рдЗрд╕ рдкреБрд╕реНрддрдХрд╛рд▓рдп рдХреЗ рд▓реЗрдЦрдХ рдФрд░ рднреА рдЖрдЧреЗ рдмрдврд╝реЗ - рд╡рд╣ рди рдХреЗрд╡рд▓ рд▓рдХреНрд╖реНрдп рдкрд░ рдирд┐рд░реНрднрд░рддрд╛ рджрд┐рдЦрд╛рддрд╛ рд╣реИ, рдмрд▓реНрдХрд┐ рд╣рд░ рдЪреАрдЬ рдкрд░ рднреАред

рд░реИрдВрдХ рдХреНрд░реЙрд╕-рд╕рд╣рд╕рдВрдмрдВрдз рди рдХреЗрд╡рд▓ рдмрд╛рдХреА рдХреЗ рд╕рд╛рде рдПрдХ рд╡рд┐рд╢рд┐рд╖реНрдЯ рд▓рдХреНрд╖реНрдп рд╕реБрд╡рд┐рдзрд╛ рдХреЗ рд░рд┐рд╢реНрддреЛрдВ рдХреА рд╡реНрдпрд╛рдЦреНрдпрд╛ рдХрд░рддрд╛ рд╣реИ, рдмрд▓реНрдХрд┐ рд╕рд╛рд░рдгреАрдмрджреНрдз рдкреНрд░рд╛рд░реВрдк рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рдФрд░ рд╕рдордЭрдиреЗ рдХреЗ рд▓рд┐рдП рдЖрдкрдХреЗ рдбреЗрдЯрд╛ рдореЗрдВ рд╕рднреА рдореВрд▓реНрдпреЛрдВ рдХрд╛ рд╕рдВрдмрдВрдз рд╣реИ ред

рдпрд╣ рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рд░реВрдк рд╕реЗ рд╢реНрд░реЗрдгреАрдмрджреНрдз рд╕реНрддрдВрднреЛрдВ рдХреЛ рдПрдХ рдЧрд░реНрдо рдПрдиреНрдХреЛрдбрд┐рдВрдЧ (1s рдФрд░ 0s) рдФрд░ рдЕрдиреНрдп рд╕реНрдорд╛рд░реНрдЯ рд╕рдореВрд╣реЛрдВ рдЬреИрд╕реЗ рдХрд┐ "рдЕрдиреНрдп" рд▓реЗрдмрд▓ рдХреЗ рд╕рд╛рде рд╕рдВрдЦреНрдпрд╛рддреНрдордХ рд░реВрдк рд╕реЗ рдмрд╣реБрдд рд▓рдЧрд╛рддрд╛рд░ рдореВрд▓реНрдпреЛрдВ рдФрд░ рдирдИ рд╕реБрд╡рд┐рдзрд╛рдУрдВ рд╕реЗ рдмрд╛рд╣рд░ рддрд╛рд░реАрдЦреЛрдВ рдореЗрдВ рдкрд░рд┐рд╡рд░реНрддрд┐рдд рдХрд░рддрд╛ рд╣реИред


рдКрдкрд░ рджрд┐рдП рдЧрдП рд▓рд┐рдВрдХ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реБрдП, рдЖрдк рдПрдХ рдЙрджрд╛рд╣рд░рдг рджреЗрдЦ рд╕рдХрддреЗ рд╣реИрдВ рдЬрд╣рд╛рдВ рд▓реЗрдЦрдХ рдЕрдкрдиреЗ рдкреИрдХреЗрдЬ рдореЗрдВ рд╕реНрдЯрд╛рд░ рд╡рд╛рд░реНрд╕ рдбреЗрдЯрд╛рд╕реЗрдЯ рдЦрд┐рд▓рд╛рддрд╛ рд╣реИ рдФрд░ рдЬреЛ рдирд┐рд░реНрднрд░рддрд╛рдПрдВ рдкрд╛рдИ рдЬрд╛рддреА рд╣реИрдВ, рдореИрдВ рдЙрдирдХреЗ рдкреЗрдЬ рдкрд░ рдЕрдЯрдХ рдЧрдпрд╛, рдмрд╣реБрдд рдЕрдЪреНрдЫрд╛ред

рдЖрдЗрдП рд╣рдорд╛рд░реЗ рдЙрджрд╛рд╣рд░рдг рдкрд░ рдкреНрд░рдпрд╛рд╕ рдХрд░реЗрдВред

 # ,     : # devtools::install_github("laresbernardo/lares") library(lares) corr_cross(df = d,top = 30) 

рдЫрд╡рд┐

рдЙрджреНрдзрд░рдгреЛрдВ рдкрд░ рдЖрдзрд╛рд░рд┐рдд рдирд┐рд╖реНрдХрд░реНрд╖ рдХреЗ рд╕рд╛рде рдЪреМрд░рд╛рд╣реЗ рдХреЗ рдЕрд▓рд╛рд╡рд╛, рдХреЛрд░рд┐рд▓реЗрд╢рдирдлреБрдирдиреЗрд▓ рдореЗрдВ рд╣рдо рдХреБрдЫ рдЙрджреНрдзрд░рдг рдкреНрд░рд╕реНрддреБрдд рдХрд░рддреЗ рд╣реИрдВ рдЬрд┐рдиреНрд╣реЗрдВ рд╣рдо рд▓рдХреНрд╖реНрдп рдХреА рдкрд░рд╡рд╛рд╣ рдХрд┐рдП рдмрд┐рдирд╛ рдпрд╣рд╛рдВ рджреЗрдЦ рд╕рдХрддреЗ рд╣реИрдВ:
рдЕрдиреНрдп рдкреИрдЯрд░реНрди рднреА рдорд┐рд▓ рд╕рдХрддреЗ рд╣реИрдВред рдЙрдореНрд░ рдФрд░ рд╡рд░реНрдЧ рдХреЗ рдмреАрдЪ рдПрдХ рдирдХрд╛рд░рд╛рддреНрдордХ рд╕рд╣рд╕рдВрдмрдВрдз рд╣реИ, рдЬреЛ рдХрд┐ рдкреБрд░рд╛рдиреЗ рдпрд╛рддреНрд░рд┐рдпреЛрдВ рдХреЗ рдХрд╛рд░рдг рд╕рдмрд╕реЗ рдЕрдзрд┐рдХ рд╕рдВрднрд╛рд╡рдирд╛ рд╣реИ рдЬреЛ рдЕрдХреНрд╕рд░ рдЕрдзрд┐рдХ рдорд╣рдВрдЧрд╛ рдХреЗрдмрд┐рди рдЦрд░реАрдж рд╕рдХрддреЗ рд╣реИрдВред

рдЙрдкрд░реЛрдХреНрдд рдЙрджреНрдзрд░рдг рдореЗрдВ, рд▓реЗрдЦрдХ рдХреБрд▓ рдорд┐рд▓рд╛рдХрд░ 2 рдХреНрд╖реЗрддреНрд░реЛрдВ рдХреЗ рд╕рд╣рд╕рдВрдмрдВрдз рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдкрд░ рдРрд╕рд╛ рдирд┐рд╖реНрдХрд░реНрд╖ рдирд┐рдХрд╛рд▓рддрд╛ рд╣реИ, рд▓реЗрдХрд┐рди One-Hot-Encoding рдХреЗ рд╕рд╛рде, рдпрд╣ рдЖрдпреБ + P_Class_1 рдХреЗ рдмреАрдЪ рдордЬрдмреВрдд рд╕рдХрд╛рд░рд╛рддреНрдордХ рд╕рд╣рд╕рдВрдмрдВрдз рд╕реЗ рд╕реНрдкрд╖реНрдЯ рд╣реИред
рдЗрд╕рдХреЗ рдЕрд▓рд╛рд╡рд╛, рдЯрд┐рдХрдЯ рдХреА рдХреАрдордд рдФрд░ рд╡рд░реНрдЧ рдирд┐рдХрдЯрддрд╛ рд╕реЗ рд╕рдВрдмрдВрдзрд┐рдд рд╣реИрдВ (рдЙрдЪреНрдЪ рд╕рд╣рд╕рдВрдмрдВрдз рдЧреБрдгрд╛рдВрдХ), рдЬреЛ рдХрд╛рдлреА рдЕрдкреЗрдХреНрд╖рд┐рдд рд╣реИред

рдКрдкрд░ рдХреА рддреАрд╕рд░реА рдкрдВрдХреНрддрд┐: рдХрд┐рд░рд╛рдпрд╛ + P_Class_1

рд▓реЗрдЦрдХ рдХреЗ рдирд┐рд╖реНрдХрд░реНрд╖реЛрдВ рдХреЗ рд╕рд╛рде рдЕрдВрддрд░ рдХрд░рдиреЗ рдХреЗ рдЕрд▓рд╛рд╡рд╛, рдпрд╣рд╛рдВ рдПрдХ рдФрд░ рдЕрдзрд┐рдХ рджрд┐рд▓рдЪрд╕реНрдк рдЪреАрдЬреЛрдВ рдкрд░ рдЬреЛрд░ рджрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ, рдореИрдВ рдкрд╛рдардХ рдХреЗ рд▓рд┐рдП рдЪрд┐рдВрддрди рдХрд╛ рдЖрдирдВрдж рднреА рдЫреЛрдбрд╝ рджреВрдВрдЧрд╛ред

рд╢реАрд░реНрд╖ X рд╕рдмрд╕реЗ рд╢рдХреНрддрд┐рд╢рд╛рд▓реА рдЕрдВрддрд░реНрджреГрд╖реНрдЯрд┐ рдХреЗ рд╡реИрдХрд▓реНрдкрд┐рдХ рдЪрдпрди рдХреЗ рдЕрд▓рд╛рд╡рд╛, рдЖрдк рдкреВрд░реА рддрд╕реНрд╡реАрд░ рдФрд░ рдХреБрд▓ рджреНрд░рд╡реНрдпрдорд╛рди рдореЗрдВ рдЗрди рдорд╣рддреНрд╡рдкреВрд░реНрдг рдмрд┐рдВрджреБрдУрдВ рдХреЗ рд╕реНрдерд╛рди рдХреЛ рднреА рджрд░реНрд╢рд╛ рд╕рдХрддреЗ рд╣реИрдВред

 corr_cross(df = d,type=2) 

рдЫрд╡рд┐

easyalluvial


рдЬрд▓реЛрдврд╝ рднреВрдЦрдВрдбреЛрдВ рдХреЗ рд╕рд╛рде рдбреЗрдЯрд╛ рдХреА рдЦреЛрдЬ

рдЫрд╡рд┐

рдпрд╣рд╛рдВ, рдкрд┐рдЫрд▓реЗ 2 рдкреИрдХреЗрдЬреЛрдВ рдХреА рддрд░рд╣, рд▓реЗрдЦрдХ рдкреНрд░рд╛рд░рдВрдн рдореЗрдВ рд╕рдВрдЦреНрдпрд╛рддреНрдордХ рдЪрд░ рдХрд╛ рджреНрд╡реИрддрдХрд░рдг рдХрд░рддрд╛ рд╣реИ, рд▓реЗрдХрд┐рди рдлрд┐рд░ рдЙрди рдкреБрд╕реНрддрдХрд╛рд▓рдпреЛрдВ рдХреЗ рд╕рд╛рде рдЙрд╕рдХрд╛ рдорд╛рд░реНрдЧ рдмрджрд▓ рдЬрд╛рддрд╛ рд╣реИ: {One-HotEncoding + correlation} рдХреЗ рдмрдЬрд╛рдп, рдкреБрд╕реНрддрдХрд╛рд▓рдп рд╕рдмрд╕реЗ рджрд┐рд▓рдЪрд╕реНрдк рднрд╡рд┐рд╖реНрдпрд╡рдХреНрддрд╛рдУрдВ рдХреЗ рд╢реАрд░реНрд╖ X рдХреЛ рдмрд╛рд╣рд░ рдирд┐рдХрд╛рд▓рддрд╛ рд╣реИ (рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛ рдпрд╣ рддрдп рдХрд░рддрд╛ рд╣реИ рдХрд┐ рдХрд┐рд╕реЗ рд╕реНрдерд╛рдирд╛рдВрддрд░рд┐рдд рдХрд░рдирд╛ рд╣реИ ) рдореВрд▓реНрдпреЛрдВ рдХреЗ рдЖрдзрд╛рд░ рдкрд░, рдкреНрд░рд╡рд╛рд╣ рдмрдирддрд╛ рд╣реИ рдЬрд┐рд╕рдХрд╛ рд░рдВрдЧ рд▓рдХреНрд╖реНрдп рдкрд░ рдирд┐рд░реНрднрд░ рд╣реИ, рдФрд░ рдЗрд╕ рдзрд╛рд░рд╛ рдореЗрдВ рдЯрд┐рдкреНрдкрдгрд┐рдпреЛрдВ рдХреА рд╕рдВрдЦреНрдпрд╛ рдкрд░ рдзрд╛рд░рд╛ рдХреА рдЪреМрдбрд╝рд╛рдИред

рд╕рдВрдЦреНрдпрд╛рддреНрдордХ рдЪрд░ HH (рдЙрдЪреНрдЪ рдЙрдЪреНрдЪ), MH (рдордзреНрдпрдо рдЙрдЪреНрдЪ), M (рдордзреНрдпрдо), ML (рдордзреНрдпрдо рдХрдо), LL (рдирд┐рдореНрди рдирд┐рдореНрди) рд╢реНрд░реЗрдгрд┐рдпреЛрдВ рдореЗрдВ рд╡рд┐рдШрдЯрд┐рдд рд╣реЛрддреЗ рд╣реИрдВред

рд╕рдмрд╕реЗ рдкрд╣рд▓реЗ, рдЪрд▓реЛ рд╕рд╣рд╕рдВрдмрдВрдз рд╕реЗ рдЧреНрд░рд╛рдл рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рд╕рдмрд╕реЗ рдорд╣рддреНрд╡рдкреВрд░реНрдг рднрд╡рд┐рд╖реНрдпрд╡рд╛рдгрд┐рдпрд╛рдВ рд▓реЗрддреЗ рд╣реИрдВ:

 cor.feat <- c("title","Sex","Pclass","Fare") 

рдЖрдЧреЗ рд╣рдо рдПрдХ рдХрд╛рд░реНрдпрдХреНрд░рдо рдмрдирд╛рддреЗ рд╣реИрдВ

 # install.packages("easyalluvial") library(easyalluvial) al <- d %>% select(Survived,cor.feat) %>% alluvial_wide(fill_by = "first_variable") add_marginal_histograms(p = al,data_input = d,keep_labels = F) 

рдЫрд╡рд┐

рд▓реЗрдЦрдХ рдХреЗ рдЙрджреНрдзрд░рдгреЛрдВ рдХреЗ рд▓рд┐рдП, рд╣рдо рдЙрдкрдпреБрдХреНрдд рднрд╡рд┐рд╖реНрдпрд╡рдХреНрддрд╛рдУрдВ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдЪрд╛рд░реНрдЯ рдХреЛ рдлрд┐рд░ рд╕реЗ рдЖрдХрд░реНрд╖рд┐рдд рдХрд░рддреЗ рд╣реИрдВред

 cor.feat <- c("Sex","Pclass","Age") al <- d %>% select(Survived,cor.feat) %>% alluvial_wide(fill_by = "first_variable") add_marginal_histograms(p = al,data_input = d,keep_labels = F) 

рдЫрд╡рд┐

рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП, рдирд┐рдореНрдирд▓рд┐рдЦрд┐рдд рдЧреНрд░рд╛рдл рд╕реНрдкрд╖реНрдЯ рд░реВрдк рд╕реЗ рджрд░реНрд╢рд╛рддрд╛ рд╣реИ рдХрд┐ рдЬреАрд╡рд┐рдд рдмрдЪреЗ рд▓реЛрдЧреЛрдВ рдХреЗ рдореБрдЦреНрдп рд╕рдореВрд╣ рд╕рднреА рдЙрдореНрд░ рдХреА рдкрд╣рд▓реА рдФрд░ рджреВрд╕рд░реА рд╢реНрд░реЗрдгреА рдХреА рдорд╣рд┐рд▓рд╛рдПрдВ рд╣реИрдВред

рдЧреНрд░рд╛рдл рдпрд╣ рднреА рджрд░реНрд╢рд╛рддрд╛ рд╣реИ рдХрд┐ рдЧреНрд░реЗрдб 3 рдХреА рдЬреАрд╡рд┐рдд рдорд╣рд┐рд▓рд╛рдПрдВ рднреА рдПрдХ рдЫреЛрдЯрд╛ рд╕рдореВрд╣ рдирд╣реАрдВ рд╣реИрдВ

рдФрд░ рдкреБрд░реБрд╖реЛрдВ рдореЗрдВ, 15 рд╡рд░реНрд╖ рд╕реЗ рдХрдо рдЖрдпреБ рдХреЗ рд╕рднреА рд▓рдбрд╝рдХреЗ рд╕реЗрд╡рд╛ рдХреЗ рддреАрд╕рд░реЗ рд╡рд░реНрдЧ рдФрд░ рдмрдбрд╝реЗ рдкреБрд░реБрд╖реЛрдВ рдХреЗ рдПрдХ рдЫреЛрдЯреЗ рдЕрдиреБрдкрд╛рдд рдХреЛ рдЫреЛрдбрд╝рдХрд░ рдмрдЪ рдЧрдП рдФрд░ рдЬреНрдпрд╛рджрд╛рддрд░ рдкреНрд░рдердо рд╢реНрд░реЗрдгреА рд╕реЗред

рдкреВрд░реНрд╡реЛрдХреНрдд рдХреА рдкреБрд╖реНрдЯрд┐ рд╣реЛ рдЧрдИ рд╣реИ, рд▓реЗрдХрд┐рди рдлрд┐рд░ рд╕реЗ рд╣рдо рдПрдордПрд▓, рдЖрдпреБ рд╡рд░реНрдЧ рдПрд▓рдПрд▓ рдореЗрдВ рд╡рд░реНрдЧ 3 рдкреБрд░реБрд╖реЛрдВ рдХреЗ рдЬреАрд╡рд┐рдд рд░рд╣рдиреЗ рдХреЗ рдкреНрд░рд╡рд╛рд╣ рдХреЛ рджреЗрдЦрддреЗ рд╣реИрдВред

рдЙрдкрд░реНрдпреБрдХреНрдд рд╕рдм рдХреБрдЫ "рдЖрд╕рд╛рди" рдкреИрдХреЗрдЬ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдерд╛, рд▓реЗрдХрд┐рди рд▓реЗрдЦрдХ рдиреЗ рдПрдХ рджреВрд╕рд░рд╛ рдкреИрдХреЗрдЬ "рдкрд╛рд░реНрд╕рдЯреНрд╕" рд▓рд┐рдЦрд╛, рдЬреЛ рдХрдерд╛рдирдХ рдХреЗ рд╢реАрд░реНрд╖ рдкрд░ рдЙрдкрд░реЛрдХреНрдд рдЧреНрд░рд╛рдл рдХреЛ рдЗрдВрдЯрд░реИрдХреНрдЯрд┐рд╡ рдмрдирд╛рддрд╛ рд╣реИ (рдЬреИрд╕рд╛ рдХрд┐ рдЗрд╕ рдЦрдВрдб рдХреЗ рд╢реАрд░реНрд╖рдХ рдореЗрдВ рд╣реИ)ред
рдпрд╣ рди рдХреЗрд╡рд▓ рдЯреВрд▓рдЯрд┐рдк рд╕рдВрджрд░реНрдн рдХреЛ рджреЗрдЦрдиреЗ рдХреЗ рд▓рд┐рдП рд╕рдВрднрд╡ рдмрдирд╛рддрд╛ рд╣реИ, рдмрд▓реНрдХрд┐ рдПрдХ рдмреЗрд╣рддрд░ рджреГрд╢реНрдп рдзрд╛рд░рдгрд╛ рдХреЗ рд▓рд┐рдП рдкреНрд░рд╡рд╛рд╣ рдХреЛ рдкреБрди: рдмрдирд╛рдиреЗ рдХреЗ рд▓рд┐рдП рднреАред (рджреБрд░реНрднрд╛рдЧреНрдп рд╕реЗ, рдЬрдмрдХрд┐ рдкреБрд╕реНрддрдХрд╛рд▓рдп рдмрд╣реБрдд рдЕрдиреБрдХреВрд▓рд┐рдд рдирд╣реАрдВ рд╣реИ рдФрд░ рдпрд╣ рдЯрд╛рдЗрдЯреИрдирд┐рдХ рдкрд░ рдзреАрдорд╛ рд╣реЛ рдЬрд╛рддрд╛ рд╣реИ)

 # install.packages("parcats") library(parcats) cor.feat <- c("title","Sex","Pclass","Fare") a <- d %>% select(Survived,cor.feat) %>% alluvial_wide(fill_by = "first_variable") parcats(p = a,marginal_histograms = T,data_input = d) 

рдЫрд╡рд┐

рдмреЛрдирд╕


рдЦреЛрдЬрдкреВрд░реНрдг рдбреЗрдЯрд╛ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХреЗ рдЕрд▓рд╛рд╡рд╛ рдЖрд╕рд╛рди рдкреБрд╕реНрддрдХрд╛рд▓рдп, рдХрд╛ рдЙрдкрдпреЛрдЧ рдмреНрд▓реИрдХ рдмреЙрдХреНрд╕ рдореЙрдбрд▓ (рдЙрди рдорд╛рдкрджрдВрдбреЛрдВ рдХрд╛ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХрд░рдиреЗ рд╡рд╛рд▓реЗ рдореЙрдбрд▓ рдХреЗ рдПрдХ рджреБрднрд╛рд╖рд┐рдпрд╛ рдХреЗ рд░реВрдк рдореЗрдВ рднреА рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ - рдХрд┐рд╕ рддрд░реНрдХ рд╕реЗ рдореЙрдбрд▓ рдХреБрдЫ рднрд╡рд┐рд╖реНрдпрд╡рдХреНрддрд╛рдУрдВ рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рдЙрддреНрддрд░ рджреЗрддрд╛ рд╣реИ)ред

рд▓реЗрдЦрдХ рд▓реЗрдЦ рдХреЗ рд▓рд┐рдП рд▓рд┐рдВрдХ: рдЬрд▓реЛрдврд╝ рднреВрдЦрдВрдбреЛрдВ рдХреЗ рд╕рд╛рде рдореЙрдбрд▓ рдХреА рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛ рдХреА рдХрд▓реНрдкрдирд╛ рдХрд░реЗрдВ
рдФрд░ рдЦрд╝рд╛рд╕рд┐рдпрдд рдЙрди рд╕рднреА рдкреБрд╕реНрддрдХрд╛рд▓рдпреЛрдВ рдХреА рд╣реИ рдЬреЛ рдореИрдВрдиреЗ рджреЗрдЦреАрдВ, рдПрдХ рдЧреНрд░рд╛рдл рдкрд░ рдЕрдзрд┐рдХрддрдо рдиреЗ 2 рдЖрдпрд╛рдореА рд╕рдордиреНрд╡рдп рдкреНрд░рдгрд╛рд▓реА (рдкреНрд░рддреНрдпреЗрдХ рднрд╡рд┐рд╖реНрдпрд╡рдХреНрддрд╛ рдХреЗ рд▓рд┐рдП рдПрдХ) рдореЗрдВ рдмреНрд▓реИрдХ рдмреЙрдХреНрд╕ рдХреА рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛ рдХреЛ рд╕рдордЭрд╛рдпрд╛, рд░рдВрдЧ рдиреЗ рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛ рдХреЛ рд╕рдордЭрд╛рдпрд╛ред

рдЖрд╕рд╛рди рдкреБрд╕реНрддрдХрд╛рд▓рдп рдЖрдкрдХреЛ рдПрдХ рд╣реА рд╕рдордп рдореЗрдВ 2 рд╕реЗ рдЕрдзрд┐рдХ рднрд╡рд┐рд╖реНрдпрд╡рд╛рдгрд┐рдпреЛрдВ рдкрд░ рдРрд╕рд╛ рдХрд░рдиреЗ рдХреА рдЕрдиреБрдорддрд┐ рджреЗрддрд╛ рд╣реИ (рдирд┐рд╢реНрдЪрд┐рдд рд░реВрдк рд╕реЗ, рдЗрд╕реЗ рджреВрд░ рдирд╣реАрдВ рдХрд┐рдпрд╛ рдЬрд╛рдирд╛ рдмреЗрд╣рддрд░ рд╣реИ)ред

рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП, рд╣рдорд╛рд░реЗ рдбреЗрдЯрд╛ рд╕рд░рдгреА рдкрд░ рдПрдХ рдпрд╛рджреГрдЪреНрдЫрд┐рдХ рдЬрдВрдЧрд▓ рдХреЛ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рдХрд░реЗрдВ рдФрд░ 3 рднрд╡рд┐рд╖реНрдпрд╡рдХреНрддрд╛рдУрдВ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдпрд╛рджреГрдЪреНрдЫрд┐рдХ рд╡рди рдХреА рд╡реНрдпрд╛рдЦреНрдпрд╛ рдХреЛ рдкреНрд░рддрд┐рдмрд┐рдВрдмрд┐рдд рдХрд░реЗрдВред

 library(ranger) m <- ranger(formula = Survived~.,data = d,mtry = 6,min.node.size = 5, num.trees = 600, importance = "permutation") library(easyalluvial) (imp <- importance(m) %>% as.data.frame %>% easyalluvial::tidy_imp(imp = .,df=d)) #      #  N-     (   .  !)   dspace <- get_data_space(df = d,imp,degree = 3) #     pred = predict(m, data = dspace) alluvial_model_response(pred$predictions, dspace, imp, degree = 3) 

рдЗрд╕рдХреЗ рдЕрд▓рд╛рд╡рд╛, рд▓реЗрдЦрдХ рдХреЗ рдкрд╛рд╕ CARET рдореЙрдбрд▓ рдХрд╛ рдПрдХ рдХрдиреЗрдХреНрдЯрд░ рд╣реИ (рдореБрдЭреЗ рдирд╣реАрдВ рдкрддрд╛ рдХрд┐ рдпрд╣ рдЕрдм tidymodels рдкрд░ рдХрд┐рддрдирд╛ рдкреНрд░рд╛рд╕рдВрдЧрд┐рдХ рд╣реИ)

 library(caret) trc <- trainControl(method = "none") m <- train(Survived~.,data = d,method="rf",trControl=trc,importance=T) alluvial_model_response_caret(train = m,degree = 4,bins=5,stratum_label_size = 2.8) 

рдЫрд╡рд┐

рдирд┐рд╖реНрдХрд░реНрд╖


рдПрдХ рдмрд╛рд░ рдлрд┐рд░ рдореИрдВ рджреЛрд╣рд░рд╛рддрд╛ рд╣реВрдВ рдХрд┐ рдореИрдВ рдХреНрд▓рд╛рд╕рд┐рдХ рдИрдбреАрдП рдХреЗ рдкреНрд░рддрд┐рд╕реНрдерд╛рдкрди рдХреЗ рд▓рд┐рдП рдлреЛрди рдирд╣реАрдВ рдХрд░рддрд╛ рд╣реВрдВ, рд▓реЗрдХрд┐рди рд╕рд╣рдордд рд╣реВрдВ рдХрд┐ рдпрд╣ рдЕрдЪреНрдЫрд╛ рд╣реИ рдЬрдм рдХреЛрдИ рд╡рд┐рдХрд▓реНрдк рд╣реЛрддрд╛ рд╣реИ рдЬреЛ рдмрд╣реБрдд рд╕рдордп рдмрдЪрд╛рддрд╛ рд╣реИ, рдЦрд╛рд╕рдХрд░ рдпрд╣ рджреЗрдЦрддреЗ рд╣реБрдП рдХрд┐ рд▓реЛрдЧ рд╕реНрд╡рд╛рднрд╛рд╡рд┐рдХ рд░реВрдк рд╕реЗ рдкрд░реНрдпрд╛рдкреНрдд рдЖрд▓рд╕реА рд╣реИрдВ, рдФрд░ рдпрд╣, рдЬреИрд╕рд╛ рдХрд┐ рдЖрдк рдЬрд╛рдирддреЗ рд╣реИрдВ, рдкреНрд░рдЧрддрд┐ рдХрд╛ рдЗрдВрдЬрди рд╣реИ :)

Source: https://habr.com/ru/post/hi480532/


All Articles