рдкрд╛рдЗрдерди рдореЗрдВ рдПрдХ рдкреВрд░реНрдг рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкреНрд░реЛрдЬреЗрдХреНрдЯ рд╡реЙрдХ-рдереНрд░реВ рдХрд╛ рдЕрдиреБрд╡рд╛рдж : рднрд╛рдЧ рдПрдХ редрдЬрдм рдЖрдк рдПрдХ рдкреБрд╕реНрддрдХ рдкрдврд╝рддреЗ рд╣реИрдВ рдпрд╛ рдбреЗрдЯрд╛ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдПрдХ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдкрд╛рдареНрдпрдХреНрд░рдо рд╕реБрдирддреЗ рд╣реИрдВ, рддреЛ рдЖрдк рдЕрдХреНрд╕рд░ рдорд╣рд╕реВрд╕ рдХрд░рддреЗ рд╣реИрдВ рдХрд┐ рдЖрдк рдПрдХ рддрд╕реНрд╡реАрд░ рдХреЗ рдХреБрдЫ рдЕрд▓рдЧ рд╣рд┐рд╕реНрд╕реЛрдВ рдХрд╛ рд╕рд╛рдордирд╛ рдХрд░ рд░рд╣реЗ рд╣реИрдВ рдЬрд┐рдиреНрд╣реЗрдВ рдПрдХ рд╕рд╛рде рдирд╣реАрдВ рд░рдЦрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИред рдЕрдЧрд▓рд╛ рдХрджрдо рдЙрдард╛рдиреЗ рдФрд░ рдорд╢реАрди рд╕реАрдЦрдиреЗ рдХреА рдорджрдж рд╕реЗ рдХрд┐рд╕реА рд╕рдорд╕реНрдпрд╛ рдХреЛ рдкреВрд░реА рддрд░рд╣ рд╕реЗ рд╣рд▓ рдХрд░рдиреЗ рдХреА рд╕рдВрднрд╛рд╡рдирд╛ рд╕реЗ рдЖрдк рдбрд░ рд╕рдХрддреЗ рд╣реИрдВ, рд▓реЗрдХрд┐рди рд▓реЗрдЦреЛрдВ рдХреА рдЗрд╕ рд╢реНрд░реГрдВрдЦрд▓рд╛ рдХреА рдорджрдж рд╕реЗ рдЖрдк рдбреЗрдЯрд╛ рд╡рд┐рдЬреНрдЮрд╛рди рдХреЗ рдХреНрд╖реЗрддреНрд░ рдореЗрдВ рдХрд┐рд╕реА рднреА рд╕рдорд╕реНрдпрд╛ рдХреЛ рд╣рд▓ рдХрд░рдиреЗ рдХреА рдХреНрд╖рдорддрд╛ рдореЗрдВ рд╡рд┐рд╢реНрд╡рд╛рд╕ рд╣рд╛рд╕рд┐рд▓ рдХрд░реЗрдВрдЧреЗред
рдЕрдВрдд рдореЗрдВ рдЖрдкрдХреЗ рд╕рд┐рд░ рдореЗрдВ рдПрдХ рдкреВрд░реА рддрд╕реНрд╡реАрд░ рд╣реЛрдиреЗ рдХреЗ рд▓рд┐рдП, рд╣рдо рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдбреЗрдЯрд╛ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рдХреА рдкрд░рд┐рдпреЛрдЬрдирд╛ рдХреЛ рдкреВрд░рд╛ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рд╢реБрд░реВ рд╕реЗ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХрд░рдиреЗ рдХрд╛ рд╕реБрдЭрд╛рд╡ рджреЗрддреЗ рд╣реИрдВред
рд╕рдлрд▓рддрд╛рдкреВрд░реНрд╡рдХ рдЪрд░рдгреЛрдВ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдЬрд╛рдирд╛:
- рдбреЗрдЯрд╛ рдХреА рд╕рдлрд╛рдИ рдФрд░ рд╕реНрд╡рд░реВрдкрдгред
- рд╡реНрдпрд╛рдЦреНрдпрд╛рддреНрдордХ рдбреЗрдЯрд╛ рд╡рд┐рд╢реНрд▓реЗрд╖рдгред
- рдбрд┐рдЬрд╛рдЗрди рдФрд░ рд╕реБрд╡рд┐рдзрд╛рдУрдВ рдХрд╛ рдЪрдпрдиред
- рдХрдИ рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдореЙрдбрд▓ рдХреЗ рдореЗрдЯреНрд░рд┐рдХреНрд╕ рдХреА рддреБрд▓рдирд╛ред
- рд╕рд░реНрд╡рд╢реНрд░реЗрд╖реНрда рдореЙрдбрд▓ рдХреА рд╣рд╛рдЗрдкрд░рдкреИрд░рд╛рдЯреНрд░рд┐рдХ рдЯреНрдпреВрдирд┐рдВрдЧред
- рдПрдХ рдкрд░реАрдХреНрд╖рдг рдбреЗрдЯрд╛ рд╕реЗрдЯ рдкрд░ рд╕рд░реНрд╡рд╢реНрд░реЗрд╖реНрда рдореЙрдбрд▓ рдХрд╛ рдореВрд▓реНрдпрд╛рдВрдХрдиред
- рдореЙрдбрд▓ рдХреЗ рдкрд░рд┐рдгрд╛рдореЛрдВ рдХреА рд╡реНрдпрд╛рдЦреНрдпрд╛ред
- рдирд┐рд╖реНрдХрд░реНрд╖ рдФрд░ рджрд╕реНрддрд╛рд╡реЗрдЬреЛрдВ рдХреЗ рд╕рд╛рде рдХрд╛рдо рдХрд░рддреЗ рд╣реИрдВред
рдЖрдк рд╕реАрдЦреЗрдВрдЧреЗ рдХрд┐ рдЪрд░рдгреЛрдВ рдХреЛ рдПрдХ рджреВрд╕рд░реЗ рдореЗрдВ рдХреИрд╕реЗ рдЬрд╛рдирд╛ рд╣реИ рдФрд░ рдЙрдиреНрд╣реЗрдВ рдкрд╛рдпрдерди рдореЗрдВ рдХреИрд╕реЗ рд▓рд╛рдЧреВ рдХрд┐рдпрд╛ рдЬрд╛рдПред
рдкреВрд░рд╛ рдкреНрд░реЛрдЬреЗрдХреНрдЯ GitHub рдкрд░ рдЙрдкрд▓рдмреНрдз рд╣реИ, рдкрд╣рд▓рд╛ рднрд╛рдЧ
рдпрд╣рд╛рдБ рд╕реНрдерд┐рдд
рд╣реИред рдЗрд╕ рд▓реЗрдЦ рдореЗрдВ рд╣рдо рдкрд╣рд▓реЗ рддреАрди рдЪрд░рдгреЛрдВ рдкрд░ рд╡рд┐рдЪрд╛рд░ рдХрд░реЗрдВрдЧреЗред
рдХрд╛рд░реНрдп рд╡рд┐рд╡рд░рдг
рдХреЛрдб рд▓рд┐рдЦрдиреЗ рд╕реЗ рдкрд╣рд▓реЗ, рдЖрдкрдХреЛ рд╣рд▓ рдХреА рдЬрд╛ рд░рд╣реА рд╕рдорд╕реНрдпрд╛ рдФрд░ рдЙрдкрд▓рдмреНрдз рдЖрдВрдХрдбрд╝реЛрдВ рдХреЛ рд╕рдордЭрдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИред рдЗрд╕ рдкрд░рд┐рдпреЛрдЬрдирд╛ рдореЗрдВ, рд╣рдо рдиреНрдпреВрдпреЙрд░реНрдХ рдореЗрдВ
рдЗрдорд╛рд░рддреЛрдВ рдХреЗ рд▓рд┐рдП рд╕рд╛рд░реНрд╡рдЬрдирд┐рдХ рд░реВрдк рд╕реЗ рдЙрдкрд▓рдмреНрдз
рдКрд░реНрдЬрд╛ рджрдХреНрд╖рддрд╛ рдбреЗрдЯрд╛ рдХреЗ рд╕рд╛рде рдХрд╛рдо рдХрд░реЗрдВрдЧреЗред
рд╣рдорд╛рд░рд╛ рд▓рдХреНрд╖реНрдп: рдПрдХ рдореЙрдбрд▓ рдмрдирд╛рдиреЗ рдХреЗ рд▓рд┐рдП рдЙрдкрд▓рдмреНрдз рдбреЗрдЯрд╛ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдирд╛ рдЬреЛ рдХрд┐рд╕реА рд╡рд┐рд╢реЗрд╖ рдЗрдорд╛рд░рдд рдХреЗ рд▓рд┐рдП рдКрд░реНрдЬрд╛ рд╕реНрдЯрд╛рд░ рд╕реНрдХреЛрд░ рдХреА рд╕рдВрдЦреНрдпрд╛ рдХреА рднрд╡рд┐рд╖реНрдпрд╡рд╛рдгреА рдХрд░рддрд╛ рд╣реИ, рдФрд░ рдЕрдВрддрд┐рдо рд╕реНрдХреЛрд░ рдХреЛ рдкреНрд░рднрд╛рд╡рд┐рдд рдХрд░рдиреЗ рд╡рд╛рд▓реЗ рдХрд╛рд░рдХреЛрдВ рдХреЛ рдЦреЛрдЬрдиреЗ рдХреЗ рд▓рд┐рдП рдкрд░рд┐рдгрд╛рдореЛрдВ рдХреА рд╡реНрдпрд╛рдЦреНрдпрд╛ рдХрд░рддрд╛ рд╣реИред
рдбреЗрдЯрд╛ рдореЗрдВ рдкрд╣рд▓реЗ рд╕реЗ рд╣реА рдПрдирд░реНрдЬреА рд╕реНрдЯрд╛рд░ рд╕реНрдХреЛрд░ рд╢рд╛рдорд┐рд▓ рд╣реИ, рдЗрд╕рд▓рд┐рдП рд╣рдорд╛рд░рд╛ рдХрд╛рд░реНрдп рдирд┐рдпрдВрддреНрд░рд┐рдд рдкреНрд░рддрд┐рдЧрдорди рдХреЗ рд╕рд╛рде рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рд╣реИ:
- рдкрд░реНрдпрд╡реЗрдХреНрд╖рд┐рдд: рд╣рдо рд╕рдВрдХреЗрддреЛрдВ рдФрд░ рдЙрджреНрджреЗрд╢реНрдп рдХреЛ рдЬрд╛рдирддреЗ рд╣реИрдВ, рдФрд░ рд╣рдорд╛рд░рд╛ рдХрд╛рд░реНрдп рдПрдХ рдореЙрдбрд▓ рдХреЛ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рдХрд░рдирд╛ рд╣реИ рдЬреЛ рдкрд╣рд▓реЗ рдХреА рддреБрд▓рдирд╛ рджреВрд╕рд░реЗ рдХреЗ рд╕рд╛рде рдХрд░ рд╕рдХрддрд╛ рд╣реИред
- рд░рд┐рдЧреНрд░реЗрд╢рди: рдПрдирд░реНрдЬреА рд╕реНрдЯрд╛рд░ рд╕реНрдХреЛрд░ рдПрдХ рдирд┐рд░рдВрддрд░ рдкрд░рд┐рд╡рд░реНрддрдирд╢реАрд▓ рд╣реИред
рд╣рдорд╛рд░реЗ рдореЙрдбрд▓ рдХреЛ рд╕рдЯреАрдХ рд╣реЛрдирд╛ рдЪрд╛рд╣рд┐рдП - рддрд╛рдХрд┐ рдпрд╣ рдПрдирд░реНрдЬреА рд╕реНрдЯрд╛рд░ рд╕реНрдХреЛрд░ рдХреЗ рдореВрд▓реНрдп рдХреА рднрд╡рд┐рд╖реНрдпрд╡рд╛рдгреА рд╕рд╣реА - рдФрд░ рд╡реНрдпрд╛рдЦреНрдпрд╛рддреНрдордХ рдХреЗ рдХрд░реАрдм рдХрд░ рд╕рдХреЗ - рддрд╛рдХрд┐ рд╣рдо рдЗрд╕рдХреА рднрд╡рд┐рд╖реНрдпрд╡рд╛рдгрд┐рдпреЛрдВ рдХреЛ рд╕рдордЭ рд╕рдХреЗрдВред рд▓рдХреНрд╖реНрдп рдбреЗрдЯрд╛ рдХреЛ рдЬрд╛рдирддреЗ рд╣реБрдП, рд╣рдо рдирд┐рд░реНрдгрдп рд▓реЗрддреЗ рд╕рдордп рдЙрдирдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ рдХреНрдпреЛрдВрдХрд┐ рд╣рдо рдбреЗрдЯрд╛ рдореЗрдВ рдЧрд╣рд░рд╛рдИ рд╕реЗ рдЬрд╛рддреЗ рд╣реИрдВ рдФрд░ рдореЙрдбрд▓ рдмрдирд╛рддреЗ рд╣реИрдВред
рдбреЗрдЯрд╛ рдХреА рд╕рдлрд╛рдИ
рд╣рд░ рдбреЗрдЯрд╛ рд╕реЗрдЯ рд╡рд┐рд╕рдВрдЧрддрд┐рдпреЛрдВ рдФрд░ рд▓рд╛рдкрддрд╛ рдореВрд▓реНрдпреЛрдВ (
mtcars рдФрд░
рдЖрдИрд░рд┐рд╕ рдбреЗрдЯрд╛рд╕реЗрдЯ рдкрд░ рдПрдХ рд╕рдВрдХреЗрдд) рдХреЗ рдмрд┐рдирд╛, рдЯрд┐рдкреНрдкрдгрд┐рдпреЛрдВ рдХрд╛ рдПрдХ рдкреВрд░реА рддрд░рд╣ рд╕реЗ рдорд┐рд▓рд╛рди рд╕реЗрдЯ рд╣реИред рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдбреЗрдЯрд╛ рдореЗрдВ, рдереЛрдбрд╝рд╛ рдЖрджреЗрд╢ рд╣реЛрддрд╛ рд╣реИ, рдЗрд╕рд▓рд┐рдП рд╡рд┐рд╢реНрд▓реЗрд╖рдг рд╢реБрд░реВ рдХрд░рдиреЗ рд╕реЗ рдкрд╣рд▓реЗ, рдЖрдкрдХреЛ
рдЗрд╕реЗ рдЦрд╛рд▓реА рдХрд░рдиреЗ рдФрд░ рд╕реНрд╡реАрдХрд╛рд░реНрдп рдкреНрд░рд╛рд░реВрдк рдореЗрдВ
рд▓рд╛рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИред рдЕрдзрд┐рдХрд╛рдВрд╢ рдбреЗрдЯрд╛ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХрд╛рд░реНрдпреЛрдВ рдХреЛ рд╣рд▓ рдХрд░рдиреЗ рдореЗрдВ рдбреЗрдЯрд╛ рдХреА рд╕рдлрд╛рдИ рдПрдХ рдЕрдкреНрд░рд┐рдп рд▓реЗрдХрд┐рди рдЕрдирд┐рд╡рд╛рд░реНрдп рдкреНрд░рдХреНрд░рд┐рдпрд╛ рд╣реИред
рд╕рдмрд╕реЗ рдкрд╣рд▓реЗ, рдЖрдк рдкрдВрдбреЛрдВ рдХреЗ рдбреЗрдЯрд╛рдлреНрд░реЗрдо рдХреЗ рд░реВрдк рдореЗрдВ рдбреЗрдЯрд╛ рдХреЛ рд▓реЛрдб рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ рдФрд░ рдЙрдирдХреА рдЬрд╛рдВрдЪ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ:
import pandas as pd import numpy as np # Read in data into a dataframe data = pd.read_csv('data/Energy_and_Water_Data_Disclosure_for_Local_Law_84_2017__Data_for_Calendar_Year_2016_.csv') # Display top of dataframe data.head()
рдпрд╣ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдбреЗрдЯрд╛ рджрд┐рдЦрддрд╛ рд╣реИредрдпрд╣ 60 рд╕реНрддрдВрднреЛрдВ рдХреА рддрд╛рд▓рд┐рдХрд╛ рдХрд╛ рдПрдХ рдЯреБрдХрдбрд╝рд╛ рд╣реИред рдпрд╣рд╛рдВ рднреА, рдХрдИ рд╕рдорд╕реНрдпрд╛рдПрдВ рджрд┐рдЦрд╛рдИ рджреЗрддреА рд╣реИрдВ: рд╣рдореЗрдВ
Energy Star Score
рднрд╡рд┐рд╖реНрдпрд╡рд╛рдгреА рдХрд░рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ, рд▓реЗрдХрд┐рди рд╣рдореЗрдВ рдирд╣реАрдВ рдкрддрд╛ рдХрд┐ рдЗрди рд╕рднреА рдХреЙрд▓рдореЛрдВ рдХрд╛ рдХреНрдпрд╛ рдорддрд▓рдм рд╣реИред рд╣рд╛рд▓рд╛рдВрдХрд┐ рдпрд╣ рдЬрд░реВрд░реА рд╕рдорд╕реНрдпрд╛ рдирд╣реАрдВ рд╣реИ, рдХреНрдпреЛрдВрдХрд┐ рдЖрдк рдЕрдХреНрд╕рд░ рдЪрд░ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдХреБрдЫ рднреА рдЬрд╛рдирдиреЗ рдХреЗ рдмрд┐рдирд╛ рдПрдХ рд╕рдЯреАрдХ рдореЙрдбрд▓ рдмрдирд╛ рд╕рдХрддреЗ рд╣реИрдВред рд▓реЗрдХрд┐рди рд╡реНрдпрд╛рдЦреНрдпрд╛ рд╣рдорд╛рд░реЗ рд▓рд┐рдП рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╣реИ, рдЗрд╕рд▓рд┐рдП рд╣рдореЗрдВ рдХрдо рд╕реЗ рдХрдо рдХреБрдЫ рд╕реНрддрдВрднреЛрдВ рдХреЗ рдЕрд░реНрде рдХрд╛ рдкрддрд╛ рд▓рдЧрд╛рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИред
рдЬрдм рд╣рдореЗрдВ рдпрд╣ рдбреЗрдЯрд╛ рдорд┐рд▓рд╛, рддреЛ рд╣рдордиреЗ рдореВрд▓реНрдпреЛрдВ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдирд╣реАрдВ рдкреВрдЫрд╛, рд▓реЗрдХрд┐рди рдлрд╝рд╛рдЗрд▓ рдирд╛рдо рдкрд░ рдЧреМрд░ рдХрд┐рдпрд╛:

рдФрд░ "рд╕реНрдерд╛рдиреАрдп рдХрд╛рдиреВрди 84" рдХреА рдЦреЛрдЬ рдХрд░рдиреЗ рдХрд╛ рдирд┐рд░реНрдгрдп рд▓рд┐рдпрд╛ред рд╣рдореЗрдВ
рдпрд╣ рдкреГрд╖реНрда рдорд┐рд▓рд╛, рдЬрд┐рд╕рдореЗрдВ рдХрд╣рд╛ рдЧрдпрд╛ рдерд╛ рдХрд┐ рдпрд╣ рдПрдХ рдиреНрдпреВрдпреЙрд░реНрдХ рдХрд╛рдиреВрди рдерд╛, рдЬрд┐рд╕рдХреЗ рдЕрдиреБрд╕рд╛рд░ рдПрдХ рдирд┐рд╢реНрдЪрд┐рдд рдЖрдХрд╛рд░ рдХреЗ рд╕рднреА рднрд╡рдиреЛрдВ рдХреЗ рдорд╛рд▓рд┐рдХреЛрдВ рдХреЛ рдКрд░реНрдЬрд╛ рдХреА рдЦрдкрдд рдкрд░ рд░рд┐рдкреЛрд░реНрдЯ рдХрд░рдиреА рдЪрд╛рд╣рд┐рдПред рдПрдХ рдФрд░ рдЦреЛрдЬ рдиреЗ
рд╕рднреА рд╕реНрддрдВрдн рдорд╛рдиреЛрдВ рдХреЛ рдЦреЛрдЬрдиреЗ рдореЗрдВ рдорджрдж рдХреАред рдЗрд╕рд▓рд┐рдП рдлрд╝рд╛рдЗрд▓ рдирд╛рдореЛрдВ рдХреА рдЙрдкреЗрдХреНрд╖рд╛ рди рдХрд░реЗрдВ, рд╡реЗ рдПрдХ рдЕрдЪреНрдЫрд╛ рдкреНрд░рд╛рд░рдВрднрд┐рдХ рдмрд┐рдВрджреБ рд╣реЛ рд╕рдХрддреЗ рд╣реИрдВред рдЗрд╕рдХреЗ рдЕрд▓рд╛рд╡рд╛, рдпрд╣ рдПрдХ рдЕрдиреБрд╕реНрдорд╛рд░рдХ рд╣реИ рдХрд┐ рдЖрдк рдЬрд▓реНрджреА рдордд рдХрд░реЛ рдФрд░ рдХреБрдЫ рдорд╣рддреНрд╡рдкреВрд░реНрдг рдпрд╛рдж рдордд рдХрд░реЛ!
рд╣рдо рд╕рднреА рд╕реНрддрдВрднреЛрдВ рдХрд╛ рдЕрдзреНрдпрдпрди рдирд╣реАрдВ рдХрд░реЗрдВрдЧреЗ, рд▓реЗрдХрд┐рди рд╣рдо рдирд┐рд╢реНрдЪрд┐рдд рд░реВрдк рд╕реЗ рдПрдирд░реНрдЬреА рд╕реНрдЯрд╛рд░ рд╕реНрдХреЛрд░ рд╕реЗ рдирд┐рдкрдЯреЗрдВрдЧреЗ, рдЬреЛ рдЗрд╕ рдкреНрд░рдХрд╛рд░ рд╣реИ:
рдкрд░реНрд╕реЗрдВрдЯрд╛рдЗрд▓ рд░реИрдВрдХрд┐рдВрдЧ 1 рд╕реЗ 100 рддрдХ рд╣реИ, рдЬрд┐рд╕рдХреА рдЧрдгрдирд╛ рднрд╡рди рдорд╛рд▓рд┐рдХреЛрдВ рджреНрд╡рд╛рд░рд╛ рд╕реНрд╡рдпрдВ рдКрд░реНрдЬрд╛ рдЦрдкрдд рдкрд░ рд╡рд╛рд░реНрд╖рд┐рдХ рд░рд┐рдкреЛрд░реНрдЯ рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рдХреА рдЬрд╛рддреА рд╣реИред рдПрдирд░реНрдЬреА рд╕реНрдЯрд╛рд░ рд╕реНрдХреЛрд░ рдПрдХ рд╕рд╛рдкреЗрдХреНрд╖ рдорд╛рдк рд╣реИ рдЬрд┐рд╕рдХрд╛ рдЙрдкрдпреЛрдЧ рдЗрдорд╛рд░рддреЛрдВ рдХреЗ рдКрд░реНрдЬрд╛ рдкреНрд░рджрд░реНрд╢рди рдХреА рддреБрд▓рдирд╛ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред
рдкрд╣рд▓реА рд╕рдорд╕реНрдпрд╛ рд╣рд▓ рд╣реЛ рдЧрдИ, рд▓реЗрдХрд┐рди рджреВрд╕рд░реА рдмрдиреА рд░рд╣реА - рдЧрд╛рдпрдм рдорд╛рди, "рдЙрдкрд▓рдмреНрдз рдирд╣реАрдВ" рдХреЗ рд░реВрдк рдореЗрдВ рдЪрд┐рд╣реНрдирд┐рддред рдпрд╣ рдкрд╛рдпрдерди рдореЗрдВ рдПрдХ рд╕реНрдЯреНрд░рд┐рдВрдЧ рдорд╛рди рд╣реИ, рдЬрд┐рд╕рдХрд╛ рдЕрд░реНрде рд╣реИ рдХрд┐ рд╕рдВрдЦреНрдпрд╛рдУрдВ рдХреЗ рд╕рд╛рде рддрд╛рд░ рднреА
object
рдбреЗрдЯрд╛ рдкреНрд░рдХрд╛рд░реЛрдВ рдХреЗ рд░реВрдк рдореЗрдВ рд╕рдВрдЧреНрд░рд╣реАрдд рдХрд┐рдП рдЬрд╛рдПрдВрдЧреЗ, рдХреНрдпреЛрдВрдХрд┐ рдпрджрд┐ рд╕реНрддрдВрдн рдореЗрдВ рдХреЛрдИ рд╕реНрдЯреНрд░рд┐рдВрдЧ рд╣реИ, рддреЛ рдкрд╛рдВрдбрд╕ рдЗрд╕реЗ рдПрдХ рд╕реНрддрдВрдн рдореЗрдВ рдкрд░рд┐рд╡рд░реНрддрд┐рдд рдХрд░рддрд╛ рд╣реИ рдЬрд┐рд╕рдореЗрдВ рдкреВрд░реА рддрд░рд╣ рд╕реЗ рд╕реНрдЯреНрд░рд┐рдВрдЧ рд╣реЛрддреЗ рд╣реИрдВред рд╕реНрддрдВрдн рдбреЗрдЯрд╛ рдкреНрд░рдХрд╛рд░
dataframe.info()
рд╡рд┐рдзрд┐ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдкрд╛рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ:
# See the column data types and non-missing values data.info()

рдирд┐рд╢реНрдЪрд┐рдд рд░реВрдк рд╕реЗ рдХреБрдЫ рдХреЙрд▓рдо рдЬрд┐рдирдореЗрдВ рд╕реНрдкрд╖реНрдЯ рд░реВрдк рд╕реЗ рд╕рдВрдЦреНрдпрд╛рдПрдБ рд╣реЛрддреА рд╣реИрдВ (рдЬреИрд╕реЗ ft are) рд╡рд╕реНрддреБрдУрдВ рдХреЗ рд░реВрдк рдореЗрдВ рд╕рдВрдЧреНрд░рд╣реАрдд рдХреА рдЬрд╛рддреА рд╣реИрдВред рд╣рдо рд╕реНрдЯреНрд░рд┐рдВрдЧ рдорд╛рдиреЛрдВ рдХреЗ рд▓рд┐рдП рд╕рдВрдЦреНрдпрд╛рддреНрдордХ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рд▓рд╛рдЧреВ рдирд╣реАрдВ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ, рдЗрд╕рд▓рд┐рдП рд╣рдо рдЙрдиреНрд╣реЗрдВ рд╕рдВрдЦреНрдпрд╛рддреНрдордХ рдбреЗрдЯрд╛ рдкреНрд░рдХрд╛рд░реЛрдВ (рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ
float
) рдореЗрдВ рдкрд░рд┐рд╡рд░реНрддрд┐рдд рдХрд░рддреЗ рд╣реИрдВ!
рдпрд╣ рдХреЛрдб рдкрд╣рд▓реЗ рд╕рднреА "рдиреЙрдЯ рдЕрд╡реЗрд▓реЗрдмрд▓" рдХреЛ
рдПрдХ рдирдВрдмрд░ (
np.nan
) рд╕реЗ рдмрджрд▓ рджреЗрддрд╛ рд╣реИ, рдЬрд┐рд╕реЗ рд╕рдВрдЦреНрдпрд╛ рдХреЗ рд░реВрдк рдореЗрдВ рд╡реНрдпрд╛рдЦреНрдпрд╛ рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ, рдФрд░ рдлрд┐рд░ рдХреБрдЫ рдХреЙрд▓рдо рдХреА рд╕рд╛рдордЧреНрд░реА рдХреЛ рдПрдХ
float
рдкреНрд░рдХрд╛рд░ рдореЗрдВ рдкрд░рд┐рд╡рд░реНрддрд┐рдд рдХрд░рддрд╛ рд╣реИ:
# Replace all occurrences of Not Available with numpy not a number data = data.replace({'Not Available': np.nan}) # Iterate through the columns for col in list(data.columns): # Select columns that should be numeric if ('ft┬▓' in col or 'kBtu' in col or 'Metric Tons CO2e' in col or 'kWh' in col or 'therms' in col or 'gal' in col or 'Score' in col): # Convert the data type to float data[col] = data[col].astype(float)
рдЬрдм рд╣рдорд╛рд░реЗ рд╕рд╛рде рд╕рдВрдмрдВрдзрд┐рдд рдХреЙрд▓рдо рдореЗрдВ рдорд╛рди рд╕рдВрдЦреНрдпрд╛ рдмрди рдЬрд╛рддреЗ рд╣реИрдВ, рддреЛ рд╣рдо рдбреЗрдЯрд╛ рдХреА рдЬрд╛рдВрдЪ рдХрд░рдирд╛ рд╢реБрд░реВ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред
рдЧреБрдо рдФрд░ рдЕрд╕рд╛рдорд╛рдиреНрдп рдбреЗрдЯрд╛
рдЧрд▓рдд рдбреЗрдЯрд╛ рдкреНрд░рдХрд╛рд░реЛрдВ рдХреЗ рд╕рд╛рде, рд╕рдмрд╕реЗ рдЖрдо рд╕рдорд╕реНрдпрд╛рдУрдВ рдореЗрдВ рд╕реЗ рдПрдХ рд▓рд╛рдкрддрд╛ рдорд╛рди рд╣реИред рд╡реЗ рд╡рд┐рднрд┐рдиреНрди рдХрд╛рд░рдгреЛрдВ рд╕реЗ рдЕрдиреБрдкрд╕реНрдерд┐рдд рд╣реЛ рд╕рдХрддреЗ рд╣реИрдВ, рдФрд░ рдореЙрдбрд▓ рдХреЛ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рдХрд░рдиреЗ рд╕реЗ рдкрд╣рд▓реЗ, рдЗрди рдореВрд▓реНрдпреЛрдВ рдХреЛ рдпрд╛ рддреЛ рднрд░рд╛ рдЬрд╛рдирд╛ рдЪрд╛рд╣рд┐рдП рдпрд╛ рд╣рдЯрд╛ рджрд┐рдпрд╛ рдЬрд╛рдирд╛ рдЪрд╛рд╣рд┐рдПред рдкрд╣рд▓реЗ, рдЖрдЗрдП рдЬрд╛рдиреЗрдВ рдХрд┐ рдкреНрд░рддреНрдпреЗрдХ рдХреЙрд▓рдо рдореЗрдВ рд╣рдорд╛рд░реЗ рдкрд╛рд╕ рдХрд┐рддрдиреЗ рдорд╛рди рд╣реИрдВ (
рдХреЛрдб рдпрд╣рд╛рдВ рд╣реИ )ред
рдПрдХ рддрд╛рд▓рд┐рдХрд╛ рдмрдирд╛рдиреЗ рдХреЗ рд▓рд┐рдП, StackOverflow рдкрд░ рдПрдХ рд╢рд╛рдЦрд╛ рд╕реЗ рдПрдХ рдлрд╝рдВрдХреНрд╢рди рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛ редрдЬрд╛рдирдХрд╛рд░реА рдХреЛ рд╣рдореЗрд╢рд╛ рд╕рд╛рд╡рдзрд╛рдиреА рдХреЗ рд╕рд╛рде рд╣рдЯрд╛рдпрд╛ рдЬрд╛рдирд╛ рдЪрд╛рд╣рд┐рдП, рдФрд░ рдпрджрд┐ рд╕реНрддрдВрдн рдореЗрдВ рдХрдИ рдорд╛рди рд╣реИрдВ, рддреЛ рд╕рдВрднрд╡рддрдГ рдпрд╣ рд╣рдорд╛рд░реЗ рдореЙрдбрд▓ рдХреЛ рд▓рд╛рдн рдирд╣реАрдВ рджреЗрдЧрд╛ред рд╡рд╣ рд╕реАрдорд╛ рдЬрд┐рд╕рдХреЗ рдмрд╛рдж рд╕реНрддрдВрднреЛрдВ рдХреЛ рдмрд╛рд╣рд░ рдлреЗрдВрдХрдирд╛ рдмреЗрд╣рддрд░ рд╣реЛрддрд╛ рд╣реИ, рдЖрдкрдХреЗ рдХрд╛рд░реНрдп рдкрд░ рдирд┐рд░реНрднрд░ рдХрд░рддрд╛ рд╣реИ (
рдпрд╣рд╛рдВ рдПрдХ рдЪрд░реНрдЪрд╛ рд╣реИ ), рдФрд░ рд╣рдорд╛рд░реА рдкрд░рд┐рдпреЛрдЬрдирд╛ рдореЗрдВ рд╣рдо рдЙрди рд╕реНрддрдВрднреЛрдВ рдХреЛ рд╣рдЯрд╛ рджреЗрдВрдЧреЗ рдЬреЛ рдЖрдзреЗ рд╕реЗ рдЕрдзрд┐рдХ рдЦрд╛рд▓реА рд╣реИрдВред
рдЗрд╕ рд╕реНрддрд░ рдкрд░ рднреА рдЕрд╕рд╛рдорд╛рдиреНрдп рдореВрд▓реНрдпреЛрдВ рдХреЛ рджреВрд░ рдХрд░рдирд╛ рдмреЗрд╣рддрд░ рд╣реИред рдбреЗрдЯрд╛ рджрд░реНрдЬ рдХрд░рддреЗ рд╕рдордп рдпрд╛ рдорд╛рдк рдХреА рдЗрдХрд╛рдЗрдпреЛрдВ рдореЗрдВ рддреНрд░реБрдЯрд┐рдпреЛрдВ рдХреЗ рдХрд╛рд░рдг рд╡реЗ рдЯрд╛рдЗрдкреЛрд╕ рдХреЗ рдХрд╛рд░рдг рд╣реЛ рд╕рдХрддреЗ рд╣реИрдВ, рдпрд╛ рд╡реЗ рд╕рд╣реА рд╣реЛ рд╕рдХрддреЗ рд╣реИрдВ, рд▓реЗрдХрд┐рди рдЪрд░рдо рдорд╛рдиред рдЗрд╕ рдорд╛рдорд▓реЗ рдореЗрдВ, рд╣рдо "рдЕрддрд┐рд░рд┐рдХреНрдд" рдореВрд▓реНрдпреЛрдВ рдХреЛ рд╣рдЯрд╛ рджреЗрдВрдЧреЗ,
рдЪрд░рдо рд╡рд┐рд╕рдВрдЧрддрд┐рдпреЛрдВ рдХреА
рдкрд░рд┐рднрд╛рд╖рд╛ рджреНрд╡рд╛рд░рд╛ рдирд┐рд░реНрджреЗрд╢рд┐рдд:
- рдкрд╣рд▓реА рдЪрддреБрд░реНрдердХ рдХреЗ рдиреАрдЪреЗ рдПрдХ 3 ile рдЗрдВрдЯрд░рдХреНрд╡реЗрд░реНрдЯрд╛рдЗрд▓ рд░реЗрдВрдЬ рд╣реИред
- рддреАрд╕рд░реЗ рдЪрддреБрд░реНрдердХ рд╕реЗ рдКрдкрд░ + 3 third рдЗрдВрдЯрд░рдХреНрд╡реЗрд░реНрдЯрд╛рдЗрд▓ рд░реЗрдВрдЬред
рдХреЙрд▓рдо рдФрд░ рд╡рд┐рд╕рдВрдЧрддрд┐рдпреЛрдВ рдХреЛ рджреВрд░ рдХрд░рдиреЗ рд╡рд╛рд▓реЗ рдХреЛрдб рдХреЛ рдЬреАрдереВрдм рдкрд░ рдиреЛрдЯрдкреИрдб рдкрд░ рд╕реВрдЪреАрдмрджреНрдз рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИред рдбреЗрдЯрд╛ рдХреНрд▓реАрдВрдЬрд┐рдВрдЧ рдкреНрд░рдХреНрд░рд┐рдпрд╛ рдкреВрд░реА рд╣реЛрдиреЗ рдФрд░ рд╡рд┐рд╕рдВрдЧрддрд┐рдпреЛрдВ рдХреЛ рджреВрд░ рдХрд░рдиреЗ рдкрд░, рд╣рдорд╛рд░реЗ рдкрд╛рд╕ 11,000 рд╕реЗ рдЕрдзрд┐рдХ рднрд╡рди рдФрд░ 49 рд╕рдВрдХреЗрдд рд╣реИрдВред
рд╡реНрдпрд╛рдЦреНрдпрд╛рддреНрдордХ рдбреЗрдЯрд╛ рд╡рд┐рд╢реНрд▓реЗрд╖рдг
рдбреЗрдЯрд╛ рд╕рдлрд╛рдИ рдХрд╛ рдЙрдмрд╛рдК, рд▓реЗрдХрд┐рди рдЖрд╡рд╢реНрдпрдХ рдЪрд░рдг рд╕рдорд╛рдкреНрдд рд╣реЛ рдЧрдпрд╛ рд╣реИ, рдЖрдк рдЕрдзреНрдпрдпрди рдХреЗ рд▓рд┐рдП рдЬрд╛ рд╕рдХрддреЗ рд╣реИрдВ!
рдЦреЛрдЬрдкреВрд░реНрдг рдбреЗрдЯрд╛ рд╡рд┐рд╢реНрд▓реЗрд╖рдг (рдЖрд░рдПрдбреА) рдПрдХ рдЕрд╕реАрдорд┐рдд рд╕рдордп рдкреНрд░рдХреНрд░рд┐рдпрд╛ рд╣реИ рдЬрд┐рд╕рдХреЗ рджреМрд░рд╛рди рд╣рдо рдЖрдВрдХрдбрд╝реЛрдВ рдХреА рдЧрдгрдирд╛ рдХрд░рддреЗ рд╣реИрдВ рдФрд░ рдбреЗрдЯрд╛ рдореЗрдВ рд░реБрдЭрд╛рди, рд╡рд┐рд╕рдВрдЧрддрд┐рдпреЛрдВ, рдкреИрдЯрд░реНрди рдпрд╛ рд╕рдВрдмрдВрдзреЛрдВ рдХреА рддрд▓рд╛рд╢ рдХрд░рддреЗ рд╣реИрдВред
рд╕рдВрдХреНрд╖реЗрдк рдореЗрдВ, рдЖрд░рдПрдбреА рдпрд╣ рдкрддрд╛ рд▓рдЧрд╛рдиреЗ рдХрд╛ рдПрдХ рдкреНрд░рдпрд╛рд╕ рд╣реИ рдХрд┐ рдбреЗрдЯрд╛ рд╣рдореЗрдВ рдХреНрдпрд╛ рдмрддрд╛ рд╕рдХрддрд╛ рд╣реИред рдЖрдорддреМрд░ рдкрд░, рд╡рд┐рд╢реНрд▓реЗрд╖рдг рд╕рддрд╣ рдХреА рд╕рдореАрдХреНрд╖рд╛ рдХреЗ рд╕рд╛рде рд╢реБрд░реВ рд╣реЛрддрд╛ рд╣реИ, рдлрд┐рд░ рд╣рдо рджрд┐рд▓рдЪрд╕реНрдк рдЯреБрдХрдбрд╝реЗ рдвреВрдВрдврддреЗ рд╣реИрдВ рдФрд░ рдЙрдиреНрд╣реЗрдВ рдФрд░ рдЕрдзрд┐рдХ рд╡рд┐рд╕реНрддрд╛рд░ рд╕реЗ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХрд░рддреЗ рд╣реИрдВред рдирд┐рд╖реНрдХрд░реНрд╖ рдЕрдкрдиреЗ рдЖрдк рдореЗрдВ рджрд┐рд▓рдЪрд╕реНрдк рд╣реЛ рд╕рдХрддреЗ рд╣реИрдВ, рдпрд╛ рд╡реЗ рдореЙрдбрд▓ рдХреА рдкрд╕рдВрдж рдореЗрдВ рдпреЛрдЧрджрд╛рди рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ, рдпрд╣ рддрдп рдХрд░рдиреЗ рдореЗрдВ рдорджрдж рдХрд░рддреЗ рд╣реИрдВ рдХрд┐ рд╣рдо рдХрд┐рди рд╡рд┐рд╢реЗрд╖рддрд╛рдУрдВ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░реЗрдВрдЧреЗред
рдПрдХрд▓-рдЪрд░ рд░реЗрдЦрд╛рдВрдХрди
рд╣рдорд╛рд░рд╛ рд▓рдХреНрд╖реНрдп рдКрд░реНрдЬрд╛ рд╕реНрдЯрд╛рд░ рд╕реНрдХреЛрд░ (рд╣рдорд╛рд░реЗ рдбреЗрдЯрд╛ рдореЗрдВ рд╣рдорд╛рд░реЗ
score
рдирд╛рдо) рдХреЗ рдореВрд▓реНрдп рдХреА рднрд╡рд┐рд╖реНрдпрд╡рд╛рдгреА рдХрд░рдирд╛ рд╣реИ, рдЗрд╕рд▓рд┐рдП рдпрд╣ рдЗрд╕ рдЪрд░ рдХреЗ рд╡рд┐рддрд░рдг рдХреА рдЬрд╛рдВрдЪ рдХрд░рдХреЗ рд╢реБрд░реВ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рд╕рдордЭ рдореЗрдВ рдЖрддрд╛ рд╣реИред рдПрдХ рд╣рд┐рд╕реНрдЯреЛрдЧреНрд░рд╛рдо рдПрдХ рдПрдХрд▓ рдЪрд░ рдХреЗ рд╡рд┐рддрд░рдг рдХреА рдХрд▓реНрдкрдирд╛ рдХрд░рдиреЗ рдХрд╛ рдПрдХ рд╕рд░рд▓ рд▓реЗрдХрд┐рди рдкреНрд░рднрд╛рд╡реА рддрд░реАрдХрд╛ рд╣реИ, рдФрд░ рдЗрд╕реЗ рдЖрд╕рд╛рдиреА рд╕реЗ
matplotlib
рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдмрдирд╛рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИред
import matplotlib.pyplot as plt # Histogram of the Energy Star Score plt.style.use('fivethirtyeight') plt.hist(data['score'].dropna(), bins = 100, edgecolor = 'k'); plt.xlabel('Score'); plt.ylabel('Number of Buildings'); plt.title('Energy Star Score Distribution');

рд╕рдВрджрд┐рдЧреНрдз рд▓рдЧ рд░рд╣рд╛ рд╣реИ! рдПрдирд░реНрдЬреА рд╕реНрдЯрд╛рд░ рд╕реНрдХреЛрд░ рдПрдХ рдкреНрд░рддрд┐рд╢рдд рд╣реИ, рдЗрд╕рд▓рд┐рдП рдЖрдкрдХреЛ рд╕рдорд╛рди рд╡рд┐рддрд░рдг рдХреА рдЙрдореНрдореАрдж рдХрд░рдиреА рдЪрд╛рд╣рд┐рдП рдЬрдм рдкреНрд░рддреНрдпреЗрдХ рдмрд┐рдВрджреБ рдХреЛ рд╕рдорд╛рди рд╕рдВрдЦреНрдпрд╛ рдореЗрдВ рднрд╡рдиреЛрдВ рдХреЛ рд╕реМрдВрдкрд╛ рдЬрд╛рдПред рд╣рд╛рд▓рд╛рдБрдХрд┐, рдПрдХ рдмрдбрд╝реА рд╕рдВрдЦреНрдпрд╛ рдореЗрдВ рдЗрдорд╛рд░рддреЛрдВ рдХреЛ рдЙрдЪреНрдЪрддрдо рдФрд░ рдирд┐рдореНрдирддрдо рдкрд░рд┐рдгрд╛рдо рдкреНрд░рд╛рдкреНрдд рд╣реБрдП (рдКрд░реНрдЬрд╛ рд╕реНрдЯрд╛рд░ рд╕реНрдХреЛрд░ рдХреЗ рд▓рд┐рдП, рдЬрд┐рддрдирд╛ рдмрдбрд╝рд╛ рдЙрддрдирд╛ рд╣реА рдмреЗрд╣рддрд░)ред
рдЕрдЧрд░ рд╣рдо рдлрд┐рд░ рд╕реЗ рдЗрд╕ рд╕реНрдХреЛрд░ рдХреА рдкрд░рд┐рднрд╛рд╖рд╛ рдХреЛ рджреЗрдЦрддреЗ рд╣реИрдВ, рддреЛ рд╣рдо рджреЗрдЦреЗрдВрдЧреЗ рдХрд┐ рдЗрд╕рдХреА рдЧрдгрдирд╛ "рднрд╡рди рд╕реНрд╡рд╛рдорд┐рдпреЛрдВ рджреНрд╡рд╛рд░рд╛ рд╕реНрд╡рддрдВрддреНрд░ рд░реВрдк рд╕реЗ рднрд░реА рдЧрдИ рд░рд┐рдкреЛрд░реНрдЯ" рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рдХреА рдЬрд╛рддреА рд╣реИ, рдЬреЛ рдмрд╣реБрдд рдмрдбрд╝реЗ рдореВрд▓реНрдпреЛрдВ рдХреА рдЕрдзрд┐рдХрддрд╛ рдХреЛ рд╕рдордЭрд╛ рд╕рдХрддреА рд╣реИред рднрд╡рди рдорд╛рд▓рд┐рдХреЛрдВ рд╕реЗ рдЙрдирдХреА рдКрд░реНрдЬрд╛ рдЦрдкрдд рдХреА рд░рд┐рдкреЛрд░реНрдЯ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрд╣рдирд╛ рдЫрд╛рддреНрд░реЛрдВ рдХреЛ рдкрд░реАрдХреНрд╖рд╛ рдореЗрдВ рдЕрдкрдиреЗ рдЧреНрд░реЗрдб рдХреА рд░рд┐рдкреЛрд░реНрдЯ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрд╣рдиреЗ рдЬреИрд╕рд╛ рд╣реИред рддреЛ рдпрд╣ рд╢рд╛рдпрдж рдЕрдЪрд▓ рд╕рдВрдкрддреНрддрд┐ рдХреА рдКрд░реНрдЬрд╛ рджрдХреНрд╖рддрд╛ рдХрд╛ рдЖрдХрд▓рди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рд╕рдмрд╕реЗ рдЙрджреНрджреЗрд╢реНрдп рдорд╛рдирджрдВрдб рдирд╣реАрдВ рд╣реИред
рдпрджрд┐ рд╣рдорд╛рд░реЗ рдкрд╛рд╕ рд╕рдордп рдХреА рдЕрд╕реАрдорд┐рдд рдЖрдкреВрд░реНрддрд┐ рд╣реЛрддреА, рддреЛ рд╣рдо рдпрд╣ рдкрддрд╛ рд▓рдЧрд╛ рд╕рдХрддреЗ рдереЗ рдХрд┐ рдЗрддрдиреА рд╕рд╛рд░реА рдЗрдорд╛рд░рддреЛрдВ рдХреЛ рдмрд╣реБрдд рдЕрдзрд┐рдХ рдФрд░ рдмрд╣реБрдд рдХрдо рдЕрдВрдХ рдорд┐рд▓реЗред рдРрд╕рд╛ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, рд╣рдореЗрдВ рдЙрдкрдпреБрдХреНрдд рдЗрдорд╛рд░рддреЛрдВ рдХреЛ рдЪреБрдирдирд╛ рд╣реЛрдЧрд╛ рдФрд░ рдЙрдирдХрд╛ рд╕рд╛рд╡рдзрд╛рдиреАрдкреВрд░реНрд╡рдХ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХрд░рдирд╛ рд╣реЛрдЧрд╛ред рд▓реЗрдХрд┐рди рд╣рдореЗрдВ рдХреЗрд╡рд▓ рд╕реАрдЦрдиреЗ рдХреА рдЬрд╝рд░реВрд░рдд рд╣реИ рдХрд┐ рд╕реНрдХреЛрд░ рдХрд╛ рдкреВрд░реНрд╡рд╛рдиреБрдорд╛рди рдХреИрд╕реЗ рд▓рдЧрд╛рдпрд╛ рдЬрд╛рдП, рдФрд░ рдЕрдзрд┐рдХ рд╕рдЯреАрдХ рдореВрд▓реНрдпрд╛рдВрдХрди рдкрджреНрдзрддрд┐ рд╡рд┐рдХрд╕рд┐рдд рдирд╣реАрдВ рдХреА рдЬрд╛рдПред рдЖрдк рдЕрдкрдиреЗ рдЖрдк рдХреЛ рдЪрд┐рд╣реНрдирд┐рдд рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ рдХрд┐ рдЕрдВрдХреЛрдВ рдХрд╛ рдПрдХ рд╕рдВрджрд┐рдЧреНрдз рд╡рд┐рддрд░рдг рд╣реИ, рд▓реЗрдХрд┐рди рд╣рдо рдкреВрд░реНрд╡рд╛рдиреБрдорд╛рди рдкрд░ рдзреНрдпрд╛рди рдХреЗрдВрджреНрд░рд┐рдд рдХрд░реЗрдВрдЧреЗред
рд╕рдВрдмрдВрдз рдЦреЛрдЬ
рдПрдПрдЪрдПрдлрдЖрд░ рдХрд╛ рдореБрдЦреНрдп рд╣рд┐рд╕реНрд╕рд╛ рд╕рдВрдХреЗрддреЛрдВ рдФрд░ рд╣рдорд╛рд░реЗ рд▓рдХреНрд╖реНрдп рдХреЗ рдмреАрдЪ рд╕рдВрдмрдВрдз рдХреА рдЦреЛрдЬ рд╣реИред рдЗрд╕рдХреЗ рд╕рд╛рде рд╕рдВрдмрдВрдз рд░рдЦрдиреЗ рд╡рд╛рд▓реЗ рдЪрд░ рдореЙрдбрд▓ рдореЗрдВ рдЙрдкрдпреЛрдЧ рдХреЗ рд▓рд┐рдП рдЙрдкрдпреЛрдЧреА рд╣реЛрддреЗ рд╣реИрдВ, рдХреНрдпреЛрдВрдХрд┐ рдЙрдирдХрд╛ рдЙрдкрдпреЛрдЧ рдкреВрд░реНрд╡рд╛рдиреБрдорд╛рди рдХреЗ рд▓рд┐рдП рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИред рд▓рдХреНрд╖реНрдп рдкрд░ рдПрдХ рд╢реНрд░реЗрдгреАрдЧрдд рдЪрд░ (рдЬреЛ рдХреЗрд╡рд▓ рдореВрд▓реНрдпреЛрдВ рдХрд╛ рдПрдХ рд╕реАрдорд┐рдд рд╕реЗрдЯ рд▓реЗрддрд╛ рд╣реИ) рдХреЗ рдкреНрд░рднрд╛рд╡ рдХрд╛ рдЕрдзреНрдпрдпрди рдХрд░рдиреЗ рдХрд╛ рдПрдХ рддрд░реАрдХрд╛ рд╣реИ, рд╕реАрдмрд░реНрди рд▓рд╛рдЗрдмреНрд░реЗрд░реА рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдШрдирддреНрд╡ рдХреЛ рдкреНрд▓реЙрдЯ рдХрд░рдирд╛ред
рдШрдирддреНрд╡ рдЧреНрд░рд╛рдл рдХреЛ рдПрдХ рд╕реНрдореВрде рд╣рд┐рд╕реНрдЯреЛрдЧреНрд░рд╛рдо рдорд╛рдирд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ рдХреНрдпреЛрдВрдХрд┐ рдпрд╣ рдПрдХрд▓ рдЪрд░ рдХреЗ рд╡рд┐рддрд░рдг рдХреЛ рджрд░реНрд╢рд╛рддрд╛ рд╣реИред рдЖрдк рдЧреНрд░рд╛рдлрд╝ рдкрд░ рдЕрд▓рдЧ-рдЕрд▓рдЧ рдХрдХреНрд╖рд╛рдУрдВ рдХреЛ рджреЗрдЦ рд╕рдХрддреЗ рд╣реИрдВ рдХрд┐ рдПрдХ рд╢реНрд░реЗрдгреАрдЧрдд рдкрд░рд┐рд╡рд░реНрддрдирд╢реАрд▓ рд╡рд┐рддрд░рдг рдХреИрд╕реЗ рдмрджрд▓рддрд╛ рд╣реИред рдпрд╣ рдХреЛрдб рдПрдирд░реНрдЬреА рд╕реНрдЯрд╛рд░ рд╕реНрдХреЛрд░ рдШрдирддреНрд╡ рдЪрд╛рд░реНрдЯ рдкреНрд▓реЙрдЯ рдХрд░рддрд╛ рд╣реИ, рдЬреЛ рдЗрдорд╛рд░рдд рдХреЗ рдкреНрд░рдХрд╛рд░ рдХреЗ рдЕрдиреБрд╕рд╛рд░ рд░рдВрдЧреАрди рд╣реИ (100 рд╕реЗ рдЕрдзрд┐рдХ рдЖрдпрд╛рдореЛрдВ рд╡рд╛рд▓реА рдЗрдорд╛рд░рддреЛрдВ рдХреА рд╕реВрдЪреА рдХреЗ рд▓рд┐рдП):
# Create a list of buildings with more than 100 measurements types = data.dropna(subset=['score']) types = types['Largest Property Use Type'].value_counts() types = list(types[types.values > 100].index) # Plot of distribution of scores for building categories figsize(12, 10) # Plot each building for b_type in types: # Select the building type subset = data[data['Largest Property Use Type'] == b_type] # Density plot of Energy Star Scores sns.kdeplot(subset['score'].dropna(), label = b_type, shade = False, alpha = 0.8); # label the plot plt.xlabel('Energy Star Score', size = 20); plt.ylabel('Density', size = 20); plt.title('Density Plot of Energy Star Scores by Building Type', size = 28);

рдЬреИрд╕рд╛ рдХрд┐ рдЖрдк рджреЗрдЦ рд╕рдХрддреЗ рд╣реИрдВ, рднрд╡рди рдХрд╛ рдкреНрд░рдХрд╛рд░ рдЕрдВрдХреЛрдВ рдХреА рд╕рдВрдЦреНрдпрд╛ рдХреЛ рдмрд╣реБрдд рдкреНрд░рднрд╛рд╡рд┐рдд рдХрд░рддрд╛ рд╣реИред рдХрд╛рд░реНрдпрд╛рд▓рдп рднрд╡рдиреЛрдВ рдореЗрдВ рдЖрдорддреМрд░ рдкрд░ рдЙрдЪреНрдЪ рд╕реНрдХреЛрд░ рдФрд░ рд╣реЛрдЯрд▓ рдХрдо рд╣реЛрддреЗ рд╣реИрдВред рдЗрд╕рд▓рд┐рдП рдЖрдкрдХреЛ рдореЙрдбрд▓ рдореЗрдВ рдЗрдорд╛рд░рдд рдХреЗ рдкреНрд░рдХрд╛рд░ рдХреЛ рд╢рд╛рдорд┐рд▓ рдХрд░рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ, рдХреНрдпреЛрдВрдХрд┐ рдпрд╣ рд╕рдВрдХреЗрдд рд╣рдорд╛рд░реЗ рд▓рдХреНрд╖реНрдп рдХреЛ рдкреНрд░рднрд╛рд╡рд┐рдд рдХрд░рддрд╛ рд╣реИред рдПрдХ рд╕реНрдкрд╖реНрдЯ рдЪрд░ рдХреЗ рд░реВрдк рдореЗрдВ, рд╣рдореЗрдВ рднрд╡рди рдкреНрд░рдХрд╛рд░ рдХрд╛ рдПрдХ-рдЧрд░реНрдо рдХреЛрдбрд┐рдВрдЧ рдХрд░рдирд╛ рдЪрд╛рд╣рд┐рдПред
рд╢рд╣рд░ рдЬрд┐рд▓реЗ рджреНрд╡рд╛рд░рд╛ рдКрд░реНрдЬрд╛ рд╕реНрдЯрд╛рд░ рд╕реНрдХреЛрд░ рдХрд╛ рдЕрдиреБрдорд╛рди рд▓рдЧрд╛рдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рд╕рдорд╛рди рдЧреНрд░рд╛рдл рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ:

рдХреНрд╖реЗрддреНрд░ рднрд╡рди рдХреЗ рдкреНрд░рдХрд╛рд░ рдХреЗ рд░реВрдк рдореЗрдВ рд╕реНрдХреЛрд░ рдХреЛ рдкреНрд░рднрд╛рд╡рд┐рдд рдирд╣реАрдВ рдХрд░рддрд╛ рд╣реИред рдлрд┐рд░ рднреА, рд╣рдо рдЗрд╕реЗ рдореЙрдбрд▓ рдореЗрдВ рд╢рд╛рдорд┐рд▓ рдХрд░реЗрдВрдЧреЗ, рдХреНрдпреЛрдВрдХрд┐ рдХреНрд╖реЗрддреНрд░реЛрдВ рдХреЗ рдмреАрдЪ рдереЛрдбрд╝рд╛ рдЕрдВрддрд░ рд╣реИред
рдЪрд░ рдХреЗ рдмреАрдЪ рд╕рдВрдмрдВрдз рдХреА рдЧрдгрдирд╛ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, рдЖрдк
рдкрд┐рдпрд░реНрд╕рди рд╕рд╣рд╕рдВрдмрдВрдз рдЧреБрдгрд╛рдВрдХ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред рдпрд╣ рджреЛ рдЪрд░реЛрдВ рдХреЗ рдмреАрдЪ рдПрдХ рд░реИрдЦрд┐рдХ рд╕рдВрдмрдВрдз рдХреА рддреАрд╡реНрд░рддрд╛ рдФрд░ рджрд┐рд╢рд╛ рдХрд╛ рдорд╛рдк рд╣реИред +1 рдХреЗ рдорд╛рди рдХрд╛ рдорддрд▓рдм рдкреВрд░реА рддрд░рд╣ рд╕реЗ рд░реИрдЦрд┐рдХ рд╕рдХрд╛рд░рд╛рддреНрдордХ рд╕рдВрдмрдВрдз рд╣реИ, рдФрд░ -1 рдХрд╛ рдЕрд░реНрде рд╣реИ рдПрдХ рдкреВрд░реА рддрд░рд╣ рд╕реЗ рд░реИрдЦрд┐рдХ рдирдХрд╛рд░рд╛рддреНрдордХ рд╕рдВрдмрдВрдзред рдпрд╣рд╛рдБ
рдкрд┐рдпрд░рд╕рди рд╕рд╣рд╕рдВрдмрдВрдз рдЧреБрдгрд╛рдВрдХ рдореВрд▓реНрдпреЛрдВ рдХреЗ рдХреБрдЫ рдЙрджрд╛рд╣рд░рдг рд╣реИрдВ:

рд╣рд╛рд▓рд╛рдВрдХрд┐ рдпрд╣ рдЧреБрдгрд╛рдВрдХ рдЧреИрд░-рдирд┐рд░реНрднрд░рддрд╛ рдХреЛ рдкреНрд░рддрд┐рдмрд┐рдВрдмрд┐рдд рдирд╣реАрдВ рдХрд░ рд╕рдХрддрд╛ рд╣реИ, рд▓реЗрдХрд┐рди рдЪрд░ рдХреЗ рд╕рдВрдмрдВрдзреЛрдВ рдХрд╛ рдореВрд▓реНрдпрд╛рдВрдХрди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдЗрд╕рдХреЗ рд╕рд╛рде рд╢реБрд░реВ рдХрд░рдирд╛ рд╕рдВрднрд╡ рд╣реИред рдкрдВрдбреЛрдВ рдореЗрдВ, рдЖрдк рдбреЗрдЯрд╛рдлрд╝реНрд░реЗрдо рдореЗрдВ рдХрд┐рд╕реА рднреА рдХреЙрд▓рдо рдХреЗ рдмреАрдЪ рдЖрд╕рд╛рдиреА рд╕реЗ рд╕рд╣рд╕рдВрдмрдВрдзреЛрдВ рдХреА рдЧрдгрдирд╛ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ:
# Find all correlations with the score and sort correlations_data = data.corr()['score'].sort_values()
рд▓рдХреНрд╖реНрдп рдХреЗ рд╕рд╛рде рд╕рдмрд╕реЗ рдирдХрд╛рд░рд╛рддреНрдордХ рд╕рд╣рд╕рдВрдмрдВрдз:

рдФрд░ рд╕рдмрд╕реЗ рд╕рдХрд╛рд░рд╛рддреНрдордХ:

рд╡рд┐рд╢реЗрд╖рддрд╛рдУрдВ рдФрд░ рд▓рдХреНрд╖реНрдп рдХреЗ рдмреАрдЪ рдХрдИ рдордЬрдмреВрдд рдирдХрд╛рд░рд╛рддреНрдордХ рд╕рд╣рд╕рдВрдмрдВрдз рд╣реИрдВ, рдФрд░ рдЙрдирдореЗрдВ рд╕реЗ рд╕рдмрд╕реЗ рдЕрд▓рдЧ рдпреВрд░реЛрдкреАрдп рд╕рдВрдШ рдХреА рд╢реНрд░реЗрдгрд┐рдпреЛрдВ рдХреЗ рд╣реИрдВ (рдЗрди рд╕рдВрдХреЗрддрдХреЛрдВ рдХреА рдЧрдгрдирд╛ рдХрд░рдиреЗ рдХреЗ рддрд░реАрдХреЗ рдереЛрдбрд╝рд╛ рдЕрд▓рдЧ рд╣реИрдВ)ред
рдИрдпреВрдЖрдИ (рдПрдирд░реНрдЬреА рдпреВрдЬрд╝ рдЗрдВрдЯреЗрдВрд╕рд┐рдЯреА ) рдПрдХ рд╡рд░реНрдЧ рдлреБрдЯ рдХреНрд╖реЗрддреНрд░ рджреНрд╡рд╛рд░рд╛ рд╡рд┐рднрд╛рдЬрд┐рдд рдЗрдорд╛рд░рдд рджреНрд╡рд╛рд░рд╛ рдЦрдкрдд рдКрд░реНрдЬрд╛ рдХреА рдорд╛рддреНрд░рд╛ рд╣реИред рдЗрд╕ рд╡рд┐рд╢рд┐рд╖реНрдЯ рдореВрд▓реНрдп рдХрд╛ рдЙрдкрдпреЛрдЧ рдКрд░реНрдЬрд╛ рджрдХреНрд╖рддрд╛ рдХрд╛ рдореВрд▓реНрдпрд╛рдВрдХрди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ, рдФрд░ рдпрд╣ рдЬрд┐рддрдирд╛ рдЫреЛрдЯрд╛ рд╣реЛрддрд╛ рд╣реИ, рдЙрддрдирд╛ рд╣реА рдмреЗрд╣рддрд░ рд╣реЛрддрд╛ рд╣реИред рд▓реЙрдЬрд┐рдХ рдмрддрд╛рддрд╛ рд╣реИ рдХрд┐ рдпреЗ рд╕рд╣рд╕рдВрдмрдВрдз рдиреНрдпрд╛рдпрд╕рдВрдЧрдд рд╣реИрдВ: рдпрджрд┐ EUI рдмрдврд╝рддрд╛ рд╣реИ, рддреЛ рдКрд░реНрдЬрд╛ рд╕реНрдЯрд╛рд░ рд╕реНрдХреЛрд░ рдореЗрдВ рдЧрд┐рд░рд╛рд╡рдЯ рд╣реЛрдиреА рдЪрд╛рд╣рд┐рдПред
рджреЛ-рдЪрд░ рд░реЗрдЦрд╛рдВрдХрди
рд╣рдо рджреЛ рдирд┐рд░рдВрддрд░ рдЪрд░ рдХреЗ рдмреАрдЪ рд╕рдВрдмрдВрдзреЛрдВ рдХреА рдХрд▓реНрдкрдирд╛ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рддрд┐рддрд░ рдмрд┐рддрд░ рднреВрдЦрдВрдбреЛрдВ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реИрдВред рдЖрдк рдбреЙрдЯреНрд╕ рдХреЗ рд░рдВрдЧреЛрдВ рдореЗрдВ рдЕрддрд┐рд░рд┐рдХреНрдд рдЬрд╛рдирдХрд╛рд░реА рдЬреЛрдбрд╝ рд╕рдХрддреЗ рд╣реИрдВ, рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП, рдПрдХ рд╢реНрд░реЗрдгреАрдЧрдд рдЪрд░ред рдПрдирд░реНрдЬреА рд╕реНрдЯрд╛рд░ рд╕реНрдХреЛрд░ рдФрд░ рдИрдпреВрдЖрдИ рдХреЗ рдмреАрдЪ рд╕рдВрдмрдВрдз рдиреАрдЪреЗ рджрд┐рдЦрд╛рдпрд╛ рдЧрдпрд╛ рд╣реИ, рд░рдВрдЧ рд╡рд┐рднрд┐рдиреНрди рдкреНрд░рдХрд╛рд░ рдХреА рдЗрдорд╛рд░рддреЛрдВ рдХрд╛ рд╕рдВрдХреЗрдд рджреЗрддреЗ рд╣реИрдВ:

рдпрд╣ рдЧреНрд░рд╛рдл рдЖрдкрдХреЛ -0.7 рдХреЗ рд╕рд╣рд╕рдВрдмрдВрдз рдЧреБрдгрд╛рдВрдХ рдХреА рдХрд▓реНрдкрдирд╛ рдХрд░рдиреЗ рдХреА рдЕрдиреБрдорддрд┐ рджреЗрддрд╛ рд╣реИред рдЬреИрд╕рд╛ рдХрд┐ EUI рдХрдо рд╣реЛ рдЬрд╛рддрд╛ рд╣реИ, рдКрд░реНрдЬрд╛ рд╕реНрдЯрд╛рд░ рд╕реНрдХреЛрд░ рдмрдврд╝рддрд╛ рд╣реИ, рдпрд╣ рд╕рдВрдмрдВрдз рд╡рд┐рднрд┐рдиреНрди рдкреНрд░рдХрд╛рд░ рдХреА рдЗрдорд╛рд░рддреЛрдВ рдореЗрдВ рдордирд╛рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред
рд╣рдорд╛рд░реЗ рдирд╡реАрдирддрдо рд╢реЛрдз рдЪрд╛рд░реНрдЯ рдХреЛ
рдкреЗрдпрд░ рдкреНрд▓реЙрдЯ рдХрд╣рд╛ рдЬрд╛рддрд╛ рд╣реИред рдпрд╣ рдЕрд▓рдЧ-рдЕрд▓рдЧ рдЬреЛрдбрд╝реЗ рдХреЗ рдЪрд░ рдФрд░ рдПрдХрд▓ рдЪрд░ рдХреЗ рд╡рд┐рддрд░рдг рдХреЗ рдмреАрдЪ рд╕рдВрдмрдВрдзреЛрдВ рдХреЛ рджреЗрдЦрдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдорд╣рд╛рди рдЙрдкрдХрд░рдг рд╣реИред рд╣рдо рдКрдкрд░реА рддреНрд░рд┐рдХреЛрдг рдореЗрдВ рдПрдХ рддрд┐рддрд░ рдмрд┐рддрд░ рдЪрд╛рд░реНрдЯ рдХреЗ рд╕рд╛рде рдПрдХ рдЬреЛрдбрд╝реА рдЪрд╛рд░реНрдЯ рдмрдирд╛рдиреЗ рдХреЗ рд▓рд┐рдП рд╕реАрдмреЛрд░реНрди рд▓рд╛рдЗрдмреНрд░реЗрд░реА рдФрд░ рдкреЗрдпрд░рдЧреНрд░рд┐рдб рдлрд╝рдВрдХреНрд╢рди рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░реЗрдВрдЧреЗ, рдПрдХ рд╡рд┐рдХрд░реНрдг рд╣рд┐рд╕реНрдЯреЛрдЧреНрд░рд╛рдо, рдПрдХ рджреЛ-рдЖрдпрд╛рдореА рдХреЛрд░ рдШрдирддреНрд╡ рдЪрд╛рд░реНрдЯ рдФрд░ рдирд┐рдЪрд▓реЗ рддреНрд░рд┐рдХреЛрдг рдореЗрдВ рд╕рд╣рд╕рдВрдмрдВрдз рдЧреБрдгрд╛рдВрдХред
# Extract the columns to plot plot_data = features[['score', 'Site EUI (kBtu/ft┬▓)', 'Weather Normalized Source EUI (kBtu/ft┬▓)', 'log_Total GHG Emissions (Metric Tons CO2e)']] # Replace the inf with nan plot_data = plot_data.replace({np.inf: np.nan, -np.inf: np.nan}) # Rename columns plot_data = plot_data.rename(columns = {'Site EUI (kBtu/ft┬▓)': 'Site EUI', 'Weather Normalized Source EUI (kBtu/ft┬▓)': 'Weather Norm EUI', 'log_Total GHG Emissions (Metric Tons CO2e)': 'log GHG Emissions'}) # Drop na values plot_data = plot_data.dropna() # Function to calculate correlation coefficient between two columns def corr_func(x, y, **kwargs): r = np.corrcoef(x, y)[0][1] ax = plt.gca() ax.annotate("r = {:.2f}".format(r), xy=(.2, .8), xycoords=ax.transAxes, size = 20) # Create the pairgrid object grid = sns.PairGrid(data = plot_data, size = 3) # Upper is a scatter plot grid.map_upper(plt.scatter, color = 'red', alpha = 0.6) # Diagonal is a histogram grid.map_diag(plt.hist, color = 'red', edgecolor = 'black') # Bottom is correlation and density plot grid.map_lower(corr_func); grid.map_lower(sns.kdeplot, cmap = plt.cm.Reds) # Title for entire plot plt.suptitle('Pairs Plot of Energy Data', size = 36, y = 1.02);

рдЪрд░реЛрдВ рдХреЗ рд╕рдВрдмрдВрдз рдХреЛ рджреЗрдЦрдиреЗ рдХреЗ рд▓рд┐рдП, рдкрдВрдХреНрддрд┐рдпреЛрдВ рдФрд░ рд╕реНрддрдВрднреЛрдВ рдХреЗ рдкреНрд░рддрд┐рдЪреНрдЫреЗрджрди рдХреЛ рджреЗрдЦреЗрдВред рдорд╛рди рд▓реАрдЬрд┐рдП рдХрд┐ рдЖрдк
Weather Norm EUI
рдФрд░
score
рдмреАрдЪ рд╕рдВрдмрдВрдз рдХреЛ рджреЗрдЦрдирд╛ рдЪрд╛рд╣рддреЗ рд╣реИрдВ, рддреЛ рд╣рдо
Weather Norm EUI
рд╕реАрд░реАрдЬрд╝ рдФрд░
score
рдХреЙрд▓рдо рдХреА рддрд▓рд╛рд╢ рдХрд░рддреЗ рд╣реИрдВ, рдЬрд┐рд╕рдХреЗ рдЪреМрд░рд╛рд╣реЗ рдкрд░ -0.67 рдХрд╛ рд╕рд╣рд╕рдВрдмрдВрдз рдЧреБрдгрд╛рдВрдХ рд╣реИред рдпреЗ рдЧреНрд░рд╛рдлрд╝ рди рдХреЗрд╡рд▓ рд╢рд╛рдВрдд рджрд┐рдЦрддреЗ рд╣реИрдВ, рдмрд▓реНрдХрд┐ рдореЙрдбрд▓ рдХреЗ рд▓рд┐рдП рдЪрд░ рдЪреБрдирдиреЗ рдореЗрдВ рднреА рдорджрдж рдХрд░рддреЗ рд╣реИрдВред
рдбрд┐рдЬрд╛рдЗрди рдФрд░ рд╕реБрд╡рд┐рдзрд╛рдУрдВ рдХрд╛ рдЪрдпрди
рд╕реБрд╡рд┐рдзрд╛рдУрдВ рдХреЛ
рдбрд┐рдЬрд╛рдЗрди рдХрд░рдирд╛ рдФрд░ рдЪреБрдирдирд╛ рдЕрдХреНрд╕рд░ рдорд╢реАрди рд╕реАрдЦрдиреЗ рдкрд░ рдЦрд░реНрдЪ рдХрд┐рдП рдЧрдП рд╕рдордп рдХреЗ рд╕рдВрджрд░реНрдн рдореЗрдВ рд╕рдмрд╕реЗ рдмрдбрд╝рд╛ рд░рд┐рдЯрд░реНрди рд▓рд╛рддрд╛ рд╣реИред рдкрд╣рд▓реЗ рд╣рдо рдкрд░рд┐рднрд╛рд╖рд╛рдПрдБ рджреЗрддреЗ рд╣реИрдВ:
- рд╡рд┐рд╢реЗрд╖рддрд╛ рдирд┐рд░реНрдорд╛рдг: рдХрдЪреНрдЪреЗ рдбреЗрдЯрд╛ рд╕реЗ рдирдИ рд╡рд┐рд╢реЗрд╖рддрд╛рдУрдВ рдХреЛ рдирд┐рдХрд╛рд▓рдиреЗ рдпрд╛ рдмрдирд╛рдиреЗ рдХреА рдкреНрд░рдХреНрд░рд┐рдпрд╛ред рдореЙрдбрд▓ рдореЗрдВ рдЪрд░ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, рдЖрдкрдХреЛ рдЙрдиреНрд╣реЗрдВ рдмрджрд▓рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реЛ рд╕рдХрддреА рд╣реИ, рдХрд╣ рд╕рдХрддреЗ рд╣реИрдВ, рдкреНрд░рд╛рдХреГрддрд┐рдХ рд▓рдШреБрдЧрдгрдХ рд▓реЗрдВ, рдпрд╛ рд╡рд░реНрдЧрдореВрд▓ рдирд┐рдХрд╛рд▓реЗрдВ, рдпрд╛ рд╢реНрд░реЗрдгреАрдмрджреНрдз рдЪрд░ рдХреА рдПрдХ-рдЧрд░реНрдо рдХреЛрдбрд┐рдВрдЧ рд▓рд╛рдЧреВ рдХрд░реЗрдВред рд╡рд┐рд╢реЗрд╖рддрд╛ рдбрд┐рдЬрд╛рдЗрди рдХреЛ рдХрдЪреНрдЪреЗ рдбреЗрдЯрд╛ рд╕реЗ рдЕрддрд┐рд░рд┐рдХреНрдд рд╡рд┐рд╢реЗрд╖рддрд╛рдПрдВ рдмрдирд╛рдиреЗ рдХреЗ рд░реВрдк рдореЗрдВ рдорд╛рдирд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИред
- рдлрд╝реАрдЪрд░ рдЪрдпрди: рдбреЗрдЯрд╛ рд╕реЗ рд╕рдмрд╕реЗ рдЕрдзрд┐рдХ рдкреНрд░рд╛рд╕рдВрдЧрд┐рдХ рд╕реБрд╡рд┐рдзрд╛рдУрдВ рдХрд╛ рдЪрдпрди рдХрд░рдиреЗ рдХреА рдкреНрд░рдХреНрд░рд┐рдпрд╛, рдЬрд┐рд╕рдХреЗ рджреМрд░рд╛рди рд╣рдо рдореЙрдбрд▓ рдХреЛ рдЕрдзрд┐рдХ рд╡реНрдпрд╛рдЦреНрдпрд╛рддреНрдордХ рдореЙрдбрд▓ рдкреНрд░рд╛рдкреНрдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдирдП рдбреЗрдЯрд╛ рдХреЛ рдмреЗрд╣рддрд░ рдмрдирд╛рдиреЗ рдореЗрдВ рдорджрдж рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХреБрдЫ рд╕реБрд╡рд┐рдзрд╛рдУрдВ рдХреЛ рд╣рдЯрд╛рддреЗ рд╣реИрдВред рд╕рдВрдХреЗрддреЛрдВ рдХреА рдкрд╕рдВрдж рдХреЛ "рдЕрддрд┐рд╢рдпреЛрдХреНрддрд┐" рдХреЗ рдирд┐рд╖реНрдХрд╛рд╕рди рдХреЗ рд░реВрдк рдореЗрдВ рдорд╛рдирд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ рддрд╛рдХрд┐ рдХреЗрд╡рд▓ рд╕рдмрд╕реЗ рдорд╣рддреНрд╡рдкреВрд░реНрдг рдЕрд╡рд╢реЗрд╖ рд░рд╣реЗред
рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдореЙрдбрд▓ рдХреЗрд╡рд▓ рд╣рдорд╛рд░реЗ рджреНрд╡рд╛рд░рд╛ рдкреНрд░рджрд╛рди рдХрд┐рдП рдЧрдП рдбреЗрдЯрд╛ рд╕реЗ рд╕реАрдЦ рд╕рдХрддрд╛ рд╣реИ, рдЗрд╕рд▓рд┐рдП рдпрд╣ рд╕реБрдирд┐рд╢реНрдЪрд┐рдд рдХрд░рдирд╛ рдмреЗрд╣рдж рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╣реИ рдХрд┐ рд╣рдо рдЕрдкрдиреЗ рдХрд╛рд░реНрдп рд╕реЗ рд╕рдВрдмрдВрдзрд┐рдд рд╕рднреА рдЬрд╛рдирдХрд╛рд░реА рд╢рд╛рдорд┐рд▓ рдХрд░реЗрдВред рдпрджрд┐ рдЖрдк рдореЙрдбрд▓ рдХреЛ рд╕рд╣реА рдбреЗрдЯрд╛ рдкреНрд░рджрд╛рди рдирд╣реАрдВ рдХрд░рддреЗ рд╣реИрдВ, рддреЛ рдпрд╣ рд╕реАрдЦрдиреЗ рдореЗрдВ рд╕рдХреНрд╖рдо рдирд╣реАрдВ рд╣реЛрдЧрд╛ рдФрд░ рд╕рдЯреАрдХ рдкреВрд░реНрд╡рд╛рдиреБрдорд╛рди рдХрд╛ рдЙрддреНрдкрд╛рджрди рдирд╣реАрдВ рдХрд░реЗрдЧрд╛!
рд╣рдо рдирд┐рдореНрдирд▓рд┐рдЦрд┐рдд рдХрд░реЗрдВрдЧреЗ:
- рд╢реНрд░реЗрдгреАрдмрджреНрдз рдЪрд░ (рд╕реНрд╡рд╛рдорд┐рддреНрд╡ рдФрд░ рдкреНрд░рдХрд╛рд░ рдХрд╛ рд╕реНрд╡рд╛рдорд┐рддреНрд╡) рдПрдХ-рдЧрд░реНрдо рдХреЛрдбрд┐рдВрдЧ рдХреЗ рд▓рд┐рдП рд▓рд╛рдЧреВ рд╣реИред
- рд╕рднреА рд╕рдВрдЦреНрдпрд╛рддреНрдордХ рдЪрд░ рдХреЗ рдкреНрд░рд╛рдХреГрддрд┐рдХ рд▓рдШреБрдЧрдгрдХ рдХреЛ рдЬреЛрдбрд╝реЗрдВред
рдореЙрдбрд▓ рдореЗрдВ рд╢реНрд░реЗрдгреАрдмрджреНрдз рдЪрд░ рд╢рд╛рдорд┐рд▓ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП
рдПрдХ-рдЧрд░реНрдо рдХреЛрдбрд┐рдВрдЧ рдЖрд╡рд╢реНрдпрдХ рд╣реИред рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдПрд▓реНрдЧреЛрд░рд┐рджрдо "рдХрд╛рд░реНрдпрд╛рд▓рдп" рдХреЗ рдкреНрд░рдХрд╛рд░ рдХреЛ рд╕рдордЭрдиреЗ рдореЗрдВ рд╕рдХреНрд╖рдо рдирд╣реАрдВ рд╣реЛрдЧрд╛, рдЗрд╕рд▓рд┐рдП рдпрджрд┐ рднрд╡рди рдПрдХ рдХрд╛рд░реНрдпрд╛рд▓рдп рд╣реИ, рддреЛ рд╣рдо рдЗрд╕реЗ 1 рдХрд╛ рд╕рдВрдХреЗрдд рд╕реМрдВрдкреЗрдВрдЧреЗ, рдФрд░ рдпрджрд┐ рдХрд╛рд░реНрдпрд╛рд▓рдп рдирд╣реАрдВ рд╣реИ, рддреЛ 0ред
рд░реВрдкрд╛рдВрддрд░рд┐рдд рд╕реБрд╡рд┐рдзрд╛рдУрдВ рдХреЛ рдЬреЛрдбрд╝рдиреЗ рд╕реЗ рдореЙрдбрд▓ рдХреЛ рдбреЗрдЯрд╛ рдХреЗ рднреАрддрд░ рдЧреИрд░-рд╕рдВрдмрдВрдз рд╕рдВрдмрдВрдзреЛрдВ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдЬрд╛рдирдиреЗ рдореЗрдВ рдорджрдж рдорд┐рд▓реЗрдЧреАред рдбреЗрдЯрд╛ рдХреЗ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдореЗрдВ,
рд╡рд░реНрдЧрдореВрд▓ рдирд┐рдХрд╛рд▓рдирд╛, рдкреНрд░рд╛рдХреГрддрд┐рдХ рд▓рдШреБрдЧрдгрдХ рд▓реЗрдирд╛ рдпрд╛ рдХрд┐рд╕реА рднреА рддрд░рд╣ рд╕реЗ рд╕рдВрдХреЗрддреЛрдВ рдХреЛ рдмрджрд▓рдирд╛ рд╕рд╛рдорд╛рдиреНрдп рдЕрднреНрдпрд╛рд╕
рд╣реИ , рдпрд╣ рд╡рд┐рд╢рд┐рд╖реНрдЯ рдХрд╛рд░реНрдп рдпрд╛ рд╕рд░реНрд╡реЛрддреНрддрдо рддрдХрдиреАрдХреЛрдВ рдХреЗ рдЖрдкрдХреЗ рдЬреНрдЮрд╛рди рдкрд░ рдирд┐рд░реНрднрд░ рдХрд░рддрд╛ рд╣реИред рдЗрд╕ рдорд╛рдорд▓реЗ рдореЗрдВ, рд╣рдо рд╕рднреА рд╕рдВрдЦреНрдпрд╛рддреНрдордХ рд╕рдВрдХреЗрддреЛрдВ рдХреЗ рдкреНрд░рд╛рдХреГрддрд┐рдХ рд▓рдШреБрдЧрдгрдХ рдХреЛ рдЬреЛрдбрд╝ рджреЗрдВрдЧреЗред
рдпрд╣ рдХреЛрдб рд╕рдВрдЦреНрдпрд╛рддреНрдордХ рд╕рдВрдХреЗрддреЛрдВ рдХрд╛ рдЪрдпрди рдХрд░рддрд╛ рд╣реИ, рдЙрдирдХреЗ рд▓рдШреБрдЧрдгрдХ рдХреА рдЧрдгрдирд╛ рдХрд░рддрд╛ рд╣реИ, рджреЛ рд╢реНрд░реЗрдгреАрдмрджреНрдз рд╕рдВрдХреЗрддреЛрдВ рдХрд╛ рдЪрдпрди рдХрд░рддрд╛ рд╣реИ, рдЙрди рдкрд░ рдПрдХ-рдЧрд░реНрдо рдХреЛрдбрд┐рдВрдЧ рд▓рд╛рдЧреВ рдХрд░рддрд╛ рд╣реИ, рдФрд░ рджреЛрдиреЛрдВ рд╕реЗрдЯреЛрдВ рдХреЛ рдПрдХ рдореЗрдВ рдЬреЛрдбрд╝рддрд╛ рд╣реИред рд╡рд░реНрдгрди рд╕реЗ рджреЗрдЦрддреЗ рд╣реБрдП, рдмрд╣реБрдд рдХрд╛рдо рдХрд┐рдпрд╛ рдЬрд╛рдирд╛ рдмрд╛рдХреА рд╣реИ, рд▓реЗрдХрд┐рди рдкрдВрдбреЛрдВ рдореЗрдВ рд╕рдм рдХреБрдЫ рдмрд╣реБрдд рд╕рд░рд▓ рд╣реИ!
# Copy the original data features = data.copy() # Select the numeric columns numeric_subset = data.select_dtypes('number') # Create columns with log of numeric columns for col in numeric_subset.columns: # Skip the Energy Star Score column if col == 'score': next else: numeric_subset['log_' + col] = np.log(numeric_subset[col]) # Select the categorical columns categorical_subset = data[['Borough', 'Largest Property Use Type']] # One hot encode categorical_subset = pd.get_dummies(categorical_subset) # Join the two dataframes using concat # Make sure to use axis = 1 to perform a column bind features = pd.concat([numeric_subset, categorical_subset], axis = 1)
рдЕрдм рд╣рдорд╛рд░реЗ рдкрд╛рд╕ 110 рдХреЙрд▓рдо (рдЯреИрдЧ) рдХреЗ рд╕рд╛рде 11,000 рд╕реЗ рдЕрдзрд┐рдХ рдЕрд╡рд▓реЛрдХрди (рднрд╡рди) рд╣реИрдВред рдПрдирд░реНрдЬреА рд╕реНрдЯрд╛рд░ рд╕реНрдХреЛрд░ рдХреА рднрд╡рд┐рд╖реНрдпрд╡рд╛рдгреА рдХреЗ рд▓рд┐рдП рд╕рднреА рд╕рдВрдХреЗрдд рдЙрдкрдпреЛрдЧреА рдирд╣реАрдВ рд╣реЛрдВрдЧреЗ, рдЗрд╕рд▓рд┐рдП рд╣рдо рд╕рдВрдХреЗрддреЛрдВ рдХрд╛ рдЪрдпрди рдХрд░реЗрдВрдЧреЗ рдФрд░ рдХреБрдЫ рдЪрд░реЛрдВ рдХреЛ рд╣рдЯрд╛ рджреЗрдВрдЧреЗред
рдлрд╝реАрдЪрд░ рдЪрдпрди
рдЙрдкрд▓рдмреНрдз 110 рд╕рдВрдХреЗрддреЛрдВ рдореЗрдВ рд╕реЗ рдХрдИ рдирд┐рд░рд░реНрдердХ рд╣реИрдВ рдХреНрдпреЛрдВрдХрд┐ рд╡реЗ рдПрдХ-рджреВрд╕рд░реЗ рдХреЗ рд╕рд╛рде рджреГрдврд╝рддрд╛ рд╕реЗ рд╕рд╣рд╕рдВрдмрдВрдзрд┐рдд рд╣реИрдВред рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП, рдпрд╣рд╛рдВ рдпреВрд░реЛрдкреАрдп рд╕рдВрдШ рдФрд░ рдореМрд╕рдо рд╕рд╛рдорд╛рдиреНрдпреАрдХреГрдд рд╕рд╛рдЗрдЯ рдИрдпреВрдЖрдИ рдХрд╛ рдПрдХ рдЧреНрд░рд╛рдл рд╣реИ, рдЬрд┐рд╕рдореЗрдВ рд╕рд╣рд╕рдВрдмрдВрдз рдЧреБрдгрд╛рдВрдХ 0.997 рд╣реИред

рд╕рдВрдХреЗрдд рдЬреЛ рджреГрдврд╝рддрд╛ рд╕реЗ рдПрдХ рджреВрд╕рд░реЗ рдХреЗ рд╕рд╛рде рд╕рд╣рд╕рдВрдмрдВрдзрд┐рдд рд╣реЛрддреЗ рд╣реИрдВ рдЙрдиреНрд╣реЗрдВ
рдХреЛрд▓рд┐рдирд┐рдпрд░ рдХрд╣рд╛ рдЬрд╛рддрд╛ рд╣реИред рдЗрд╕ рддрд░рд╣ рдХреА рд╡рд┐рд╢реЗрд╖рддрд╛рдУрдВ рдореЗрдВ рдПрдХ рдЪрд░ рдХреЛ рд╣рдЯрд╛рдиреЗ рд╕реЗ рдЕрдХреНрд╕рд░
рдореЙрдбрд▓ рдХреЛ рд╕рд╛рдорд╛рдиреНрдп рдмрдирд╛рдиреЗ рдФрд░ рдЕрдзрд┐рдХ рд╡реНрдпрд╛рдЦреНрдпрд╛ рдХрд░рдиреЗ рдореЗрдВ рдорджрдж рдорд┐рд▓рддреА рд╣реИред рдХреГрдкрдпрд╛ рдзреНрдпрд╛рди рджреЗрдВ рдХрд┐ рд╣рдо рджреВрд╕рд░реЛрдВ рдХреЗ рд╕рд╛рде рдХреБрдЫ рд╕рдВрдХреЗрддреЛрдВ рдХреЗ рд╕рд╣рд╕рдВрдмрдВрдз рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдмрд╛рдд рдХрд░ рд░рд╣реЗ рд╣реИрдВ, рди рдХрд┐ рд▓рдХреНрд╖реНрдп рдХреЗ рд╕рд╛рде рд╕рд╣рд╕рдВрдмрдВрдз рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ, рдЬреЛ рдХреЗрд╡рд▓ рдЗрд╕ рдореЙрдбрд▓ рдХреА рдорджрдж рдХрд░реЗрдВрдЧреЗ!
рд╕реБрд╡рд┐рдзрд╛рдУрдВ рдХреА рд╕рдВрдкреБрд╖реНрдЯрд┐ рдХреА рдЧрдгрдирд╛ рдХреЗ рд▓рд┐рдП рдХрдИ рддрд░реАрдХреЗ рд╣реИрдВ, рдФрд░ рд╕рдмрд╕реЗ рд▓реЛрдХрдкреНрд░рд┐рдп рдореЗрдВ рд╕реЗ рдПрдХ
рдкреНрд░рд╕рд░рдг рдореБрджреНрд░рд╛рд╕реНрдлреАрддрд┐ рдХрд╛рд░рдХ рд╣реИ ред рд╣рдо рдХреЛрд▓рд┐рдпрд░реАрд░ рдЧреБрдгрд╛рдВрдХ рдХрд╛ рдЙрдкрдпреЛрдЧ рдЦреЛрдЬ рдФрд░ рдХреЛрд▓реАрдирд┐рдпрд░ рд╡рд┐рд╢реЗрд╖рддрд╛рдУрдВ рдХреЛ рд╣рдЯрд╛рдиреЗ рдХреЗ рд▓рд┐рдП рдХрд░реЗрдВрдЧреЗред рд╣рдо рд╕рдВрдХреЗрддреЛрдВ рдХреА рдПрдХ рдЬреЛрдбрд╝реА рдХреЛ рддреНрдпрд╛рдЧ рджреЗрддреЗ рд╣реИрдВ рдпрджрд┐ рдЙрдирдХреЗ рдмреАрдЪ рд╕рд╣рд╕рдВрдмрдВрдз рдЧреБрдгрд╛рдВрдХ 0.6 рд╕реЗ рдЕрдзрд┐рдХ рд╣реИред рдХреЛрдб рдиреЛрдЯрдкреИрдб рдореЗрдВ рд╣реИ (рдФрд░
рд╕реНрдЯреИрдХ рдУрд╡рд░рдлреНрд▓реЛ рдХреЗ рдЬрд╡рд╛рдм рдореЗрдВ)ред
рдпрд╣ рдорд╛рди рдордирдорд╛рдирд╛ рд▓рдЧрддрд╛ рд╣реИ, рд▓реЗрдХрд┐рди рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ рдореИрдВрдиреЗ рд╡рд┐рднрд┐рдиреНрди рдереНрд░реЗрд╕рд╣реЛрд▓реНрдб рдХреА рдХреЛрд╢рд┐рд╢ рдХреА, рдФрд░ рдЙрдкрд░реЛрдХреНрдд рдиреЗ рдореБрдЭреЗ рд╕рд░реНрд╡рд╢реНрд░реЗрд╖реНрда рдореЙрдбрд▓ рдмрдирд╛рдиреЗ рдХреА рдЕрдиреБрдорддрд┐ рджреАред рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ
рдЕрдиреБрднрд╡рдЬрдиреНрдп рд╣реИ , рдФрд░ рд╕рдмрд╕реЗ рдЕрдЪреНрдЫрд╛ рд╕рдорд╛рдзрд╛рди рдЦреЛрдЬрдиреЗ рдХреЗ рд▓рд┐рдП рдЕрдХреНрд╕рд░ рдкреНрд░рдпреЛрдЧ рдХрд░рдирд╛ рдкрдбрд╝рддрд╛ рд╣реИред рдЪрдпрди рдХреЗ рдмрд╛рдж, рд╣рдорд╛рд░реЗ рдкрд╛рд╕ 64 рд╡рд┐рд╢реЗрд╖рддрд╛рдПрдБ рдФрд░ рдПрдХ рд▓рдХреНрд╖реНрдп рд╣реИред
# Remove any columns with all na values features = features.dropna(axis=1, how = 'all') print(features.shape) (11319, 65)
рдЖрдзрд╛рд░ рд╕реНрддрд░ рдЪреБрдиреЗрдВ
рд╣рдордиреЗ рдбреЗрдЯрд╛ рдХреЛ рдордВрдЬреВрд░реА рджреЗ рджреА, рдПрдХ рдЦреЛрдЬрдкреВрд░реНрдг рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХрд┐рдпрд╛, рдФрд░ рд╕рдВрдХреЗрддреЛрдВ рдХрд╛ рдирд┐рд░реНрдорд╛рдг рдХрд┐рдпрд╛ред рдФрд░ рдореЙрдбрд▓ рдХреЗ рдирд┐рд░реНрдорд╛рдг рдХреЗ рд▓рд┐рдП рдЖрдЧреЗ рдмрдврд╝рдиреЗ рд╕реЗ рдкрд╣рд▓реЗ, рдЖрдкрдХреЛ рдкреНрд░рд╛рд░рдВрднрд┐рдХ рдЖрдзрд╛рд░ рд╕реНрддрд░ (рдЕрдиреБрднрд╡рд╣реАрди рдЖрдзрд╛рд░рднреВрдд) рдХрд╛ рдЪрдпрди рдХрд░рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ - рдПрдХ рддрд░рд╣ рдХреА рдзрд╛рд░рдгрд╛ рдЬрд┐рд╕рдХреЗ рд╕рд╛рде рд╣рдо рдореЙрдбрд▓ рдХреЗ рдкрд░рд┐рдгрд╛рдореЛрдВ рдХреА рддреБрд▓рдирд╛ рдХрд░реЗрдВрдЧреЗред рдпрджрд┐ рд╡реЗ рдмреБрдирд┐рдпрд╛рджреА рд╕реНрддрд░ рд╕реЗ рдиреАрдЪреЗ рдЖрддреЗ рд╣реИрдВ, рддреЛ рд╣рдо рдорд╛рди рд▓реЗрдВрдЧреЗ рдХрд┐ рдЗрд╕ рдХрд╛рд░реНрдп рдХреЗ рд▓рд┐рдП рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рд▓рд╛рдЧреВ рдирд╣реАрдВ рд╣реИ, рдпрд╛ рдХрд┐ рдПрдХ рдЕрд▓рдЧ рджреГрд╖реНрдЯрд┐рдХреЛрдг рдХреА рдХреЛрд╢рд┐рд╢ рдХреА рдЬрд╛рдиреА рдЪрд╛рд╣рд┐рдПред
рдЖрдзрд╛рд░ рд╕реНрддрд░ рдХреЗ рд░реВрдк рдореЗрдВ рдкреНрд░рддрд┐рдЧрдорди рдХрд╛рд░реНрдпреЛрдВ рдХреЗ рд▓рд┐рдП, рдкрд░реАрдХреНрд╖рдг рд╕реЗрдЯ рдореЗрдВ рд╕рднреА рдЙрджрд╛рд╣рд░рдгреЛрдВ рдХреЗ рд▓рд┐рдП рдкреНрд░рд╢рд┐рдХреНрд╖рдг рд╕реЗрдЯ рдкрд░ рд▓рдХреНрд╖реНрдп рдХреЗ рдФрд╕рдд рдореВрд▓реНрдп рдХрд╛ рдЕрдиреБрдорд╛рди рд▓рдЧрд╛рдирд╛ рдЙрдЪрд┐рдд рд╣реИред рдпреЗ рдХрд┐рдЯ рдПрдХ рдЕрд╡рд░реЛрдз рд╕реЗрдЯ рдХрд░рддреЗ рд╣реИрдВ рдЬреЛ рдХрд┐рд╕реА рднреА рдореЙрдбрд▓ рдХреЗ рд▓рд┐рдП рдЕрдкреЗрдХреНрд╖рд╛рдХреГрдд рдХрдо рд╣реИред
рдПрдХ рдореАрдЯреНрд░рд┐рдХ рдХреЗ рд░реВрдк рдореЗрдВ, рд╣рдо рдкреВрд░реНрд╡рд╛рдиреБрдорд╛рдиреЛрдВ рдореЗрдВ
рдФрд╕рдд рдкреВрд░реНрдг рддреНрд░реБрдЯрд┐ (рдореЕрдИ) рд▓реЗрддреЗ рд╣реИрдВред рдкреНрд░рддрд┐рдЧрдорди рдХреЗ рд▓рд┐рдП рдХрдИ рдЕрдиреНрдп рдореАрдЯреНрд░рд┐рдХ рд╣реИрдВ, рд▓реЗрдХрд┐рди рдореБрдЭреЗ рдПрдХ рдореАрдЯреНрд░рд┐рдХ рдЪреБрдирдиреЗ рдФрд░ рдореЙрдбрд▓ рдХрд╛ рдореВрд▓реНрдпрд╛рдВрдХрди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдЗрд╕рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рдХреА
рд╕рд▓рд╛рд╣ рдкрд╕рдВрдж рд╣реИред рдФрд░ рдФрд╕рдд рдкреВрд░реНрдг рддреНрд░реБрдЯрд┐ рдХреА рдЧрдгрдирд╛ рдФрд░ рд╡реНрдпрд╛рдЦреНрдпрд╛ рдХрд░рдирд╛ рдЖрд╕рд╛рди рд╣реИред
рдЖрдзрд╛рд░ рд╕реНрддрд░ рдХреА рдЧрдгрдирд╛ рдХрд░рдиреЗ рд╕реЗ рдкрд╣рд▓реЗ, рдЖрдкрдХреЛ рдбреЗрдЯрд╛ рдХреЛ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдФрд░ рдкрд░реАрдХреНрд╖рдг рд╕реЗрдЯреЛрдВ рдореЗрдВ рддреЛрдбрд╝рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ:
- рд╡рд┐рд╢реЗрд╖рддрд╛рдУрдВ рдХрд╛ рдПрдХ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рд╕реЗрдЯ рд╡рд╣ рд╣реИ рдЬреЛ рд╣рдо рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдХреЗ рджреМрд░рд╛рди рдЙрддреНрддрд░реЛрдВ рдХреЗ рд╕рд╛рде рдЕрдкрдирд╛ рдореЙрдбрд▓ рдкреНрд░рджрд╛рди рдХрд░рддреЗ рд╣реИрдВред рдореЙрдбрд▓ рдХреЛ рд▓рдХреНрд╖реНрдп рдХреА рд╡рд┐рд╢реЗрд╖рддрд╛рдУрдВ рд╕реЗ рдореЗрд▓ рдЦрд╛рдирд╛ рд╕реАрдЦрдирд╛ рдЪрд╛рд╣рд┐рдПред
- рдПрдХ рдкрд░реАрдХреНрд╖рдг рд╕реБрд╡рд┐рдзрд╛ рд╕реЗрдЯ рдХрд╛ рдЙрдкрдпреЛрдЧ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рдореЙрдбрд▓ рдХреЗ рдореВрд▓реНрдпрд╛рдВрдХрди рдХреЗ рд▓рд┐рдП рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред рдЬрдм рд╡рд╣ рдкрд░реАрдХреНрд╖рдг рд╕реВрдЯ рдХреА рдкреНрд░рдХреНрд░рд┐рдпрд╛ рдХрд░рддреА рд╣реИ, рддреЛ рд╡рд╣ рд╕рд╣реА рдЙрддреНрддрд░ рдирд╣реАрдВ рджреЗрдЦрддреА рд╣реИ рдФрд░ рдХреЗрд╡рд▓ рдЙрдкрд▓рдмреНрдз рд╕реБрд╡рд┐рдзрд╛рдУрдВ рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рднрд╡рд┐рд╖реНрдпрд╡рд╛рдгреА рдХрд░рдиреА рдЪрд╛рд╣рд┐рдПред рд╣рдо рдкрд░реАрдХреНрд╖рдг рдбреЗрдЯрд╛ рдХреЗ рдЬрд╡рд╛рдм рдЬрд╛рдирддреЗ рд╣реИрдВ рдФрд░ рдЙрдирдХреЗ рд╕рд╛рде рдкреВрд░реНрд╡рд╛рдиреБрдорд╛рди рдкрд░рд┐рдгрд╛рдореЛрдВ рдХреА рддреБрд▓рдирд╛ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред
рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдХреЗ рд▓рд┐рдП, рд╣рдо 70% рдбреЗрдЯрд╛ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реИрдВ, рдФрд░ рдкрд░реАрдХреНрд╖рдг рдХреЗ рд▓рд┐рдП - 30%:
# Split into 70% training and 30% testing set X, X_test, y, y_test = train_test_split(features, targets, test_size = 0.3, random_state = 42)
рдЕрдм рд╣рдо рдкреНрд░рд╛рд░рдВрднрд┐рдХ рдЖрдзрд╛рд░ рд╕реНрддрд░ рдХреЗ рд▓рд┐рдП рд╕рдВрдХреЗрддрдХ рдХреА рдЧрдгрдирд╛ рдХрд░рддреЗ рд╣реИрдВ:
# Function to calculate mean absolute error def mae(y_true, y_pred): return np.mean(abs(y_true - y_pred)) baseline_guess = np.median(y) print('The baseline guess is a score of %0.2f' % baseline_guess) print("Baseline Performance on the test set: MAE = %0.4f" % mae(y_test, baseline_guess))
рдмреЗрд╕рд▓рд╛рдЗрди рдХрд╛ рдЕрдиреБрдорд╛рди 66.00 рдХрд╛ рд╕реНрдХреЛрд░ рд╣реИ
рдкрд░реАрдХреНрд╖рдг рд╕реЗрдЯ рдкрд░ рдмреЗрд╕рд▓рд╛рдЗрди рдкреНрд░рджрд░реНрд╢рди: MAE = 24.5164рдкрд░реАрдХреНрд╖рдг рд╕реЗрдЯ рдкрд░ рдФрд╕рдд рдкреВрд░реНрдг рддреНрд░реБрдЯрд┐ рд▓рдЧрднрдЧ 25 рдЕрдВрдХ рдереАред рдЪреВрдВрдХрд┐ рд╣рдо 1 рд╕реЗ 100 рддрдХ рдХреА рд╕реАрдорд╛ рдореЗрдВ рдореВрд▓реНрдпрд╛рдВрдХрди рдХрд░рддреЗ рд╣реИрдВ, рдЗрд╕рд▓рд┐рдП рддреНрд░реБрдЯрд┐ 25% рд╣реИ - рдореЙрдбрд▓ рдХреЗ рд▓рд┐рдП рдХрдо рдмрд╛рдзрд╛!
рдирд┐рд╖реНрдХрд░реНрд╖
рдЗрд╕ рд▓реЗрдЦ рдореЗрдВ, рд╣рдо рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдХрд┐рд╕реА рд╕рдорд╕реНрдпрд╛ рдХреЛ рд╣рд▓ рдХрд░рдиреЗ рдХреЗ рдкрд╣рд▓реЗ рддреАрди рдЪрд░рдгреЛрдВ рд╕реЗ рдЧреБрдЬрд░реЗред рдХрд╛рд░реНрдп рдирд┐рд░реНрдзрд╛рд░рд┐рдд рдХрд░рдиреЗ рдХреЗ рдмрд╛рдж, рд╣рдо:
- рд╕рд╛рдлрд╝ рдХрд┐рдпрд╛ рдФрд░ рд╕реНрд╡рд░реВрдкрд┐рдд рдХрдЪреНрдЪрд╛ рдбреЗрдЯрд╛ред
- рдЙрдкрд▓рдмреНрдз рдбреЗрдЯрд╛ рдХрд╛ рдЕрдзреНрдпрдпрди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдЦреЛрдЬрдкреВрд░реНрдг рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХрд╛ рд╕рдВрдЪрд╛рд▓рди рдХрд┐рдпрд╛ред
- рд╣рдордиреЗ рдРрд╕реА рд╡рд┐рд╢реЗрд╖рддрд╛рдУрдВ рдХрд╛ рдПрдХ рд╕рдореВрд╣ рд╡рд┐рдХрд╕рд┐рдд рдХрд┐рдпрд╛ рд╣реИ рдЬрд┐рд╕рдХрд╛ рдЙрдкрдпреЛрдЧ рд╣рдо рдЕрдкрдиреЗ рдореЙрдбрд▓реЛрдВ рдХреЗ рд▓рд┐рдП рдХрд░реЗрдВрдЧреЗред
, , .
Scikit-Learn , .