
рдирдорд╕реНрдХрд╛рд░, рд╣реЗрдмреНрд░!
рдЖрдЬ рд╣рдо рдкрд╛рдпрдерди рдореЗрдВ рдЧреНрд░реБрдкрд┐рдВрдЧ рдФрд░ рдбреЗрдЯрд╛ рд╡рд┐рдЬрд╝реБрдЕрд▓рд╛рдЗрдЬрд╝реЗрд╢рди рдЯреВрд▓реНрд╕ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рдХрд╛ рдХреМрд╢рд▓ рд╡рд┐рдХрд╕рд┐рдд рдХрд░реЗрдВрдЧреЗред
рдЬреАрдердм рдкрд░ рдЙрдкрд▓рдмреНрдз
рдбреЗрдЯрд╛рд╕реЗрдЯ рдореЗрдВ , рд╣рдо рдХрдИ рд╡рд┐рд╢реЗрд╖рддрд╛рдУрдВ рдХрд╛ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХрд░реЗрдВрдЧреЗ рдФрд░ рд╡рд┐рдЬрд╝реБрдЕрд▓рд╛рдЗрдЬрд╝реЗрд╢рди рдХреЗ рдПрдХ рд╕реЗрдЯ рдХрд╛ рдирд┐рд░реНрдорд╛рдг рдХрд░реЗрдВрдЧреЗред
рдкрд░рдВрдкрд░рд╛ рдХреЗ рдЕрдиреБрд╕рд╛рд░, рд╢реБрд░реБрдЖрдд рдореЗрдВ, рд╣рдо рд▓рдХреНрд╖реНрдпреЛрдВ рдХреЛ рдкрд░рд┐рднрд╛рд╖рд┐рдд рдХрд░рддреЗ рд╣реИрдВ:
- рд╕реЗрдХреНрд╕ рдФрд░ рд╡рд░реНрд╖ рджреНрд╡рд╛рд░рд╛ рд╕рдореВрд╣ рдбреЗрдЯрд╛ рдФрд░ рджреЛрдиреЛрдВ рд▓рд┐рдВрдЧреЛрдВ рдХреА рдЙрд░реНрд╡рд░рддрд╛ рдХреА рд╕рд╛рдорд╛рдиреНрдп рдЧрддрд┐рд╢реАрд▓рддрд╛ рдХреА рдХрд▓реНрдкрдирд╛;
- рдЗрддрд┐рд╣рд╛рд╕ рдореЗрдВ рд╕рдмрд╕реЗ рд▓реЛрдХрдкреНрд░рд┐рдп рдирд╛рдо рдЦреЛрдЬреЗрдВ;
- рдбреЗрдЯрд╛ рдореЗрдВ рдкреВрд░реЗ рд╕рдордп рдХреА рдЕрд╡рдзрд┐ рдХреЛ 10 рднрд╛рдЧреЛрдВ рдореЗрдВ рддреЛрдбрд╝реЗрдВ рдФрд░ рдкреНрд░рддреНрдпреЗрдХ рдХреЗ рд▓рд┐рдП рдкреНрд░рддреНрдпреЗрдХ рд▓рд┐рдВрдЧ рдХрд╛ рд╕рдмрд╕реЗ рд▓реЛрдХрдкреНрд░рд┐рдп рдирд╛рдо рдЦреЛрдЬреЗрдВред рдкреНрд░рддреНрдпреЗрдХ рдирд╛рдо рдХреЗ рд▓рд┐рдП, рдкреВрд░реЗ рд╕рдордп рдХреЗ рд▓рд┐рдП рдЗрд╕рдХреА рдЧрддрд┐рд╢реАрд▓рддрд╛ рдХреА рдХрд▓реНрдкрдирд╛ рдХрд░реЗрдВ;
- рдкреНрд░рддреНрдпреЗрдХ рд╡рд░реНрд╖ рдХреЗ рд▓рд┐рдП, рдЧрдгрдирд╛ рдХрд░реЗрдВ рдХрд┐ рдХрд┐рддрдиреЗ рдирд╛рдо 50% рд▓реЛрдЧ рдХрд╡рд░ рдХрд░рддреЗ рд╣реИрдВ рдФрд░ рдХрд▓реНрдкрдирд╛ рдХрд░рддреЗ рд╣реИрдВ (рд╣рдо рдкреНрд░рддреНрдпреЗрдХ рд╡рд░реНрд╖ рдХреЗ рд▓рд┐рдП рд╡рд┐рднрд┐рдиреНрди рдирд╛рдо рджреЗрдЦреЗрдВрдЧреЗ);
- рдкреВрд░реА рдЕрд╡рдзрд┐ рд╕реЗ 4 рд╡рд░реНрд╖ рдЪреБрдиреЗрдВ рдФрд░ рдкреНрд░рддреНрдпреЗрдХ рд╡рд░реНрд╖ рдирд╛рдо рдореЗрдВ рдкрд╣рд▓реЗ рдЕрдХреНрд╖рд░ рд╕реЗ рдФрд░ рдирд╛рдо рдХреЗ рдЕрдВрддрд┐рдо рдЕрдХреНрд╖рд░ рд╕реЗ рд╡рд┐рддрд░рдг рдХрд░реЗрдВ;
- рдХрдИ рдкреНрд░рд╕рд┐рджреНрдз рд▓реЛрдЧреЛрдВ (рдЕрдзреНрдпрдХреНрд╖реЛрдВ, рдЧрд╛рдпрдХреЛрдВ, рдЕрднрд┐рдиреЗрддрд╛рдУрдВ, рдлрд┐рд▓реНрдо рдирд╛рдпрдХреЛрдВ) рдХреА рдПрдХ рд╕реВрдЪреА рдмрдирд╛рдПрдВ рдФрд░ рдирд╛рдореЛрдВ рдХреА рдЧрддрд┐рд╢реАрд▓рддрд╛ рдкрд░ рдЙрдирдХреЗ рдкреНрд░рднрд╛рд╡ рдХрд╛ рдореВрд▓реНрдпрд╛рдВрдХрди рдХрд░реЗрдВред рджреГрд╢реНрдп рдирд┐рд░реНрдорд╛рдг рдХрд░реЗрдВред
рдХрдо рд╢рдмреНрдж, рдЕрдзрд┐рдХ рдХреЛрдб!
рдФрд░ рдЬрд╛рдиреЗ рджреЛред
рд▓рд┐рдВрдЧ рдФрд░ рд╡рд░реНрд╖ рдХреЗ рдЖрдВрдХрдбрд╝реЛрдВ рдХреЛ рд╕рдореВрд╣рд┐рдд рдХрд░реЗрдВ рдФрд░ рджреЛрдиреЛрдВ рд▓рд┐рдВрдЧреЛрдВ рдХреЗ рдЬрдиреНрдо рджрд░ рдХреА рд╕рд╛рдорд╛рдиреНрдп рдЧрддрд┐рд╢реАрд▓рддрд╛ рдХреА рдХрд▓реНрдкрдирд╛ рдХрд░реЗрдВ:
import numpy as np import pandas as pd import matplotlib.pyplot as plt years = np.arange(1880, 2011, 3) datalist = 'https://raw.githubusercontent.com/wesm/pydata-book/2nd-edition/datasets/babynames/yob{year}.txt' dataframes = [] for year in years: dataset = datalist.format(year=year) dataframe = pd.read_csv(dataset, names=['name', 'sex', 'count']) dataframes.append(dataframe.assign(year=year)) result = pd.concat(dataframes) sex = result.groupby('sex') births_men = sex.get_group('M').groupby('year', as_index=False) births_women = sex.get_group('F').groupby('year', as_index=False) births_men_list = births_men.aggregate(np.sum)['count'].tolist() births_women_list = births_women.aggregate(np.sum)['count'].tolist() fig, ax = plt.subplots() fig.set_size_inches(25,15) index = np.arange(len(years)) stolb1 = ax.bar(index, births_men_list, 0.4, color='c', label='') stolb2 = ax.bar(index + 0.4, births_women_list, 0.4, alpha=0.8, color='r', label='') ax.set_title(' ') ax.set_xlabel('') ax.set_ylabel('') ax.set_xticklabels(years) ax.set_xticks(index + 0.4) ax.legend(loc=9) fig.tight_layout() plt.show()

рдЗрддрд┐рд╣рд╛рд╕ рдХреЗ рд╕рдмрд╕реЗ рд▓реЛрдХрдкреНрд░рд┐рдп рдирд╛рдо рдЦреЛрдЬреЗрдВ:
years = np.arange(1880, 2011) dataframes = [] for year in years: dataset = datalist.format(year=year) dataframe = pd.read_csv(dataset, names=['name', 'sex', 'count']) dataframes.append(dataframe) result = pd.concat(dataframes) names = result.groupby('name', as_index=False).sum().sort_values('count', ascending=False) names.head(10)

рд╣рдо рдбреЗрдЯрд╛ рдореЗрдВ рдкреВрд░реЗ рд╕рдордп рдХреА рдЕрд╡рдзрд┐ рдХреЛ 10 рднрд╛рдЧреЛрдВ рдореЗрдВ рд╡рд┐рднрд╛рдЬрд┐рдд рдХрд░рддреЗ рд╣реИрдВ рдФрд░ рдкреНрд░рддреНрдпреЗрдХ рдХреЗ рд▓рд┐рдП рд╣рдо рдкреНрд░рддреНрдпреЗрдХ рд▓рд┐рдВрдЧ рдХрд╛ рд╕рдмрд╕реЗ рд▓реЛрдХрдкреНрд░рд┐рдп рдирд╛рдо рдкрд╛рддреЗ рд╣реИрдВред рдкреНрд░рддреНрдпреЗрдХ рдирд╛рдо рдХреЗ рд▓рд┐рдП, рдкреВрд░реЗ рд╕рдордп рдХреЗ рд▓рд┐рдП рдЗрд╕рдХреА рдЧрддрд┐рд╢реАрд▓рддрд╛ рдХреА рдХрд▓реНрдкрдирд╛ рдХрд░реЗрдВ:
years = np.arange(1880, 2011) part_size = int((years[years.size - 1] - years[0]) / 10) + 1 parts = {} def GetPart(year): return int((year - years[0]) / part_size) for year in years: index = GetPart(year) r = years[0] + part_size * index, min(years[years.size - 1], years[0] + part_size * (index + 1)) parts[index] = str(r[0]) + '-' + str(r[1]) dataframe_parts = [] dataframes = [] for year in years: dataset = datalist.format(year=year) dataframe = pd.read_csv(dataset, names=['name', 'sex', 'count']) dataframe_parts.append(dataframe.assign(years=parts[GetPart(year)])) dataframes.append(dataframe.assign(year=year)) result_parts = pd.concat(dataframe_parts) result = pd.concat(dataframes) result_parts_sums = result_parts.groupby(['years', 'sex', 'name'], as_index=False).sum() result_parts_names = result_parts_sums.iloc[result_parts_sums.groupby(['years', 'sex'], as_index=False).apply(lambda x: x['count'].idxmax())] result_sums = result.groupby(['year', 'sex', 'name'], as_index=False).sum() for groupName, groupLabels in result_parts_names.groupby(['name', 'sex']).groups.items(): group = result_sums.groupby(['name', 'sex']).get_group(groupName) fig, ax = plt.subplots(1, 1, figsize=(18,10)) ax.set_xlabel('') ax.set_ylabel('') label = group['name'] ax.plot(group['year'], group['count'], label=label.aggregate(np.max), color='b', ls='-') ax.legend(loc=9, fontsize=11) plt.show()










рдкреНрд░рддреНрдпреЗрдХ рд╡рд░реНрд╖ рдХреЗ рд▓рд┐рдП, рд╣рдо рдЧрдгрдирд╛ рдХрд░рддреЗ рд╣реИрдВ рдХрд┐ рдХрд┐рддрдиреЗ рд▓реЛрдЧ рдЗрд╕ рдбреЗрдЯрд╛ рдХреЛ рдХрд╡рд░ рдХрд░рддреЗ рд╣реИрдВ рдФрд░ рдХрд▓реНрдкрдирд╛ рдХрд░рддреЗ рд╣реИрдВ:
dataframe = pd.DataFrame({'year': [], 'count': []}) years = np.arange(1880, 2011) for year in years: dataset = datalist.format(year=year) csv = pd.read_csv(dataset, names=['name', 'sex', 'count']) names = csv.groupby('name', as_index=False).aggregate(np.sum) names['sum'] = names.sum()['count'] names['percent'] = names['count'] / names['sum'] * 100 names = names.sort_values(['percent'], ascending=False) names['cum_perc'] = names['percent'].cumsum() names_filtered = names[names['cum_perc'] <= 50] dataframe = dataframe.append(pd.DataFrame({'year': [year], 'count': [names_filtered.shape[0]]})) fig, ax1 = plt.subplots(1, 1, figsize=(22,13)) ax1.set_xlabel('', fontsize = 12) ax1.set_ylabel(' ', fontsize = 12) ax1.plot(dataframe['year'], dataframe['count'], color='r', ls='-') ax1.legend(loc=9, fontsize=12) plt.show()

рд╕рдВрдкреВрд░реНрдг рдЕрд╡рдзрд┐ рдореЗрдВ рд╕реЗ 4 рд╡рд░реНрд╖ рдЪреБрдиреЗрдВ рдФрд░ рдкреНрд░рддреНрдпреЗрдХ рд╡рд░реНрд╖ рдирд╛рдо рдореЗрдВ рдкрд╣рд▓реЗ рдЕрдХреНрд╖рд░ рдФрд░ рдЕрдВрддрд┐рдо рдкрддреНрд░ рджреНрд╡рд╛рд░рд╛ рд╡рд┐рддрд░рдг рдкреНрд░рджрд░реНрд╢рд┐рдд рдХрд░реЗрдВ:
from string import ascii_lowercase, ascii_uppercase fig_first, ax_first = plt.subplots(1, 1, figsize=(14,10)) fig_last, ax_last = plt.subplots(1, 1, figsize=(14,10)) index = np.arange(len(ascii_uppercase)) years = [1944, 1978, 1991, 2003] colors = ['r', 'g', 'b', 'y'] n = 0 for year in years: dataset = datalist.format(year=year) csv = pd.read_csv(dataset, names=['name', 'sex', 'count']) names = csv.groupby('name', as_index=False).aggregate(np.sum) count = names.shape[0] dataframe = pd.DataFrame({'letter': [], 'frequency_first': [], 'frequency_last': []}) for letter in ascii_uppercase: countFirst = (names[names.name.str.startswith(letter)].count()['count']) countLast = (names[names.name.str.endswith(letter.lower())].count()['count']) dataframe = dataframe.append(pd.DataFrame({ 'letter': [letter], 'frequency_first': [countFirst / count * 100], 'frequency_last': [countLast / count * 100]})) ax_first.bar(index + 0.3 * n, dataframe['frequency_first'], 0.3, alpha=0.5, color=colors[n], label=year) ax_last.bar(index + bar_width * n, dataframe['frequency_last'], 0.3, alpha=0.5, color=colors[n], label=year) n += 1 ax_first.set_xlabel(' ') ax_first.set_ylabel(', %') ax_first.set_title(' ') ax_first.set_xticks(index) ax_first.set_xticklabels(ascii_uppercase) ax_first.legend() ax_last.set_xlabel(' ') ax_last.set_ylabel(', %') ax_last.set_title(' ') ax_last.set_xticks(index) ax_last.set_xticklabels(ascii_uppercase) ax_last.legend() fig_first.tight_layout() fig_last.tight_layout() plt.show()


рдЖрдЗрдП рдХрдИ рдкреНрд░рд╕рд┐рджреНрдз рд▓реЛрдЧреЛрдВ (рдЕрдзреНрдпрдХреНрд╖реЛрдВ, рдЧрд╛рдпрдХреЛрдВ, рдЕрднрд┐рдиреЗрддрд╛рдУрдВ, рдлрд┐рд▓реНрдо рдирд╛рдпрдХреЛрдВ) рдХреА рдПрдХ рд╕реВрдЪреА рдмрдирд╛рдПрдВ рдФрд░ рдирд╛рдореЛрдВ рдХреА рдЧрддрд┐рд╢реАрд▓рддрд╛ рдкрд░ рдЙрдирдХреЗ рдкреНрд░рднрд╛рд╡ рдХрд╛ рдореВрд▓реНрдпрд╛рдВрдХрди рдХрд░реЗрдВ:
celebrities = {'Frank': 'M', 'Britney': 'F', 'Madonna': 'F', 'Bob': 'M'} dataframes = [] for year in years: dataset = datalist.format(year=year) dataframe = pd.read_csv(dataset, names=['name', 'sex', 'count']) dataframes.append(dataframe.assign(year=year)) result = pd.concat(dataframes) for celebrity, sex in celebrities.items(): names = result[result.name == celebrity] dataframe = names[names.sex == sex] fig, ax = plt.subplots(1, 1, figsize=(16,8)) ax.set_xlabel('', fontsize = 10) ax.set_ylabel('', fontsize = 10) ax.plot(dataframe['year'], dataframe['count'], label=celebrity, color='r', ls='-') ax.legend(loc=9, fontsize=12) plt.show()




рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдХреЗ рд▓рд┐рдП, рдЖрдк рд╕реЗрд▓рд┐рдмреНрд░рд┐рдЯреА рдХреЗ рдЬреАрд╡рди рдХрд╛рд▓ рдХреЛ рдЕрдВрддрд┐рдо рдЙрджрд╛рд╣рд░рдг рд╕реЗ рд╡рд┐рдЬрд╝реБрдЕрд▓рд╛рдЗрдЬрд╝реЗрд╢рди рдореЗрдВ рдЬреЛрдбрд╝ рд╕рдХрддреЗ рд╣реИрдВ рддрд╛рдХрд┐ рдирд╛рдореЛрдВ рдХреА рдЧрддрд┐рд╢реАрд▓рддрд╛ рдкрд░ рдЙрдирдХреЗ рдкреНрд░рднрд╛рд╡ рдХрд╛ рдиреЗрддреНрд░рд╣реАрди рдореВрд▓реНрдпрд╛рдВрдХрди рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХреЗред
рдЗрд╕ рдкрд░, рд╣рдорд╛рд░реЗ рд╕рднреА рд▓рдХреНрд╖реНрдп рдкреНрд░рд╛рдкреНрдд рд╣реБрдП рдФрд░ рдкреВрд░реЗ рд╣реБрдПред рд╣рдордиреЗ рдкрд╛рдпрдерди рдореЗрдВ рдбреЗрдЯрд╛ рдЧреНрд░реБрдкрд┐рдВрдЧ рдФрд░ рд╡рд┐рдЬрд╝реБрдЕрд▓рд╛рдЗрдЬрд╝реЗрд╢рди рдЯреВрд▓реНрд╕ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рдХрд╛ рдХреМрд╢рд▓ рд╡рд┐рдХрд╕рд┐рдд рдХрд┐рдпрд╛ рд╣реИ, рдФрд░ рд╣рдо рдбреЗрдЯрд╛ рдХреЗ рд╕рд╛рде рдХрд╛рдо рдХрд░рдирд╛ рдЬрд╛рд░реА рд░рдЦреЗрдВрдЧреЗред рд╣рд░ рдХреЛрдИ рдЦреБрдж рдХреЗ рд▓рд┐рдП рддреИрдпрд╛рд░, рджреГрд╢реНрдп рдбреЗрдЯрд╛ рдкрд░ рдирд┐рд╖реНрдХрд░реНрд╖ рдирд┐рдХрд╛рд▓рдиреЗ рдореЗрдВ рд╕рдХреНрд╖рдо рд╣реЛрдЧрд╛ред
рд╕рднреА рдЬреНрдЮрд╛рди!