рдХреНрдпрд╛ рд╣реИрдбреЙрдк рдорд░ рдЧрдпрд╛? рднрд╛рдЧ 1

рдбреЗрдЯрд╛ рдЗрдВрдЬреАрдирд┐рдпрд░ рдХреЛрд░реНрд╕ рдХреЗ рдЫрд╛рддреНрд░реЛрдВ рдХреЗ рд▓рд┐рдП рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ рд▓реЗрдЦ рдХрд╛ рдЕрдиреБрд╡рд╛рдж рддреИрдпрд╛рд░ рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛ред




рдХреНрд▓реЛрдбреЗрд░рд╛ рдФрд░ рдореИрдкрдЖрд░ рджреЛрдиреЛрдВ рдиреЗ рд╕рдкреНрддрд╛рд╣ рдкрд╣рд▓реЗ рдШреЛрд╖рдгрд╛ рдХреА рдХрд┐ рдЙрдирдХрд╛ рд╡реНрдпрд╡рд╕рд╛рдп рдПрдХ рдХрдард┐рди рд╕рдордп рдореЗрдВ рдерд╛, рдореИрдВрдиреЗ рд╕реЛрд╢рд▓ рдореАрдбрд┐рдпрд╛ рдкреЛрд╕реНрдЯ рдХреА рдПрдХ рдзрд╛рд░рд╛ "рд╣рдбреЛрдк рдбреЗрдб рдЗрдЬ рдбреЗрдб" рдереАрдо рдХреЗ рд╕рд╛рде рджреЗрдЦреАред рдпреЗ рдкрдж рдирдП рдирд╣реАрдВ рд╣реИрдВ, рд▓реЗрдХрд┐рди рдПрдХ рдРрд╕реЗ рдХреНрд╖реЗрддреНрд░ рдореЗрдВ рдЬрд╣рд╛рдВ рддрдХрдиреАрдХреА рд╡рд┐рд╢реЗрд╖рдЬреНрдЮ рд╢рд╛рдпрдж рд╣реА рдХрднреА рд╕рд╛рдорд╛рдЬрд┐рдХ рдиреЗрдЯрд╡рд░реНрдХ рдХреЗ рд▓рд┐рдП рдЙрдЪреНрдЪ рдЧреБрдгрд╡рддреНрддрд╛ рд╡рд╛рд▓реА рд╕рд╛рдордЧреНрд░реА рдХрд╛ рдЙрддреНрдкрд╛рджрди рдХрд░рддреЗ рд╣реИрдВ, рдЗрди рд╡рд┐рд╕реНрдордпрд╛рджрд┐рдмреЛрдзрдХреЛрдВ рдореЗрдВ рдЬреЛрд░ рд╕реЗ рдФрд░ рдЬреЛрд░ рд╕реЗ рд╣реЛ рд░рд╣реА рд╣реИред рдореИрдВ рд╣рд╛рдбреЛрдк рдХреА рд╕реНрдерд┐рддрд┐ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдХреБрдЫ рддрд░реНрдХреЛрдВ рдкрд░ рд╡рд┐рдЪрд╛рд░ рдХрд░рдирд╛ рдЪрд╛рд╣реВрдВрдЧрд╛ред

рдореБрдлреНрдд рдХреЗ рд╕рд╛рде рдкреНрд░рддрд┐рдпреЛрдЧрд┐рддрд╛


рдХреНрд▓реЛрдбреЗрд░рд╛ рдХреЗ рд╕реБрдЭрд╛рд╡ рд╣реИрдВ рдХрд┐ Hadoop рдХреЛ рдЕрдзрд┐рдХ рд╕рдВрдкреВрд░реНрдг рд╕рдорд╛рдзрд╛рди рдмрдирд╛рдиреЗ рдореЗрдВ рдорджрдж рдХрд░реЗрдВред рдЗрди рдЙрдкрдХрд░рдгреЛрдВ рдХреЗ рджрд┐рдЦрд╛рдИ рджреЗрдиреЗ рд╕реЗ рдкрд╣рд▓реЗ рджреЗрд╡реЛрдкреНрд╕ рд╡реНрдпрд╛рдкрдХ рд╣реЛ рдЧрдП, рдФрд░ рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рддреИрдирд╛рддреА рджреБрд░реНрд▓рдн рдереАред

рдЙрдирдХреЗ рдЙрдкрдХрд░рдг 2,600 рд╕реЗ рдЕрдзрд┐рдХ рдЧреНрд░рд╛рд╣рдХреЛрдВ рдХреЗ рд▓рд┐рдП рд╢рд╛рдирджрд╛рд░ рд╕реМрджреЗ рдкреНрд░рджрд╛рди рдХрд░рддреЗ рд╣реИрдВ, рд▓реЗрдХрд┐рди рдЙрдирдореЗрдВ рд╕реЗ рдЕрдзрд┐рдХрд╛рдВрд╢ рд╕реЙрдлреНрдЯрд╡реЗрдпрд░ рдЦреБрд▓реЗ рд╕реНрд░реЛрдд рдФрд░ рдореБрдлреНрдд рд╣реИрдВред рдХреНрд▓реВрдбреЗрд░рд╛ рдЕрдВрддрддрдГ рдореБрдлреНрдд рд╕реЙрдлреНрдЯрд╡реЗрдпрд░ рдХреЗ рд╕рд╛рде рдкреНрд░рддрд┐рд╕реНрдкрд░реНрдзрд╛ рдХрд░рддреА рд╣реИред рдпрд╣ рд╕рдм рдмрдВрдж рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, рдХрдИ Hadoop рдкрд╛рд░рд┐рд╕реНрдерд┐рддрд┐рдХ рддрдВрддреНрд░ рдбреЗрд╡рд▓рдкрд░реНрд╕ рдиреЗ рдПрдХ рд╕рдордп рдпрд╛ рджреВрд╕рд░реЗ рдкрд░ Cloudera, рдпрд╛рдиреАред рдЕрдВрдд рдореЗрдВ, рдЙрдиреНрд╣реЛрдВрдиреЗ рдХрд┐рд╕реА рднреА рддрд░рд╣ рд╕реЗ рдореБрдлреНрдд рдореЗрдВ рдорд┐рд▓рдиреЗ рд╡рд╛рд▓реЗ рдСрдлрд░реНрд╕ рдХрд╛ рдлрд╛рдпрджрд╛ рдЙрдард╛рдпрд╛ред

рдЬреИрд╕рд╛ рдХрд┐ рд╡реЗ рдореБрдлреНрдд рдореЗрдВ рдкреНрд░рддрд┐рд╕реНрдкрд░реНрдзрд╛ рдХрд░рддреЗ рд╣реИрдВ, рдХреНрд▓реЛрдбрд╛ рдХрднреА рднреА рд╣рдбреЛрдк рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛ рдХреЗ рдЖрдзрд╛рд░ рдХрд╛ 100% рд╕реЗрд╡рд╛ рдирд╣реАрдВ рдХрд░реЗрдЧрд╛ред рдореИрдВ рдЙрдиреНрд╣реЗрдВ рдЗрд╕ рдХрд╛рд░рдг рд╕реЗ Hadoop рдХреЗ рд╕реНрд╡рд╛рд╕реНрдереНрдп рдХреЗ рдПрдХ рд╕рдВрдХреЗрддрдХ рдХреЗ рд░реВрдк рдореЗрдВ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рдХреА рд╣рд┐рдореНрдордд рдирд╣реАрдВ рдХрд░реВрдВрдЧрд╛ред

рдЯрд░реНрдирдХреА рд╕реНрдкрд╛рд░реНрдХ рдФрд░ рдкреНрд░реЗрд╕реНрдЯреЛ рд╕реЙрд▓реНрдпреВрд╢рдВрд╕ рдХреА рдкреЗрд╢рдХрд╢ рдХрд░рдиреЗ рд╡рд╛рд▓реА рдЕрдиреНрдп рдХрдВрдкрдирд┐рдпрд╛рдВ Hadoop рдмреНрд░рд╛рдВрдб рд╕реЗ рдЦреБрдж рдХреЛ рджреВрд░ рдХрд░рдиреЗ рдХреА рдХреЛрд╢рд┐рд╢ рдХрд░ рд░рд╣реА рд╣реИрдВред рдЙрдирдХреЗ рдкреНрд░рд╕реНрддрд╛рд╡реЛрдВ рдореЗрдВ рд╡рд┐рднрд┐рдиреНрди Hadoop рдкрд░рд┐рдпреЛрдЬрдирд╛рдУрдВ рдХреА рд╕реИрдХрдбрд╝реЛрдВ .jar рдлрд╛рдЗрд▓реЗрдВ рд╢рд╛рдорд┐рд▓ рд╣реЛ рд╕рдХрддреА рд╣реИрдВ, рд▓реЗрдХрд┐рди рдлрд┐рд░ рднреА, рдпреЗ рдХрдВрдкрдирд┐рдпрд╛рдВ рдЦреБрд▓реЗ рд╕реНрд░реЛрдд рд╕реЙрдлрд╝реНрдЯрд╡реЗрдпрд░ рдХреЗ рдЙрдкрдпреЛрдЧ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдЕрдкрдиреА рд╡рд┐рдХрд╛рд╕ рд▓рд╛рдЧрдд рдХреЛ рдХрдо рдХрд░рддреЗ рд╣реБрдП, рдореБрдлреНрдд рдСрдлрд╝рд░ рдХреЗ рд╕рд╛рде рдкреНрд░рддрд┐рд╕реНрдкрд░реНрдзрд╛ рд╕реЗ рдмрдЪрдиреЗ рдХреЗ рд▓рд┐рдП рд╣рд░ рд╕рдВрднрд╡ рдкреНрд░рдпрд╛рд╕ рдХрд░рдирд╛ рдЪрд╛рд╣рддреА рд╣реИрдВред рдмрд┐рдХреНрд░реА рдЗрддрдиреА рдЖрд╕рд╛рди рдирд╣реАрдВ рд╣реИ рдЬрдм рдЖрдкрдХрд╛ рдЧреНрд░рд╛рд╣рдХ рдХрд╛рдиреВрдиреА рд░реВрдк рд╕реЗ рдЖрдкрдХреЗ 80% рдСрдлрд░ рдХреЛ рдмрд┐рдирд╛ рднреБрдЧрддрд╛рди рдХреЗ рдбрд╛рдЙрдирд▓реЛрдб рдХрд░ рд╕рдХрддрд╛ рд╣реИред

AWS рдХреЗ рд╕рд╛рде рдкреНрд░рддрд┐рдпреЛрдЧрд┐рддрд╛


2012 рдореЗрдВ, рдореИрдВрдиреЗ Hadoop рдХреЛ 25 рдЕрдиреНрдп рдареЗрдХреЗрджрд╛рд░реЛрдВ рдХреЗ рд╕рд╛рде рд▓рд╛рдЧреВ рдХрд░рдиреЗ рдкрд░ рдХрд╛рдо рдХрд┐рдпрд╛ред рдореЗрд░реЗ рдХреБрдЫ рд╕рд╣рдХрд░реНрдореА Google рд╕реЗ рдЖрдП рдереЗ, рдЕрдиреНрдп рд▓реЛрдЧ рдХреНрд▓рд╛рдЙрдбрд░рд╛ рдХреЗ рд▓рд┐рдП рдХрд╛рдо рдХрд░рддреЗ рд░рд╣реЗред рдПрдХ рдорд╣рддреНрд╡рдкреВрд░реНрдг рдмрдЬрдЯ рд╢рд╛рдорд┐рд▓ рдерд╛, рдЯреАрдо рдиреЗ рдХрдИ рднреБрдЧрддрд╛рди рдШрдВрдЯреЗ рдХрд╛ рдЙрддреНрдкрд╛рджрди рдХрд┐рдпрд╛, рд▓реЗрдХрд┐рди Hadoop рдкрд╛рд░рд┐рд╕реНрдерд┐рддрд┐рдХреА рддрдВрддреНрд░ рдХрд╛ рдПрдХ рдмрд╣реБрдд рдЫреЛрдЯрд╛ рд╣рд┐рд╕реНрд╕рд╛ рддреИрдпрд╛рд░ рдерд╛ред

рдХреБрдЫ рд╡рд░реНрд╖реЛрдВ рдХреЗ рднреАрддрд░, AWS EMR рджрд┐рдЦрд╛рдИ рджрд┐рдпрд╛ рдФрд░ рдЕрдкрдиреА рдмрд╛рдЬрд╛рд░ рд╣рд┐рд╕реНрд╕реЗрджрд╛рд░реА рдХреЛ рдЕрд╡рд╢реЛрд╖рд┐рдд рдХрд░рдирд╛ рд╢реБрд░реВ рдХрд░ рджрд┐рдпрд╛ред EMR рдЖрдкрдХреЛ рдХреБрдЫ рд╣реА рдХреНрд▓рд┐рдХ рдореЗрдВ рд╕реНрдерд╛рдкрд┐рдд рд╕реЙрдлреНрдЯрд╡реЗрдпрд░ рдХреА рдПрдХ рд╡рд┐рд╕реНрддреГрдд рд╡рд┐рд╡рд┐рдзрддрд╛ рдХреЗ рд╕рд╛рде Hadoop рдХреНрд▓рд╕реНрдЯрд░ рдЪрд▓рд╛рдиреЗ рдХреА рдЕрдиреБрдорддрд┐ рджреЗрддрд╛ рд╣реИред рдпрд╣ рдмрд┐рдВрджреБ рдкреНрд░рддрд┐рдпреЛрдВ рдореЗрдВ рдХрд╛рдо рдХрд░ рд╕рдХрддрд╛ рд╣реИ, рдЬреЛ рдЙрдкрдХрд░рдг рдХреА рд▓рд╛рдЧрдд рдХреЛ ~ 80% рддрдХ рдХрдо рдХрд░рддрд╛ рд╣реИ, рдФрд░ S3 рдкрд░ рдбреЗрдЯрд╛ рд╕реНрдЯреЛрд░ рдХрд░ рд╕рдХрддрд╛ рд╣реИ, рдЬреЛ рдХрд┐ 99.9999999999% рд╕рд╕реНрддрд╛ рдФрд░ рд╡рд┐рд╢реНрд╡рд╕рдиреАрдп рд░рд╣рддрд╛ рд╣реИред

рдЕрдЪрд╛рдирдХ, рдкрд░рд┐рдпреЛрдЬрдирд╛ рдкрд░ 25 рдареЗрдХреЗрджрд╛рд░реЛрдВ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рдЧрд╛рдпрдм рд╣реЛ рдЧрдИред рдХреБрдЫ рдкрд░рд┐рдпреЛрдЬрдирд╛рдУрдВ рдкрд░, рдХреЗрд╡рд▓ рдореИрдВ, рдПрдХ рдкреВрд░реНрдгрдХрд╛рд▓рд┐рдХ рдХрд╛рд░реНрдпрдХрд░реНрддрд╛, рдФрд░ рдХрдИ рдЕрдиреНрдп рдЕрдВрд╢рдХрд╛рд▓рд┐рдХ, рд╣рдорд╛рд░реА рдЕрдиреНрдп рдЬрд┐рдореНрдореЗрджрд╛рд░рд┐рдпреЛрдВ рдХреЗ рдЕрд▓рд╛рд╡рд╛ рдмреБрдирд┐рдпрд╛рджреА рдврд╛рдВрдЪреЗ рдХреЛ рддреИрдпрд╛рд░ рдХрд░рдиреЗ рдореЗрдВ рд╢рд╛рдорд┐рд▓ рд╣реЛ рд╕рдХрддреЗ рд╣реИрдВред рдЕрднреА рднреА AWS EMR рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рд╡рд╛рд▓реЗ рдкрд░рд┐рдпреЛрдЬрдирд╛ рд╕рд▓рд╛рд╣рдХрд╛рд░реЛрдВ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ, рд▓реЗрдХрд┐рди рдЗрд╕ рддрд░рд╣ рдХреЗ рдХрд╛рдо рдХреЗ рд▓рд┐рдП рд╕рдордЧреНрд░ рдмрд┐рд▓рд┐рдВрдЧ рдХреНрд╖рдорддрд╛ рдХреБрдЫ рд╕рд╛рд▓ рдкрд╣рд▓реЗ рдХреА рддреБрд▓рдирд╛ рдореЗрдВ рдмрд╣реБрдд рдХрдо рд╣реИред
рд╕рдВрднрд╛рд╡рд┐рдд рдХреНрд▓рд╛рдЙрдб рдХрд╛рд░реЛрдмрд╛рд░ рдХрд╛ рдХрд┐рддрдирд╛ рд╣рд┐рд╕реНрд╕рд╛ EMR рдХреЗ рдкрдХреНрд╖ рдореЗрдВ рдЦреЛ рдЧрдпрд╛ рдерд╛? рдХреНрд▓рд╛рдЙрдбрд░рд╛ рдиреЗ рдирдВрдЧреЗ рдзрд╛рддреБ рд╕рдореВрд╣реЛрдВ рдХреЛ рд╕реНрдерд╛рдкрд┐рдд рдХрд░рдиреЗ рдФрд░ рдкреНрд░рдмрдВрдзрд┐рдд рдХрд░рдиреЗ рдХрд╛ рдЕрдЪреНрдЫрд╛ рдХрд╛рдо рдХрд┐рдпрд╛, рд▓реЗрдХрд┐рди рдЖрдЬ рдЕрдзрд┐рдХрд╛рдВрд╢ рдбреЗрдЯрд╛ рджреБрдирд┐рдпрд╛ рдХреНрд▓рд╛рдЙрдб рдореЗрдВ рд╣реИред рдпрд╣ рдзреНрдпрд╛рди рджреЗрдиреЗ рдпреЛрдЧреНрдп рд╣реИ рдХрд┐ Hadoop рдЖрдкрдХреЗ рд╡реНрдпрд╡рд╕рд╛рдп рдХреЗ рд▓рд┐рдП рдХрд┐рддрдирд╛ рдЖрдХрд░реНрд╖рдХ рд╣реИ, рдпрджрд┐ рдХреЗрд╡рд▓ рдЗрд╕рд▓рд┐рдП рдХрд┐ AWS рдХреЗ рдкрд╛рд╕ рдмрд┐рдВрджреБ рдкреНрд░рддрд┐рдпреЛрдВ рдХреЗ рд╕рд╛рде рдПрдХ рдкреНрд░рдмрдВрдзрд┐рдд рдСрдлрд╝рд░ рд╣реИред

Hadoop рдХреНрдпрд╛ рд╣реИ?


рдЕрдЧрд░ рдЖрдкрдиреЗ рдореБрдЭрд╕реЗ рд╣рдбреЛрдк рдХреА рдкрд░рд┐рднрд╛рд╖рд╛ рдкреВрдЫреА, рддреЛ рдореИрдВ рдХрд╣реВрдВрдЧрд╛ рдХрд┐ рдпрд╣ рдУрдкрди рд╕реЛрд░реНрд╕ рд╕реЙрдлреНрдЯрд╡реЗрдпрд░ рдХрд╛ рдПрдХ рдмрдбрд╝рд╛ рд╕рдВрдЧреНрд░рд╣ рд╣реИ рдЬреЛ рдХреБрдЫ рд╣рдж рддрдХ рдПрдХреАрдХреГрдд рд╣реИ рдФрд░ рдЗрд╕рдореЗрдВ рдХрдИ рд╕рд╛рдорд╛рдиреНрдп рдкреБрд╕реНрддрдХрд╛рд▓рдп рд╣реИрдВред рдореИрдВ Hadoop рдХреЛ рдПрдХ рд╡рд┐рднрд╛рдЬрди рдбреЗрдЯрд╛рдмреЗрд╕ рдХреЗ рд░реВрдк рдореЗрдВ рджреЗрдЦрддрд╛ рд╣реВрдВ, рд▓рдЧрднрдЧ рдбреЗрдЯрд╛ рдХреЗ рд▓рд┐рдП рдПрдХ рдСрдкрд░реЗрдЯрд┐рдВрдЧ рд╕рд┐рд╕реНрдЯрдо рд╡рд┐рддрд░рдг рдХреА рддрд░рд╣ред
Hadoop рджреНрд╡рд╛рд░рд╛ рдкреНрд░рд╛рдпреЛрдЬрд┐рдд рд╕рднреА рд╕реЙрдлреНрдЯрд╡реЗрдпрд░ рдкрд░рд┐рдпреЛрдЬрдирд╛рдПрдВ Apache рдкрд░рд┐рдпреЛрдЬрдирд╛рдПрдВ рдирд╣реАрдВ рд╣реИрдВред рдкреНрд░реЗрд╕реНрдЯреЛ рдПрдХ рдРрд╕рд╛ рдЕрдкрд╡рд╛рдж рд╣реИред рдЕрдиреНрдп, рдЬреИрд╕реЗ рдХрд┐ ClickHouse, HDFS рдФрд░ Parquet рдХреЗ рд▓рд┐рдП рдЖрдЧрд╛рдореА рд╕рдорд░реНрдерди рдХреЗ рд╕рд╛рде, рдПрдХ Hadoop рдкрд░рд┐рдпреЛрдЬрдирд╛ рдХреЗ рд░реВрдк рдореЗрдВ рдХрдИ рджреНрд╡рд╛рд░рд╛ рдирд╣реАрдВ рдорд╛рдирд╛ рдЬрд╛рдПрдЧрд╛, рд╣рд╛рд▓рд╛рдВрдХрд┐ рд╡реЗ рдЬрд▓реНрдж рд╣реА рд╕рдВрдЧрддрддрд╛ рдЧреНрд░рд╛рдл рдкрд░ рдЯрд┐рдХ рдХрд░реЗрдВрдЧреЗред

2012 рддрдХ, рдХреЛрдИ ORC рдлрд╛рдЗрд▓реЗрдВ рдпрд╛ Parquet рдирд╣реАрдВ рдереЗред рдЗрди рдкреНрд░рд╛рд░реВрдкреЛрдВ рдиреЗ рд╣рдбреЛрдк рдореЗрдВ рддреНрд╡рд░рд┐рдд рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХреЗ рдХрд╛рд░реНрдпрд╛рдиреНрд╡рдпрди рдореЗрдВ рдпреЛрдЧрджрд╛рди рджрд┐рдпрд╛ред рдЗрди рдкреНрд░рд╛рд░реВрдкреЛрдВ рд╕реЗ рдкрд╣рд▓реЗ, рд╡рд░реНрдХрд▓реЛрдб рдЬреНрдпрд╛рджрд╛рддрд░ рд▓рд╛рдЗрди-рдЙрдиреНрдореБрдЦ рдереЗред рдпрджрд┐ рдЖрдкрдХреЛ рдбреЗрдЯрд╛ рдХреЗ рдЯреЗрд░рд╛рдмрд╛рдЗрдЯреНрд╕ рдХреЛ рдмрджрд▓рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ рдФрд░ рдЖрдк рдЗрд╕реЗ рд╕рдорд╛рдирд╛рдВрддрд░ рдореЗрдВ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ, рддреЛ Hadoop рдкреВрд░реА рддрд░рд╣ рд╕реЗ рдХрд╛рдо рдХрд░реЗрдЧрд╛ред MapReduce рдПрдХ рдРрд╕рд╛ рдврд╛рдВрдЪрд╛ рдерд╛ рдЬрд┐рд╕рдХрд╛ рдЙрдкрдпреЛрдЧ рдЕрдХреНрд╕рд░ рдЗрд╕ рдЙрджреНрджреЗрд╢реНрдп рдХреЗ рд▓рд┐рдП рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рдерд╛ред

рдХреЙрд▓рдо рд╕рдВрдЧреНрд░рд╣рдг рдХрд┐рд╕рдХреЗ рд▓рд┐рдП рдкреЗрд╢ рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛ рдпрд╣ рдХреБрдЫ рд╣реА рд╕реЗрдХрдВрдб рдореЗрдВ рдбреЗрдЯрд╛ рдХреА рдЯреЗрд░рд╛рдмрд╛рдЗрдЯреНрд╕ рдХрд╛ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рд╣реИред рдЬреЛ рдмрдбрд╝реА рд╕рдВрдЦреНрдпрд╛ рдореЗрдВ рдЙрджреНрдпрдореЛрдВ рдХреЗ рд▓рд┐рдП рдЕрдзрд┐рдХ рдореВрд▓реНрдпрд╡рд╛рди рдкреНрд░рд╕реНрддрд╛рд╡ рдирд┐рдХрд▓рд╛ред рдбреЗрдЯрд╛ рд╡реИрдЬреНрдЮрд╛рдирд┐рдХреЛрдВ рдХреЛ рдПрдХ рд╡рд┐рдЪрд╛рд░ рдкреНрд░рд╛рдкреНрдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХреЗрд╡рд▓ рдереЛрдбрд╝реА рдорд╛рддреНрд░рд╛ рдореЗрдВ рдбреЗрдЯрд╛ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реЛ рд╕рдХрддреА рд╣реИ, рд▓реЗрдХрд┐рди рдкрд╣рд▓реЗ рдЙрдиреНрд╣реЗрдВ рд╕рд╣реА рд▓реЛрдЧреЛрдВ рдХреЛ рдЪреБрдирдиреЗ рдХреЗ рд▓рд┐рдП рдбреЗрдЯрд╛ рдХреЗ рд╕рдВрднрд╛рд╡рд┐рдд рдкреЗрдЯрд╛рдмрд╛рдЗрдЯреНрд╕ рдХреЛ рджреЗрдЦрдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реЛрдЧреАред рдХреЙрд▓рдо рдПрдирд╛рд▓рд┐рдЯрд┐рдХреНрд╕ рдЙрдирдХреЗ рд▓рд┐рдП рдбреЗрдЯрд╛ рдХреЗ рдкреНрд░рд╕рдВрд╕реНрдХрд░рдг рдореЗрдВ рдЙрдирдХреЗ рдкреНрд░рд╡рд╛рд╣ рдореЗрдВ рдЙрдирдХреЗ рд▓рд┐рдП рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╣реИ, рдЬреЛ рдпрд╣ рд╕рдордЭрдиреЗ рдХреЗ рд▓рд┐рдП рдЖрд╡рд╢реНрдпрдХ рд╣реИ рдХрд┐ рдХреНрдпрд╛ рдЪрдпрди рдХрд░рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИред

MapReduce рдореЗрдВ рджреЛ рдХрд╛рд░реНрдпрд╛рддреНрдордХ рдбреЗрдЯрд╛ рдкреНрд░реЛрд╕реЗрд╕рд┐рдВрдЧ рдСрдкрд░реЗрдЯрд░ рд╣реИрдВ, рдирдХреНрд╢реЗ рдХреЛ рдХрдо рдХрд░рддреЗ рд╣реИрдВ рдФрд░ рдбреЗрдЯрд╛ рдХреЛ рд╕реНрдЯреНрд░рд┐рдВрдЧреНрд╕ рдХреЗ рд░реВрдк рдореЗрдВ рдорд╛рдирддреЗ рд╣реИрдВред рд╕реНрдкрд╛рд░реНрдХ рддреБрд░рдВрдд рдЗрд╕рдХрд╛ рдЕрдиреБрд╕рд░рдг рдХрд░рддрд╛ рд╣реИ рдФрд░ рдЗрд╕рдореЗрдВ рдЕрдзрд┐рдХ рдХрд╛рд░реНрдпрд╛рддреНрдордХ рдСрдкрд░реЗрдЯрд░ рд╣реЛрддреЗ рд╣реИрдВ, рдЬреИрд╕реЗ рдХрд┐ рдлрд┐рд▓реНрдЯрд░ рдФрд░ рдпреВрдирд┐рдпрди, рдФрд░ рдирд┐рд░реНрджреЗрд╢рд┐рдд рдПрд╕рд╛рдЗрдХреНрд▓рд┐рдХ рдЧреНрд░рд╛рдл (рдбрд╛рдпрд░реЗрдХреНрдЯ рдПрд╕рд╛рдЗрдХреНрд▓рд┐рдХ рдЧреНрд░рд╛рдл - рдбреАрдПрдЬреА) рдореЗрдВ рд╕рдВрд░рдЪрд┐рдд рдбреЗрдЯрд╛ рдХреЛ рдорд╛рдирддрд╛ рд╣реИред рдЗрди рддрддреНрд╡реЛрдВ рдиреЗ рд╕реНрдкрд╛рд░реНрдХ рдХреЛ рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдФрд░ рдЧреНрд░рд╛рдлрд┐рдХрд▓ рдПрдирд╛рд▓рд┐рдЯрд┐рдХреНрд╕ рдЬреИрд╕реЗ рдЕрдзрд┐рдХ рдЬрдЯрд┐рд▓ рд╡рд░реНрдХрд▓реЛрдб рдЪрд▓рд╛рдиреЗ рдореЗрдВ рд╕рдХреНрд╖рдо рдХрд┐рдпрд╛ред рд╕реНрдкрд╛рд░реНрдХ рдЕрднреА рднреА рдПрдХ рдХреНрд╖рдорддрд╛ рдЕрдиреБрд╕реВрдЪрдХ рдХреЗ рд░реВрдк рдореЗрдВ YARN рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░ рд╕рдХрддрд╛ рд╣реИ, рдмрд╣реБрдд рдЕрдзрд┐рдХ MapReduce рдореЗрдВ рдХрд╛рд░реНрдпреЛрдВ рдХреА рддрд░рд╣ред рд▓реЗрдХрд┐рди рд╕реНрдкрд╛рд░реНрдХ рдЯреАрдо рдиреЗ рднреА рдЕрдкрдирд╛ рд╢реЗрдбреНрдпреВрд▓рд░ рдмрдирд╛рдирд╛ рд╢реБрд░реВ рдХрд░ рджрд┐рдпрд╛ рдФрд░ рдмрд╛рдж рдореЗрдВ рдХреБрдмреЗрд░рдиреЗрдЯреНрд╕ рдХреЗ рд▓рд┐рдП рд╕рдорд░реНрдерди рдЬреЛрдбрд╝рд╛ред

рдХреБрдЫ рдмрд┐рдВрджреБ рдкрд░, рд╕реНрдкрд╛рд░реНрдХ рд╕рдореБрджрд╛рдп рдиреЗ рд╣рд╛рдбреЛрдк рдкрд╛рд░рд┐рд╕реНрдерд┐рддрд┐рдХреА рддрдВрддреНрд░ рд╕реЗ рдЦреБрдж рдХреЛ рджреВрд░ рдХрд░рдиреЗ рдХреА рдХреЛрд╢рд┐рд╢ рдХреАред рд╡реЗ рдирд╣реАрдВ рдЪрд╛рд╣рддреЗ рдереЗ рдХрд┐ рдЙрдиреНрд╣реЗрдВ рдРрдб-рдСрди рд▓реЗрдЧреЗрд╕реА рд╕реЙрдлреНрдЯрд╡реЗрдпрд░ рдХреЗ рд░реВрдк рдореЗрдВ рдпрд╛ рд╣реИрдбреЛрдк рдХреЗ рд▓рд┐рдП "рдРрдб-рдСрди" рдХреЗ рд░реВрдк рдореЗрдВ рджреЗрдЦрд╛ рдЬрд╛рдПред рдПрдХреАрдХрд░рдг рдХреЗ рд╕реНрддрд░ рдХреЛ рджреЗрдЦрддреЗ рд╣реБрдП рдХрд┐ рд╕реНрдкрд╛рд░реНрдХ рдХрд╛ рдмрд╛рдХреА рд╣рдбреЛрдк рдкрд╛рд░рд┐рд╕реНрдерд┐рддрд┐рдХреА рддрдВрддреНрд░ рдХреЗ рд╕рд╛рде рд╣реИ, рдФрд░ рд╕реНрдкрд╛рд░реНрдХ рджреНрд╡рд╛рд░рд╛ рдЙрдкрдпреЛрдЧ рдХреА рдЬрд╛рдиреЗ рд╡рд╛рд▓реА рдЕрдиреНрдп рд╣рдбреЛрдк рдкрд░рд┐рдпреЛрдЬрдирд╛рдУрдВ рд╕реЗ рд╕реИрдХрдбрд╝реЛрдВ рдкреБрд╕реНрддрдХрд╛рд▓рдп рджрд┐рдП рдЧрдП рд╣реИрдВ, рдореИрдВ рдЗрд╕ рджреГрд╖реНрдЯрд┐рдХреЛрдг рд╕реЗ рдЕрд╕рд╣рдордд рд╣реВрдВ рдХрд┐ рд╕реНрдкрд╛рд░реНрдХ рдПрдХ рдЕрдХреЗрд▓рд╛ рдЙрддреНрдкрд╛рдж рд╣реИред

MapReduce рдЗрди рджрд┐рдиреЛрдВ рдЕрдзрд┐рдХрд╛рдВрд╢ рд╡рд░реНрдХрд▓реЛрдб рдХреЗ рд▓рд┐рдП рдкрд╣рд▓реА рдкрд╕рдВрдж рдирд╣реАрдВ рд╣реЛ рд╕рдХрддрд╛ рд╣реИ, рд▓реЗрдХрд┐рди рдпрд╣ рдЕрднреА рднреА рдЖрдзрд╛рд░ рд╡рд╛рддрд╛рд╡рд░рдг рд╣реИ рдЬрдм рд╣рдбреЙрдк рдбрд┐рд╕реНрдЯрдХрдк рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ - рдПрдХ рд╕реЙрдлреНрдЯрд╡реЗрдпрд░ рдкреИрдХреЗрдЬ рдЬреЛ AWS S3 рдФрд░ HDFS рдХреЗ рдмреАрдЪ рдбреЗрдЯрд╛ рдХреЛ рдХрд┐рд╕реА рднреА рдЕрдиреНрдп рдкреНрд░рд╕реНрддрд╛рд╡ рдХреА рддреБрд▓рдирд╛ рдореЗрдВ рддреЗрдЬреА рд╕реЗ рд╕реНрдерд╛рдирд╛рдВрддрд░рд┐рдд рдХрд░ рд╕рдХрддрд╛ рд╣реИред рдХрд╛ рдкрд░реАрдХреНрд╖рдг рдХрд┐рдпрд╛ред

рдХреНрдпрд╛ рд╣рд░ Hadoop рдЯреВрд▓ рд╕рдлрд▓ рд╣реИ?


рдирд╣реАрдВ, рдХреБрдЫ рдкрд░рд┐рдпреЛрдЬрдирд╛рдПрдВ рд╣реИрдВ рдЬреЛ рдкрд╣рд▓реЗ рд╕реЗ рд╣реА рдирдИ рд╡рд╕реНрддреБрдУрдВ рдХрд╛ рдирд┐рд░реАрдХреНрд╖рдг рдХрд░ рдЪреБрдХреА рд╣реИрдВред

рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП, рдХрдИ рд╡рд░реНрдХрд▓реЛрдб рдЬреЛ рдкрд╣рд▓реЗ рдУрдЬрд╝реА рдХреЗ рд╕рд╛рде рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рдереЗ, рдЕрдм рдПрдпрд░рдлреНрд▓реЛ рдХреЗ рд╕рд╛рде рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рд╣реИрдВред Oozie рдХреЗ рдореБрдЦреНрдп рдбреЗрд╡рд▓рдкрд░ рд░реЙрдмрд░реНрдЯ рдХрд╛рдВрдЯрд░ рдиреЗ рдХреЛрдб рдмреЗрд╕ рдХрд╛ рдПрдХ рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╣рд┐рд╕реНрд╕рд╛ рдкреНрд░рджрд╛рди рдХрд┐рдпрд╛ рдЬреЛ рдЖрдЬ рднреА рдореМрдЬреВрдж рд╣реИред рджреБрд░реНрднрд╛рдЧреНрдп рд╕реЗ, рд░реЙрдмрд░реНрдЯ рдиреЗ 2018 рдореЗрдВ рдХреНрд▓реЛрдЙрдбреЗрд░рд╛ рдЫреЛрдбрд╝рдиреЗ рдХреЗ рдмрд╛рдж рд╕реЗ рдЗрд╕ рдкрд░рд┐рдпреЛрдЬрдирд╛ рдореЗрдВ рдЗрддрдирд╛ рд╕рдХреНрд░рд┐рдп рд╣рд┐рд╕реНрд╕рд╛ рдирд╣реАрдВ рд▓рд┐рдпрд╛ред рдЗрд╕ рдмреАрдЪ, рдПрдпрд░рдлреНрд▓реЛ рдореЗрдВ 800 рд╕реЗ рдЕрдзрд┐рдХ рдкреНрд░рддрд┐рднрд╛рдЧреА рд╣реИрдВ, рдЬрд┐рдирдореЗрдВ рд╕реЗ рдкрд┐рдЫрд▓реЗ рдПрдХ рд╕рд╛рд▓ рдореЗрдВ рдЗрд╕рдХреА рд╕рдВрдЦреНрдпрд╛ рд▓рдЧрднрдЧ рджреЛрдЧреБрдиреА рд╣реЛ рдЧрдИ рд╣реИред рд▓рдЧрднрдЧ рд╣рд░ рдЧреНрд░рд╛рд╣рдХ, рдЬрд┐рдирдХреЗ рд╕рд╛рде рдореИрдВрдиреЗ 2015 рд╕реЗ рдХрд╛рдо рдХрд┐рдпрд╛ рдерд╛, рдЙрдирдХреЗ рд╕рдВрдЧрдардиреЛрдВ рдореЗрдВ рдХрдо рд╕реЗ рдХрдо рдПрдХ рд╡рд┐рднрд╛рдЧ рдореЗрдВ рдПрдпрд░рдлреНрд▓реЛ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд┐рдпрд╛ред

Hadoop рд╡рд┐рднрд┐рдиреНрди рдмрд┐рд▓реНрдбрд┐рдВрдЧ рдмреНрд▓реЙрдХреНрд╕ рдФрд░ рддрддреНрд╡реЛрдВ рдХреЛ рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИ рдЬреЛ рдбреЗрдЯрд╛ рдкреНрд▓реЗрдЯрдлреЙрд░реНрдо рдмрдирд╛рддреЗ рд╣реИрдВред рдЕрдХреНрд╕рд░, рдХрдИ рдкрд░рд┐рдпреЛрдЬрдирд╛рдПрдВ рд╕рдорд╛рди рдХрд╛рд░реНрдпрдХреНрд╖рдорддрд╛ рдХреЗ рдкреНрд░рд╛рд╡рдзрд╛рди рдХреЗ рд▓рд┐рдП рдкреНрд░рддрд┐рд╕реНрдкрд░реНрдзрд╛ рдХрд░рддреА рд╣реИрдВред рдЕрдВрдд рдореЗрдВ, рдЗрдирдореЗрдВ рд╕реЗ рдХреБрдЫ рдкреНрд░реЛрдЬреЗрдХреНрдЯ рдлреАрдХреЗ рдкрдбрд╝ рдЬрд╛рддреЗ рд╣реИрдВ рдЬрдмрдХрд┐ рдЕрдиреНрдп рдкреНрд░рдореБрдЦ рд╣реЛрддреЗ рд╣реИрдВред

2010 рдореЗрдВ, рдХрдИ рдкрд░рд┐рдпреЛрдЬрдирд╛рдПрдВ рдереАрдВ рдЬрд┐рдиреНрд╣реЗрдВ рд╡рд┐рднрд┐рдиреНрди рдХрд╛рд░реНрдпрднрд╛рд░ рдХреЗ рд▓рд┐рдП рдкрд╣рд▓реА рдкрд╕рдВрдж рдХреЗ рд░реВрдк рдореЗрдВ рддреИрдирд╛рдд рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛, рдЬрд┐рд╕рдореЗрдВ рдХреЗрд╡рд▓ рдХреБрдЫ рдкреНрд░рддрд┐рднрд╛рдЧреА рдереЗ рдпрд╛, рдХреБрдЫ рдорд╛рдорд▓реЛрдВ рдореЗрдВ, рдХрдИ рдорд╣рддреНрд╡рдкреВрд░реНрдг рддреИрдирд╛рддреАред рддрдереНрдп рдпрд╣ рд╣реИ рдХрд┐ рдпреЗ рдкрд░рд┐рдпреЛрдЬрдирд╛рдПрдВ рдЖрддреА рд╣реИрдВ рдФрд░ рдЬрд╛рддреА рд╣реИрдВ, рдЗрд╕ рдмрд╛рдд рдХрд╛ рд╕рдмреВрдд рдХреЗ рд░реВрдк рдореЗрдВ рдЗрд╕реНрддреЗрдорд╛рд▓ рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛ рдХрд┐ рдкреВрд░рд╛ Hadoop рдкрд╛рд░рд┐рд╕реНрдерд┐рддрд┐рдХреА рддрдВрддреНрд░ рдорд░ рд░рд╣рд╛ рд╣реИ, рд▓реЗрдХрд┐рди рдореИрдВ рдЗрд╕ рддрд░рд╣ рдХреЗ рдирд┐рд╖реНрдХрд░реНрд╖ рдирд╣реАрдВ рдирд┐рдХрд╛рд▓рддрд╛ рд╣реВрдВред

рдореИрдВ рдкрд░рд┐рдпреЛрдЬрдирд╛рдУрдВ рдХреЗ рдЗрд╕ рдХрдордЬреЛрд░ рд╕рдВрдШ рдХреЛ рдХрдИ рд╢рдХреНрддрд┐рд╢рд╛рд▓реА рд╡рд┐рд╢реЗрд╖рддрд╛рдУрдВ рдХреЛ рд╡рд┐рдХрд╕рд┐рдд рдХрд░рдиреЗ рдХреЗ рддрд░реАрдХреЗ рдХреЗ рд░реВрдк рдореЗрдВ рджреЗрдЦрддрд╛ рд╣реВрдВ рдЬреЛ рдХрд┐ рдХрд┐рд╕реА рднреА рдорд╣рддреНрд╡рдкреВрд░реНрдг рдЕрдВрдд-рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛ рд▓рд╛рдЗрд╕реЗрдВрд╕ рд╢реБрд▓реНрдХ рдХреЗ рдмрд┐рдирд╛ рдЙрдкрдпреЛрдЧ рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИред рдпрд╣ рдпреЛрдЧреНрдпрддрдо рдХреЗ рдЕрд╕реНрддрд┐рддреНрд╡ рдХрд╛ рд╕рд┐рджреНрдзрд╛рдВрдд рд╣реИ, рдФрд░ рдпрд╣ рд╕рд╛рдмрд┐рдд рдХрд░рддрд╛ рд╣реИ рдХрд┐ рдкреНрд░рддреНрдпреЗрдХ рд╕рдорд╕реНрдпрд╛ рдХреЗ рд▓рд┐рдП рдПрдХ рд╕реЗ рдЕрдзрд┐рдХ рджреГрд╖реНрдЯрд┐рдХреЛрдг рдкрд░ рд╡рд┐рдЪрд╛рд░ рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛ред

рдЕрджреНрдпрддрди: рдореИрдВрдиреЗ рд╢реБрд░реВ рдореЗрдВ рдХрд╣рд╛ рдерд╛ рдХрд┐ рдЧреАрдЬрд╝рдм рдкрд░ рдЬреЛ рд░рд┐рдкреЛрд░реНрдЯ рдХреА рдЧрдИ рд╣реИ, рдЙрд╕рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рдУрдЬрд╝реА рдХреЗ рдкрд╛рд╕ 17 рд╕рджрд╕реНрдп рдереЗред рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ, Oozie рдХреЗ рдкрд╛рд╕ 152 рдбреЗрд╡рд▓рдкрд░реНрд╕ рджреНрд╡рд╛рд░рд╛ рдкреНрд░рд╕реНрддреБрдд рдХрд┐рдП рдЧрдП рдкреНрд░рддреНрдпрдХреНрд╖ рдХрдорд┐рдЯ рдФрд░ рдкреИрдЪ рджреЛрдиреЛрдВ рдереЗ, рди рдХрд┐ рд╕рд┐рд░реНрдл 17 рдЬреЛ рдХрд┐ GitHub рдЧрдгрдирд╛ рдореЗрдВ рджрд┐рдЦрд╛рдИ рджреЗрддреЗ рд╣реИрдВред рд░реЙрдмрд░реНрдЯ рдХрд╛рдиреНрдЯрд░ рдиреЗ рдЗрди рдЕрддрд┐рд░рд┐рдХреНрдд 135 рд▓реЗрдЦрдХреЛрдВ рдХреЗ рд╕рд╛рдХреНрд╖реНрдп рдХреЗ рд╕рд╛рде рдЗрд╕ рдкреЛрд╕реНрдЯ рдХреЗ рдкреНрд░рд╛рд░рдВрднрд┐рдХ рдкреНрд░рдХрд╛рд╢рди рдХреЗ рдмрд╛рдж рдореБрдЭрд╕реЗ рд╕рдВрдкрд░реНрдХ рдХрд┐рдпрд╛, рдФрд░ рдореИрдВ рдЗрд╕ рд╕реНрдкрд╖реНрдЯреАрдХрд░рдг рдХреЗ рд▓рд┐рдП рдЙрдиреНрд╣реЗрдВ рдзрдиреНрдпрд╡рд╛рдж рджреЗрддрд╛ рд╣реВрдВред


рдЦреЛрдЬ рдЯреНрд░реИрдлрд╝рд┐рдХ рдХрд╛рдо рдирд╣реАрдВ рдХрд░ рд░рд╣рд╛ рд╣реИ


Hadoop рдХреА "рдореМрдд" рдХреЗ рдкрдХреНрд╖ рдореЗрдВ рдПрдХ рддрд░реНрдХ рдпрд╣ рд╣реИ рдХрд┐ рд╡рд┐рднрд┐рдиреНрди Hadoop рддрдХрдиреАрдХреЛрдВ рдкрд░ Google рдЦреЛрдЬ рдЯреНрд░реИрдлрд╝рд┐рдХ рдХрд╛рдо рдирд╣реАрдВ рдХрд░рддрд╛ рд╣реИред рдХреНрд▓рд╛рдЙрдбрд░рд╛ рдФрд░ рдХрдИ рдЕрдиреНрдп рд╕рд▓рд╛рд╣рдХрд╛рд░реЛрдВ рдиреЗ рд╣рд╛рд▓ рдХреЗ рд╡рд░реНрд╖реЛрдВ рдореЗрдВ рдЕрдЪреНрдЫрд╛ рдзрди рдЙрдЧрд╛рд╣рдиреЗ рд╡рд╛рд▓рд╛ рдХрд╛рдо рдХрд┐рдпрд╛ рд╣реИ рдФрд░ рдЕрдкрдиреЗ рдкреНрд░рд╕реНрддрд╛рд╡реЛрдВ рдХреЛ рдЖрдЧреЗ рдмрдврд╝рд╛рдиреЗ рдХреЗ рд▓рд┐рдП рдорд╣рддреНрд╡рдкреВрд░реНрдг рдкреНрд░рдпрд╛рд╕ рдХрд┐рдП рд╣реИрдВред рдпрд╣, рдмрджрд▓реЗ рдореЗрдВ, рдмрд╣реБрдд рд░реБрдЪрд┐ рдкреИрджрд╛ рд╣реБрдИ, рдФрд░ рдХреБрдЫ рдмрд┐рдВрджреБ рдкрд░ рдЗрди рдкреНрд░реМрджреНрдпреЛрдЧрд┐рдХрд┐рдпреЛрдВ рдХрд╛ рдЕрдзреНрдпрдпрди рдХрд░рдиреЗ рд╡рд╛рд▓реЗ рд▓реЛрдЧреЛрдВ рдХреА рдПрдХ рд▓рд╣рд░ рддрдХрдиреАрдХреА рд╕рдореБрджрд╛рдп рдореЗрдВ рджрд┐рдЦрд╛рдИ рджреАред рдпрд╣ рд╕рдореБрджрд╛рдп рд╡рд┐рд╡рд┐рдз рд╣реИ, рдФрд░ рдХреБрдЫ рдмрд┐рдВрджреБ рдкрд░, рдЬреНрдпрд╛рджрд╛рддрд░ рд▓реЛрдЧ, рд╣рдореЗрд╢рд╛ рдХреА рддрд░рд╣, рдЕрдиреНрдп рдЪреАрдЬреЛрдВ рдкрд░ рдЪрд▓реЗ рдЧрдПред

рд╣рд╛рдбреЛрдк рдХреЗ рдкреВрд░реЗ рдЗрддрд┐рд╣рд╛рд╕ рдореЗрдВ, рдЖрдЬ рдХреА рдкреЗрд╢рдХрд╢ рдХреА рдЧрдИ рдХрд╛рд░реНрдпрдХреНрд╖рдорддрд╛ рдХреА рдЗрддрдиреА рд╕рдореГрджреНрдз рд╡рд┐рд╡рд┐рдзрддрд╛ рдирд╣реАрдВ рдереА, рдФрд░ рдпрд╣ рдкрд╣рд▓реЗ рдХрднреА рднреА рдпреБрджреНрдз рдореЗрдВ рдЗрддрдирд╛ рд╕реНрдерд┐рд░ рдФрд░ рдкрд░реАрдХреНрд╖рдг рдирд╣реАрдВ рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛ред

Hadoop рдкрд░рд┐рдпреЛрдЬрдирд╛рдУрдВ рдореЗрдВ рд╣рдЬрд╛рд░реЛрдВ рд▓реЗрдЦрдХреЛрдВ рджреНрд╡рд╛рд░рд╛ рд▓рд┐рдЦрд┐рдд рдХреЛрдб рдХреА рд▓рд╛рдЦреЛрдВ рд▓рд╛рдЗрдиреЗрдВ рд╢рд╛рдорд┐рд▓ рд╣реИрдВред рд╣рд░ рд╣рдлреНрддреЗ, рд╕реИрдХрдбрд╝реЛрдВ рдбреЗрд╡рд▓рдкрд░ рд╡рд┐рднрд┐рдиреНрди рдкрд░рд┐рдпреЛрдЬрдирд╛рдУрдВ рдкрд░ рдХрд╛рдо рдХрд░рддреЗ рд╣реИрдВред рдЕрдзрд┐рдХрд╛рдВрд╢ рд╡реНрдпрд╛рд╡рд╕рд╛рдпрд┐рдХ рдбреЗрдЯрд╛рдмреЗрд╕ рдСрдлрд╝рд░ рднрд╛рдЧреНрдпрд╢рд╛рд▓реА рд╣реЛрддреЗ рд╣реИрдВ рдпрджрд┐ рдХрдо рд╕реЗ рдХрдо рдореБрдЯреНрдареА рднрд░ рдЗрдВрдЬреАрдирд┐рдпрд░ рд╣рд░ рд╣рдлреНрддреЗ рдЕрдкрдиреЗ рдХреЛрдб рдбреЗрдЯрд╛рдмреЗрд╕ рдореЗрдВ рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╕реБрдзрд╛рд░ рдХрд░рддреЗ рд╣реИрдВред

Hadoop рдХреНрдпреЛрдВ рдЦрд╛рд╕ рд╣реИ?


рд╕рдмрд╕реЗ рдкрд╣рд▓реЗ, 600 рдкреАрдмреА рд╕реЗ рдЕрдзрд┐рдХ рдХреА рдХреНрд╖рдорддрд╛ рд╡рд╛рд▓реЗ рдПрдЪрдбреАрдПрдлрдПрд╕ рдХреНрд▓рд╕реНрдЯрд░ рд╣реИрдВред RAM рдореЗрдВ HDFS рдореЗрдЯрд╛рдбреЗрдЯрд╛ рдХреА рдкреНрд░рдХреГрддрд┐ рдХрд╛ рдЕрд░реНрде рд╣реИ рдХрд┐ рдЖрдк рдкреНрд░рддрд┐ рд╕реЗрдХрдВрдб 60k рд╕рдВрдЪрд╛рд▓рди рдХреЛ рдЖрд╕рд╛рдиреА рд╕реЗ рд╕рдВрд╕рд╛рдзрд┐рдд рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред
AWS S3 рдиреЗ рд╕реНрдХреЗрд▓реЗрдмрд┐рд▓рд┐рдЯреА рд╣рд╛рд╕рд┐рд▓ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП POSIX рдлрд╛рдЗрд▓ рд╕рд┐рд╕реНрдЯрдо рдкрд░ рдмрд╣реБрдд рдХреБрдЫ рдкрд╛рдпрд╛ рд╣реИред рддреНрд╡рд░рд┐рдд рдлрд╝рд╛рдЗрд▓ рдкрд░рд┐рд╡рд░реНрддрди, рдЬреИрд╕реЗ рдХрд┐ рдЖрд╡рд╢реНрдпрдХ рдЬрдм CSV рдлрд╝рд╛рдЗрд▓реЛрдВ рдХреЛ Parquet рдлрд╝рд╛рдЗрд▓реЛрдВ рдореЗрдВ рдкрд░рд┐рд╡рд░реНрддрд┐рдд рдХрд░рддреЗ рд╣реИрдВ, S3 рдореЗрдВ рд╕рдВрднрд╡ рдирд╣реАрдВ рд╣реЛрддреЗ рд╣реИрдВ рдФрд░ рдпрджрд┐ рдЖрдк рдХрд╛рд░реНрдпрднрд╛рд░ рд╡рд┐рддрд░рд┐рдд рдХрд░рдирд╛ рдЪрд╛рд╣рддреЗ рд╣реИрдВ рддреЛ HDFS рдЬреИрд╕реА рдХрд┐рд╕реА рдЪреАрдЬрд╝ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реЛрддреА рд╣реИред рдпрджрд┐ рд░реВрдкрд╛рдВрддрд░рдг рд╕реЙрдлрд╝реНрдЯрд╡реЗрдпрд░ рдХреЛ рдЙрдкрд░реЛрдХреНрдд S3- рдХреЗрд╡рд▓ рдХрд╛рд░реНрдпрднрд╛рд░ рдмрдирд╛рдиреЗ рдХреЗ рд▓рд┐рдП рд╕рдВрд╢реЛрдзрд┐рдд рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛, рддреЛ рдбреЗрдЯрд╛ рд╕реНрдерд╛рдиреАрдпрддрд╛ рд╡рд╛рд▓реЗ рдЯреНрд░реЗрдбрдСрдлрд╝ рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╣реЛрдиреЗ рдХреА рд╕рдВрднрд╛рд╡рдирд╛ рд╣реИред

рджреВрд╕рд░реЗ, Hadoop Ozone рдкрд░рд┐рдпреЛрдЬрдирд╛ рдХрд╛ рдЙрджреНрджреЗрд╢реНрдп S3 API- рд╕рдВрдЧрдд рдкреНрд░рдгрд╛рд▓реА рдмрдирд╛рдирд╛ рд╣реИ рдЬреЛ рдХрд┐рд╕реА рдХреНрд▓рд╕реНрдЯрд░ рдореЗрдВ рд▓рд╛рдЦреЛрдВ рдЦрд░рдм рд╡рд╕реНрддреБрдУрдВ рдХреЛ рдЕрдкрдиреА рдХреНрд▓рд╛рдЙрдб рд╕реЗрд╡рд╛ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рдХреЗ рдмрд┐рдирд╛ рд╕рдВрдЧреНрд░рд╣реАрдд рдХрд░ рд╕рдХрддреА рд╣реИред рдЗрд╕ рдкрд░рд┐рдпреЛрдЬрдирд╛ рдХрд╛ рдЙрджреНрджреЗрд╢реНрдп рд╕реНрдкрд╛рд░реНрдХ рдФрд░ рд╣рд╛рдЗрд╡ рдХреЗ рд▓рд┐рдП рдмрд┐рд▓реНрдЯ-рдЗрди рд╕рдорд░реНрдерди рд╣реИ, рдЬреЛ рдЗрд╕реЗ рдмрд╛рдХреА рдХреЗ рд╣рдбреЛрдк рдЗрдХреЛрд╕рд┐рд╕реНрдЯрдо рдХреЗ рд╕рд╛рде рдЕрдЪреНрдЫрд╛ рдПрдХреАрдХрд░рдг рджреЗрддрд╛ рд╣реИред рдПрдХ рдмрд╛рд░ рдЬрд╛рд░реА рд╣реЛрдиреЗ рдХреЗ рдмрд╛рдж, рдпрд╣ рд╕реЙрдлреНрдЯрд╡реЗрдпрд░ рдкрд╣рд▓реЗ рдРрд╕реЗ рдУрдкрди рд╕реЛрд░реНрд╕ рдкреНрд░рд╕рд╛рджреЛрдВ рдореЗрдВ рд╕реЗ рдПрдХ рд╣реЛрдЧрд╛ рдЬреЛ рдПрдХ рдХреНрд▓рд╕реНрдЯрд░ рдореЗрдВ рдЗрддрдиреА рд╕рд╛рд░реА рдлрд╛рдЗрд▓реЗрдВ рд╕реНрдЯреЛрд░ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред

рддреАрд╕рд░рд╛, рднрд▓реЗ рд╣реА рдЖрдк рдбреЗрдЯрд╛ рдХреЗ рдкреЗрдЯрд╛рдмрд╛рдЗрдЯреНрд╕ рдХреЗ рд╕рд╛рде рдХрд╛рдо рди рдХрд░реЗрдВ, рд▓реЗрдХрд┐рди Hadoop рдкрд╛рд░рд┐рд╕реНрдерд┐рддрд┐рдХреА рддрдВрддреНрд░ рдореЗрдВ рдЖрдкрдХреЗ рд▓рд┐рдП рдЙрдкрд▓рдмреНрдз API рдбреЗрдЯрд╛ рдХреЗ рдЧреАрдЧрд╛рдмрд╛рдЗрдЯ рдХреЛ рд╕рдВрд╕рд╛рдзрд┐рдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рд╕реБрд╕рдВрдЧрдд рдЗрдВрдЯрд░рдлрд╝реЗрд╕ рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИред рд╕реНрдкрд╛рд░реНрдХ рд╡рд┐рддрд░рд┐рдд рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдХреЗ рд▓рд┐рдП рдЕрдВрддрд┐рдо рд╕рдорд╛рдзрд╛рди рд╣реИред рдЬреИрд╕реЗ рд╣реА рдЖрдк рдПрдкреАрдЖрдИ рдХреЗ рд╕рд╛рде рд╕рд╣рдЬ рд╣реЛ рдЬрд╛рддреЗ рд╣реИрдВ, рдЗрд╕рд╕реЗ рдХреЛрдИ рдлрд░реНрдХ рдирд╣реАрдВ рдкрдбрд╝рддрд╛ рдХрд┐ рдЖрдкрдХрд╛ рдХрд╛рдо рдХрд╛ рдмреЛрдЭ рдЬреАрдмреА рдпрд╛ рдкреАрдмреА рдореЗрдВ рдорд╛рдкрд╛ рдЬрд╛рддрд╛ рд╣реИ, рдЬреЛ рдХреЛрдб рдЖрдк рдмрдирд╛рддреЗ рд╣реИрдВ рдЙрд╕реЗ рдлрд┐рд░ рд╕реЗ рд▓рд┐рдЦрдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рдирд╣реАрдВ рд╣реИ, рдЖрдкрдХреЛ рдЗрд╕реЗ рдЪрд▓рд╛рдиреЗ рдХреЗ рд▓рд┐рдП рдЕрдзрд┐рдХ рдорд╢реАрдиреЛрдВ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИред рдореИрдВ рдкрд╣рд▓реЗ рдХрд┐рд╕реА рдХреЛ SQL рдФрд░ PySpark рдХреЛрдб рд▓рд┐рдЦрдирд╛ рд╕рд┐рдЦрд╛рдКрдВрдЧрд╛, рдФрд░ рдлрд┐рд░ рдореИрдВ рдЙрдиреНрд╣реЗрдВ рд╕рд┐рдЦрд╛рдКрдБрдЧрд╛ рдХрд┐ рдХреИрд╕реЗ рдХрдИ рдорд╢реАрдиреЛрдВ рдкрд░ AWK рдХрдорд╛рдВрдб рд╡рд┐рддрд░рд┐рдд рдХрд░реЗрдВред

рдЪреМрдерд╛, Hadoop рдкрд╛рд░рд┐рд╕реНрдерд┐рддрд┐рдХреА рддрдВрддреНрд░ рдХреА рдХрдИ рд╡рд┐рд╢реЗрд╖рддрд╛рдПрдВ рд╡рд╛рдгрд┐рдЬреНрдпрд┐рдХ рдЖрдкреВрд░реНрддрд┐рдХрд░реНрддрд╛рдУрдВ рдХреЗ рд▓рд┐рдП рдиреЗрддрд╛ рд╣реИрдВред рдПрдХ рдорд╛рд▓рд┐рдХрд╛рдирд╛ рдбреЗрдЯрд╛рдмреЗрд╕ рдХреЗ рд▓рд┐рдП рдкреНрд░рддреНрдпреЗрдХ рдЕрд╕рдлрд▓ рд╡рд┐рдкрдгрди рдЪрд╛рд▓ рдмрд┐рдХреНрд░реА рд╡рд┐рднрд╛рдЧ рдХреЛ рдпрд╣ рдкрддрд╛ рд▓рдЧрд╛рдиреЗ рдХреА рдУрд░ рд▓реЗ рдЬрд╛рддреА рд╣реИ рдХрд┐ рдЙрдирдХреЗ рдкреНрд░рд╕реНрддрд╛рд╡ рдореЗрдВ рдХрд┐рддрдиреА рдЧрд╛рдпрдм рд╡рд┐рд╢реЗрд╖рддрд╛рдПрдВ, рд╡реНрдпрд╛рдкрд╛рд░-рдЕрдк рдФрд░ рдЕрдбрд╝рдЪрдиреЗрдВ рд╣реИрдВред рдкреНрд░рддреНрдпреЗрдХ POC рд╡рд┐рдлрд▓рддрд╛ рдмрд┐рдХреНрд░реА рдЯреАрдо рдХреЛ рдпрд╣ рдкрддрд╛ рд▓рдЧрд╛рдиреЗ рдХрд╛ рдХрд╛рд░рдг рдмрдирд╛рддреА рд╣реИ рдХрд┐ рдЙрдирдХрд╛ рдЖрдВрддрд░рд┐рдХ рд╕реЙрдлреНрдЯрд╡реЗрдпрд░ рдкрд░реАрдХреНрд╖рдг рдХрд┐рддрдирд╛ рд╡рд┐рд╢реНрд╡рд╕рдиреАрдп рд╣реИред

рдпрд╣ рдЕрдиреБрд╡рд╛рдж рдХреЗ рдкрд╣рд▓реЗ рднрд╛рдЧ рдХрд╛ рдирд┐рд╖реНрдХрд░реНрд╖ рдирд┐рдХрд╛рд▓рддрд╛ рд╣реИред рдирд┐рд░рдВрддрд░рддрд╛ рдпрд╣рд╛рдВ рдкрдврд╝реА рдЬрд╛ рд╕рдХрддреА рд╣реИ ред рдФрд░ рдЕрдм рд╣рдо рдЖрдкрдХреА рдЯрд┐рдкреНрдкрдгрд┐рдпреЛрдВ рдХреА рдкреНрд░рддреАрдХреНрд╖рд╛ рдХрд░ рд░рд╣реЗ рд╣реИрдВ рдФрд░ рд╣рд░ рдХрд┐рд╕реА рдХреЛ рдЗрд╕ рд╡рд┐рд╖рдп рдкрд░ рдПрдХ рдореБрдлреНрдд рд╡реЗрдмрд┐рдирд╛рд░ рдореЗрдВ рдЖрдордВрддреНрд░рд┐рдд рдХрд░рддреЗ рд╣реИрдВ: "рд╕реНрдЯреНрд░реАрдорд┐рдВрдЧ рдПрдирд╛рд▓рд┐рдЯрд┐рдХреНрд╕ рд╕рд┐рд╕реНрдЯрдо рдХреЗ рдирд┐рд░реНрдорд╛рдг рдХреЗ рд╕рд┐рджреНрдзрд╛рдВрдд ред "

Source: https://habr.com/ru/post/hi475568/


All Articles