Google Hadoop рдХреА рд╕рдореАрдХреНрд╖рд╛ (dataproc)

рдХреБрдЫ рд╕рдордп рдкрд╣рд▓реЗ, рдореИрдВрдиреЗ рдЙрдирдХреЗ рдХреНрд▓рд╛рдЙрдб рдХреЗ рд▓рд┐рдП Google рдХреЗ рддрд╣рдд рдПрдХ рдирд┐: рд╢реБрд▓реНрдХ рдкрд░реАрдХреНрд╖рдг рд╕рдХреНрд░рд┐рдп рдХрд┐рдпрд╛, рдореИрдВрдиреЗ рдЕрдкрдиреА рд╕рдорд╕реНрдпрд╛ рдХреЛ рд╣рд▓ рдирд╣реАрдВ рдХрд┐рдпрд╛, рдпрд╣ рдкрддрд╛ рдЪрд▓рд╛ рдХрд┐ Google рдкрд░реАрдХреНрд╖рдг рдХреЗ рддрд╣рдд 12 рдорд╣реАрдиреЛрдВ рдХреЗ рд▓рд┐рдП $ 300 рджреЗрддрд╛ рд╣реИ, рд▓реЗрдХрд┐рди рдореЗрд░реА рдЕрдкреЗрдХреНрд╖рд╛рдУрдВ рдХреЗ рд╡рд┐рдкрд░реАрдд, рдмрдЬрдЯ рд╕реАрдорд╛ рдХреЗ рдЕрд▓рд╛рд╡рд╛ рдЕрдиреНрдп рд╕реАрдорд╛рдПрдВ рднреА рд▓рд╛рдЧреВ рд╣реЛрддреА рд╣реИрдВред рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП, рдореИрдВрдиреЗ рдПрдХ рдХреНрд╖реЗрддреНрд░ рдореЗрдВ 8 рд╕реЗ рдЕрдзрд┐рдХ vcpu рдХреЗ рд╕рд╛рде рдЖрднрд╛рд╕реА рдорд╢реАрдиреЛрдВ рдХреЗ рдЙрдкрдпреЛрдЧ рдХреА рдЕрдиреБрдорддрд┐ рдирд╣реАрдВ рджреАред рдЖрдзреЗ рд╕рд╛рд▓ рдмрд╛рдж, рдореИрдВрдиреЗ Google рд╕реЗ рдкреНрд░реАрдЗрдВрд╕реНрдЯреЙрд▓реНрдб рд╣рдбрдк рдХреНрд▓рд╕реНрдЯрд░ рдбреЗрдЯрд╛рдкреНрд░реЛрдХ рд╕реЗ рдкрд░рд┐рдЪрд┐рдд рд╣реЛрдиреЗ рдХреЗ рд▓рд┐рдП рдЯреНрд░рд╛рдпрд▓ рдмрдЬрдЯ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рдХрд╛ рдлреИрд╕рд▓рд╛ рдХрд┐рдпрд╛ред рдХрд╛рд░реНрдп рдпрд╣ рдореВрд▓реНрдпрд╛рдВрдХрди рдХрд░рдиреЗ рдХрд╛ рдкреНрд░рдпрд╛рд╕ рдХрд░рдирд╛ рд╣реИ рдХрд┐ Google рдХреА рдкрд╣реБрдВрдЪ рдкрд░ рдХрд┐рд╕реА рдкреНрд░реЛрдЬреЗрдХреНрдЯ рдХреЛ рд▓реЙрдиреНрдЪ рдХрд░рдирд╛ рдореЗрд░реЗ рд▓рд┐рдП рдХрд┐рддрдирд╛ рдЖрд╕рд╛рди рд╣реЛрдЧрд╛, рдХреНрдпрд╛ рдпрд╣ рд╕рдордЭ рдореЗрдВ рдЖрддрд╛ рд╣реИ рдпрд╛ рдХреНрдпрд╛ рдпрд╣ рдмреЗрд╣рддрд░ рд╣реИ рдХрд┐ рдореИрдВ рддреБрд░рдВрдд рдЕрдкрдиреЗ рд╣рд╛рд░реНрдбрд╡реЗрдпрд░ рдкрд░ рдзреНрдпрд╛рди рдХреЗрдВрджреНрд░рд┐рдд рдХрд░реВрдВ рдФрд░ рдкреНрд░рд╢рд╛рд╕рди рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рд╕реЛрдЪреВрдВред рдореЗрд░реЗ рдкрд╛рд╕ рдПрдХ рдЕрд╕реНрдкрд╖реНрдЯ рднрд╛рд╡рдирд╛ рд╣реИ рдХрд┐ рдЖрдзреБрдирд┐рдХ рд╣рд╛рд░реНрдбрд╡реЗрдпрд░ рдФрд░ рдмрд┐рдЧрдбрд╛рдЯрд╛ рд╕реНрдЯреИрдХ рдЖрд╕рд╛рдиреА рд╕реЗ рджрд╕рд┐рдпреЛрдВ рдпрд╛ рд╕реИрдХрдбрд╝реЛрдВ рдЬреАрдмреА рдХреЗ рдЫреЛрдЯреЗ рдбреЗрдЯрд╛рдмреЗрд╕ рдХреЗ рд▓рд┐рдП рдЕрдиреБрдХреВрд▓ рд╣реЛрдирд╛ рдЪрд╛рд╣рд┐рдП, рдпрджрд┐ рдкреВрд░реА рддрд░рд╣ рд╕реЗ рдбреЗрдЯрд╛рд╕реЗрдЯ рдирд╣реАрдВ рд╣реИ, рддреЛ рдХреНрд▓рд╕реНрдЯрд░ рдХреА рдореЗрдореЛрд░реА рдореЗрдВ рд╡рд┐рд╢рд╛рд▓ рдмрд╣реБрдорддред рдбреЗрдЯрд╛ рдореМрд╕рд╛ рдХреЗ рд▓рд┐рдП рдХреБрдЫ рдЕрд▓рдЧ рдЙрдкрдбреЗрдЯрд╛ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рдирд╣реАрдВ рд╣реЛ рд╕рдХрддреА рд╣реИред

рд╕рдВрдХреНрд╖реЗрдк рдореЗрдВ, Oracle рдФрд░ Cloudera рдХреА рддреБрд▓рдирд╛ рдореЗрдВ, рд▓реЙрдиреНрдЪ рдФрд░ рд╕реЗрдЯрд┐рдВрдЧреНрд╕ рдХреА рдЖрд╕рд╛рдиреА рд╕реЗ рдбреЗрдЯрд╛рдкреНрд░реЛрдХ рдкреНрд░рднрд╛рд╡рд┐рдд рд╣реБрдЖ рдерд╛ред рдкрд╣рд▓реЗ рдЪрд░рдг рдореЗрдВ, рдореИрдВрдиреЗ 8 vCpu рдкрд░ рдПрдХ рдиреЛрдб рдХреНрд▓рд╕реНрдЯрд░ рдХреЗ рд╕рд╛рде рдЦреЗрд▓рд╛, рдЬрд┐рд╕рдореЗрдВ рд╕реЗ рдЕрдзрд┐рдХрддрдо рдкреВрд░реА рддрд░рд╣ рд╕реЗ рдирд┐: рд╢реБрд▓реНрдХ рдкрд░реАрдХреНрд╖рдг рдХреА рдЕрдиреБрдорддрд┐ рджреЗрддрд╛ рд╣реИред рдпрджрд┐ рдЖрдк рд╕рд╛рджрдЧреА рдХреЛ рджреЗрдЦрддреЗ рд╣реИрдВ, рддреЛ рдЙрдирдХреА рдкреНрд░реМрджреНрдпреЛрдЧрд┐рдХрд┐рдпрд╛рдВ рдкрд╣рд▓реЗ рд╕реЗ рд╣реА рдПрдХ рд╣рд┐рдВрджреВ рдХреЛ 15 рдорд┐рдирдЯ рдореЗрдВ рдПрдХ рдХреНрд▓рд╕реНрдЯрд░ рд╢реБрд░реВ рдХрд░рдиреЗ, рдирдореВрдирд╛ рдбреЗрдЯрд╛ рд▓реЛрдб рдХрд░рдиреЗ рдФрд░ рдмрд┐рдирд╛ рдХрд┐рд╕реА рдордзреНрдпрд╡рд░реНрддреА рдЙрдк-рдЦрд┐рдбрд╝рдХрд┐рдпреЛрдВ рдХреЗ рдмрд┐рдирд╛ рдирд┐рдпрдорд┐рдд рдмреАрдЖрдИ рдЙрдкрдХрд░рдг рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рд░рд┐рдкреЛрд░реНрдЯ рддреИрдпрд╛рд░ рдХрд░рдиреЗ рдХреА рдЕрдиреБрдорддрд┐ рджреЗрддреА рд╣реИрдВред Hadoup рдХреЗ рдХреБрдЫ рдЧрд╣рд░реЗ рдЬреНрдЮрд╛рди рдХреА рдЕрдм рдЖрд╡рд╢реНрдпрдХрддрд╛ рдирд╣реАрдВ рд╣реИред

рд╕рд┐рджреНрдзрд╛рдВрдд рд░реВрдк рдореЗрдВ, рдореИрдВрдиреЗ рджреЗрдЦрд╛ рдХрд┐ рдпрд╣ рдЪреАрдЬрд╝ рддреНрд╡рд░рд┐рдд рд╢реБрд░реБрдЖрдд рдХреЗ рд▓рд┐рдП рдЕрджреНрднреБрдд рд╣реИ рдФрд░ рдПрдХ рдкреИрд╕реЗ рдХреЗ рд▓рд┐рдП рдЖрдк рдПрдХ рдкреНрд░реЛрдЯреЛрдЯрд╛рдЗрдк рдЪрд▓рд╛ рд╕рдХрддреЗ рд╣реИрдВ, рдореВрд▓реНрдпрд╛рдВрдХрди рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ рдХрд┐ рдХрд┐рд╕реА рдХрд╛рд░реНрдп рдХреЗ рд▓рд┐рдП рдЖрдкрдХреЛ рдХрд┐рд╕ рддрд░рд╣ рдХреЗ рд╣рд╛рд░реНрдбрд╡реЗрдпрд░ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИред рд╣рд╛рд▓рд╛рдВрдХрд┐, рджрд░реНрдЬрдиреЛрдВ рдиреЛрдбреНрд╕ рдореЗрдВ, рдПрдХ рдмрдбрд╝рд╛ рдХреНрд▓рд╕реНрдЯрд░, рд╕реНрдкрд╖реНрдЯ рд░реВрдк рд╕реЗ рдХрд┐рд░рд╛рдпреЗ рдХреА рддреБрд▓рдирд╛ рдореЗрдВ рдмрд╣реБрдд рдЕрдзрд┐рдХ рдЦрд╛рдПрдЧрд╛ + рдПрдХ рдЬреЛрдбрд╝реА рдкреНрд░рд╢рд╛рд╕рдХ рдЬреЛ рдХреНрд▓рд╕реНрдЯрд░ рджреЗрдЦ рд░рд╣реЗ рд╣реИрдВред рдЗрд╕ рддрдереНрдп рд╕реЗ рдмрд╣реБрдд рджреВрд░ рдХрд┐ рдмрд╛рджрд▓ рдЖрд░реНрдерд┐рдХ рд░реВрдк рд╕реЗ рд╡реНрдпрд╡рд╣рд╛рд░реНрдп рджрд┐рдЦрд╛рдИ рджреЗрдЧрд╛ред рдкрд╣рд▓рд╛ рдЪрд░рдг рдореИрдВрдиреЗ рдПрдХ рдиреЛрдб рдХреНрд▓рд╕реНрдЯрд░ 8 vCpu рдФрд░ 0.5 рдЯреАрдмреА рдХрдЪреНрдЪреЗ рдбреЗрдЯрд╛ рдХреЗ рд╕рд╛рде рдкреВрд░реА рддрд░рд╣ рд╕реЗ рд╕реВрдХреНрд╖реНрдо рд╡рд┐рдХрд▓реНрдк рдХрд╛ рдореВрд▓реНрдпрд╛рдВрдХрди рдХрд░рдиреЗ рдХрд╛ рдкреНрд░рдпрд╛рд╕ рдХрд┐рдпрд╛ред рд╕рд┐рджреНрдзрд╛рдВрдд рд░реВрдк рдореЗрдВ, рдмрдбрд╝реЗ рд╕рдореВрд╣реЛрдВ рдкрд░ рд╕реНрдкрд╛рд░реНрдХ + рд╣реИрдбрдСрдк рдкрд░реАрдХреНрд╖рдг рдкрд╣рд▓реЗ рд╕реЗ рд╣реА рдЗрдВрдЯрд░рдиреЗрдЯ рдкрд░ рднрд░реЗ рд╣реБрдП рд╣реИрдВ, рд▓реЗрдХрд┐рди рдореИрдВ рдмрд╛рдж рдореЗрдВ рд╡рд┐рдХрд▓реНрдк рдХреЛ рдереЛрдбрд╝рд╛ рдмрдбрд╝рд╛ рдХрд░рдиреЗ рдХреА рдпреЛрдЬрдирд╛ рдмрдирд╛ рд░рд╣рд╛ рд╣реВрдВред

рдХреЗрд╡рд▓ рдПрдХ рдШрдВрдЯреЗ рдореЗрдВ, рдореИрдВрдиреЗ рдХреНрд▓рд╕реНрдЯрд░ рдмреИрдХрдЕрдк рдмрдирд╛рдиреЗ, рдЙрд╕рдХреЗ рдлрд╝рд╛рдпрд░рд╡реЙрд▓ рдХреЛ рдХреЙрдиреНрдлрд╝рд┐рдЧрд░ рдХрд░рдиреЗ рдФрд░ рдереНрд░рд┐рдлреНрдЯ рд╕рд░реНрд╡рд░ рдХреЛ рдХреЙрдиреНрдлрд╝рд┐рдЧрд░ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рд╕реНрдХреНрд░рд┐рдкреНрдЯреНрд╕ рдХреЛ рдЧреБрдЧрд▓реА рдХрд┐рдпрд╛, рдЬрд┐рд╕рдиреЗ jdbc рдХреЛ рд╣реЛрдо рд╡рд┐рдВрдбреЛрдЬ рд╕реЗ рд╕реНрдкрд╛рд░реНрдХ sql рд╕реЗ рдХрдиреЗрдХреНрдЯ рдХрд░рдиреЗ рдХреА рдЕрдиреБрдорддрд┐ рджреАред рдореИрдВрдиреЗ рдбрд┐рдлрд╝реЙрд▓реНрдЯ рд╕реНрдкрд╛рд░реНрдХ рд╕реЗрдЯрд┐рдВрдЧреНрд╕ рдХреЛ рдЕрдиреБрдХреВрд▓рд┐рдд рдХрд░рдиреЗ рдФрд░ 10 рдЬреАрдмреА рдЖрдХрд╛рд░ (рдУрд░реЗрдХрд▓ рдореЗрдВ рдбреЗрдЯрд╛ рдлрд╝рд╛рдЗрд▓реЛрдВ рдХрд╛ рдЖрдХрд╛рд░) рдХреЗ рдХреБрдЫ рдЬреЛрдбрд╝реЗ рдХреЛ рд▓реЛрдб рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдФрд░ рджреЛ рдпрд╛ рддреАрди рдШрдВрдЯреЗ рдмрд┐рддрд╛рдПред рдореИрдВрдиреЗ рдкреВрд░реА рддрд╛рд▓рд┐рдХрд╛рдУрдВ рдХреЛ рдореЗрдореЛрд░реА рдореЗрдВ рдмрджрд▓ рджрд┐рдпрд╛ (рдЯреЗрдмрд▓ рдХреИрд╢ рдмрджрд▓ рджрд┐рдпрд╛?) рдФрд░ рдЙрдирдХреЗ рд╕рд╛рде рдореЗрд░реА рд╡рд┐рдВрдбреЛрдЬ рдорд╢реАрди рд╕реЗ рдХрд╛рдо рдХрд░рдирд╛ рд╕рдВрднрд╡ рдерд╛, рдЬреЛ рдбрдмреЗрд╡рд░ рдФрд░ рдЭрд╛рдВрдХреА (рд╕реНрдкрд╛рд░реНрдХ рдПрд╕рдХреНрдпреВрдПрд▓ рдХрдиреЗрдХреНрдЯрд░ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ) рд╕реЗ рдерд╛ред

рдбрд┐рдлрд╝реЙрд▓реНрдЯ рд░реВрдк рд╕реЗ, рд╕реНрдкрд╛рд░реНрдХ 4 vCpu рдкрд░ рдХреЗрд╡рд▓ 1 рдирд┐рд╖реНрдкрд╛рджрдХ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддрд╛ рдерд╛, рдореИрдВрдиреЗ рд╕реНрдкрд╛рд░реНрдХ-рдбрд┐рдлреЙрд▓реНрдЯреНрд╕.рдХреЙрдиреНрдлрд╝ рдХреЛ рд╕рдВрдкрд╛рджрд┐рдд рдХрд┐рдпрд╛, 3 рдПрдХреНрдЬрд╝реАрдХреНрдпреВрдЯрд░реНрд╕, 2 vCpu рдкреНрд░рддреНрдпреЗрдХ рдХреЛ рд╕реНрдерд╛рдкрд┐рдд рдХрд┐рдпрд╛ рдФрд░ рдПрдХ рд▓рдВрдмреЗ рд╕рдордп рдХреЗ рд▓рд┐рдП рдореИрдВ рд╕рдордЭ рдирд╣реАрдВ рдкрд╛рдпрд╛ рдХрд┐ рдореЗрд░реЗ рдХрд╛рдо рдореЗрдВ рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ рдХреЗрд╡рд▓ 1 рдирд┐рд╖реНрдкрд╛рджрдХ рдХреНрдпреЛрдВ рд╣реИред рдпрд╣ рдкрддрд╛ рдЪрд▓рд╛ рдХрд┐ рдореИрдВрдиреЗ рдореЗрдореЛрд░реА рдХреЛ рд╕рдВрдкрд╛рджрд┐рдд рдирд╣реАрдВ рдХрд┐рдпрд╛ рд╣реИ, рдЕрдиреНрдп рджреЛ рдпрд╛рд░реНрди рдХреЗрд╡рд▓ рдореЗрдореЛрд░реА рдЖрд╡рдВрдЯрд┐рдд рдирд╣реАрдВ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред рдореИрдВрдиреЗ рдирд┐рд╖реНрдкрд╛рджрдирдХрд░реНрддрд╛ рдкрд░ 6.5 рдЬреАрдмреА рд╕реЗрдЯ рдХрд┐рдпрд╛, рдЬрд┐рд╕рдХреЗ рдмрд╛рдж рддреАрдиреЛрдВ рдиреЗ рдЙрдореНрдореАрдж рдХреЗ рдореБрддрд╛рдмрд┐рдХ рдмрдврд╝рдирд╛ рд╢реБрд░реВ рдХрд░ рджрд┐рдпрд╛ред
рдЕрдЧрд▓рд╛, рдореИрдВрдиреЗ рдЯреАрдкреАрд╕реА-рдбреАрдПрд╕ рдкрд░реАрдХреНрд╖рдгреЛрдВ рд╕реЗ рдереЛрдбрд╝рд╛ рдЕрдзрд┐рдХ рдЧрдВрднреАрд░ рд╡реЙрд▓реНрдпреВрдо рдФрд░ DWH рдХреЗ рдХрд░реАрдм рдПрдХ рдХрд╛рд░реНрдп рдХреЗ рд╕рд╛рде рдЦреЗрд▓рдиреЗ рдХрд╛ рдлреИрд╕рд▓рд╛ рдХрд┐рдпрд╛ред рд╢реБрд░реБрдЖрдд рдХреЗ рд▓рд┐рдП, рдореИрдВрдиреЗ рдЖрдзрд┐рдХрд╛рд░рд┐рдХ рддреМрд░ рдкрд░ рдЖрдзрд┐рдХрд╛рд░рд┐рдХ рдЯреВрд▓ рдХреЗ рд╕реНрдХреЗрд▓ рдлреИрдХреНрдЯрд░ 500 рдХреЗ рд╕рд╛рде рдЯреЗрдмрд▓ рдЙрддреНрдкрдиреНрди рдХрд┐рдПред рдореБрдЭреЗ 480 рдЬреАрдмреА рдХрд╛ рдХрдЪреНрдЪрд╛ рдбреЗрдЯрд╛ (рд╕реАрдорд╛рдВрдХрд┐рдд рдкрд╛рда) рдЬреИрд╕рд╛ рдХреБрдЫ рдорд┐рд▓рд╛ред TPC-DS рдкрд░реАрдХреНрд╖рдг рдПрдХ рд╡рд┐рд╢рд┐рд╖реНрдЯ DWH рд╣реИ, рдЬрд┐рд╕рдореЗрдВ рддрдереНрдп рдФрд░ рдЖрдпрд╛рдо рд╣реИрдВред рдореБрдЭреЗ рд╕рдордЭ рдирд╣реАрдВ рдЖрдпрд╛ рдХрд┐ рд╕реАрдзреЗ Google рд╕реНрдЯреЛрд░реЗрдЬ рдкрд░ рдбреЗрдЯрд╛ рдХреИрд╕реЗ рдЙрддреНрдкрдиреНрди рдХрд┐рдпрд╛ рдЬрд╛рдП, рдореБрдЭреЗ рдбрд┐рд╕реНрдХ рдкрд░ рд╡рд░реНрдЪреБрдЕрд▓ рдорд╢реАрди рдЬреЗрдирд░реЗрдЯ рдХрд░рдиреА рдереА рдФрд░ рдлрд┐рд░ рдЙрд╕реЗ рдЧреВрдЧрд▓ рд╕реНрдЯреЛрд░реЗрдЬ рдореЗрдВ рдХреЙрдкреА рдХрд░рдирд╛ рдерд╛ред Google, рдЬреИрд╕рд╛ рдХрд┐ рдореИрдВ рдЗрд╕реЗ рд╕рдордЭрддрд╛ рд╣реВрдВ, рдХрд╛ рдорд╛рдирдирд╛ тАЛтАЛрд╣реИ рдХрд┐ рд╣реБрдб рдкреВрд░реА рддрд░рд╣ рд╕реЗ Google рд╕реНрдЯреЛрд░реЗрдЬ рдХреЗ рд╕рд╛рде рдХрд╛рдо рдХрд░рддрд╛ рд╣реИ рдФрд░ рдЕрдЧрд░ рдПрдЪрдбреА рдПрдЪрдбреАрдПрдлрдПрд╕ рдкрд░ рдХреНрд▓рд╕реНрдЯрд░ рдХреЗ рдЕрдВрджрд░ рд╣реЛрддрд╛ рд╣реИ рддреЛ рдЧрддрд┐ рдереЛрдбрд╝реА рдмреЗрд╣рддрд░ рд╣реИред рдЗрд╕ рд╕реНрдерд┐рддрд┐ рдореЗрдВ, рд▓реЛрдб рдХрд╛ рд╣рд┐рд╕реНрд╕рд╛ рдПрдЪрдбреАрдПрдлрдПрд╕ рд╕реЗ Google рд╕рдВрдЧреНрд░рд╣рдг рдореЗрдВ рдЬрд╛рддрд╛ рд╣реИред

Dbeaver рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдХрдиреЗрдХреНрдЯ рд╣реЛрдиреЗ рдХреЗ рдмрд╛рдж, рдореИрдВрдиреЗ SQL рдХрдорд╛рдВрдбреНрд╕ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реБрдП рдЯреЗрдХреНрд╕реНрдЯ рдлрд╛рдЗрд▓реЛрдВ рдХреЛ рдПрд╕рдХреЗрдкреА рдкреИрдХреЗрдЬрд┐рдВрдЧ рдХреЗ рд╕рд╛рде рд▓рдХрдбрд╝реА рдХреА рдЫрдд рд╡рд╛рд▓реА рдЧреЛрд▓рд┐рдпреЛрдВ рдореЗрдВ рдмрджрд▓ рджрд┐рдпрд╛ред 480 рдЬреАрдмреА рдЯреЗрдХреНрд╕реНрдЯ рдбреЗрдЯрд╛ рдХреЛ 187 рдЬреАрдмреА рдкреИрд░рд╛рдХ рдлрд╛рдЗрд▓реЛрдВ рдореЗрдВ рдкреИрдХ рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИред рдЗрд╕ рдкреНрд░рдХреНрд░рд┐рдпрд╛ рдореЗрдВ рд▓рдЧрднрдЧ рджреЛ рдШрдВрдЯреЗ рд▓рдЧреЗ, рдкрд╛рда рдореЗрдВ рд╕рдмрд╕реЗ рдмрдбрд╝реА рддрд╛рд▓рд┐рдХрд╛ 188 рдЬреАрдмреА рдкрд░ рдХрдмреНрдЬрд╛ рдХрд░ рд▓рд┐рдпрд╛, 3 рдЪрд┐рдВрдЧрд╛рд░реА рдирд┐рд╖реНрдкрд╛рджрдирдХрд░реНрддрд╛рдУрдВ рдиреЗ 74 рдорд┐рдирдЯ рдореЗрдВ рдЙрдиреНрд╣реЗрдВ рд▓рдХрдбрд╝реА рдХреА рдЫрдд рдореЗрдВ рдмрджрд▓ рджрд┐рдпрд╛, рдПрд╕рдпреВрд╡реА рдХрд╛ рдЖрдХрд╛рд░ 66.8 рдЬреАрдмреА рдерд╛ред рдореЗрд░реЗ рдбреЗрд╕реНрдХрдЯреЙрдк рдкрд░ рд▓рдЧрднрдЧ 8 vCpu (i7-3770k) рдХреЗ рд╕рд╛рде рдореБрдЭреЗ рд▓рдЧрддрд╛ рд╣реИ рдХрд┐ 8k рдмреНрд▓реЙрдХ рдХреЗ рд╕рд╛рде рдУрд░реЗрдХрд▓ рддрд╛рд▓рд┐рдХрд╛ рдореЗрдВ "рддрд╛рд▓рд┐рдХрд╛ рдореЗрдВ рдЪрдпрди рдХрд░реЗрдВ * ..." рдПрдХ рджрд┐рди рд▓рдЧреЗрдЧрд╛, рдФрд░ рдбреЗрдЯрд╛ рдлрд╝рд╛рдЗрд▓ рдХрд┐рддрдирд╛ рд▓реЗрдЧреА рдпрд╣ рдХрд▓реНрдкрдирд╛ рдХрд░рдирд╛ рднреА рдбрд░рд╛рд╡рдирд╛ рд╣реИред

рдЫрд╡рд┐

рдЕрдЧрд▓рд╛, рдореИрдВрдиреЗ рдЗрд╕ рддрд░рд╣ рдХреЗ рдПрдХ рд╡рд┐рдиреНрдпрд╛рд╕ рдкрд░ рдмреАрдЖрдИ рдЙрдкрдХрд░рдг рдХреЗ рдкреНрд░рджрд░реНрд╢рди рдХреА рдЬрд╛рдВрдЪ рдХреА, рдЯреЗрдмрд▓реБрдЖ рдореЗрдВ рдПрдХ рд╕рд╛рдзрд╛рд░рдг рд░рд┐рдкреЛрд░реНрдЯ рдмрдирд╛рдИ

рдЫрд╡рд┐

рдкреНрд░рд╢реНрдиреЛрдВ рдХреЗ рд▓рд┐рдП, рдЯреАрдкреАрд╕реА-рдбреАрдПрд╕ рдкрд░реАрдХреНрд╖рдг рд╕реЗ рдХреНрд╡реЗрд░реА 1

QUERY1
WITH customer_total_return AS (SELECT sr_customer_sk AS ctr_customer_sk, sr_store_sk AS ctr_store_sk, Sum(sr_return_amt) AS ctr_total_return FROM store_returns, date_dim WHERE sr_returned_date_sk = d_date_sk AND d_year = 2001 GROUP BY sr_customer_sk, sr_store_sk) SELECT c_customer_id FROM customer_total_return ctr1, store, customer WHERE ctr1.ctr_total_return > (SELECT Avg(ctr_total_return) * 1.2 FROM customer_total_return ctr2 WHERE ctr1.ctr_store_sk = ctr2.ctr_store_sk) AND s_store_sk = ctr1.ctr_store_sk AND s_state = 'TN' AND ctr1.ctr_customer_sk = c_customer_sk ORDER BY c_customer_id LIMIT 100; 


1:08 рдореЗрдВ рдкреВрд░рд╛ рд╣реБрдЖ, рд╕рдмрд╕реЗ рдмрдбрд╝реА рддрд╛рд▓рд┐рдХрд╛рдУрдВ (рдХреИрдЯрд▓реЙрдЧ_рд╕, рд╡реЗрдм_рд╕рд▓реЗрд╕) рдХреА рднрд╛рдЧреАрджрд╛рд░реА рдХреЗ рд╕рд╛рде рдХреНрд╡реЗрд░реА 2

QUERY2
 WITH wscs AS (SELECT sold_date_sk, sales_price FROM (SELECT ws_sold_date_sk sold_date_sk, ws_ext_sales_price sales_price FROM web_sales) UNION ALL (SELECT cs_sold_date_sk sold_date_sk, cs_ext_sales_price sales_price FROM catalog_sales)), wswscs AS (SELECT d_week_seq, Sum(CASE WHEN ( d_day_name = 'Sunday' ) THEN sales_price ELSE NULL END) sun_sales, Sum(CASE WHEN ( d_day_name = 'Monday' ) THEN sales_price ELSE NULL END) mon_sales, Sum(CASE WHEN ( d_day_name = 'Tuesday' ) THEN sales_price ELSE NULL END) tue_sales, Sum(CASE WHEN ( d_day_name = 'Wednesday' ) THEN sales_price ELSE NULL END) wed_sales, Sum(CASE WHEN ( d_day_name = 'Thursday' ) THEN sales_price ELSE NULL END) thu_sales, Sum(CASE WHEN ( d_day_name = 'Friday' ) THEN sales_price ELSE NULL END) fri_sales, Sum(CASE WHEN ( d_day_name = 'Saturday' ) THEN sales_price ELSE NULL END) sat_sales FROM wscs, date_dim WHERE d_date_sk = sold_date_sk GROUP BY d_week_seq) SELECT d_week_seq1, Round(sun_sales1 / sun_sales2, 2), Round(mon_sales1 / mon_sales2, 2), Round(tue_sales1 / tue_sales2, 2), Round(wed_sales1 / wed_sales2, 2), Round(thu_sales1 / thu_sales2, 2), Round(fri_sales1 / fri_sales2, 2), Round(sat_sales1 / sat_sales2, 2) FROM (SELECT wswscs.d_week_seq d_week_seq1, sun_sales sun_sales1, mon_sales mon_sales1, tue_sales tue_sales1, wed_sales wed_sales1, thu_sales thu_sales1, fri_sales fri_sales1, sat_sales sat_sales1 FROM wswscs, date_dim WHERE date_dim.d_week_seq = wswscs.d_week_seq AND d_year = 1998) y, (SELECT wswscs.d_week_seq d_week_seq2, sun_sales sun_sales2, mon_sales mon_sales2, tue_sales tue_sales2, wed_sales wed_sales2, thu_sales thu_sales2, fri_sales fri_sales2, sat_sales sat_sales2 FROM wswscs, date_dim WHERE date_dim.d_week_seq = wswscs.d_week_seq AND d_year = 1998 + 1) z WHERE d_week_seq1 = d_week_seq2 - 53 ORDER BY d_week_seq1; 


4:33 рдорд┐рдирдЯ рдореЗрдВ рдкреВрд░рд╛, Query3 рдореЗрдВ 3.6, Query4 рдореЗрдВ 32 рдорд┐рдирдЯ рдореЗрдВред

рдпрджрд┐ рдХреЛрдИ рд╡реНрдпрдХреНрддрд┐ рд╕реЗрдЯрд┐рдВрдЧреНрд╕ рдореЗрдВ рд░реБрдЪрд┐ рд░рдЦрддрд╛ рд╣реИ, рддреЛ рдХреНрд▓рд╕реНрдЯрд░ рдмрдирд╛рдиреЗ рдкрд░ рдореЗрд░реЗ рдиреЛрдЯреНрд╕ рдХрд╛рдЯреЗред рд╕рд┐рджреНрдзрд╛рдВрдд рд░реВрдк рдореЗрдВ, рдХреЗрд╡рд▓ рдХреБрдЫ gcloud рдХрдорд╛рдВрдб рдФрд░ HIVE_SERVER2_THRIFT_PORT рд╕реЗрдЯрд┐рдВрдЧ рд╣реИред

рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдВ
рдПрдХ рдиреЛрдб рдХреНрд▓рд╕реНрдЯрд░ рд╡рд┐рдХрд▓реНрдк:
gcloud dataproc --region europe-North1 рдХреНрд▓рд╕реНрдЯрд░реНрд╕ рдЯреЗрд╕реНрдЯ 1 \
- рд╕рд░реНрд╡рдиреЗрдЯ рдбрд┐рдлрд╝реЙрд▓реНрдЯ \
--рдмрдХреЗрдЯ рдЯреЗрдк 1 \
--zone рдпреВрд░реЛрдк-рдЙрддреНрддрд░1-рдПрдХ \
- рдПрдХрд▓-рдиреЛрдб \
-рдорд╛рд╕реНрдЯрд░-рдорд╢реАрди-рдкреНрд░рдХрд╛рд░ n1-highmem-8 \
-рдорд╛рд╕реНрдЯрд░-рдмреВрдЯ-рдбрд┐рд╕реНрдХ-рдЖрдХрд╛рд░ 500 \
- рд╕рдВрд╕реНрдХрд░рдг-рд╕рдВрд╕реНрдХрд░рдг 1.3 \
-рд╕рдВрд╕реНрдерд╛рдирд┐рдХреАрдХрд░рдг-рдХреНрд░рд┐рдпрд╛рдПрдБ gs: //dataproc-initialization-actions/hue/hue.sh \
-рд╕рдВрд╕реНрдерд╛рдирд┐рдХреАрдХрд░рдг-рдХреНрд░рд┐рдпрд╛рдПрдБ gs: //dataproc-initialization-actions/zeppelin/zeppelel.n_
- рд╡рд┐рдирд┐рд╡реЗрд╢-рдХреНрд░рд┐рдпрд╛рдПрдБ gs: //dataproc-initialization-actions/hive-hcatalog/hive-hcatalog.sh \
- 123 рдЕрдВрдХ

3 рдиреЛрдбреНрд╕ рдХреЗ рд▓рд┐рдП рд╡рд┐рдХрд▓реНрдк:
gcloud dataproc - рднрд╛рдЧ рдпреВрд░реЛрдк-рдЙрддреНрддрд░ 1 рдХреНрд▓рд╕реНрдЯрд░ \
рдХреНрд▓рд╕реНрдЯрд░-рдЯреЗрд╕реНрдЯ 1 рдмрдирд╛рдПрдВ - рдмрдХреЗрдЯ рдЯреЗрдк 1 \
- рдбрд┐рдлрд╝реЙрд▓реНрдЯ рд░реВрдк рд╕реЗ --zone рдпреВрд░реЛрдк-рдЙрддреНрддрд░ 1-a \
-рдорд╛рд╕реНрдЯрд░-рдорд╢реАрди-рдкреНрд░рдХрд╛рд░ n1-standard-1 \
-рдорд╛рд╕реНрдЯрд░-рдмреВрдЯ-рдбрд┐рд╕реНрдХ-рдЖрдХрд╛рд░ 10 - рдПрдирдо-рд╡рд░реНрдХрд░ 2 \
-рд╡рд░реНрдХрд░-рдорд╢реАрди-рдкреНрд░рдХрд╛рд░ n1-standard-1 -worker-boot-disk-size 10 \
-рд╕рдВрд╕реНрдерд╛рдирд┐рдХреАрдХрд░рдг-рдХреНрд░рд┐рдпрд╛рдПрдБ gs: //dataproc-initialization-actions/hue/hue.sh \
-рд╕рдВрд╕реНрдерд╛рдирд┐рдХреАрдХрд░рдг-рдХреНрд░рд┐рдпрд╛рдПрдБ gs: //dataproc-initialization-actions/zeppelin/zeppelel.n_
- рд╡рд┐рдирд┐рд╡реЗрд╢-рдХреНрд░рд┐рдпрд╛рдПрдБ gs: //dataproc-initialization-actions/hive-hcatalog/hive-hcatalog.sh \
- 123 рдЕрдВрдХ

gcloud рдХрдореНрдкреНрдпреВрдЯ --project = 123 \
рдлрд╝рд╛рдпрд░рд╡реЙрд▓-рдирд┐рдпрдо рдЕрдиреБрдорддрд┐-рдбреЗрдЯрд╛рдкреНрд░реЛрд╕ рдмрдирд╛рдПрдБ
- рдФрдЪрд┐рддреНрдп = INGRESS - рдкрдпрд╛рд░рддрд╛ = 1000 - рдиреЗрдЯрд╡рд░реНрдХ = рдбрд┐рдлрд╝реЙрд▓реНрдЯ \
--action = ALLOW --rules = tcp: 8088, tcp: 50070, tcp: 8080, tcp: 10010, tcp: 10000 \
- рд╕реНрд░реЛрдд-рд╢реНрд░реЗрдгреА = xxx.xxx.xxx.xxx / 32-target-tags = dataproc

рдорд╛рд╕реНрдЯрд░ рдиреЛрдб рдкрд░:
рд╕реБрджреЛ рд╕реБ - vi /usr/lib/spark/conf/spark-env.sh
рдкрд░рд┐рд╡рд░реНрддрди: рдирд┐рд░реНрдпрд╛рдд HIVE_SERVER2_THRIFT_PORT = 10010

рд╕реБрдбреЛ-рд╕реНрдкрд╛рд░реНрдХ /usr/lib/spark/sbin/start-thriftserver.sh

рдЬрд╛рд░реА рд░рдЦрдиреЗ рдХреЗ рд▓рд┐рдП ...

Source: https://habr.com/ru/post/hi421021/


All Articles