
مدلل مصطلح البيانات الكبيرة عن طريق المبالغة الرائعة الحديثة من الأشياء الجديدة. نظرًا لأن منظمة العفو الدولية تستعبد الناس وتبني blockchain اقتصادًا مثاليًا - تتيح لك البيانات الضخمة معرفة كل شيء عن الجميع تمامًا ورؤية المستقبل.
لكن الواقع ، كما هو الحال دائمًا ، أكثر مملة وبراغماتية. لا يوجد سحر في البيانات الضخمة - حيث لا يوجد مكان - فهناك ببساطة الكثير من المعلومات والاتصالات بين البيانات المختلفة مما يتطلب معالجة كل شيء وتحليله بالطرق القديمة وقتًا طويلاً.
طرق جديدة آخذة في الظهور. مهن جديدة معهم. قال عميد
قسم تحليل البيانات الضخمة في GeekBrains ، سيرجي شيركين ، عن نوع المهنة التي يحتاجون إليها ، وأين يحتاجون إليها ، وما الذي يتعين عليهم القيام به وما الذي يتعين عليهم القيام به. ما هي الأدوات المستخدمة والمبلغ الذي يدفعونه عادة للمتخصصين.
ما هي البيانات الكبيرة؟
السؤال "ماذا نسمي البيانات الكبيرة" مربك إلى حد ما. حتى في المجلات العلمية ، تختلف الأوصاف. في مكان ما ، تُعتبر ملايين الملاحظات بيانات "طبيعية" ، وفي مكان آخر يُطلق على مئات الآلاف اسم كبير ، لأن لكل من الملاحظات ألف إشارة. لذلك ، قرروا تقسيم البيانات بشكل مشروط إلى ثلاثة أجزاء - صغيرة ومتوسطة وكبيرة - وفقًا لأبسط مبدأ: الحجم الذي يشغلونه.
البيانات الصغيرة هي بضع غيغا بايت. متوسطة - كل شيء عن تيرابايت. البيانات الكبيرة تدور حول بيتابايت. لكن هذا لم يزيل الارتباك. لذلك ، المعيار أبسط: كل شيء لا يصلح على نفس الخادم هو بيانات كبيرة.
البيانات الصغيرة والمتوسطة والكبيرة لها مبادئ تشغيلية مختلفة. عادة ما يتم تخزين البيانات الكبيرة في كتلة على عدة خوادم في وقت واحد. وبسبب هذا ، حتى الإجراءات البسيطة أكثر تعقيدًا.
على سبيل المثال ، المهمة البسيطة هي العثور على متوسط قيمة الكمية. إذا كانت هذه بيانات صغيرة ، فنحن ببساطة نضيف الكمية ونقسمها. وفي البيانات الكبيرة ، لا يمكننا جمع جميع المعلومات من جميع الخوادم في وقت واحد. هذا معقد. في كثير من الأحيان ، لا تحتاج إلى سحب البيانات إلى نفسك ، ولكن إرسال برنامج منفصل إلى كل خادم. بعد عمل هذه البرامج ، يتم تشكيل النتائج المتوسطة ، ويتم تحديد متوسط القيمة بها.
سيرجي شيركينما شركات البيانات الكبيرة
أول مع البيانات الكبيرة بدأت تعمل مشغلي شبكات الهاتف النقال ومحركات البحث. أصبحت محركات البحث أكثر وأكثر استفسارات ، والنص أثقل من الأرقام. يستغرق العمل باستخدام فقرة نصية وقتًا أطول من التعامل مع معاملة مالية. يتوقع المستخدم أن يستكمل محرك البحث الطلب في ثانية مقسمة - من غير المقبول أن يعمل حتى لمدة نصف دقيقة. لذلك ، بدأت محركات البحث في العمل بالتوازي عند العمل مع البيانات.
بعد ذلك بقليل ، انضم العديد من المؤسسات المالية وتجارة التجزئة. المعاملات نفسها ليست ضخمة ، ولكن تظهر البيانات الضخمة بسبب حقيقة أن هناك الكثير من المعاملات.
كمية البيانات ينمو على الإطلاق. على سبيل المثال ، كان لدى البنوك الكثير من البيانات من قبل ، لكنها لم تتطلب دائمًا مبادئ العمل ، كما هو الحال مع المبادئ الكبيرة. ثم بدأت البنوك في العمل أكثر مع بيانات العملاء. بدأوا في التوصل إلى المزيد من الودائع والقروض والتعريفات المختلفة الأكثر مرونة ، وبدأوا في تحليل المعاملات عن كثب. هذا يتطلب بالفعل طرق سريعة للعمل.
الآن تريد البنوك ليس فقط تحليل المعلومات الداخلية ، ولكن أيضًا المعلومات الخارجية. إنهم يريدون تلقي البيانات من نفس البيع بالتجزئة ، وهم يريدون أن يعرفوا ما الذي ينفقه الشخص على الأموال. بناءً على هذه المعلومات ، يحاولون تقديم عروض تجارية.
الآن كل المعلومات مرتبطة مع بعضها البعض. التجزئة والبنوك ومشغلي الاتصالات وحتى محركات البحث - الجميع مهتمون الآن ببيانات بعضهم البعض.
ما ينبغي أن يكون متخصص البيانات الكبيرة
نظرًا لأن البيانات موجودة على مجموعة من الخوادم ، يتم استخدام بنية تحتية أكثر تعقيدًا للتعامل معها. هذا يضع عبئا كبيرا على الشخص الذي يعمل معها - يجب أن يكون النظام موثوق للغاية.
من السهل جعل خادم واحد موثوقًا به. ولكن عندما يكون هناك العديد منها ، تزداد أيضًا احتمالية السقوط بما يتناسب مع العدد ، كما تتزايد مسؤولية مهندس البيانات الذي يعمل مع هذه البيانات.
يجب أن يفهم المحلل أنه يمكنه دائمًا تلقي بيانات غير كاملة أو غير صحيحة. لقد كتب البرنامج ، وثق في نتائجه ، ثم اكتشف أنه بسبب سقوط خادم واحد من أصل ألف ، تم قطع جزء من البيانات ، وكانت جميع الاستنتاجات غير صحيحة.
خذ على سبيل المثال ، بحث النص. دعنا نقول أن كل الكلمات مرتبة بترتيب أبجدي على عدة خوادم (إذا كنا نتحدث بكل بساطة وشرط). واحد منهم منفصل ، اختفت كل الكلمات في الحرف "K". توقف البحث عن إعطاء كلمة "سينما". تختفي جميع أخبار الأخبار ، ويتوصل المحلل إلى نتيجة خاطئة مفادها أن الناس لم يعودوا مهتمين بالمسارح السينمائية.
لذلك ، يجب على أخصائي البيانات الكبيرة معرفة مبادئ العمل من أدنى المستويات - الخوادم والنظم الإيكولوجية ومخططي المهام - إلى أعلى مستوى البرامج - مكتبات التعلم الآلي ، والتحليل الإحصائي ، وأكثر من ذلك. يجب عليه أن يفهم مبادئ الحديد ومعدات الكمبيوتر وكل ما تم تكوينه فوقه.
بالنسبة للباقي ، تحتاج إلى معرفة كل شيء كما هو عند العمل مع البيانات الصغيرة. نحتاج إلى الرياضيات ، نحتاج إلى أن نكون قادرين على البرمجة ، ونعرف جيدًا خوارزميات الحوسبة الموزعة ، حتى نتمكن من تطبيقها على المبادئ المعتادة للعمل مع البيانات والتعلم الآلي.
ما هي الأدوات المستخدمة
منذ يتم تخزين البيانات على الكتلة ، هناك حاجة إلى بنية تحتية خاصة للعمل معها. النظام البيئي الأكثر شعبية هو Hadoop. يمكن أن تعمل الكثير من الأنظمة المختلفة: المكتبات الخاصة والمخططين وأدوات التعلم الآلي وغير ذلك الكثير. ولكن أولاً وقبل كل شيء ، هناك حاجة لهذا النظام للتعامل مع كميات كبيرة من البيانات بسبب الحوسبة الموزعة.
على سبيل المثال ، نحن نبحث عن تغريدة الأكثر شعبية بين البيانات المقطوعة على ألف خوادم. على خادم واحد ، سنقوم فقط بإعداد جدول وهذا كل شيء. هنا يمكننا سحب جميع البيانات لأنفسنا وإعادة فرز الأصوات. ولكن هذا ليس صحيحا ، لأنه لفترة طويلة جدا.
لذلك ، هناك نماذج Hadoop مع Map Reduce وإطار Spark. بدلاً من سحب البيانات لأنفسهم ، يرسلون أقسام البرنامج إلى هذه البيانات. يذهب العمل بالتوازي ، في ألف المواضيع. ثم نحصل على مجموعة مختارة من الآلاف من الخوادم التي يمكنك من خلالها اختيار التغريدات الأكثر شعبية.
Map Reduce هو نموذج أقدم ؛ Spark أحدث. بمساعدتها ، يتم استخراج البيانات من مجموعات ، ويتم بناء نماذج التعلم الآلي فيها.
ما المهن هناك في مجال البيانات الكبيرة
المهنتان الرئيسيتان هما المحللون ومهندسو البيانات.
المحلل يعمل في المقام الأول مع المعلومات. إنه مهتم بالبيانات المجدولة ، ويشارك في النماذج. تشمل مسؤولياته تجميع البيانات وتنقيتها وإضافتها وتصورها. وهذا هو ، المحلل هو الرابط بين المعلومات الخام والأعمال.
المحلل له مجالان رئيسيان للعمل. أولاً ، يمكنه تحويل المعلومات الواردة ، واستخلاص النتائج وتقديمها بطريقة مفهومة.
والثاني هو أن المحللين يطورون تطبيقات ستعمل وتنتج النتيجة تلقائيًا. على سبيل المثال ، قم بعمل تنبؤ في سوق الأوراق المالية كل يوم.
مهندس البيانات هو التخصص مستوى أدنى. هذا هو الشخص الذي يجب أن يضمن تخزين ومعالجة وتسليم المعلومات إلى المحلل. ولكن عندما يكون هناك إمدادات وتنظيف - قد تتداخل مسؤولياتهم.
مهندس البيانات يحصل على كل العمل الشاق. إذا فشلت الأنظمة ، أو اختفى أحد الخوادم من الكتلة ، فإنه يتصل. هذه هي وظيفة مسؤولة ومرهقة للغاية. يمكن للنظام إيقاف التشغيل في عطلات نهاية الأسبوع وبعد ساعات ، ويجب على المهندس اتخاذ إجراءات فورية.
هاتان مهنتان رئيسيتان ، لكن هناك مهنتان أخريان. تظهر عند إضافة خوارزميات الحوسبة المتوازية إلى المهام المتعلقة بالذكاء الاصطناعي. على سبيل المثال ، مهندس البرمجة اللغوية العصبية. هذا مبرمج يشارك في معالجة اللغة الطبيعية ، خاصةً في الحالات التي لا تحتاج فيها فقط إلى العثور على الكلمات ، ولكن أيضًا لفهم معنى النص. يكتب هؤلاء المهندسون برامج لأنظمة الدردشة وأنظمة المحادثة والمساعدين الصوتيين ومراكز الاتصال الآلية.
هناك حالات عندما يكون من الضروري تصنيف مليارات الصور ، والاعتدال ، وتصفية الفائض ، والعثور على واحدة مماثلة. تتداخل هذه المهن أكثر مع رؤية الكمبيوتر.

يمكنك الاطلاع على أحدث الشواغر المتعلقة بالبيانات الضخمة والاشتراك في الوظائف الشاغرة الجديدة.
كم من الوقت يستغرق التدريب
لقد كنا ندرس لمدة عام ونصف. وهي مقسمة إلى ستة أرباع. في البعض ، هناك تركيز على البرمجة ، وفي البعض الآخر - على العمل مع قواعد البيانات ، والثالث - على الرياضيات.
في المقابل ، على سبيل المثال ، من كلية الذكاء الاصطناعى ، هناك عدد أقل من الرياضيات. لا يوجد مثل هذا التركيز القوي على التحليل الرياضي والجبر الخطي. هناك حاجة إلى معرفة خوارزميات الحوسبة الموزعة أكثر من مبادئ تحليل matanalysis.
لكن سنة ونصف كافية للعمل الحقيقي مع البيانات الكبيرة فقط إذا كان الشخص لديه خبرة مع البيانات العادية وبشكل عام في تكنولوجيا المعلومات. ينصح الطلاب الباقين بعد التخرج للعمل مع البيانات الصغيرة والمتوسطة. فقط بعد ذلك ، يمكن السماح للمتخصصين بالعمل مع كبارهم. بعد التدريب ، يجب أن تعمل كعالم بيانات - تطبيق التعلم الآلي على كميات مختلفة من البيانات.
عندما يحصل شخص على وظيفة في شركة كبيرة - حتى لو كان لديه خبرة - في أغلب الأحيان لن يُسمح له بالذهاب إلى البيانات الضخمة على الفور ، لأن سعر الخطأ أعلى بكثير. قد لا يتم اكتشاف الأخطاء في الخوارزميات فورًا ، وسيؤدي ذلك إلى خسائر كبيرة.
ما هو الراتب الذي يعتبر مناسبًا للمتخصصين في البيانات الضخمة
الآن هناك نقص كبير في الموظفين بين مهندسي البيانات. العمل صعب ، الكثير من المسؤولية تقع على عاتق الشخص ، الكثير من التوتر. لذلك ، يتلقى متخصص من ذوي الخبرة المتوسطة حوالي مائتي ألف. جديد - من مائة إلى مائتي.
قد يكون لمحلل البيانات راتب بدء أقل قليلاً. ولكن لا يوجد عمل يتجاوز وقت العمل ، ولن يتم استدعاؤه في غير ساعات العمل بسبب حالات الطوارئ.

وفقًا لمزارع الرواتب "My Circle" ، فإن متوسط راتب المتخصصين الذين ترتبط مهنهم بالبيانات الضخمة هو 139400 روبل . ربع المتخصصين يكسبون أكثر من 176000 روبل. العاشرة - أكثر من 200،000 روبل.
كيف تستعد للمقابلات
لا حاجة للخوض في موضوع واحد فقط. في المقابلات ، يسألون أسئلة حول الإحصاءات ، والتعلم الآلي ، والبرمجة. قد يسألون عن بنية البيانات ، الخوارزميات ، والحالات من الحياة الحقيقية: الخادم تعطل ، حدث حادث - كيفية إصلاحه؟ قد تكون هناك أسئلة حول الموضوع - شيء أقرب إلى العمل.
وإذا كان الشخص عميقًا جدًا في إحدى الرياضيات ، وفي المقابلة لم يقم بمهمة برمجة بسيطة ، فإن فرص العثور على وظيفة تقل. من الأفضل أن يكون لديك مستوى متوسط في كل اتجاه بدلاً من إظهار نفسك جيدًا في أحدهما ، وفشل تمامًا في الاتجاه الآخر.
هناك قائمة من الأسئلة التي طُرحت على 80 بالمائة من المقابلات. إذا كان هذا هو التعلم الآلي ، فسوف يسألون بالتأكيد عن النسب التدرج. إذا كانت الإحصاءات - ستحتاج إلى التحدث عن اختبار الارتباط والفرضيات. من المرجح أن تعطي البرمجة مهمة صغيرة من التعقيد المتوسط. ويمكنك بسهولة الحصول على المهام الخاصة بك - فقط قم بحلها أكثر.
حيث لاكتساب الخبرة لوحدك
يمكن سحب Python في
Pitontutyu ، والعمل مع قاعدة البيانات - على
SQL-EX . هناك مهام محددة يتعلمون من خلالها في الواقع تقديم طلبات.
الرياضيات العليا -
Mathprofi . هناك يمكنك الحصول على معلومات واضحة عن التحليل الرياضي والإحصاءات والجبر الخطي. وإذا كان الأمر سيئًا في المناهج الدراسية ، فهذا يعني ،
youclever.org .
الحوسبة الموزعة ستعمل فقط في الممارسة العملية. أولاً ، يتطلب هذا بنية أساسية ، وثانياً ، يمكن أن تصبح الخوارزميات عفا عليها الزمن بسرعة. الآن يظهر شيء جديد باستمرار.
ما هي الاتجاهات التي يناقشها المجتمع؟
تكتسب منطقة أخرى قوة تدريجية ، مما قد يؤدي إلى زيادة سريعة في كمية البيانات - إنترنت الأشياء (IoT). تأتي البيانات من هذا النوع من مستشعرات الأجهزة المتصلة بالشبكة ، ويجب أن يصل عدد المستشعرات في بداية العقد القادم إلى عشرات المليارات.
تختلف الأجهزة اختلافًا كبيرًا - من الأجهزة المنزلية إلى السيارات والآلات الصناعية ، ويتطلب التدفق المستمر للمعلومات منها بنية تحتية إضافية وعدد كبير من المتخصصين المؤهلين تأهيلا عاليا. هذا يعني أنه في المستقبل القريب سيكون هناك نقص حاد في مهندسي البيانات ومحللي البيانات الكبار.