ليست MegaFon مجرد شركة اتصالات توفر الاتصالات المتنقلة ، إنها شركة رقمية تقوم بإنشاء منتجات تشكل نظامًا بيئيًا لحياة العميل: "البطاقة الخاصة" ، "استرداد النقود الخاصة" ، "MegaFon.TV" ، "MegaFon.Music" والعديد الآخرين. يقوم قسم تحليلات البيانات الضخمة MegaFon بتخصيص العروض لاحتياجات كل عميل.
كلمة محلل البيانات الضخمة MegaFon في مؤتمر مهرجان البيانات في ربيع عام 2019يعمل حلو مراكز البيانات في MegaFon على حل مشكلة الحفاظ على قاعدة المشتركين ، والتي تعد واحدة من أولويات الشركة وسط تباطؤ النمو في سوق خدمات الاتصالات. على سبيل المثال ، قبل بضع سنوات ، بناءً على البيانات الضخمة ، تم تطوير خط تعريفي جديد "تشغيل". إنه مبني على الاهتمامات الحقيقية للمستخدمين الرقميين: التحدث ، الدردشة في الرسائل ، الاستماع إلى الموسيقى ، الدردشة على الشبكات الاجتماعية ، مشاهدة مقاطع الفيديو. تتوافق أسماء التعريفات مع الحشوة وفقًا للمصالح ، والاستخدام غير المحدود للتطبيقات المألوفة لا يتطلب حسابات الحركة المستهلكة. عند تشكيل نظام بيئي ، تتمثل مهمتنا في تقديم عرض فردي لكل عميل.
البيانات الكبيرة تحل أيضًا المشكلات المرتبطة بالتجزئة. على سبيل المثال ، بمساعدة نماذج التعلم الآلي ، نفهم مكان نقل الصالونات غير الفعالة وأين يمكن فتح مراكز جديدة. العمل مع البيانات الجغرافية يساعدنا في هذا الاتجاه.
تُستخدم تحليلات البيانات الضخمة أيضًا في المهام المتعلقة بتطوير البنية التحتية للشبكة ، حيث ، باستخدام تحليل الأبراج وحركة المرور منها ، نحدد التغطية المثلى ونتوقع المواقع الواعدة للبناء.
ما هي التقنيات المستخدمة؟كمية البيانات التي نعمل معها هي ملايين المشتركين ومليارات السجلات اليومية الخاصة بهم. البيانات الكبيرة ليست مجرد قواعد بيانات مثل Oracle أو MySQL أو MongoDB. Big Data عبارة عن مجموعة كاملة من البرامج للعمل معهم. للعمل مع البيانات الكبيرة ، تحتاج إلى فهم كيفية عمل Hadoop ، لمعرفة ميزات العمل مع Spark ، Hive ، HDFS. في كثير من الأحيان ، لم يستخدم محللو البيانات الذين يأتون إلينا هذه الأدوات من قبل في عملهم. في هذه الحالة ، نعلم تلك المهارات التي لا تكفي.
يتم اكتساب مهارات العمل مع البيانات الضخمة من خلال التجربة ، لذلك تهتم MegaFon بالمحللين الموهوبين المستعدين لتعلم جميع الأدوات اللازمة وتطبيقها على المهام الحقيقية للشركة.
BigDataCamp في مكتب MegaFon ، 2019كيف يقوم الخبراء في MegaFon Big Data بتطوير النماذج؟ينقسم خبراء البيانات الضخمة في MegaFon إلى محللين (datasaentists) ومهندسون. محللون اختبار الفرضيات وبناء نماذج التعلم آلة. يساعد المهندسون المحللين في جمع واجهات المتاجر ، وتحسين عمليات ETL ، ويكونون مسؤولين عن إعداد النماذج في الإنتاج.
تطوير النموذج على النحو التالي. أولاً نجمع البيانات اللازمة في Hadoop أو Oracle. ثم يتم تدريب النموذج على خوادم مخصصة مع قدر كبير من الذاكرة ونوى وحدة المعالجة المركزية. لتدريب الشبكات العصبية ، نستخدم خوادم مع وحدات معالجة الرسومات.
BigDataCamp في مكتب MegaFon ، 2019اللغة الرئيسية لتطوير النماذج هي بيثون. لمعالجة البيانات في Python ، عادةً ما تكون المكتبات القياسية Pandas و NamPy و Scikit-learn مطلوبة. للحسابات في Hadoop PySpark و Hive ، يتم استخدام النماذج - المكتبات Scikit-Learn و Xgboost و LightGBM و PyTorch وغيرها. القائمة تعتمد على المهمة. لماذا بيثون؟ ميزتها الرئيسية هي بساطة الإنتاجية. يمكننا اتخاذ قرار يتم دمجه على الفور في البنية التحتية المشتركة. على الرغم من أن المكتبات المطلوبة غير موجودة في بايثون ، فهي بلغات أخرى. على سبيل المثال ، يحتوي R على مكتبات إحصائية غير موجودة في Python.
ماذا لو لم يكن أحد يعرف هدوب؟مهارات Hadoop مرغوبة ، لكنها ليست شرطًا أساسيًا للوصول إلى فريقنا. ليس لدى جميع الشركات كمية البيانات التي لدى MegaFon ، ونتيجة لذلك ، لم تتح الفرصة للمرشحين للعمل مع Hadoop في مكان عملهم السابق.
ليس من الصعب للغاية إتقان الأوامر الأساسية للعمل مع مجموعة Hadoop ، ولكن عندما يتعلق الأمر بمهام أكثر تعقيدًا ، يلزم فهم عميق لخوارزميات البيانات الضخمة وطرق MapReduce وتحسين الاستعلام. على سبيل المثال ، في النظام البيئي Hadoop هناك منتج مثل Hive. انها تسمح لك لكتابة استعلامات تشبه SQL ويعمل على أعلى Hadoop. تم تطويره في الأصل بواسطة Facebook. لكن عليك أن تتذكر أن هذا لا يعالج قاعدة بيانات علائقية ، على الرغم من حقيقة أنك تكتب في SQL. هنا يمكنك كتابة استعلامات بسيطة ، ولكن من أجل تحقيق الكفاءة ، أي السرعة واستخدام موارد نظام الحد الأدنى ، يجب أن تفهم الفروق الدقيقة في تحسين الاستعلام باستخدام MapReduce.
التدريب الداخلي هي فرصة لتطوير واكتساب خبرة في العمل. هل هناك التدريب في
البيانات الضخمة MegaFon؟في عالمنا الرقمي ، يبدو أن أي براز يجمع بالفعل بيانات عن الشخص الذي يجلس عليها ، ناهيك عن إنترنت الأشياء وعدد كبير من الخدمات التي نستخدمها جميعًا.
تتزايد الحاجة إلى المتخصصين ، وهناك عدد كبير من التحليلات والتنبؤات حول العدد اللازم في المستقبل القريب. تدرك كل شركة تجمع على الأقل بعض البيانات أن هذه البيانات يمكن أن تكون لها قيمة وعدد كبير من الأفكار. لذلك ، محللي البيانات الآن في مثل هذا الطلب.
BigDataCamp في مكتب MegaFon ، 2019يسعدنا أن يكون لدينا متخصصون رائعون ، لكن السوق صغير ، وليس هناك الكثير المناسب لنا. لذلك ، تقوم MegaFon بتطوير برامج التدريب الداخلي. في الأساس ، ندعو الطلاب الكبار والخريجين الجدد الذين يشاركون في البرمجة والرياضيات إلى القيام بالتدريب الداخلي. هناك استثناءات ، على سبيل المثال ، كانت هناك تجربة ناجحة في التفاعل مع شباب من أقسام الجغرافيا. من المهم بالنسبة لنا أن يتمكن الطالب من الجمع بين العمل والدراسة بشكل متناغم وتطويره في الشركة وفي المستقبل الانتقال إلى منصب المحلل أو المهندس.
كيف تكتب في فريق؟مقابلاتنا مع المتدربين تختلف عن المقابلات مع المهنيين ذوي الخبرة. عند البحث عن متدربين ، يجري المجند مقابلة هاتفية صغيرة ، توضح نتائجها ما إذا كان المرشح مهتمًا بمهامنا ومستوى المعرفة والخبرة التي لديه حاليًا. من المهم بالنسبة لنا ما إذا كان المرشح قادرًا على البرمجة في بيثون ، وما إذا كان يعرف المكتبات الأساسية للتعلم الآلي ، وما إذا كان لديه خبرة في حل مشكلات التدريب المتعلقة بتحليل البيانات الكبيرة ، وما إذا كان قد بنى نماذج رياضية سابقًا وما الخوارزميات التي استخدمها.
بناءً على نتائج المقابلة الهاتفية ، نختار من 5 إلى 10 مرشحين يأتون في وقت واحد إلى مكتبنا لمدة 2-3 ساعات للتعرف على اللاعبين من الفريق وحل المهمة الفنية. إنه أقرب ما يمكن إلى صناعة الاتصالات - من الضروري بناء نموذج لتصنيف المشتركين لدينا. بعد ذلك ، نقوم بمقارنة النتائج وندعو الأفضل إلى المقابلة النهائية لمناقشة جدول عمل فردي ومهام وشروط أخرى.
يستمر التدريب 3 أشهر. يشارك المتدرب في مهام عمل حقيقية. في معظم الأحيان ، يتم إضفاء الطابع الرسمي على المهام بالفعل ، والشخص لديه فهم واضح لما يجب القيام به ، إن لم يكن ، يمكنك دائمًا الانتقال إلى معلمك .
بالإضافة إلى مهام العمل ، يخضع المتدربون لدينا بانتظام للتدريب عبر الإنترنت وغير متصل. نعمل مع New Pro Lab و Big Data Team و Geek Brains و Data Gym وغيرها ، ويمكن لخبرائنا الوصول إلى Coursera.
كما تبين الممارسة ، فإن ثلاثة أشهر تكفي لفهم ما إذا كنا نريد مواصلة العمل معًا. إذا أظهر المتدرب نتائج جيدة ، فإننا نأخذه إلى منصب عالم البيانات المبتدئين ونطور أكثر.
إيجور ، محلل البيانات الضخمة MegaFon ، في مؤتمر "مهرجان البيانات" في ربيع عام 2019.البحث عن المهنيين ذوي الخبرة على النحو التالي:1. المزدوج cheek السيرة الذاتية أو مرشح مع قادة الفريق والمجندين.
2. مقابلة شخصية مع قائد الفريق ، حيث توجد أسئلة فنية وليس فقط: نظرية الاحتمالات ، والإحصاءات ، والتعلم الآلي ، والخبرة في استخدام المرافق المختلفة ، وتوقعات المرشح نفسه.
3. إذا تمت المقابلة بشكل جيد لكلا الطرفين ، فنحن نطلب محفظة المرشح (المشاريع الشخصية والرمز) أو نطلب منا حل مهمتنا الفنية من أجل الاطلاع على الكود ومعرفة التقدم المحرز في حل المشاكل. ترتبط المهمة الفنية أيضًا بالاتصالات: من الضروري التنبؤ بما إذا كان لدى المشترك العديد من بطاقات SIM. يتم تحديد مدة المهمة من قبل المرشح نفسه ، ولكن عادة ما لا يكون أكثر من أسبوع. قام أحد موظفينا بحل المهمة في ذلك المساء وبعد أسبوع جاء للعمل من أجلنا. مرحبا أرتيوم ؛)
4. لقاء مع مدير تحليلات البيانات الضخمة ومناقشة المهام والظروف.
هل البيروقراطية قوية في شركة كبيرة؟يعمل معظم فريقنا في المكتب الرئيسي في موسكو ، ولكن لدينا فرق في نيجني نوفغورود وإيكاترينبرج. يمكن أن يشارك الزملاء من مدن مختلفة في المشاريع ، كل هذا يتوقف على مهام ومهارات الموظفين.
قسمنا شاب وديناميكي ، وقد تمكنا في البداية من بناء عمليات للتفاعل مع الإدارات الأخرى بشكل صحيح: لا نحتاج إلى طلب البيانات من خلال الزملاء ، فنحن نستخدم أساسًا قاعدة بياناتنا أو Oracle أو Hadoop ، وبناء نموذج.
العمل في مكتب MegaFonيتم تنظيم سير العمل لدينا على النحو التالي. أولاً ، يناقش المدير المتطلبات مع ممثل العميل. كقاعدة عامة ، نحن نتحدث عن تحسين عملية الأعمال باستخدام التعلم الآلي وتحليل البيانات ، على سبيل المثال ، يمكننا تحسين بيع الهواتف الذكية لتجارة التجزئة لدينا. ثم يناقش المدير وقائد الفريق والمحلل شروط ومراحل التطوير. يتم تسجيل الترتيبات في جيرا ، ونحن أيضا تشغيل التقاء ، وهذا هو ويكي الداخلية لدينا. بالطبع ، نحن نستخدم Gitlab.
قدمنا هذا العام عملية مراجعة الكود لجميع المراحل الرئيسية لمشروع علم البيانات ونرى بالفعل النتائج: تحسنت جودة الكود للعديد من اللاعبين بشكل كبير. هناك خطط أخرى لتحسين عملية التطوير تتمثل في تنفيذ أداة DVC (التحكم في إصدار البيانات) ، والتي سوف تسمح بإصدار المشروع بأكمله ، بما في ذلك مجموعات البيانات.
يمكن أن تكون مدة المشاريع من عدة أشهر إلى ستة أشهر. يشارك المحلل في جميع مراحل المشروع ، بدءًا من إضفاء الطابع الرسمي على المتطلبات وتحديد الحدث المستهدف للنموذج ، وينتهي بمراقبة استقرار النتيجة في الإنتاج.
نحن موجهون نحو تحقيق النتائج ، ونحن لا نتعهد مطلقًا بالتطوير دون فهم واضح للمزايا التي يمكن أن نقدمها إلى MegaFon.
بعد بناء النموذج ، نطلق حملات اختبار بناءً على نتائج عمله. إذا نجحت ، فنحن نطرح حلنا لملايين مشتركي MegaFon. في المستقبل ، نقوم بتحليل النتائج ليس فقط من وجهة نظر مقاييس النماذج ، مثل الدقة أو الاكتمال في الجزء المستهدف ، ولكن أيضًا نقترب بجدية من تحليل مؤشرات الأعمال. المحللين أعمالنا مساعدتنا في هذا.
فريق والتنميةأكبر ميزة في هذا القسم هي فريق من الرجال الأذكياء والمهام المثيرة للاهتمام. المكتب ، ومركز التسوق فيه ، والمكافآت ، والتعويض ، بطبيعة الحال ، هي أيضا جيدة ، لكنها في المركز الثالث. MegaFon للمحللين هو مخزن حقيقي للبيانات. ليس لدى الجميع الفرصة للعمل مع مثل هذا النوع من البيانات ومقدارها ، بحيث عند تحليلها ، يمكنك التعرف على الأفكار واتخاذ القرارات التي ستجلب في النهاية الكثير من المال. هذا هو الأكثر إثارة للاهتمام للمحلل. لقد درست في الجامعة ، وكتبت خوارزمية جديدة ، وقمت بترميزها ، واستخدمت أساليب علمية ، وبدأت الخوارزمية في العمل وجلبت بعض الفائدة حقًا. هذا هو ما يسبب معظم العواطف.
نحن أشخاص من الأرقام ، محاطون بأشخاص تجاريين ، وعندما تؤدي رؤيتنا إلى كسب المال - إنه أمر رائع!
تم إعداد المقابلة بالاشتراك مع الخدمة المهنية My Circle.