تقوم Yandex بتدريب خبراء علوم البيانات منذ عام 2007. يقدر الطلاب مدرسة تحليل البيانات لمدى ملاءمة البرامج والدورات التدريبية ، لكنهم لا يفهمون دائمًا ما ينتظرهم بعد الانتهاء منها. هل تعمل مع البيانات في Yandex أو في شركة كبيرة أخرى؟ لكن أي واحد؟

في البداية ، كان لدى المدرسة قسمان: علوم الكمبيوتر وتحليل البيانات. في عام 2014 ، عندما ظهرت البيانات الضخمة في الموضة ، ظهر تخصص ثالث - البيانات الضخمة. هذا العام ، من أجل جعل الطلاب يفهمون آفاقهم على الفور ، قمنا بإصلاح الأقسام: الآن سيتم التدريب في إطار أربعة مسارات مهنية. أولويتنا الأولى هي إخبار الطالب عن مسارات التطوير الممكنة والمساعدة على فهم الدورات التي ستساعد في تحقيق الهدف.
لم يتم تسليط الضوء على المسارات المهنية عن طريق الصدفة - هذه أربع طرق غالبًا ما يتبعها الخريجون بعد التخرج من SHAD (وبعضها بالفعل أثناء دراستهم). بالنسبة لكل من هذه المسارات الأربعة ، وجدنا خريجًا واحدًا اختاره وتحدث معه لفهم الدورات الأكثر فائدة للعمل في المستقبل وكيف اختار مهنته المهنية.
عالم البيانات (نيكيتا بوبوف ، خريج 2016):
"عالم البيانات - كما يطلق على المحللين من جميع المشارب الآن. نحن في Yandex معتادون على الاعتقاد بأن عالم البيانات هو شخص يجيد التعلم الآلي والإحصاءات ، والأهم من ذلك عمليا ، يمكنه استخراج معلومات مفيدة من كمية هائلة من البيانات.
أعمل حاليًا في فريق مقاييس البحث. نحن نعمل على تقييم جودة بحثنا ، لاختيار الاتجاه الذي نتحرك فيه وأي من التجارب المستمرة العديدة ستزيد حقًا "سعادة المستخدم". انضممت إلى الفريق من خلال التدريب مباشرة بعد نهاية SHAD. لقد أعطتني مدرسة تحليل البيانات قاعدة ممتازة: التعلم الآلي ودورات النموذج الاحتمالي هي بالضبط ما أستخدمه كل يوم عمل.
عند الوصول إلى SHAD ، ما زلت لا أفهم ما أردت القيام به ، ودخلت الشركة مع زملائي في الصف ، ولكن من الندوات الأولى أصبح من الواضح أن SHAD كان مثيرًا للاهتمام بشكل لا يصدق. هناك أدركت ما أردت القيام به. أعتقد أن كل عالم بيانات يجب أن يكون على دراية جيدة بطرق مختلفة للتعلم الآلي ، ومعرفة إيجابياته وسلبياته ونطاقه ، وأن يكون قادرًا على العثور على تبعيات في البيانات واستخلاص الاستنتاجات الصحيحة بناءً عليها. على الرغم من أنني أعمل كمحلل ، إلا أنني في كثير من الأحيان يجب أن أتعامل مع التنمية. لقد أضفت مؤخرًا خدمة طوّرت لها الواجهة الأمامية والخلفية والخوارزميات نفسها - يجب أن يكون عالم البيانات قادرًا على فعل كل شيء. "
مطور تعلّم الآلة (خريج زاخاروف ، خريج 2018):
"حتى في الجامعة ، أحببت المهام أكثر من أي شيء آخر ، حيث تلعب الرياضيات دورًا مهمًا ، ولكن يمكن" لمس "النتيجة. يلبي عملي الحالي بشكل جيد هذين الشرطين: ننفذ خوارزميات مختلفة ، ونعدلها في وقت واحد للعمل بشكل أسرع وأعلى وأقوى مع بياناتنا. أحد المؤشرات الرئيسية بالنسبة لنا هو الإنتاجية. هناك الكثير من البيانات ، ويجب أن تكون الخوارزمية قادرة على التنبؤ والتعلم بسرعة في فترة زمنية معقولة.
كان لدي الكثير من البرمجة في الجامعة ، لكن دورات SHAD تتميز بمهام أكثر تعقيدًا خوارزميًا ، وتركيزًا أكبر على الأداء ونظافة الشفرة.
أعطاني SHAD مجموعة جيدة من المهارات الأساسية التي أستخدمها كل يوم: التعلم الآلي بأشكاله المختلفة ، والإحصاءات التطبيقية ، والخوارزميات ، وفكرة كيف يجب أن تبدو الشفرة الصناعية. اتضح أن مشروع دورة البيانات الضخمة وثيق الصلة للغاية ، حيث كتب الرجال والفريق تعزيز التدرج ، محاولين الإمساك بـ LigthGBM بسرعة ، وهو ما لم نلتحق به ، ولكننا تمكننا من تحقيق وقت مماثل ".
أخصائي البنية التحتية للبيانات الضخمة (فلاد بيدزيلا ، خريج 2017):
"من المدرسة الثانوية ، أردت أن أكون مهنيا في البرمجة. دخلت شاد عندما كنت في سنتي الثالثة في الجامعة. لقد فتح قبلي عالمًا جديدًا شجاعًا للتعلم الآلي والتنقيب عن البيانات ، وأنظمة عالية الكفاءة مع مجموعة من الخوارزميات عند تقاطع الرياضيات التطبيقية والبرمجة.
لعدة سنوات ، عملت في Yandex في فريق الجودة لترتيب بحث الفيديو. ساعدتني دورات شاد في C ++ المتقدمة و Python في المشاركة في عملية العمل في وقت قصير - من كتابة البرامج الأكاديمية في الجامعة إلى رمز الإنتاج الجاد في الشركة.
لقد عملت مؤخرًا في خدمة تقنيات الحوسبة الموزعة. نقوم بتطوير نظام YT MapReduce:
habr.com/company/yandex/blog/311104 . هنا ، اتضح أن المعرفة والمهارات المكتسبة في SHAD مفيدة للغاية: دورة عن الخوارزميات الكلاسيكية وهياكل البيانات غرس ثقافة خوارزمية ، طورت القدرة على كتابة كود فعال ونظيف بسرعة مع الحد الأدنى من الأخطاء وبنية مفهومة ، لفهم الحلول الخوارزمية المعقدة ؛ أظهرت دورة عن الخوارزميات للعمل مع كميات كبيرة من البيانات الصعوبات التي تنشأ عند معالجة مجموعة من البيانات التي لا تتناسب مع ذاكرة الكمبيوتر ، وطرق التعامل مع هذه الصعوبات ، وفهم الأنماط الأساسية لبناء الخوارزميات في الذاكرة الخارجية وخوارزميات الدفق ، وتطوير العملية الأساسية الأساسية مهارات الكتابة ؛ قدمت الدورة التدريبية حول الحوسبة المتوازية والموزعة الإنشاءات الأساسية للبرمجة الموزعة متعددة الخيوط ، المطبقة في كل مكان وفي كل مكان في النظام المطور.
بالإضافة إلى ذلك ، تجدر الإشارة إلى أنه بفضل ShAD ، تمكنت من التعرف العميق على الدورات الرياضية التطبيقية ، والتي غالبًا ما يتم استبعادها من برنامج الجامعة الكلاسيكية: نظرية المعلومات والتعقيد الحسابي ، والرياضيات المنفصلة المتقدمة ، والتحليل الإحصائي ، والتحسين التوافقي والتحسين المحدب. تجمع هذه المعرفة بين الرياضيات النظرية وصناعة تكنولوجيا المعلومات عالية التقنية ".
أخصائي تحليل البيانات في العلوم التطبيقية (خريج نيكيتا كازييف ، 2015):
"أنا أعمل على تطبيق أساليب التعلم الآلي لمشاكل الفيزياء الأساسية في CERN كطالب دراسات عليا في HSE وجامعة Sapienza في روما.
كان مغرمًا بالفيزياء من المدرسة ، وكان حائزًا على جائزة أولمبياد عموم روسيا ، وذهب إلى FOPF MIPT. إلى حد كبير بسبب الاعتبارات المثالية - إذا كنت لا تفعل العلم ، ثم ماذا؟ لكن دائمًا ما تنجذب إلى أجهزة الكمبيوتر. تم تخصيص أعمال البكالوريوس لنمذجة الكمبيوتر للبلازما غير المثالية ، وكان لديها العديد من الخوارزميات و C ++.
في السنة الرابعة ، دخلت شاد ، وبعد ذلك بعام دعيت إلى المجموعة الناشئة من المشاريع التعليمية والعلمية الدولية في ياندكس. الآن تحولت إلى مختبر مشترك لـ Yandex و HSE - LAMBDA. نحن لا نقوم بالأشياء بأيدينا فحسب ، بل نعلم الفيزيائيين أيضًا التعلم الآلي ، لذا فقد درست في أكسفورد. في مدرستنا الصيفية ، ولكن لا يزال ؛)
أي من الشبح مفيد؟ الكثير من الأشياء.
- دورة الخوارزميات: ثقافة برمجة عامة وفجأة خوارزميات. كان الأمر ممتعًا في ساعتين لتسريع المحاكي المادي عشرة أضعاف ، ببساطة إضافة شجرة دينار كويتي بدلاً من البحث الشامل.
- التعلم الآلي ، التعلم العميق: الخبز والزبدة ، وخاصة ، النظري فجأة. في الفيزياء عالية الطاقة ، على المرء أن يتعامل مع المشاكل غير القياسية التي لا يكفي فيها استيراد xgboost.
- تكيف المجال: كيفية الجمع بين الاعتبارات المادية والتعلم الآلي لإنشاء خوارزمية سيتم تدريبها على البيانات المحاكاة ، وتطبيقها على حقيقي؟ ماذا لو كانت عينة التدريب متسخة ، ولكن هناك أوزان سلبية تنظفها؟ كيفية قياس دقة استعادة التوزيع GANom؟
- معالجة البيانات الكبيرة: كان علي استخدام Hadoop.
- دورة منتج حديثة: نحن نعمل كجزء من تعاون 1000 شخص ، والعديد من نتائجنا ليست اكتشافًا علميًا بحتًا ، بل أداة مصممة لأشخاص آخرين. على سبيل المثال ، المشروع الذي بدأته كمتدرب - فهرس البحث عن الأحداث التي يسجلها الكاشف - انتهى به الأمر غير مطلوب ، على عكس نظام المراقبة الذي يتم من خلاله مراقبة جودة البيانات من الكاشف في الوقت الحالي.
بشكل عام ، ستكون في جنيف ، تعال للزيارة ، من المثير للاهتمام هنا :) ".