تعتمد كل خدمة Yandex إلى حد كبير على تحليل البيانات وأساليب التعلم الآلي. وهي مطلوبة لترتيب نتائج بحث الويب وللبحث عن الصور ولتكوين مجموعات التوصيات. يتيح لنا التعلم الآلي إنشاء مركبات بدون طيار ومساعدين صوتيين ، وتقليل وقت التوقف بدون فائدة لسائقي سيارات الأجرة وتقليل أوقات الانتظار لعملائهم. جميع التطبيقات وليس قائمة!
لذلك ، نشعر دائمًا بالحاجة إلى متخصصين في تحليل البيانات والتعلم الآلي. واحدة من أهم مراحل المقابلة في ياندكس بالنسبة لهم هي القسم العام عن التعلم الآلي ، والذي سأناقشه في هذا المقال. مثال للمهمة النموذجية لهذا القسم والمحتوى المحتمل للإجابة التي أجريتها في مقطع فيديو أصبح متاحًا مؤخرًا على YouTube . في هذه المقالة ، سأتحدث أكثر عما نتوقعه من مرشح قوي في مثل هذا القسم ولماذا قمنا بصياغة مثل هذه المعايير بدقة.

1. Yandex آلة التعلم مقابلات
كبار الموظفين والموظفين في Yandex قادرون على تحويل المهام الموضوعة في شروط العمل بشكل مستقل إلى مهام تعلم الآلة تم طرحها بشكل صحيح ؛ اختيار أساليب الحل المناسبة ، وصياغة أوصاف مميزة ، وبناء عملية تحديث النماذج والتحكم الصحيح في جودتها ؛ أخيرًا ، تحقق من أن الحلول الناتجة تلبي متطلبات العمل الأصلية.
إلى حد كبير ، يؤثر هؤلاء الأشخاص على تشكيل // متطلبات العمل: يمكن للأشخاص الذين يعملون مباشرة مع البيانات معرفة أفضل ما في العالم ما هي خصائص الخدمات التي تؤثر على شعبيتها وفائدتها ، وما هي المشاكل التي يحتاج المستخدمون إلى حلها ، وفي أي مؤشرات سوف يؤثر.
وكقاعدة عامة ، يتمتع أفضل موظفينا أيضًا بمعرفة خبيرة في مجالات محددة - على سبيل المثال ، رؤية الكمبيوتر ، أو بناء نماذج أو نماذج لغة لخدمات استشارية أو بحثية.
نحن نقدر حقًا موظفينا وخبراتهم ونريد من المرشحين الخارجيين أيضًا تحقيق هذا المستوى. لاختبار ذلك ، قد يتم تخصيص قسم أو أكثر لمواضيع خاصة ، مثل رؤية الكمبيوتر أو أساليب التدريب في التصنيف. أحد الأقسام مخصص إلزاميًا للقضايا "العامة": بيان المشكلة ، وتشكيل الوظيفة الموضوعية وعينة التدريب ، وقبول النماذج. هو عنها الآن وسيتم مناقشتها.
بطبيعة الحال ، فإن المجموعة الكاملة من المتطلبات لا تنطبق إلا على المرشحين الذين يتقدمون لشغل وظائف كبار أو كبار المتخصصين. لا يحتاج المرشحون الذين يعتمدون على مناصب متوسطة أو صغيرة إلى أن يكونوا قادرين على القيام بكل ما سبق ، ولكن يجب أن يعلموا أن المهارات ذات الصلة مفيدة للغاية للنمو الوظيفي - سواء في ياندكس أو الشركات الأخرى.
بناءً على متطلبات الوحدة ، قد تكون هناك حاجة أيضًا إلى قسم لوغاريتم برمز كتابة أو حتى قسم معماري.
2. بيان المشكلة
لذلك ، تتمثل المهمة الرئيسية لهذا القسم في التحقق من مدى قدرة المرشح على التعامل مع المهمة بشكل مستقل بالكامل ، بدءًا من صياغتها وتنتهي بأسئلة القبول في تجارب المستخدم.
يبدأ القسم ببيان المشكلة من الناحية التجارية. لنقل ، قد تحتاج إلى إنشاء خدمة تطالب المؤسسات القريبة أو توصي بمنتجات معينة أو ترتب أفلامًا أو موسيقى تهم المستخدمين.
يمكنك البدء بتحديد التطبيقات الممكنة للمهمة المعنية. كم عدد المستخدمين الذين سيحصلون على الحل الناتج ، من هم ، لماذا يحتاجون إلى هذه الوظيفة ، وكيف يكتشفون ذلك؟ يمكن للمرشح طرح كل هذه الأسئلة ، أو يمكن أن يقدم رؤيته الخاصة للإجابات (الخيار الأخير ، بالطبع ، هو الأفضل).
بناءً على أسباب المهمة ، تتم صياغة مقاييس العمل ، ثم تعد المقاييس مناسبة للتحسين في عملية التعلم أو اختيار النموذج. مؤشر على درجة عالية للغاية للمرشح هو إذا كان اختيار المقاييس للتحسين يمليه المعنى المادي للمشكلة التي يجري حلها. أبسط مثال على هذا النوع هو استخدام مقاييس تشبه DCG لترتيب المهام أو مقاييس تشبه AUC لبعض مشاكل التصنيف المحددة.
من الضروري هنا أيضًا التطرق إلى مسألة تشكيل عينة التدريب. ما هي البيانات اللازمة لتشكيلها ، وكيفية الحصول عليها؟ ما هو الحدث للتدريب لدينا؟ هل أخذ العينات مطلوب؟ إذا كان الأمر كذلك ، كيف نفعل ذلك؟
3. طرق تعلم الآلة
بعد صياغة المهمة بالكامل ، يمكنك البدء في مناقشة طرق لحلها.
تحتاج هنا إلى اختيار نموذج يبني الحل ، ويبرر اختيارك. يجدر الحديث عن الخسارة الوظيفية التي تم تحسينها في عملية بناء النموذج ولماذا يعد اختيارًا جيدًا لتحسين المقاييس التي تمت مناقشتها في الفقرة السابقة. من المفيد أيضًا مراعاة طريقة التحسين المستخدمة.
العنصر التالي الذي سيتم مناقشته هو مساحة الميزة. يمكن للمتخصص في الفصل الخروج فورًا بعشرات أو حتى مئات العلامات في مهمة جديدة ، بعد تقسيمها مسبقًا إلى عدة فئات وفقًا لأنواع البيانات المستخدمة (على سبيل المثال ، يمكن أن تعتمد العلامات على المستخدم فقط ، أو يمكنها الاعتماد على زوج "كائن المستخدم").
ميزة إضافية هي النظر في مشكلة البداية الباردة. عندما يتم إنشاء خدمة Yandex.Taxi بالفعل ، يمكننا استخدام معلومات حول الرحلات الحقيقية لتحسين طرق التوجيه في جميع أنحاء المدينة ؛ عندما يكون هناك بالفعل محرك بحث Yandex ، يمكنك استخدام إجراءات المستخدم لتلقي إشارات حول المستندات ذات الصلة باستفساراتك. ولكن ماذا لو لم يتم إنشاء الخدمة بعد ، والمشكلة التي يجري حلها أمر بالغ الأهمية لعملها؟ نحتاج إلى تقديم طريقة لبناء حل جيد بشكل معقول في هذه الحالة.
4. مراقبة الجودة
أخيرًا ، عندما يكون الحل جاهزًا ، تحتاج إلى التأكد من أنه جيد بما فيه الكفاية. إذا كان القرار السابق سبقه قرار سابق ، فمن الضروري أن نفهم ما إذا كان الحل الجديد أفضل.
في هذه المرحلة ، يحتاج المرشح إلى إثبات قدرته على صياغة تجارب لاختبار الفرضيات ذات الصلة. تحتاج هنا إلى اختيار نموذج التجربة وطريقة لاختبار الأهمية الإحصائية للتغييرات. دعنا نقول أنها يمكن أن تكون تجربة A / B منتظمة على مستخدمي الخدمة ، أو يمكن أن يكون تقييما خبيرا لنتائج العمل. ما هي المؤشرات التي يجب مراقبتها؟ ما الذي يجب مراقبته وكيفية التأكد من صحة التجربة؟
5. كيف تنجح في القسم
يتم تحديد مستوى المرشح تمامًا من خلال مدى تمكنه من تحديد حل المهمة بشكل مستقل وعميق. لا يمكن تمييز قسم التعلم الآلي الذي يتم إدارته جيدًا من قسم يعرفه زملاؤنا الغربيون باسم ML System Design ، وقد يبدو القسم الضعيف بمثابة مناقشة لمشكلة خاصة - على سبيل المثال ، تحسين LLH عن طريق تقسيم القواعد الخطية.
في الوقت نفسه ، نحن نفهم جيدًا أنه في مشكلات التعلم الآلي ، غالبًا ما يكون من غير الواضح الطريقة التي ستعمل وما إذا كان البعض سينجح على الأقل. لذلك ، لا تتردد في مناقشة المشكلة مع المحاور كما لو كان زميلك هو الذي قررت مناقشة الحلول الممكنة للمشكلة التي نشأت في سياق العمل العادي. لا نطلب أن يكون الحل الموصوف في القسم جيدًا - نريد فقط أن يكون لديه مبرر معقول تحته ، مما يسمح لنا أن نعتقد أنك ستتعامل مع مهمة مماثلة في ظروف حقيقية.
على سبيل المثال ، لا نحتاج إلى معرفة دقيقة بمختلف المعايير الإحصائية ، لكننا نتوقع منك أن تدرك أهمية اختبار الفرضيات بشكل صحيح وأن تكون مؤهلاً لاستخدام هذه الأساليب إذا لزم الأمر. وبالمثل ، لا يتطلب هذا القسم وصفًا مفصلاً لتشغيل أساليب التعلم الآلي ، لكننا نتوقع أن تتمكن من اختيار نماذج معينة لمهامك بشكل معقول.
في نفس الوقت ، أنت حر في الخوض في المناطق المعروفة لك. اقض مزيدًا من الوقت في إجابتك وتحدث أقل عن مكان عدم معرفتك بعمق. نحن نفهم أنه من المستحيل أن نكون متخصصين في جميع المجالات وفي نفس الوقت نقدر الصدق الفكري. إذا كان المرشح يفهم نقاط قوته وضعفه جيدًا وكان قادرًا على التحدث بصراحة عن هذا ، فهذه علامة جيدة جدًا. بالإضافة إلى ذلك ، يتيح لك ذلك قضاء وقت القسم بفعالية: سيتم إنفاقه أكثر على تحديد نقاط القوة للمرشح.
أخيرًا ، سأقدم بعض المصادر التي ستكون مفيدة للدراسة من أجل العمل بنجاح في المشروعات المتعلقة بالتعلم الآلي ، ومن أجل التحضير لقسم التعلم الآلي.
حسنًا ، فيديو YouTube الخاص بنا: