"علم البيانات ، مثل الرياضيات والفيزياء ، هو طريقة أخرى لاستكشاف العالم من حولك."

هابر ، مرحبا! نواصل سلسلة من المقابلات مع خريجي Newprolab يتحدثون فيه عن قصتهم في الانتقال إلى مجال العمل باستخدام البيانات الضخمة. تختلف القصص وستكون مثيرة للاهتمام لأولئك الذين يفكرون في تغيير مسارات حياتهم المهنية أو حول كيف يمكن للمعرفة الجديدة المساعدة في حل المشاكل الحالية. قابل Oleg Khomyuk ، رئيس قسم البحث والتطوير في Lamoda.

تحدث أوليغ عن مسيرته المهنية ، والقيم ، ولماذا اختار لامودا ، وليس شركة في الوادي ، عن المشاريع الحالية ، وفريقه ، حول المشاريع الأكثر نجاحًا والأكثر نجاحًا ، حول الموقف من علم البيانات وأكثر من ذلك بكثير.

الصورة

- أوليغ ، كيف كان مسارك المهني لرئيس البحث والتطوير في لامودا؟

- يبدو لي أن أي مسار مهني ناتج عن عدة أسباب وأحيانًا عن حوادث. من بين هذه الأسباب ، يمكن تمييز العديد من الأسباب الرئيسية: ميزات التفكير وقيم الحياة ، وبشكل عام ، كيف يفهم الشخص ما هو النجاح. هذا الفهم للنجاح هو الناقل الذي نستخدمه كبوصلة ، واختيار المسار المهني.

بهذا المعنى ، تحول كل شيء بكل بساطة بالنسبة لي: أظهرت المدرسة بوضوح قدرات على العلوم الدقيقة ، وشاركت باستمرار في المسابقات ، حتى تمكنت من الحصول على المركز الثالث في الصف التاسع في أولمبياد الرياضيات الإقليمي بين أطفال المدارس. وبشكل عام ، كان من المثير للاهتمام دائمًا حل الألغاز ، والبحث عن الأنماط ، وما زلت أحب المهام المتعلقة بالبراعة.

كما أحببت الدراسة في الجامعة: تخرجت من MSTU. N.E. بومان مع مرتبة الشرف في "Optoelectronic Instrumentation" ، تعلمنا تصميمًا متطورًا للغاية ، من وجهة نظر الفيزياء والإلكترونيات الدقيقة ، المعدات: التصوير الحراري ، والكاميرات الرقمية ، والتلسكوبات ، وحتى مشاهد القناص ، وأنظمة التوجيه وأجهزة الرؤية الليلية. يجب أن أقول أن هذه مهنة مثيرة للاهتمام بشكل لا يصدق ، وكان أعضاء هيئة التدريس لدينا ممتازين. تقع هذه الهندسة الحقيقية عند تقاطع العديد من مجالات المعرفة. في بعض الأحيان من المؤسف أنه لم يعمل على هذا الموضوع.

- لماذا لا؟

- في الدورات الأخيرة خاب أملي قليلا في ما كنت أفعله. اتضح أن الطلب على مهنة في البلاد منخفض ، وكل شيء محلي للغاية ، وأفضل المهندسين يعملون بشكل رئيسي في مختبرات المعهد ، والمصانع النادرة قادرة على تنفيذ المشاريع الهندسية ، والمعدات القديمة ، وما إلى ذلك. كانت هناك ، بالطبع ، بعض النجاحات ، لكن النطاق لم يكن كما تخيلته في بداية دراستي. تم استكمال هذا العامل بمعدلات منخفضة للباحثين ، وكان من الممكن الانخراط في النقل الخاص وكسب المزيد. بالطبع ، كان لا يزال هناك خيارات لكسب المال ، والعمل ليس بشكل رسمي تمامًا للشركات اليابانية ، بطبيعة الحال بدون حقوق الملكية الفكرية.

في وقت ما ، دعاني أصدقائي للعمل في مزود إنترنت كبير إلى حد ما بالقرب من موسكو ، ووافقت. كنت على استعداد تام لتعلم أشياء جديدة ، التعليم الفني يعطي الكثير من المجال بهذا المعنى.

هناك اكتسبت مهارات تقنية جديدة ، وتعرفت على موضوع إدارة الجودة وتطرق بشكل عام إلى الممارسات العالمية في هذا الصدد. هناك معيار إدارة الجودة ، حتى سلسلة من معايير ISO 9000 ، التي تقدم بعض الممارسات لتنظيم العمليات في المؤسسة ، مع الأخذ في الاعتبار العلاقة بين جودة المنتج النهائي ومدى إدارة الشركة لعملياتها داخليًا. الفكرة الرئيسية هي أنه إذا قمت بكل شيء في إطار المعيار ، فإن جودة منتجاتك تتحسن باستمرار ، لأنك تقيس وتفكر وتخطيط وتفعل وتقيس مرة أخرى كل عملية يمكن أن تؤثر على هذه الجودة. هذا النشاط الدوري للتحسين المستمر له حتى اسم - دورة Deming. لقد أسرني هذا الموضوع بطريقة أو بأخرى ، مثل الإدارة ، ولكنه رياضي للغاية.

ونتيجة لذلك ، عملت هناك لمدة عامين تقريبًا ، وأقوم بأشياء مختلفة ، بما في ذلك إدارة قسم صغير ، وبناء عمليات ، والتحدث كثيرًا مع قسم الجودة.

التالي كان ياندكس. في مرحلة ما ، رأيت أنهم يوظفون مديري المشاريع في قسم جودة البحث. لم يكن الشاغر نفسه مرتبطًا بذلك ، كانت مهمة الاختبار أكثر اهتمامًا: وصف مشكلة البحث في Yandex الحالية ومعرفة كيفية حلها. حسنًا ، من المحتمل أن يكون الزناد في رأسي لكلمة "جودة" ناجحًا. عملت في المهمة لمدة 10 ساعات متتالية ، وتبين أنها عدة صفحات. ونتيجة لذلك ، اتصلوا بي ، ودعوا لإجراء مقابلة وقدموا عرضًا ، وقد قبلت بسرور.

بينما كنت أعمل في Yandex ، وتحديداً بالنسبة لي ، حدث كل شيء في مكانه ، ورأيت كيف أن البيانات الضخمة ، والرياضيات ، والخوارزميات ، والتركيز على المستخدم ، واحتياجاته تعمل معًا كآلية واحدة ، وتتيح لك إنشاء منتجات مذهلة من ناحية ، وكسب المال من ناحية أخرى. يبدو لي أنني استبعدت من ياندكس هذه الرغبة في تكوين منتجات تستند إلى البيانات والمشاركة في التعلم الآلي. منذ ذلك الحين ، بدأ يتطور بنشاط في هذا الاتجاه.

- كان عام 2011 ، لم يكن موضوع البيانات الضخمة شائعًا بعد ، ولم تكن هناك أي برامج. أين درست وقراءة كل شيء؟

- بالطبع ، لم يكن المحتوى المتاح كافيا ، وكنا جميعا متعطشون للمعرفة. لكن كورسيرا كانت موجودة بالفعل ، وبالمناسبة ، كانت شاد أيضًا. لقد استمعت إلى محاضرات فورونتسوف 15 مرة ولم أفهم أي شيء. مر الكثير من خلال هذا ، كانت حقبة مثيرة للاهتمام.

بشكل عام ، بدأت في الابتعاد قليلاً عن موضوع البحث عن المعلومات ، وأحب العمل مع البيانات ، وجذبتني منطقة جديدة تتعلق بالتعلم الآلي ، وفي عام 2012 تركت الشركة.

- وماذا بعد ياندكس؟

بعد أن كان Yandex "Consultant Plus". اختار بالفعل أكثر وعيا الاتجاه المرتبط بتحليل البيانات. بدأت للتو جمع بيانات إجراءات المستخدم على نطاق واسع ، لذا انضممت إلى هذا النشاط وبدأت في إنشاء المشاريع.

بشكل عام ، كان وقتًا مثيرًا للاهتمام ، الآن هناك العديد من المكتبات المتاحة للتعلم الآلي ، على سبيل المثال ، xgboost ، وكتبنا تعزيز التدرج على الأشجار في C ++ ، الآن ، بالطبع ، لا يستطيع كل فريق تحمله ، وليس هناك حاجة - تم تحقيق كل شيء بالفعل. يا لها من قصة.

- هل كتبت بمفردك أو لديك بالفعل فريق؟

- كان الفريق بالفعل ، إلى جانب المواهب. في السنة الثانية من عملي في Consultant Plus ، انضم إلينا طالب موهوب من VMK ، والذي كتب خلال شهرين تنفيذ التنفيذ الخاص به وبدأ في تدريب النماذج.

وبحلول ذلك الوقت ، كنا قد استهدفنا بالفعل تشكيل فريق كامل من علماء البيانات ، شعرنا أن هناك العديد من الفرص الجديدة في البيانات. بعد ذلك ، اتيحت الفرصة لأخذ خريجين من SHAD ، الذين ربما يعرفون رأسًا أكثر مني ، ومطوري بناء المستودعات ، بنجاح كبير. حاول الجميع ذلك ، عملوا بشكل رئيسي على مجموعة Hadoop ، على الرغم من أنه بالمعايير الحديثة لم يكن هناك الكثير من البيانات.
في ذروة منا ، ربما ، كان هناك 9 أشخاص في المجمل ، كانوا يحلون مشاكل جيدة. على سبيل المثال ، كانوا يبحثون عن دفقات من اهتمام المستخدم في مواضيع مختلفة ، وهذا ساعد المؤلفين على الاقتراب بشكل أفضل من اختيار تلك التي من المنطقي لكتابة مادة جديدة.

بعد ذلك عملت في Ezhome ، شركة ناشئة في بالو ألتو. بالمناسبة ، أوصاني Mitya Kataev هناك ، حيث درسنا معًا في برنامج Big Data Specialist . كان معارفه ، كيريل كلوكوف ، الذي يعمل في Ezhome كمدير التطوير ، يبحث فقط عن عالم بيانات في الفريق. الفكرة الرئيسية للشركة هي إنشاء تجربة أوبر للخدمات المنزلية ؛ كنقطة انطلاق ، تم اختيار خدمة لرعاية المنطقة المحلية - بدءًا من قص العشب ، وتنتهي بالتنظيف وزراعة النباتات والأشجار. ونتيجة لذلك ، بدأت العمل هناك بصفتي عالم بيانات ، أردت حقًا تجربة يدي عند بدء التشغيل ، وأردت العمل بيدي. أواجه هذه الحكة التحليلية بشكل دوري ، أريد أن أفعل شيئًا ذا معنى بنفسي ، على الرغم من أني ركزت لفترة طويلة على العمليات التنظيمية. كنت آمل أن تهدأ الحكة يومًا ما ، ولكن لا ، حتى يومنا هذا أحاول أن "أجلس على كرسيين" ، أي أن أتطور كمدير وكأخصائي.

- حتى الآن؟

"حتى الآن." على الرغم من أنه في الوقت الحالي ، بالطبع ، لا يوجد وقت كافٍ: فريق كبير والعديد من المهام الإدارية ، لقد تأخرت في عطلة نهاية الأسبوع ، حيث توجد الآن الكثير من الفرص لذلك - kaggle ، على سبيل المثال. أريد أن أفعل شيئًا بيدي أيضًا ، لكن لديّ رجال في فريقي من الواضح أنهم أفضل مني في مجالهم. ولكن ، في رأيي ، من أجل إدارة فعالة للمشروع في مجال تحليل البيانات ، يجب أن يكون لدى المدير مهارات صعبة. أنا أتعلم باستمرار. في الوقت الحالي ، على سبيل المثال ، قررت أن أخوض تخصصًا في البرمجة ، حتى لا أنسى ما كان يحدث.

- العودة إلى Ezhome: لماذا يحتاجون إلى عالم بيانات؟ ما المهام التي واجهتها؟

- هذا سؤال جيد. في البداية سألت عن النتيجة المتوقعة مني. كان الجواب بالروح: "نحن أنفسنا لا نفهم بالضبط بعد ، دعونا نجرب". ولكن سرعان ما تم العثور على مهمة جيدة: في ذلك الوقت كان هناك اختناق في جذب عملاء جدد ، لأن كل تطبيق جديد تمت معالجته من قبل شخص ، وقياس موقع من صورة القمر الصناعي ، حاول فهم تكلفة خدمة هذا الموقع. كان هناك نموذج خطي خبير تعامل مع هذا التقييم. من الواضح أن جودة التوقعات كانت مطلوبة لتحسينها ، وكيفية مراعاة عدد أكبر من المعلمات بخبرة ، لا يمكنك تحديدها. هذا هو المكان الذي أصبح فيه التعلم الآلي مفيدًا. بدأنا في التنبؤ بالوقت الذي سيقضيه البستاني باستخدام معلمات الموقع. تم أخذ معلمات المواقع من مصادر مفتوحة ، وتم أخذ "المعلمين" من البيانات التاريخية. ثم كان هناك بالفعل قاعدة صغيرة من العملاء النشطين على الاشتراك في الخدمات الأسبوعية.

ونتيجة لذلك ، تم إطلاق المهمة ، وكانت البيانات متاحة لمعظم المكالمات الواردة ، وكان من الممكن صياغة أسعار فردية على الطاير. الأتمتة الكلاسيكية - تعمل الروبوتات ، يسترخي الناس. ثم دعيت للحضور إلى المكتب الرئيسي في الوادي لبعض الوقت ، حوالي شهر ونصف.

قبل ذلك ، عملت عن بعد ، وكان الفريق بأكمله بعيدًا تقريبًا: الولايات المتحدة الأمريكية والهند واليونان وبولندا وروسيا. كان الفريق رائعًا للغاية ، كان من دواعي سروري العمل. تمكنت من القيام بالعديد من المهام الرائعة ، وفي النهاية عُرض علي منصب رئيس فريق التحليلات. قمنا ببعض التحسينات في البنية التحتية ، مما سمح لنا بزيادة عدد المشاريع التي قمنا بها في بعض الأحيان. ثم اقترحوا أن يتحدوا مع فريق آخر يقوم بتطوير برامج لبناء الطرق للموظفين: 5 آلاف عميل ، و 150 بستانيًا ، وكيفية الالتفاف عليهم بالطريقة المثلى. كان الأمر مثيرًا للغاية ، ويبدو لي الآن أن المهام التي تتعلق بعلوم الكمبيوتر أكثر من البيانات هي أيضًا مثيرة للاهتمام للغاية.

- بالتوازي مع Lamoda ، كنت تفكر في عدة مقترحات ، لماذا تم الاختيار لصالح Lamoda؟ ما هو المهم بالنسبة لك؟

- نعم ، كانت هناك عدة مقترحات. ما الذي ربطني في لامودا؟ استراتيجية واضحة وتوقعات واضحة مني وثقة وخطة موارد واقعية في الشؤون المالية ، أي أنها تحدد مهمة واضحة بالنسبة لي: "نحن هنا الآن ، نحتاج إلى أن نكون هنا ، نريد تطوير البحث والتطوير ، نحن على استعداد للاستثمار X ، ونتوقع مثل هذا التأثير الاقتصادي" . هذا كل شيء. لا يوجد سبب حول كيفية حرث سفن الفضاء مساحات الكون أو أن الروبوتات ستحل محل الجميع. بالإضافة إلى قصة صادقة حول أداء الشركة. كان كل شيء شفافًا وواضحًا ، وهذا بشكل عام دفعني لأنني شعرت تمامًا بأنني كنت منضمًا إلى فريق من الأشخاص الذين كانوا حقًا موجهين نحو النتائج ويفهمون ما يريدون. بالإضافة إلى ذلك ، أعطوني تفويضاً مطلقاً لتطوير هذه المنطقة. بالنسبة لي كان نوعًا من التحدي الشخصي ، لم تتح لي الفرصة لتجميع مثل هذا الفريق الكبير. الآن 17 شخصًا ، وما زلنا ننمو.

- هذه ليست الشركة الأولى التي تبني فيها قسمًا للبحث والتطوير من الصفر ، وتشكيل فريق. ما أول خمس خطوات تتخذها عند الانضمام إلى شركة؟

- كان قسم البحث والتطوير في لامودا ، وقبل 7 سنوات تم استبدال العديد من الفرق والقادة. بالإضافة إلى ذلك ، جمعنا حوالي نصف الفريق الحالي في الداخل. لذلك ليس حقا من الصفر.

الخطوات الخمس الأولى في شركة جديدة؟ أعتقد أن الخوارزمية ليست خاصة بالبحث والتطوير ؛ من حيث المبدأ ، يمكن أن يكون هذا هو الحال إذا أتيت إلى شركة جديدة إلى نوع ما على الأقل من منصب قيادي.

أولاً ، تحتاج إلى فهم الإستراتيجية الحالية للشركة ، لفهم أهداف الشركة ، وما الذي ستقيسه مؤشرات الأداء الرئيسية.

والثاني هو وصف كيف ، مع الأخذ في الاعتبار كفاءتك أو دورك في الشركة ، يمكنك التأثير على مؤشرات الأداء الرئيسية هذه ، يجب أن يكون هناك مجموعة من الأدوات والأفكار المتاحة. صف احتياجات العمل والدولة المستهدفة ، أي ما نريد أن نأتي إليه بشكل عام ، ثم قم بتقييم الأدوات المتاحة. التعلم الآلي هو واحد منهم فقط ، وليس الأمثل لكل مهمة.

النقطة الثالثة - تحتاج إلى مراجعة الحالة الحالية - الأشخاص والكفاءات والعمليات والبيانات والمنتجات والبنية التحتية ، وخاصة البنية التحتية.
بشكل عام ، في الخطوة الرابعة فقط بعد تدقيق الحالة الحالية ، يصبح من الممكن وصف استراتيجية أخرى للانتقال من الحالة الحالية إلى الحالة المستهدفة. بشكل أساسي ، هذا عمل كثير ، بما في ذلك الكثير من المشاورات مع الأطراف المهتمة ، وأصحاب المصلحة ، والتي على أساسها يجب تطوير العديد من سيناريوهات التنمية المحتملة. في ممارستي ، كان من المفيد أن أجعل 3 على الأقل - محافظة وواقعية وعدوانية من حيث تكاليف الموارد. ثم يصبح الأمر أسهل: بعد اختيار الإستراتيجية ، نضع خريطة طريق ، ونحدد تقدير الموارد ونبدأ العمل.

- ما هي علوم البيانات بالنسبة لك؟

- علوم البيانات هي أداتي المفضلة. هذا مجال مثير للغاية ، فهو مثل الرياضيات والفيزياء ، طريقة أخرى لاستكشاف العالم من حولك. كانت هذه هي المرة الأولى التي شعرت فيها بوضوح بشكل خاص في Yandex ، عندما انخرطنا في تحليل استعلامات البحث ، فهمنا ما يحتاجه المستخدمون ، وكيف يقومون بحلها ، وما يحدث في العالم. أي أنه يمكنك إلقاء نظرة على العالم من خلال نقرة صغيرة على البيانات التي تعمل بها. هذا مثير للاهتمام ، في رأيي ، لا يختلف عن طرق أخرى للمعرفة ، مجرد "قناة" أخرى ، اعتبر هذا هو الشعور السابع. حدث الشيء نفسه في "Consultant Plus": نظرنا إلى المستخدمين الذين يحلون المشاكل عندما يبحثون عن قرارات المحكمة ، أي ما يثير الأشخاص تحديدًا ، وما هي النزاعات التي يحتاجون إلى حلها في المحكمة. إذا تحدثنا عن البيانات التي نحللها في Lamoda ، فهذا ليس أقل إثارة. خاصة عندما تكتشف أن البلوزات والتنانير يتم شراؤها بألوان مختلفة بدلاً من نفسها. ملاحظة غريبة يمكنك من خلالها المضي قدمًا في الحياة. يمكنك معرفة الكثير عن العالم من حولك من خلال البيانات. لذلك ، أقول أن هذه هي أداتي المفضلة. وهنا ، من ناحية ، أداة معرفية ، ومن ناحية أخرى ، أداة نشطة ، بمساعدتها يمكنك إنشاء شيء جديد.

- إذا كنت تقوم بعمل تجاري ، ما هو الدور الذي تخصصه للبيانات في الأعمال؟

- أهم شيء هنا هو عدم الخضوع للضجيج. إذا تحدثنا عن الأعمال ، فيجب أن تعمل البيانات بالطبع. يجب أن تكون نتائج تحليل البيانات مربحة أو تخفض التكاليف. إذا لم يفعلوا ذلك ، فقد حدث خطأ ما في مكان ما. في الوقت نفسه ، لا تحتاج الثقافة المعتمدة على البيانات إلى اتخاذ حرفيا ، يمكننا اتخاذ قرارات دون الاعتماد على البيانات ، وهذا أمر طبيعي. علاوة على ذلك ، في بعض الحالات ، هذا هو الشيء الوحيد الذي يجب القيام به.

- أخبرني ، ما هي المشاريع التي تقوم بها في Lamoda؟ ما هو أنجح مشروع نفذه فريقك؟

- ربما يكون أول شيء جدير بالذكر هو النظام الأساسي لاختبار A / B - في الواقع ، خدمة تقسم المستخدمين إلى مجموعات وتدير تشغيل / إيقاف الميزات التجريبية. لماذا هذا مهم لنا؟ لأنه بشكل عام ، لا يمكن أن يوجد هذا المجال نفسه ، المتعلق بالتعلم الآلي ، بدون اختبار مستمر للفرضيات والأفكار المختلفة. لا يمكننا أن نعرف مقدمًا أن مستخدمينا سيعجبهم أكثر أو أقل. يجب اختبار أي فكرة جديدة. يقدم موقع أمازون إحصائيات مثيرة للاهتمام ، ويقولون إن 70٪ من الأفكار التي يختبرونها تفقد الاختبار. يجب معالجة هذا بهدوء ، حتى لو كان المؤشر أعلى. هذا يعني أنه من أجل إطلاق 5 مشاريع ناجحة كل ربع سنة ، من الضروري القيام بـ ± 17. لذلك ، فإن المنصة الموثوقة لإجراء التجارب الخاضعة للرقابة هي الأساس الذي بدونه من المستحيل على الإطلاق المضي قدمًا من حيث تطوير المنتج. نظرًا لخططنا الطموحة ، كان من الضروري إجراء بعض التحسينات على هذا النظام. تم عمل الإصدار الأول أمامي ، قمنا بتحديثه بشكل كبير: الآن يمكنك تشغيل المزيد من التجارب في نفس الوقت ، قبل أن تكون هناك بعض القيود في هذا المعنى.

- ما الاتجاهات الأخرى؟

- البحث ، وهنا توجد اختلافات بين اللاعبين الكبار مثل ياندكس وجوجل ، لأنه يمكننا تحديد مجال الموضوع الخاص بنا بشكل جيد للغاية ، فهو ضيق نوعًا ما مقارنة بـ "البحث الشامل على الإنترنت". من المستحيل إنشاء علم الوجود لكل شيء ، لوصف جميع العلاقات ، ولكن في منطقة محددة صغيرة يمكنك اتخاذ قرارات جيدة جدًا ستنجح. نحن نقوم باللغويات الخاصة بنا لمحرك بحث يمكن أن يأخذ في الاعتبار بعض العلاقات الضمنية بين الكيانات المختلفة. , , , , , , . , Tommy Hilfiger Tommy Jeans, . , — , — - . , , Lamoda.

, , , — . . , , , , .
, , , .

— , .

— . , . , , , , — . , , . , . , , .

— ? ? ?

— , : , , , , -. , -, . , . -, , , . .

4-6 . , . , - . . - , , – .

— Amazon 70% , Lamoda?

— , . , , . , – success, learning. . — . , , , , . - .

— , ? learning'e, .

— , . , . , , , . , , learning, , . ( , ) , , , . , , , .

— ? , , , . , ?

— , : , , . , , , . , , .

— , , Newprolab Lamoda, . , , , ?

— , , , , , , . ( Newprolab — . .), , - . . , Newprolab , . - , , , . , . 3 10 , , . . , , , , , .

— , , , , , , , .

— , , 4 , , Coursera, , . , , , . , , , , , , .

الصورة

« » , , . , ?

— – - . , , - , . - , . , . ? : - , . , . , , , , , , . , . , , , , - . , , .

— , -. , ? ?

— , «» «», , , , - . , - , . . , , , . , Lamoda . - , .

— , ?

— Slack ODS, , , . , , , , , , .

— , , . , , ?

— , : , . , , data science, . , , - .

— , , .

— , . . , , . , , - - , . — , , , , . , - - . , , , , , , , - , .

, — , , , . , , . : , , , . Ezhome — : data scientist, -, , . , - . , . , .

, , , .

Source: https://habr.com/ru/post/ar431124/


All Articles