مرحبا يا هبر! أصبحت علوم البيانات منذ فترة طويلة مجالًا جذابًا ، ويريد المزيد والمزيد من الأشخاص تغيير مسارهم المهني والبدء في العمل باستخدام البيانات الضخمة. شارك كيريل دانيليوك ، عالم البيانات في RnD Lab ، قصته عن الانتقال إلى علوم البيانات ، ونصائح للمبتدئين وعلماء البيانات المتقدمين. بالإضافة إلى ذلك ، تحدثنا عن الصفات اللازمة لعالم البيانات ، وعن بيانات الترميز ، وعن الفرق بين مهندس ML وعالم البيانات ، والمشاريع الحالية ، والفرق الرائعة والأشخاص الذين يكون عملهم ملهمًا.
- كيف وصلت إلى علم البيانات؟ ما الذي جذبك في البداية إلى مجال العمل مع البيانات؟- لدي خلفية غير نمطية إلى حد ما: في التاريخ الذي جئت فيه من عالم Yandex PM (إدارة المشاريع -
ملاحظة المؤلف ) ، عندما دُعيت إلى ZeptoLab ، ربما أفضل شركة ألعاب روسية. لقد صنعت لهم نموذجًا أوليًا للنظام التحليلي ، لوحات المعلومات ، في الواقع لأول مرة بدأت في كتابة التعليمات البرمجية التي يستخدمها شخص آخر. كانت المدونة رهيبة ، لكنها كانت ممارسة حقيقية. رسميا ، بالطبع ، نسقت عمل اثنين من المتعهدين الخارجيين ، لكنهم كتبوا الرمز بالضبط على هذا النموذج الأولي. لم أكن أعلم حينها أن هذا تقريبًا هو علم البيانات ، وأنني أفعل ذلك ، وإن كان ذلك في وقت جزئي. لذلك حدث التعارف بشكل عضوي.
حتى في ذلك الوقت كان من الواضح أنه كان هناك تحول كامل في نموذج التطوير - بدلاً من البرمجة الحتمية الكلاسيكية ، عندما قمت بتعيين الشروط بصرامة ، كان عصرًا قادمًا عندما يكون الجهاز نفسه قادرًا على تثقيف نفسه باستخدام البيانات. كانت رؤية هذا التحول رائعة بشكل لا يصدق ، وأرادت حقًا أن تكون من بين هؤلاء المطورين في العصر الجديد.
- ما الصعوبات التي واجهتها بشكل احترافي ، وما التحديات التي واجهتها في البداية وفي المستقبل؟- مرة أخرى ، أذكرك بأنني كنت في الأصل مشروعًا ، أي أن التغيير الوظيفي كان خطيرًا جدًا. كانت هناك الكثير من الصعوبات. بادئ ذي بدء ، هذا هو الكفر في نفسه. ترى من حولك كل هؤلاء الرجال الأذكياء الذين يكتبون شيئًا هناك ، يتحدثون لغة لا تفهمها. ترى فجوة كبيرة بينك وبينهم. وفي الوقت نفسه ، فإن بيئتك أيضًا لا تشجع على الانتقال - تبدأ في الظهور للناس بأنك "تقوم بالقمامة والمماطلة بشكل عام". إنه محبط للغاية. الآن ، بالطبع ، هناك مجتمع من علماء البيانات ، سيساعدونك ويسعدونك ، ولكن في وقت سابق كان الأمر أكثر صعوبة. لذا ، لاتخاذ هذه الخطوة الأولى - لنقول إنني سوف أكون عالمًا في مجال البيانات وأذهب بشكل منهجي حقًا في هذا الاتجاه ، على الرغم من مسيرتي الماضية - كان الأمر صعبًا للغاية.
كانت نقطة التحول عندما قرأت كتاب
"جيد جدًا لا يمكنهم تجاهلك" ، والذي بالمناسبة ، ينصح به أندرو إيون ، منشئ Google Brain ، Coursera ، دورة ML الشهيرة. الكتاب عن حالتي: خلفيتك وتاريخك ليسا مهمين. إذا تمكنت عمليًا من إظهار أنك جيد جدًا لدرجة أنك لا يمكنك تجاهلها ، فستلاحظ. لقد تأثرت للغاية بهذا الكتاب وقررت عدم ترك علم البيانات. أنصح الجميع بالقراءة.
- ما هي الاختراقات في الحياة التي يمكنك مشاركتها مع المبتدئين في العمل مع البيانات من حيث استكشاف المجال ومن حيث بناء مهنة؟- يأتي الجميع إلى علوم البيانات من مجالات مختلفة ، في أجزاء مختلفة وبأهداف مختلفة - لا توجد طريقة مثلى. ولكن هناك بعض النصائح.
قد يبدو علم البيانات معقدًا للوهلة الأولى - وهكذا! ومع ذلك ، فإن الحقيقة المذهلة هي أنه يمكن مقارنة علم البيانات بالبصل: تحتاج إلى دراسة طبقة تلو الأخرى. يُسمى هذا النهج من أعلى إلى أسفل ، عندما تنظر لأول مرة إلى المستوى البدائي لكيفية عمل الخوارزميات ، وكيف
يمكنك تدريب شبكة عصبية في سطرين - دون معرفة العمليات في الواقع - يمكنك فقط تعيين بيانات الإدخال ، وسطران من التعليمات البرمجية ، وهذا كل شيء. تتم إزالة الطبقة الأولى من المصباح. المزيد. يصبح الأمر مثيرًا للاهتمام بالنسبة لك ، وتريد أن تعرف بالفعل - كيف. كيف يعمل؟ تذهب أعمق ، والنظر في التعليمات البرمجية ، والتنفيذ. ثم تتساءل عن سبب كتابة هذا الرمز على هذا النحو. اتضح أن هناك أسس نظرية. وهكذا دواليك. حافظ على اهتمامك. ابدأ من الأعلى ، إنها ملهمة.
اقرأ ريتشارد فاينمان ، لقد كتب الكثير عن هذا النهج.
نصيحة أخرى: انضم إلى مجموعة من علماء البيانات في أسرع وقت ممكن. حتى إذا كنت لا تزال لا تفهم أي شيء ، فأنت مصمم على التطور في هذا المجال. عندما كنت أدرس ، لم تكن المواد المستنفدة للأوزون موجودة بعد ، ولم يكن هناك من يشجعك على هذا النحو ، ولم يكن هناك اجتماع منظم للبيانات. وذهبت إلى برنامج Newprolab ، بما في ذلك ، للحصول على جلسة Hangout. مفتاح التنمية هو بالتحديد في التنشئة الاجتماعية. لا تطبخ في أي حال من الأحوال في العصير الخاص بك ، وإلا ستتحرك ببطء شديد.
النصيحة الثالثة (إنها استمرار للثانية): ابدأ المشاركة في المسابقات في أقرب وقت ممكن. يمكن التعامل مع Kaggle بشكل مختلف ، ولكن على الأقل يعطي سببًا آخر للاختلاط - انضم إلى الفريق. سيسعد كبار الزملاء بتقديم النصح والمساعدة لك. بالإضافة إلى ذلك ، فإن kaggle يعطي ركلة جيدة من حيث محفظتك والخطب ومشاركات المدونة. بالمناسبة ، أصبح علماء البيانات الرائعين رائعين.
- بالإضافة إلى خوض برنامجين في Newprolab ، أين ما زلت تدرس وتدرس؟ ما هي البرامج التي يمكن أن توصي بها للمبتدئين والمتقدمين؟- أحاول التعلم طوال الوقت ، لأن المهام ، خاصة معنا ، تتغير باستمرار. أخذت دورات دراسية أساسية عبر الإنترنت تقريبًا ، مثل
تخصص Yandex في DS على Coursera ، و
ML-nanodegree on Udacity ،
ودورة الطائرات بدون طيار . بالنسبة للمبتدئين ، أوصي بشدة بتخصص DS في Coursera - ربما تكون هذه هي الدورة الأكثر تنظيمًا لفهم النهج والمهام بشكل عام. كنت سعيدًا أيضًا بـ
"أخصائي البيانات الكبيرة" ، حيث بدأت في الأساس في إدخال علوم البيانات منه ، لقد ساعدني حقًا. مرة أخرى - في البداية ، افعل ما يبدو مثيرًا للاهتمام.
وللأكثر تقدمًا ، هناك دورة Caltecan
Learning From Data الرائعة - قصيرة نسبيًا ولكنها عملية جدًا. يضع العقول بشكل جيد للغاية. هناك أيضًا
دورة شاد رائعة
من فورونتسوف - محاضرات الوصول المفتوح وكتاب دراسي. كما أوصي بشدة بدورة هارفارد حول نظرية
Stat 110 ، هناك مبادئ أساسية لنظرية الاحتمالات و matstat ، والتي يجب أن تعرفها. بالإضافة إلى ذلك ، هناك مكتبة مفتوحة لدورات معهد ماساتشوستس للتكنولوجيا ، انظر إلى
الدورة التدريبية حول الخوارزميات هناك ، إنها جيدة جدًا.
- من ملاحظاتك: ما هي المهارات الناعمة والصعبة التي لا تكفي غالبًا للمبتدئين وعلماء البيانات ذوي الخبرة ليصبحوا متخصصين مؤهلين تأهيلًا عاليًا حقًا؟- لنبدأ بالمهارات الخفيفة - لأنها ليست كافية. على الرغم من حقيقة أن عالم البيانات هو مهنة فنية ، فمن المهم للغاية أن تكون قادرًا على تقديم نتيجة عملك بشكل صحيح / جميل. يتحدث تقريبًا ، مثل iPhone - فهو لا يمتلك فقط الحشوة ، ولكن أيضًا المظهر والتعبئة والتاريخ. يحتاج الناس إلى معرفة كيفية تقديم نتائجهم: كتابة مشاركات المدونة ، والتحدث ، ومشاركة التعليمات البرمجية. أفضل علماء البيانات يفهمون ذلك جيدًا ، ويفهمون ذلك. خلاف ذلك ، يمكنك أن تعلق في الحفرة ، وحتى مع نتيجة رائعة ، لا يلاحظها أحد.
يمكنك التحدث عن المهارات الصعبة لفترة طويلة ، ولكن هناك شيء واحد يفتقر إليه العديد من علماء البيانات ، وهو القدرة على كتابة تعليمات برمجية كفؤة ومنظمة وجميلة. هذا هو آفة المهنة مباشرة. تحتاج إلى تعلم كيفية كتابة رمز جميل قابل للقراءة. إذا نظرت إلى kaggle ، فإن معظم الشفرة هناك رهيبة. أفهم ما يرتبط به هذا: يكتب الأشخاص الشفرة مرة واحدة ولا يستخدمونها بشكل أكبر ، وهذه ممارسة قياسية بين علماء البيانات ، وخاصة المبتدئين. لقد فعلت ذلك بنفسي من قبل ، لكن هذا أمر سيئ ، لأنه ، أولاً ، لا يمكنك مشاركته مع أي شخص (يريد الناس قراءة رمز جميل وقابل للقراءة) ، وثانيًا ، لا يمكنك استخدام رمز سيئ في مشاريع أخرى.
مهارة أساسية أخرى هي معرفة العتاد: الجبر الخطي ، الجهاز الإحصائي ، التمييز ، التحسين. وبصراحة ، تحتاج فقط إلى حب الرياضيات. أجد صعوبة في فهم دوافع عالم البيانات الذي لا يرى الجمال في الرياضيات. في الوقت نفسه ، تجدر الإشارة إلى أن الرياضيات في تحليل البيانات بأسعار معقولة للغاية ، على مستوى السنة الأولى أو الثانية من الجامعة.
- بعد الانتهاء من برنامج "Big Data Specialist" ، تركت عالم الشركات وفتحت شركة استشارية مع زملائك. لماذا لا تريد أن تكون موظفًا في شركة كبيرة مع مجموعة من الأشياء الجيدة؟ في الواقع ، الطلب في سوق العمل أكبر بكثير من العروض المتاحة ، وأنت متخصص كبير.- هنا سبب مثير للاهتمام إلى حد ما: في البداية كان الهدف هو الحصول على مشاريع استشارية يمكنك بالفعل إظهار شركة جادة والحصول على وظيفة فيها. بعد كل شيء ، بما أنك تقول أنك عالم بيانات ، فقم بإظهار أنه يمكنك ذلك.
في البداية ، أخذنا على الإطلاق أي مشروعات لعلوم البيانات مقابل أي أموال ، فقط لإظهار أننا نستطيع القيام بذلك. لقد ارتكبوا مجموعة من الأخطاء ، ودوسوا على جميع المكابس التي يمكنك السير عليها. كانت السنة الأولى مجرد كابوس ، صعب للغاية. إذا نظرنا إلى الوراء الآن ، ليس حقيقة أن الاستشارات كانت بداية جيدة. ربما اضطررت للذهاب إلى صغار ، وهذا العام للعمل على نوع من المشاريع.
لقد تغلبنا على كل شيء. بدأت المشاريع في الظهور ، وازدادت الثقة بالنفس بشكل أقوى ، وفي مرحلة ما كان هناك فهم بأن المرء لا يستطيع العمل داخل شركة كبيرة بمشاريعها الطويلة والموافقات والبيروقراطية. اتضح أن مشاريعنا الآن أكثر إثارة للاهتمام وأكثر تنوعًا مما يمكن أن تقدمه لي معظم الشركات الكبرى: فهناك الكثير منها ، وغالبًا ما تتغير وتتعلم باستمرار. بالطبع ، لا أريد حقًا الانتقال إلى شركة كبيرة.
- لنتحدث قليلاً عن ترميز البيانات. لديك فريق صغير في RnD Lab ، بالكاد يمكنك قضاء الكثير من الوقت في ترميز البيانات والقيام بكل شيء يدويًا بنفسك. كيف تضع علامة على البيانات؟- يمكنك التحدث عن ترميز البيانات لفترة طويلة جدًا! خوارزميات التعلم الآلي تحتاج إلى بيانات للعمل. وليس فقط بعض البيانات ، ولكن تم تصنيفها نوعيًا. والكثير. على سبيل المثال ، كان لدينا
مشروع لتحديد جودة البيض المقلي من صورة فوتوغرافية . لكي تعمل الخوارزميات ، تحتاج إلى وضع علامة على كل صورة ودائرة كل من المكونات - البروتين ، صفار البيض ، لحم الخنزير المقدد - يدويًا. هل يمكنك أن تتخيل ما هو شكل علامة على ألف وعشرة آلاف من هذه الصور الفوتوغرافية؟ وهذا فقط لجعل البيانات جاهزة. بعد ذلك ، بدأ العمل للتو.
الآن هناك العديد من الشركات التي تبيع الترميز - فهي توظف جيشًا من العلامات الرخيصة للرسم يدويًا حول حدود الأشياء. ما يثير السخرية هو أنه في عصر الذكاء الاصطناعي ، فإن الأشخاص الذين يتأخرون في دعمه يتقاضون أجوراً منخفضة ، وقلة مهارة وغير متحمس.
أريد أن أجعل هذه العملية أكثر تقنية. على سبيل المثال ، في مشروعنا ، كتبنا شبكة عصبية ، في وضع شبه تلقائي ، تميز البيانات. أنت تعطيها أولاً 20 صورة مميزة يدويًا للبيض المخفوق و 20 صورة غير مصنفة - تتعلم في العشرين الأولى وتميز ، وإن لم يكن جيدًا ، الثانية والعشرين. أنت تصحح الأخطاء يدويًا وتعطي هذه الصور المصححة ذاتيًا والتي يبلغ عددها 20 صورة لإعادة التدريب. الآن يتعلم النموذج بالفعل في 40 صورة مع الترميز. يمكنك إرسال 20 صورة أخرى إلى الترميز ، وتصحيح الأخطاء ، وتدريب النموذج على الترميز الذي تم تصحيحه. بعد عدة تكرارات ، لا توجد أخطاء تقريبًا. بالمناسبة ، من خلال هذه التقنية ، أكتب رسالة على
مدونة متوسطة الآن.
هناك خيارات أخرى: يمكنك استخدام المحاكي ، تقريبًا ، محرر ثلاثي الأبعاد لتوليد الكثير من الصور المميزة بالفعل. أنت تضع الأشياء الضرورية ، وتجعلها في زوايا مختلفة مع الترميز - هذا كل شيء. ولكن ليس في الحقيقة: ستظل هذه الصور غير مماثلة للنموذج للصورة الحقيقية. لإحضار هذه الصور إلى مجموعة متنوعة من الصور الحقيقية ، تحتاج إلى استخدام تقنية تسمى تكيف المجال - على شبكات GAN. هذه هي الآن أحدث الأبحاث ، مثل هذه الأشياء مثيرة. تخيل فقط: أنت تحاكي العالم كله ويتم إنشاء أي مجموعات بيانات حرفيا من لا شيء. تخيل الآن أن النموذج يتعلم فقط في جهاز المحاكاة ، ثم يعمل في العالم الحقيقي. هذا هو المستقبل فقط!
- هل يمكنك تسمية الفرق / الأفراد الذين يسعدك عملهم في مجال البيانات الضخمة ويلهمك؟- نعم بالطبع! أنا حقا لا أحب البحث نفسه ، ولكن استخدامه في المنتجات. أنا أتحدث عن أولئك الذين أعرفهم بنفسي - يمكنك فقط كبار خبراء Google ، وهم معروفون بالفعل.
إذا تحدثنا عن الفريق ، فهذا بدون أدنى شك فريق ياندكس للطائرات بدون طيار. الرجال يصنعون تقنيتهم من الصفر ، في الظروف الروسية ، بدأوا في اختبارها في الشتاء - لم تحلم Google بذلك. إنهم زملاء رائعون ، وأنا أتبعهم بعناية. بما في ذلك منشوراتهم ودوراتهم. عدد التقنيات التي يستخدمونها في الممارسة كبير ، قليلون محظوظون لاستخدام العديد من الأشياء المختلفة في وقت واحد.
فريق
Connectome.ai - يصنع الرجال نظام رؤية للكمبيوتر للإنتاج. هذه مهمة صعبة ، وماذا وكيف يفعلون أمر رائع.
الرجال من
الإشراف . لقد كانوا في البداية مستشارين ، تمامًا مثلنا في RnD Lab ، ولكن بعد ذلك قاموا بإنشاء نظام ترميز شبه تلقائي والآن يقومون بتطويره.
بالنسبة للأشخاص ، أولاً ، هذا هو إريك برنهاردسون ، الرئيس السابق لنظام توصيات Spotify. لديه
مدونة رائعة
عن علم البيانات ، أوصي بها للجميع.
ثانيًا ، هذا هو
فولوديا إيغلوفيكوف ، وهو أيضًا ternaus في ODS. لقد جاء من علماء الفيزياء ، ومساره التنموي فضولي للغاية ومتحمس للغاية لرفع مؤخرته والبدء في العمل. وأوضح بمثاله كيف أن العمل الجاد والتسويق الكفء يساعد على نقل الذات من خلال مهنة.
- كنت منسق المجموعة في برنامج أخصائي البيانات الضخمة وفي المبنى. في لوكسمبورغ ، وفي الخريف ستوجه مجموعات صغيرة حول برنامجنا الجديد عبر الإنترنت. قل لي لماذا تحتاج كل هذا؟ لأنك لن تجني أموالاً كبيرة هنا)))"لن تكسب ، هذا أمر مؤكد". النقطة مختلفة - في التنشئة الاجتماعية. كما قلت من قبل ، فإن التنشئة الاجتماعية هي المفتاح لضخ نفسك ، ناهيك عن جعل الاتصالات مفيدة للعمل. من خلال تنسيقي ، وجدنا بعض الطلبات المربحة المبتذلة. ثانيًا ، أود فقط مشاركة معرفتي وتجربتي مع الأشخاص وتدريبي على العمل مع البيانات. بالإضافة إلى ذلك ، في عملية التحضير ، سوف أتعلم الكثير. لقد درست كثيرًا بنفسي وأعي جيدًا عدد الساعات التي تحصل فيها على بعض الأشياء. بالإضافة إلى ذلك ، يعد التنسيق والإرشاد تحديًا وطريقة للخروج من منطقة الراحة والقدرة على ضخ نفسك.
- عالم البيانات ومهندس ML: ما الفرق؟- هناك
تقرير حول هذا الموضوع
في إطار Yandex Data & Science . الفكرة هي أن صناعة البيانات ولدت مجموعة كاملة من المهن المتداخلة. في نفس الوقت ، تقوم الشركات المختلفة بتفسيرها بشكل مختلف. عالم البيانات و MLE مجرد مثال على ذلك.
يعتقد أن عالم البيانات قد لا يكون قادرًا على كتابة رمز الإنتاج ، ولكن يجب عليه إنشاء أو تكييف النظريات (على سبيل المثال ، المقالات العلمية) وبناء النماذج. في الواقع ، يعمل مهندسو ML - المبرمجون المحترفون ، وهم أقل انغماسًا في الجزء النظري وأكثر في الهندسة - في الكود نفسه.
يعمل هذا الفصل بشكل رائع ، على سبيل المثال ، في Google. بالطبع ، هناك دكتوراه قوية ، بشكل صارم ، قد لا تبرمج على الإطلاق ، لكنها قوية من الناحية النظرية. وهناك مبرمجون من الدرجة العالية يلفون النماذج الأولية لهذه الدكتوراه في رمز جميل. ولكن إذا تحدثنا عن فرق صغيرة ، مثل فرقنا أو حتى فرق Yandex ، فليس هناك وقت للبحث الصافي من الصفر ، ولكن هناك فرصة لأخذ نتائج بحث الآخرين (في شكل مقالات أو كود) وكتابة رمز المعركة بناءً على هذه المقالات.
أنا شخصياً لا أؤمن بالقيمة العملية لعالم البيانات الذي لا يكتب رمزًا - إنه الرمز الناتج عن عمل مركز البيانات. إذا لم تكتب الرمز ، فأنت على الأرجح محلل بيانات. هذا ليس سيئًا أيضًا ، ولكنه تخصص مختلف. بالمناسبة ، العديد من الشركات تبيع صلصة تحليلات البيانات فقط تحليلات. لأن المحلل متفوق وممل ، وعالم البيانات هو "المهنة الأكثر جاذبية في القرن الحادي والعشرين".
لذلك أنا مهندس ML.
- ما هي أفكارك وخططك المستقبلية؟ إلى أين تريد الانتقال في خطة مهنية وجغرافية (وفجأة!)؟- نحن ، RnD Lab ، بدأنا باستشارات علوم البيانات بشكل عام. لكنهم أدركوا بسرعة أنه من المستحيل القيام بكل شيء بشكل فعال في وقت واحد ، كان من الضروري التركيز. ينصب تركيزنا الآن على مشاريع رؤية الكمبيوتر ، مثل مشروعنا للتعرف على جودة الطعام. تخيل مشاهدة مباراة كرة قدم على مكتبك بأبعاد ثلاثية. تخيل أنك ، بصفتك مالك متجر كبير ، ترى كل السرقات من نوافذ المتاجر. تخيل أنه يمكن تحويل صور الورق القديمة بالأبيض والأسود إلى ألوان وإضافة تفاصيل إليها. نحن منخرطون في مثل هذه المشاريع فقط. في الوقت الحالي ، لدينا مشروعان جديدان مثيران للاهتمام في التنمية ، وهما ليسا أقل شأناً من التعقيد في المشاريع في Yandex ، وسنعلن عنها بعد فترة. الآن قمنا بعمل نموذج أولي ، مع احتمال كبير للغاية لمواصلة هذا المشروع أكثر ، سيكون هناك نطاق مختلف وسنوسع الفريق. سأحتاج إلى كل من مهندسي البيانات ومهندس رؤية الكمبيوتر في المقام الأول ، الذين سيختارون النموذج الأولي ويخرجون منه نظامًا. العميل رائع بشكل رائع ، والنظام مثير للاهتمام ، وهذه فرصة رائعة لترقية نفسك كمتخصص. بالنسبة لأي محفظة ، سيكون مثل هذا المشروع رائعًا!
لذلك ، رؤية الكمبيوتر وتطبيقاته - في AR / VR ، GANs ، توليد الصور والفيديو ، تحسين الصور والفيديو ، تحليلات الفيديو - نحن نركز على هذا. وهنا لدينا بالفعل خبرة وأدوات ممتازة.
بالنسبة للجغرافيا: أحد مبادئي المهمة هو إمكانية العمل عن بعد بنسبة 100٪ من أي مكان. لن تقدم لك أي من الشركات الكبرى هذا. , , ? Basecamp,
. , .
— -:
?-.
— , , ?— , .
— ?— .
— , “, ”.— “, ” , . , , . ZeptoLab: , , , . .
, - . : “ , , 5% : , , , , ...” , , . , , 3 , . , , .
Newprolab 20 9-
« » , data science.