أنا عالم بيانات في فريق Data Lake Platform في Raiffeisenbank. منذ ثلاث سنوات ، لم يكن لدى البنك خط بيانات كبير ، والآن لدينا منصة منفصلة للعمل مع البيانات الضخمة ومجتمع نشط. مع تطور الثقافة القائمة على البيانات ، نواجه العديد من الأسئلة: التقنية ، والاتصالات ، وأكثر من ذلك.
في المقال أريد أن أقول كيف يساعد مجتمعنا Raiffeisen Data University في حل بعضها.

مشاكل قابلية التوسع
قبل عامين ، عاش جميع علماء البيانات بشكل منفصل ، كل في مهامهم الخاصة - لم يفكر أحد في أي مجتمع. هناك المزيد والمزيد من الأفكار التي تتطلب المعرفة في مجال تحليل البيانات ، وكذلك الوحدات التي تضم علماء البيانات في الولاية.
بدأت صعوبات مختلفة في الظهور:
- التواصل بين DS:
- من غير المعروف الحالات التجارية التي يعمل معها الزملاء ؛
- يقوم كل فريق بنشر دراجته الخاصة لتنفيذ نفس الوظيفة.
- الجانب الفني:
- البحث عن بيانات الإدخال للنمذجة غير شفاف ؛
- لا يتم تشغيل الكود على بيانات جديدة ؛
- لا يتم استخدام موارد نظام المجموعة على النحو الأمثل ؛
- عملية إخراج نموذج إلى منتج ما ليست موحدة.
- التفاعل مع العملاء من رجال الأعمال:
- ليس كل العملاء لديهم فكرة عما يمكن حله
التعلم الآلي ، ما هي القيود وكيفية تعيين المهمة.
على أي جانب لتناول هذه القضايا والبدء في مسار التطوير لشركة ناضجة تعتمد على البيانات؟ يمكنك التوصل إلى استراتيجيات مختلفة: جمع كل علماء البيانات في قسم كبير أو إضافة رئيس إلى جميع الفرق وتعيين رئيس آخر يقوم ببناء ناقل تطوير. قررنا الذهاب في الاتجاه الآخر.
لذلك ولدت فكرة جامعة البيانات رايفايزن - RDU. هذه ليست جامعة وفقًا لمعاييرها القياسية ، إنها آلية مرنة تساعد علماء البيانات على حل مشكلاتهم من خلال تنظيم الأنشطة المختلفة. كيف ينجح؟
كل عبقري بسيط
أولاً ، كان من الضروري تقديم ومزامنة الأشخاص من أقسام العمل المختلفة. أبسط شيء يتبادر إلى الذهن هو ترتيب لقاء.
الأولى وقعت منذ حوالي عامين ، والتقت بعلماء البيانات من مختلف الإدارات ، الذين لم يعرفوا بعد ذلك عن وجود بعضهم البعض. الآن أصبحت mitaps شائعة. نلتقي بزملاء جدد عليهم ، ونشارك الحالات التي تم حلها أو ما هو في هذه العملية. يمكنك طرح أفكارك على المتحدث ، وطرح أسئلة صعبة حول المقاييس أو جودة البيانات. أو يمكنك تنظيم ورشة عمل حول الأدوات العملية التي تم تضمينها في مشروعهم. يتم طرح مجموعة متنوعة من الموضوعات المحددة: كيف يتم ترتيب نموذج CI / CD في المنتج ، وهيكل نموذج الحالة التي تم حلها ، وبيان المشكلة من الأعمال وتعقيد الحل ، وغيرها الكثير. في السابق ، كان كل شيء يعقد في جمهور سري ، حيث سمح فقط لأولئك الذين اجتازوا طقوس المرور.
الآن لدينا بالفعل تراكمت تجربة مفيدة يمكن مشاركتها. عمليات التخفيف الداخلية تساعدنا في حل مشكلات التواصل والصعوبات التقنية وجنبا إلى جنب مع مشروع
ML REPA ، عُقد أول
اجتماع مفتوح للجميع.
قوي "الكافيين" لتناول الافطار
تتطلب Mitapas بعض التحضير وتحدث مرة كل شهر تقريبًا. ويحدث شيء جديد ومثير للاهتمام طوال الوقت ، ولهذا السبب نلتقي في إفطار Science Science للحفاظ على الاتصالات. يختلف عدد المشاركين
الذين استيقظوا في الوقت المحدد .
في وجبة الإفطار ، بالإضافة إلى الأشياء الجيدة والعواطف الإيجابية من التحدث مع الأشخاص ذوي الأفكار المتشابهة ، ستحصل على مجموعة من المعلومات المفيدة حول المكتبات والخوارزميات الجديدة ، وتحل مشكلتك في بنية التطبيق ، أو تعرف على الموارد التي سيتم طرحها قريبًا في نظام المجموعة. في بعض الأحيان لا يكون الربح من مثل هذه الاجتماعات القصيرة أقل من الأرباح الكبيرة.
تحسين معدل التعلم
"المزيد من الأرباح ، والمزيد من المعرفة!" كنا نرغب علنا. لذلك كان هناك عنصر تنافسي - الفجوات ، كما نسميها. كانت مستوحاة من فكرة التدريب على التعلم الآلي في ياندكس ، وتخصيص لاحتياجاتهم وقدراتهم. تبدأ مسابقة البيانات المفتوحة لمدة ثلاثة أسابيع تقريبًا:
- في الأسبوع الأول نلتقي جميعًا ونطرح أفكارًا ممكنة للتوصل إلى حل (يشبه إلى حد بعيد ورش عمل DMIA الرياضية) ؛
- في الأسبوع الثاني - اجتماع مؤقت: نقوم بتحليل من لديه أي نوع من المقابس ، نحن متحمسون لاتخاذ المزيد من القرارات ؛
- يتبعه استخلاص المعلومات ، وإعلان الفائزين ، ومناقشة ما حدث وما لم يحدث.
في إطار مسابقة واحدة ، نحاول التركيز على موضوع واحد: البيانات القذرة ، السلاسل الزمنية ، تحليل النص. يختار الجميع الأدوات التي يهتم بتجربتها ، لكنها لا تزال مترددة ، أو ما الذي يجب أن يحقق أقصى قدر من النتائج على لوحة المتصدرين. كان الجزء الأكثر روعة هو تعلم التعزيز - كان عليك تدريب وكيلك على التفاعل مع بيئة أتاري. لتلخيص ، قدم لنا منظمو المسابقة معركة بين الروبوتات والأشخاص في ثلاث مباريات - Packman ، Breakout ، Space Invaders.
نتيجة لذلك ، فاز الناس في Packman بفارق كبير ، في البقية - الإنسانية خسرها ل Skynet.

اكتشف عالم البيانات
لم يترك المديرون وحدهم أيضا. يعد الاختراق الداخلي ليوم واحد لجميع الأشخاص المتصلين بالتحليلات ، ولكن لديهم فهم ضعيف لكيفية تنظيم البيانات ، فرصة جيدة للغطس بسرعة في مطبخ مهام Data Science. في بداية اليوم ، تعقد محاضرة مراجعة حول المفاهيم والخوارزميات والمقاييس الأكثر شيوعًا في مشكلات التصنيف والانحدار. بعد ذلك ، يتم النظر في حالة حقيقية يدعى المشاركون إلى حلها بشأن بياناتنا. الوقت لحل ما يقرب من 4 ساعات ، لذلك ، من أجل المضي قدما ، يتم إرسال عالم بيانات واحد لمساعدة كل فريق.
كنت في أحد هذه الاختراقات بصفتي الأيدي التي ستنفذ الأفكار التي اقترحها المديرون ، وكذلك التفكير المباشر في اتجاه بناء. المهمة المطلوبة لبناء نموذج لتدفق العميل على أساس بيانات حقيقية لمدة ستة أشهر (تم تحديد حالة التدفق الخارجي) ، وكذلك تقدير الأثر الاقتصادي الذي سيجلبه هذا النموذج. حدث كل شيء خطأ معنا أثناء اتخاذ القرار ، وانفصلت أجزاء من التعليمات البرمجية من البداية إلى البداية - مما سمح للفريق بالشعور بالتعقيد الكامل لميزة التصميم ، ولكن كان هناك الكثير من الأفكار التي ربما لم يخمنها "عالم البيانات" على الفور بسبب قلة الخبرة في العمل .
بفضل هذه الأحداث ، يتعلم المديرون تقييم المواعيد النهائية بشكل أكثر موضوعية لإنجاز مهام DS والتعرف على المزالق وأهمية مقياس الجودة المحدد أصلاً. ويتيح لك Data Dataist أن تفهم رؤية المهمة من خلال أعين المدير ، لتحديد النقاط التي ينبغي إبرازها على الفور في بداية التعاون.
أقوى سوف البقاء على قيد الحياة
لكن الشيء الأكثر إثارة للاهتمام يحدث عادة في شهر سبتمبر ، عندما يغادر فريق DS لقضاء جولة في الطبيعة لمدة يومين ، في مكان خلاب للغاية به بنية تحتية مريحة. المنظمون دعوة الموجهين ذوي الخبرة الخارجية إلى hackathon. في العام الماضي ، أعد إميلي درال وألكسندر غوشين مهمة لتحديد نوع الفيلم من خلال حوار منه. ما يقرب من 40 ألف حوار من عينة التدريب ، 20 نوعا مختلفا من 438 فيلما - كان حول الأفلام مع ترجمة باللغة الإنجليزية.
لقد استمعنا إلى رحلة قصيرة حول موضوع البرمجة اللغوية العصبية: أساليب تجهيز النص المسبق ، وأساليب التعلم البسيطة وأكثر صعوبة باستخدام DL ؛ تحدثنا بشكل منفصل عن العمل الجماعي في مشاريع ML - كيفية تنظيم الكود وكيف يوفر الوقت. أثناء الاستماع إلى العروض التقديمية ، قام الأكثر نشاطًا بالفعل بتنزيل زخارف fasttext والقفازات على أجهزة الكمبيوتر المحمولة الخاصة بهم.
بعد المحاضرة ، بدأت مسابقة في تنسيق kaggle inclass مع المتصدرين العامة / الخاصة. لقد اقتحمنا فرق - الحد الأقصى خلط ورق اللعب بحيث الفريق لم يكن حتى شخصين من نفس القسم. كان هناك 24 ساعة لكل شيء عن كل شيء.
بدأ شخص ما خادمًا منزليًا بعيدًا ، وهرع شخص ما لنشر البيئة في السحب ، حتى أنه كان هناك أولئك الذين جروا وحدة النظام معهم - لقد حاولوا قدر استطاعتهم! خلال اليوم ، ابتكرت الفرق مجموعة واسعة من الأفكار لحلها: من استخدام البحث المرن للعثور على نصوص مشابهة للنتائج المزججة لمجموعات النماذج التي لا يمكن استنساخها بهدوء في اليوم التالي.
لتلخيص ومقارنة عمل النماذج ، بالإضافة إلى تسجيل النتائج على لوحة ليد خاصة ، قررنا ترتيب عرض تفاعلي - انظر كيف تعمل النماذج الملتفة في الخدمات. تعامل المنظمون مع هذا بروح الدعابة وشملوا جزءًا من فيلم "العنصر الخامس" ، حيث يبدو النص شيئًا فظيعًا ، لكن في الواقع هناك مشهد مضحك مع
كريس تاكر . ارتكبت معظم النماذج خطأ في ذلك وتنبأت بالإثارة والدراما ولكن ليس الكوميديا.

ونتيجة لذلك ، فإن مجموعة النماذج الخطية ، التعزيزات ذات الخصائص اليدوية على أساس التجميع والتحولات الشامانية الأخرى ، كانت موجودة في المحاليل 2 و 3 من المكان. بالإضافة إلى الجوائز الرائعة (الجائزة الرئيسية هي رحلة إلى NIPS أو أي مؤتمر رائع آخر) ، يمكنك العودة من hackathon مع أصدقاء جدد قمت باختبارهم في المعركة ، والذين يشاركونك المعرفة والمهارات. في النهاية ، لم أكن أرغب في مغادرة هذا المكان مع الطبيعة الخلابة وشركة مريحة.
بدلا من الاستنتاج
في هذه المقالة ، شاركت التحديات المتمثلة في أن تصبح ثقافة علم البيانات في إحدى الشركات وكيف تساعد جامعة Raiffeisen Data Data علماء البيانات على طول الطريق.
بالطبع ، لم يتم حل جميع المشكلات ، لكن لدينا الآن مجتمع بيانات أكثر تماسكًا وناضجًا مما فعلنا قبل عامين ، ونحن على استعداد لحل التحديات الجديدة التي تواجهنا.
من المثير للاهتمام للغاية ما إذا كانت هناك مشاكل مماثلة في عملك ، من الذي قام بحلها وكيف؟
ربما شخص ما سوف يشارك الخارقة الحياة من تجربتهم؟ ؛)