oktech تحسس البيانات رقم 3: مقابلة مصغرة للمتحدثين



وُلِد تقريبًا تقنيًا للمشروع تقريبًا ، وهو منبر للمناقشة للمتخصصين المشاركين في معالجة البيانات الضخمة وتحليلها. في كل مرة نشدد على أن المهمة الرئيسية لاجتماعاتنا ليست التقارير ، على الرغم من أنها مهمة جدًا ، ولكنها أيضًا مناقشة مفتوحة للجمهور مع المتحدثين ، يكون للمشاركين خلالها وقت لمناقشة أي مشكلات في نطاق الحدث. نحن نعتقد أنه في هذه الحالة ، عندما ينمو عدد المشكلات والمشكلات التي لم يتم حلها في مجال علوم البيانات بسرعة ، يكون الحوار المفتوح مهمًا للغاية.

لقد عقدنا اجتماعين ، في البداية ناقشنا مزايا وعيوب الطرق المختلفة لتخزين البيانات وكيف تؤثر هذه النهج على عمل الفرق المختلفة ، وتطرقنا أيضًا إلى تطور مستودعات البيانات. تم تخصيص الاجتماع الثاني للتعليم في مجال علوم البيانات ، حيث التقى ممثلون عن آراء مختلفة على الموقع ، وتحدث المتحدثون عن أهمية التعليم الجامعي ، ومجموعة متنوعة من الدورات عبر الإنترنت وميزاتها ، وكذلك المهارات التي تحتاجها لتصبح مركزًا رائعًا ومطلوبًا.

تحسبا للاجتماع الثالث ، الذي سيعقد في 6 نوفمبر في موسكو وسيتم تكريسه لنظم التوصية ، تحدثنا مع المتحدثين حول طريقهم إلى تطوير أنظمة التوصية ، حول كيف يرون مستقبلهم في هذا الاتجاه وطلبنا منهم أن يوصي بما يجب القيام به الآن حتى يتسنى للمعرفة و ظلت المهارات ذات الصلة حتى بعد بضع سنوات. سألنا أيضًا عما سيتحدثون عنه في الاجتماع ولماذا يستحق الأمر حضور هذا الحدث.

سجل للحصول على بيانات استكشاف # 3

قل لي قليلا عن نفسك؟


أندريه كوزنيتسوف ، زملاء الدراسة
مرحباً ، أنا مهندس اتصالات عن طريق التدريب. بعد التخرج ، ذهب لكتابة أطروحة وفي الوقت نفسه تدرس. في مرحلة ما ، بدا لي أنه في المكان القديم ، فعلت كل ما أريده وذهبت للعمل في مجال علوم البيانات. لقد تعاملت مع توصيات في المؤسسة منذ وقت ليس ببعيد ، لكنني اكتسبت الخبرة الرئيسية في هذا المجال من الدورات عبر الإنترنت و DS التنافسية.

فلاديسلاف جروزين ، جوم
دخل عالم أنظمة التوصية على رأس Alexei Natekin ، الذي درس منه في مختبر DataMining. لم أكن أفهم جيدًا ما كنت ذاهب إليه ، لكن في النهاية كنت أفضل بكثير من كتابة برامج تشغيل الشبكات لنظام Linux في أحد المعامل في الجامعة (وهو ما قمت به سابقًا).

يفغيني فرولوف ، سكولتيك
بدأت رحلتي إلى أنظمة التوصية بكل بساطة. في عام 2014 ، كنت طالبًا في Skoltech ، أبحث عن فرص لإجراء البحوث التطبيقية في مجالات التعلم الآلي التي تهمني. أردت بالضبط شيء متعلق بالمساعدين الفكريين. في تلك اللحظة فقط ، أعلن المشرف المستقبلي ، إيفان أوسيلديتس ، عن مشروع جديد مع مكتب ألماني مهتم بالبحث في إمكانية تطبيق الأساليب الرياضية المتقدمة على أنظمة التوصية. تجمعت النجوم ، لذلك بدأت في الحصول على شهادة الدكتوراه

أخبرني عن أول إصدار لك في الإنتاج؟


أندريه كوزنيتسوف ، زملاء الدراسة
كانت النسخة الأولى في الإنتاج مرتبطة بتوصيات المجموعات في OK ، وكانت بالطبع تجربة مثيرة. لكن وجود زملاء ذوي خبرة وأدوات وعمليات تصحيح الأخطاء في الفريق يبسط الحياة إلى حد كبير. الفرضية ، بالمناسبة ، نجحت وذهب خط الأنابيب إلى همز ، ولكن بعد 3 أشهر استبدلناه بحل أكثر فعالية.

فلاديسلاف جروزين ، جوم
النموذج الأول ، الذي أطلقته في المنتج ، لم يكن في الحقيقة حول التوصيات ، ولكن عن البحث. أتذكر تمامًا اللحظة التي سكب فيها المرور المباشر. كانت حركة المرور صغيرة ، كل ثانية أو اثنتين جاء طلب المستخدم ، مما أدى إلى إنشاء سطر آخر على الشاشة (نظرت إلى السجلات). كانت مثيرة: كنت مسؤولاً عن كل من النموذج والبنية التحتية من حوله ، وتوقعت أن يحدث شيء ما ويتطلب تدخلًا عاجلاً. لكن كل شيء سار بسلاسة ، وبعد حوالي خمسة عشر دقيقة هدأت وذهبت لتناول القهوة.

يفغيني فرولوف ، سكولتيك
في الإنتاج ، وأنا شخصيا لم طرح النماذج. "أنا باحث." ترتبط مهامي حتى الآن بشكل رئيسي بتطوير طرق وأساليب جديدة ولا تتجاوز تنفيذ النماذج الأولية.

ما رأيك هو أكثر أهمية: خوارزميات رائعة أو فهم المجال؟


أندريه كوزنيتسوف ، زملاء الدراسة
في مجال التوصيات ، يبدو أن هاتين الحيتان متساويتان في كل المشاريع الكبيرة. إن معرفة تفاصيل البيانات نفسها ، وكيفية جمعها ، وكيف يعمل النظام (خاصةً تحت الأحمال المشابهة لنا) يساعد كثيرًا في التقييم المسبق ما إذا كانت هذه الخوارزمية ستعمل مقدمًا وما إذا كان من المفيد قضاء الوقت. حسنًا ، أنت بحاجة إلى معرفة الخوارزميات والأدوات التي تنفذها حتى تتمكن من تجربتها بسرعة على مهمتك وطرح بعض إثبات صحة مفهوم اختبار A / B.

فلاديسلاف جروزين ، جوم
من المهم أن تأخذ أروع الخوارزميات التي تتناسب مع المهمة والحدود الزمنية للتنمية والموارد ، ولا تخشى إطلاقها في المنتج.

يفغيني فرولوف ، سكولتيك
إذا كنا نتحدث على وجه التحديد عن مجال أنظمة التوصية ، فكما توضح الممارسة (وليس دون انقطاع البحث) ، فإن فهم مجال الموضوع أكثر أهمية. هناك مثل هذا الرأي الراسخ الذي أتفق معه أكثر على أن الخوارزميات تمثل 5٪ من نجاح نظام التوصية. الآن وصلت المنطقة بالفعل إلى مرحلة التطوير حيث أصبح من السهل جدًا العثور على مكتبة أو حزمة برامج ملائمة ، وبدء إنتاجها والبدء في جني الأرباح. نعم ، قد لا يكون الخيار هو الأمثل ، ولكن في البداية سيكون هذا كافياً ، وسيسمح لك بالتركيز على المهام التجارية الهامة.

في أي مجالات جديدة سوف تطبق أنظمة التوصية؟


أندريه كوزنيتسوف ، زملاء الدراسة
المستقبل الأكثر طموحًا ، في رأيي ، ينتظر أنظمة التوصية في التعليم ، عندما يكون نظام التعليم نفسه (خاصة الروسي) جاهزًا لهذا :). في الواقع ، في الواقع ، نحن بالفعل مدللون تمامًا بالتوصيات التجارية ، لكن الحصول على بعض "التوجيه المهني بشأن المنشطات" يستحق الكثير.

فلاديسلاف جروزين ، جوم
يبدو أنه سيتم قريباً بناء أنظمة التوصية في الشرطة الآلية من أجل تقديم توصيات بشأن أهمية تطبيق أساليب التأثير البدني على مواضيع سيادة القانون بهدف الأخلاق البناءة.

يفغيني فرولوف ، سكولتيك
يمكن استخدام أساليب نظم التوصية لحل العديد من المشكلات التي توجد بها مشكلة فقدان البيانات. على سبيل المثال ، اكتشف الكيميائيون أنه بهذه الطريقة يمكن التنبؤ بالمركبات غير العضوية الجديدة وغير المعروفة سابقًا استنادًا إلى مجموعات من الأيونات / الكاتيونات المختلفة. المهمة الأخرى هي تحديد الأدوية الفعالة ضد الفيروسات القائمة على البروتينات ذات الخصائص المثبطة الخاصة. من الصعب للغاية معرفة أي البروتينات ستكون فعالة في التصدي لسلالة معينة من الفيروسات إذا لم تجر أي اختبارات سابقة. هناك العديد من الخيارات الممكنة لكل منهما ، الفيروسات تتطور بسرعة أيضًا ، لا يمكنك قياس كل شيء. ولكن على أساس بعض الأنماط الشائعة في تفاعلات الفيروسات ، يمكنك محاولة التنبؤ بالنتيجة التي لم تجر فيها اختبارات حتى الآن. كما هو الحال تقريبًا في مجال البيع بالتجزئة عبر الإنترنت ، ولكن مع التأثير المعاكس - يجب ألا يحب الفيروس "المنتج" كثيرًا.

هذه هي الخطوات الخجولة الآن ، لكنني أعتقد أننا سنشهد المزيد والمزيد من الاختراق في أساليب أنظمة التوصية بما يتجاوز مجالات التجارة والترفيه والإعلان المعتادة. أود أن أتمنى ذلك على الأقل. يبدو أنه سيكون هناك تحول تدريجيا من مجرد توفير الراحة إلى التغيير النوعي في مستوى المعيشة من خلال المساعدة في اتخاذ قرارات معقدة ، مثل وضع مسار التعلم الفردي للحصول على تعليم جيد أو اختيار مهنة مثيرة للاهتمام أو الحصول على خدمات الطب الشخصية.

ما كتاب أو مقال ينبغي لأي شخص يعمل مع أنظمة التوصية أن يقرأ؟


أندريه كوزنيتسوف ، زملاء الدراسة
من الصعب التوصية بكتاب معين ، حيث يتم تطبيق الحقل تمامًا. أوصي بدورات عبر الإنترنت ، على سبيل المثال ، التخصص في تحليل البيانات من MIPT في كورسيرا جيد جداً.

فلاديسلاف جروزين ، جوم
يبدو لي أنه يجب على جميع العلماء قراءة GroupLens: بنية مفتوحة للتصفية التعاونية ل Netnews. توضح هذه المقالة أحد أول أنظمة الموصي بنشرها ، كما نعرفها الآن. هذه المقالة مختلفة تمامًا عما نقرأه كثيرًا الآن ، حيث إنها لا تؤثر فقط على الخوارزمية نفسها ، ولكن أيضًا على البيئة التي ستعمل فيها.

يفغيني فرولوف ، سكولتيك
لا يوجد الكثير من الكتب في هذا المجال ، وإذا كنت ترغب في ذلك ، يمكنك قراءة كل شيء على الأقل ، على الأقل على مستوى بطلاقة. بالنظر إلى عدد المبتدئين الذين يتبعون نفس المسار المؤدي إلى نفس "أشعل النار" ، أود أن أذكر مقالة في عام 2010 حول نهج PureSVD كتبها باولو كريموني ، يهودا كورين وروبرتو تورين. ليس من قبيل الصدفة أنها ثالث استشهاد في مجموعات من أوراق مؤتمر ACM حول أنظمة التوصية في كامل تاريخ هذا المؤتمر. في وقت واحد ، ساعدتني في النظر بشكل مختلف إلى كومة من المقالات التي تزحف في الجزء العلوي من نتائج البحث ، إذا تم صياغة الطلب على نطاق واسع جدًا.

أفضل مكتبة مفتوحة المصدر لتوصي؟


أندريه كوزنيتسوف ، زملاء الدراسة
يعتمد ذلك على المشكلة التي يتم حلها وكمية البيانات والنظام الأساسي الذي سيتم بناء نظام التوصية عليه. يبدو أنه يمكن التوصية ببعض LightFM كخط أساسي لأي توصيات مهمة تقريبًا.

فلاديسلاف جروزين ، جوم
PyTorch؟

يفغيني فرولوف ^ سكولتيك
في حالتي ، الجواب واضح - مكتبة بولارا التي أطورها .

ماذا سيكون تقريرك حول oktech Data Explained # 3 ، ولماذا يجب أن تستمع إليه


أندريه كوزنيتسوف ، زملاء الدراسة
سيكون التقرير هو تاريخ تطوير نظام التوصية لفرق المشروع في OK. سأتحدث عن سبب كون هذه الحالة مثيرة للاهتمام في حد ذاتها وكيف تختلف عن التوصيات الكلاسيكية ، على سبيل المثال ، المنتجات في التجارة الإلكترونية. سوف أذكر بشكل منفصل المطبات التي حصلنا عليها أثناء التطوير ، وما هي الاستنتاجات التي تم إجراؤها ، ولماذا لا توجد بيانات كافية وخوارزميات عالمية.

فلاديسلاف جروزين ، جوم
سأخبرك بما يمكنك توقعه في المؤتمرات. يرغب الكثير من الناس في الذهاب ، لأنه يبدو رائعًا وباردًا ، لكنهم يترددون في استثمار الوقت والمال ، لأن التفاصيل والفوائد العملية لهذه الرحلة ليست واضحة. آمل أن أوضح هذه القضايا مع قصتي.

يفغيني فرولوف ، سكولتيك
سأتحدث عن تطويرنا - نموذج جديد يسمى HybridSVD - والذي قدمته مؤخرًا في مؤتمر ACM RecSys. هذا تعميم مباشر لنموذج PureSVD لأنظمة التوصية المختلطة التي تأخذ في الاعتبار المعلومات الإضافية حول المستخدمين والمنتجات. هذا النموذج مثير للاهتمام لأنه لا يتجاوز حساب التحلل المفرد ، مما يعني أنه يرث جميع المزايا الحسابية وسهولة الاستخدام. سأتحدث عن ذلك ، وسأبحث أيضًا بمزيد من التفصيل عن الجوانب الفنية.

الرجال ، شكرا جزيلا لأخذ الوقت للرد على الأسئلة!

نحن في انتظار كل من يريد التحدث مع خبراء في مجال أنظمة التوصية في اجتماع 6 نوفمبر في مكتبهم في موسكو.

تعال ، سيكون من المثير للاهتمام!

سجل لهذا الحدث .

Source: https://habr.com/ru/post/ar472032/


All Articles