
في الفترة من 18 إلى 19 أغسطس ، استضافت Tele2 برنامج Hackathon لعلوم البيانات. يركز هذا الهاكاثون على تحليل مربعات حوار الدعم الفني في الشبكات الاجتماعية ، وتسريع وتبسيط تفاعلات العملاء.
لم يكن للمهمة مقياس محدد يجب تحسينه ؛ يمكن اختراع المهمة بنفسك. الشيء الرئيسي هو تحسين الخدمة. كان لجنة التحكيم في المسابقة مدراء مجالات مختلفة من Tele2 ، بالإضافة إلى مجتمع Kaggle grandmaster الشهير في Data Science Pavel Pleskov.
تحت الخفض ، قصة الفريق الذي احتل المركز الأول.
عندما دعاني زميل للمشاركة في هذا الحدث ، وافقت بسرعة كبيرة.
كنت مهتمًا بموضوع البرمجة اللغوية العصبية ، وأيضًا كانت هناك بعض تطورات الشبكة العصبية التي أردت اختبارها عمليًا.
أرسل منظمو Hackathon شظايا صغيرة من مجموعات البيانات مسبقًا والتي أعطت فكرة عن نوع البيانات التي ستكون متاحة في الحدث.
اتضح أن البيانات كانت قذرة نوعًا ما ، ودخل المتصيدون الغريبون في مربعات الحوار ، ولم يكن من الواضح دائمًا أي نوع من الأسئلة يجيب العامل عليها.
أصبح من الواضح أنه لن يكون من السهل تنفيذ الفكرة خلال الـ 24 ساعة المخصصة لذلك ، فقد أخذت يوم عطلة من العمل وقضيتها في إعداد الشبكة العصبية التي أردت تجربتها. سمح لنا هذا بعدم إضاعة وقت هاكاثون في البحث عن الأخطاء ، ولكن التركيز على حالات التطبيق والأعمال.
يقع مكتب Tele2 على أراضي موسكو الجديدة في منطقة الأعمال Rumyantsevo. بالنسبة لي ، الوصول إلى هناك لبعض الوقت ، لكن مجمع الأعمال يترك انطباعًا جيدًا (باستثناء خطوط الكهرباء).
خطوط الكهرباء على خلفية مركز الأعمالقابلنا المنظمون مباشرة في محطة المترو ، وأظهروا لنا كيفية الوصول إلى المكتب. يشغل مبنى مركز الأعمال نفسه العديد من الشركات ، ويقع مكتب Tele2 في الطابق الخامس. تم تخصيص منطقة خاصة داخل المكتب للمشاركين في الهاكاثون ، وكان هناك مطبخ ومنطقة استرخاء مع بلاي ستيشن وعثمانيين. مسرور بشكل خاص بسرعة واي فاي ، لم يلاحظ أي مشاكل متأصلة في الأحداث الجماعية.
الإفطارتتألف مجموعة البيانات الحقيقية المقدمة من Tele2 من 3 ملفات CSV كبيرة مع مربعات حوار الدعم الفني: مربعات الحوار على الشبكات الاجتماعية والبرقية والبريد الإلكتروني. في المجموع ، أكثر من 4 ملايين زيارة هي ما تحتاجه لتدريب شبكة عصبية.
ما هي الشبكة العصبية؟
هندسة الشبكةفي مجموعة البيانات ، لم يكن هناك ترميز إضافي سيكون من المثير للاهتمام توقعه ، لكنني أردت حل مشكلة خاضعة للإشراف. لذلك ، قررنا محاولة التنبؤ بالإجابات على الأسئلة ، بحيث يمكن إجراء روبوت دردشة بسيط على الأقل من هذا النموذج. لهذا ، اخترنا بنية CDSSM (نموذج التشابه الدلالي العميق للتحويل). هذا هو واحد من نماذج الشبكات العصبية البسيطة لمقارنة النصوص بالمعنى ، والتي اقترحتها Microsoft أصلاً لترتيب نتائج بحث Bing.
جوهرها كما يلي: أولاً ، يتم تحويل كل نص إلى ناقل باستخدام سلسلة من طبقات الالتفاف والتجميع.
ثم تتم مقارنة المتجهات الناتجة بطريقة ما. في مشكلتنا ، أعطت طبقة خطية إضافية تجمع بين كلا المتجهين مع السيني كوظيفة تنشيط نتيجة جيدة. يمكن أن تكون أوزان تشفير الجمل إلى نواقل الشبكة هي نفسها لزوج من النصوص (تسمى هذه الشبكات سيامي) ، ويمكن أن تختلف.
في حالتنا ، أعطى البديل بأوزان مختلفة أفضل نتيجة ، حيث كانت نصوص السؤال والإجابة مختلفة بشكل كبير.
محاولة تدريب شبكة سياميةتم استخدام FastText مع RusVectōr كتعويضات مدربة مسبقًا ؛ إنه مقاوم للأخطاء المطبعية ، والتي توجد غالبًا في أسئلة المستخدم.
من أجل تدريب مثل هذا النموذج ، يجب تدريبه ليس فقط على الأمثلة الإيجابية ، ولكن أيضًا على الأمثلة السلبية. للقيام بذلك ، أضفنا أزواجًا عشوائية من الأسئلة والأجوبة بنسبة 1 إلى 10 إلى مجموعة التدريب.
لتقييم الجودة في مثل هذه العينة غير المتوازنة ، تم استخدام مقياس ROC-AUC. بعد 3 ساعات من التدريب على GPU ، تمكنا من تحقيق قيمة 0.92 في هذا المقياس.
باستخدام هذا النموذج ، من الممكن حل المشكلة المباشرة ليس فقط - لاختيار الإجابة المناسبة للسؤال ، ولكن العكس أيضًا - للعثور على أخطاء المشغل وإجابات منخفضة الجودة وغريبة على أسئلة المستخدم.
تمكنا من العثور على بعض هذه الإجابات في هاكاثون مباشرةً وتضمينها في العرض التقديمي النهائي. يبدو لي أن هذا أعطى أكبر انطباع عن هيئة المحلفين.
يمكن أيضًا العثور على تطبيق مثير للاهتمام في التمثيل المتجه للنصوص التي تولدها الشبكة في عملية عملها.
باستخدامه ، يمكنك البحث عن الحالات الشاذة في الأسئلة والإجابات بطرق
مختلفة غير خاضعة للرقابة .
ونتيجة لذلك ، تم اتخاذ قرارنا بشكل جيد سواء من الناحية الفنية أو من وجهة نظر الأعمال. في الأساس ، حاولت بقية الفرق حل مشكلة التحليل الأساسي والنمذجة المواضيعية ، لذلك اختلف حلنا بشكل إيجابي. ونتيجة لذلك ، احتلنا المركز الأول ، وافترقنا عن الرضا والتعب.
في الصورة (من اليسار إلى اليمين): ألكسندر أبراموف ، كونستانتين إيفانوف ، أندري فاسنيتسوف (مؤلف) وشفيتسوف إيغورماذا تقرأ: