إضفاء الطابع الشخصي عليها: كيف نعمل مع توصيات QIWI

مرحبا بالجميع!

اسمي ليديا ، أنا قائد فريق فريق DataScience الصغير في QIWI.

غالبًا ما يواجه رفاقي مهمة البحث عن احتياجات العملاء ، وفي هذا المنشور أود أن أشارككم أفكارًا حول كيفية بدء موضوع بتجزئة وما هي الأساليب التي يمكن أن تساعد في فرز بحر من البيانات غير المخصصة.

من سيفاجأ الآن بالتخصيص؟ يبدو الافتقار إلى العروض الشخصية في منتج أو خدمة بالفعل رجلاً سيئًا ، ونحن ننتظر نفس الكريمة المختارة فقط لنا في كل مكان - من خلاصات Instagram إلى خطة تعريفة شخصية.

ومع ذلك ، من أين يأتي هذا المحتوى أو العرض؟ إذا كانت هذه هي المرة الأولى التي تغمر فيها نفسك في المياه المظلمة للتعلم الآلي ، فمن المحتمل أن تصادف سؤالًا عن أين تبدأ وكيف تحدد اهتمامات العميل. في معظم الأحيان ، إذا كانت هناك قاعدة مستخدمين كبيرة وقلة المعرفة بها ، فهناك رغبة في الانتقال بطريقتين شائعتين:

1. حدد نموذجًا من المستخدمين يدويًا وقم بالتدريب عليه نموذجًا يتيح لك تحديد ما إذا كانت هذه الفئة أو الفئات تنتمي - في حالة هدف متعدد الطبقات.

يعد هذا خيارًا جيدًا ، ولكن في المرحلة الأولية يمكن أن يكون فخًا - بعد كل شيء ، ما زلنا لا نعرف القطاعات التي لدينا من حيث المبدأ ومدى فائدتها للترويج لميزات المنتجات الجديدة والاتصالات والمزيد. ناهيك عن حقيقة أن الترميز اليدوي للعميل باهظ الثمن وصعب في بعض الأحيان ، لأنه كلما زاد عدد الخدمات التي توفرها ، زادت البيانات التي تحتاج إلى فحصها لفهم كيف يعيش هذا العميل ويتنفس. من المحتمل جدًا ظهور شيء كهذا:



2. بعد أن أحرقوا أنفسهم في الخيار رقم 1 ، غالبًا ما يختارون خيار التحليل غير الخاضع للإشراف بدون عينة تدريب.

إذا تركت النكات عن فعالية kmeans ، فيمكنك ملاحظة نقطة مهمة تجمع بين جميع أساليب التجميع دون تدريب - فهي تتيح لك ببساطة الجمع بين العملاء استنادًا إلى القرب حسب المقاييس المحددة. على سبيل المثال ، عدد المشتريات وعدد أيام الحياة والتوازن وغير ذلك.

يمكن أن يكون هذا مفيدًا أيضًا إذا كنت ترغب في تقسيم جمهورك إلى مجموعات كبيرة ثم دراسة كل منها ، أو تسليط الضوء على العناصر الأساسية والشرائح المتخلفة عن مقاييس المنتج.

على سبيل المثال ، في مساحة ثنائية الأبعاد ، قد تبدو النتيجة المفيدة بهذا الشكل - يمكنك على الفور معرفة المجموعات التي تستحق الاستكشاف بمزيد من التفصيل.



ولكن كلما زادت المقاييس التي تستخدمها للتجميع ، كلما زاد صعوبة تفسير النتيجة. وتلك التفضيلات العملاء نفسها لا تزال يكتنفها الغموض.

ما يجب القيام به ، وهنا السؤال؟ في QIWI ، أرفقت أدمغتنا مرارًا وتكرارًا بهذه المعضلة حتى وصلنا إلى نموذج فضولي مستوحى من هذه المقالة . من بين حالات أخرى ، وصف المقال قرار كونستانتين فورونتسوف بتسليط الضوء على أنماط السلوك الكامنة لمستخدمي البطاقات المصرفية بناءً على مكتبة BigARTM .

خلاصة القول هي أنه تم تقديم معاملات العملاء كمجموعة من الكلمات ، ثم من مجموعة النصوص الناتجة ، حيث document = client ، والكلمات = رموز MCC (رمز فئة التاجر ، والتصنيف الدولي للمنافذ) ، تم تخصيص موضوعات نصية باستخدام إحدى أدوات معالجة اللغة الطبيعية ( البرمجة اللغوية العصبية) - النمذجة المواضيعية .

في أدائنا ، يبدو خط الأنابيب كما يلي:



يبدو الأمر طبيعيًا تمامًا - إذا كنا نريد أن نفهم كيف وكيف يعيش جمهورنا ، فلماذا لا نتخيل الإجراءات التي يقوم بها العملاء داخل نظامنا البيئي كقصة يروونها. وتقديم دليل لمواضيع هذه القصص.

على الرغم من أن الفكرة تبدو أنيقة وبسيطة ، في الممارسة العملية ، عند تطبيق النموذج ، كان علي أن أواجه عدة مشاكل:

  1. وجود القيم المتطرفة والشذوذ في البيانات ، ونتيجة لذلك ، تحول في الموضوعات نحو فئات مشتريات العملاء مع دوران كبير ،
  2. التحديد الصحيح لعدد الموضوعات N ،
  3. مسألة التحقق من صحة النتائج (هل هذا ممكن من حيث المبدأ؟)

بالنسبة للمشكلة الأولى ، تم العثور على الحل بسهولة تامة - تم تقسيم جميع العملاء الرئيسيين بواسطة أبسط مصنف إلى "أساسي" و "نجوم" (انظر الصورة أعلاه) وتم بالفعل معالجة كل مجموعة من المجموعات كمجموعة نصية منفصلة.

لكن النقطتين الثانية والثالثة جعلتني أتساءل - حقًا ، كيف أتحقق من نتائج التعلم دون عينة تدريب؟ بالطبع ، هناك مقاييس جودة للنموذج ، لكن يبدو أنها ليست كافية - ولهذا السبب قررنا أن نفعل شيئًا بسيطًا للغاية - للتحقق من النتائج على نفس البيانات المصدر.

يبدو هذا الاختيار كما يلي: ينتج عن التصنيف مجموعة من الموضوعات ، على سبيل المثال ، مثل هذا:



في ما يلي قائمة بيثون هي مجموعة من فئات عمليات مركز عملائي الرئيسية الأكثر احتمالًا لعمليات الشراء لهذا الموضوع (من المصفوفة "الكلمة - الموضوع"). إذا نظرت بشكل منفصل إلى عمليات الشراء في فئة شركات الطيران وشركات النقل الجوي ، فمن المنطقي تمامًا أن يشكل العملاء الذين لديهم سمة "المسافرين" الجزء الأكبر من مستخدميها.



ويتم تنفيذ هذا الاختيار بشكل ملائم في شكل لوحة معلومات - في نفس الوقت سيكون لديك مادة مرئية لإنشاء فرضيات المنتج - الذي لديه استرداد نقدي لرحلات الطيران ، والذي لديه خصم على القهوة.

وفي المجموعة الخاصة بالنمذجة المواضيعية ، يمكنك إضافة ليس فقط أحداث المعاملات ، ولكن أيضًا معلومات التعريف من الموديلات الأخرى وموضوعات مكالمات دعم العملاء والمزيد. أو استخدم كميزات فئوية للخوارزميات الخاضعة للإشراف - على سبيل المثال ، نماذج التنبؤ بالتدفق الخارجي وما إلى ذلك.

بالطبع ، هذا النهج له الفروق الدقيقة الخاصة به - على سبيل المثال ، تتم معالجة المجموعة ككيس من الكلمات ولا يؤخذ ترتيب المشتريات في الاعتبار ، ولكن يمكن تعويضه تمامًا باستخدام غرام N أو حساب العلامات المواضيعية لكل فترة مهمة من حياة العميل (كل شهر ، على سبيل المثال). ومع ذلك ، فإن فكرة قصة عميل قابلة للقراءة وتفسيرها ، مزيج من البرمجة اللغوية العصبية ونماذج أخرى تبدو جذابة للغاية بالنسبة لنا.

وكيف تحب هذا الموضوع؟ ما الصعوبات أو أفراح التجزئة التي يواجهها فريق علم البيانات الخاص بك؟ سيكون من المثير للاهتمام معرفة رأيك.

Source: https://habr.com/ru/post/ar463389/


All Articles