كيف علمنا سيارة للتحدث مع ملايين الناس

التسويق في X5 هو الكثير من البيانات. على سبيل المثال ، ترسل Pyaterochka أكثر من 30 مليون اتصال شهريًا ، وهذا الرقم ينمو باستمرار. يمكن إرسال العديد من العروض إلى عميل واحد في كل مرة ، ومن المهم اختيار أي منها بشكل صحيح. يجب أن تكون أسهم المتجر مثيرة للاهتمام للعميل ومبررة اقتصاديًا لبائع التجزئة. في هذا المنشور ، سنخبرك كيف بدأنا في تحديد العروض الشائعة حقًا باستخدام التعلم الآلي والتخلص من تأثير الرسائل غير المرغوب فيها.



من أجل تحسين التواصل مع عملاء Pyaterochka و Perekrestok و Karusel ، يعمل فريق كبير في X5 Retail Group.

الآن ، يتطلب الحفاظ على هذا النظام عمل عشرات الأشخاص والأنظمة: تراكم دقيق للبيانات في Oracle ، وتحليل البيانات وإعداد الحملات في SAS ، ووضع قواعد المكافأة في Comarch. كل يوم ، يتخذ المحللون قرارات بشأن كيفية اختيار العرض الأكثر صلة في الوقت الحالي ، والاختيار من بين مجموعة كبيرة ومتنوعة من الخيارات ، استنادًا إلى البيانات التاريخية لنتائج الأسهم. نحن نعمل أيضًا على ضمان معالجة الاتصالات وليس لها علاقة بالرسائل غير المرغوب فيها.

فكرنا في كيفية ترجمة عملية اختيار عرض متعلق بالعملاء إلى الوضع التلقائي باستخدام التعلم الآلي ، بحيث:

  • المعلومات المتراكمة عن العملاء والحملات السابقة
  • تعلم النظام نفسه من البيانات الجديدة
  • تم حساب التخطيط أكثر من خطوة إلى الأمام

لذلك وصلنا إلى تحقيق أنظمة التنظيم الذاتي وبدأ عصر تطوير نظام التعلم التعزيزي في X5.

قليلا عن التعلم التعزيز
* RL (التعلم المعزز) هو التعلم المعزز. إحدى طرق التعلم الآلي ، التي يتم من خلالها تدريب نظام الاختبار (الوكيل) ، والتفاعل مع بيئة معينة.

تعمل نظرية التعلم المعزز على مفهومين: العمل والدولة. بناءً على حالة الكائن ، تقرر الخوارزمية اختيار الإجراءات. نتيجة للعمل المثالي ، يقع الكائن في حالة جديدة وما إلى ذلك.



على افتراض أن:

  • وكيل - عميل
  • العمل - التواصل مع العميل
  • حالة الدولة (مجموعة المقاييس) للعميل
  • وظيفة الهدف - مزيد من سلوك العملاء (على سبيل المثال ، زيادة الإيرادات أو الاستجابة لحملة مستهدفة)

... ثم يجب أن يحل النظام الموصوف الهدف المحدد وسيختار العملاء (العملاء) أنفسهم إجراءاتهم (المكافآت والحملات) لراحتهم وعلاقاتهم الجادة مع المتجر.

ما يقدمه العقل RL العالم
أولاً ، بحثنا عن أمثلة على حلول لهذه المشاكل ، موصوفة في مصادر مفتوحة.
وجدت بعض الأمثلة المثيرة للاهتمام:

حول الأدوات:


حول تطبيق RL على مهام تسويقية مماثلة:


لكنهم جميعًا لم يتناسبوا مع قضيتنا أو لم يلهموا الثقة.

المرحلة 1. حلول النموذج الأولي

لذلك ، قررنا تطوير نهجنا.

من أجل تقليل المخاطر وعدم الدخول في موقف تم فيه تطوير النظام لفترة طويلة دون استخدام حقيقي ، ثم لم ينطلق في النهاية ، قررنا البدء بنموذج أولي لا يطبق طريقة RL في شكله النقي ، ولكن كان له نتيجة تجارية مفهومة.

أساس التطبيقات الأساسية للتعلم المعزز هو مصفوفة نتائج الحالة-العمل ، والتي يتم تحديثها في كل مرة يتم فيها تلقي معلومات جديدة من البيئة.

لتقليل مساحة الولاية ، كجزء من النموذج الأولي ، تم إجراء انتقال من العميل إلى المقطع ، حيث تم تقسيم جميع العملاء إلى 29 مجموعة بناءً على المعلمات:

  • فحص متوسط
  • تكرار عمليات الشراء
  • استقرار السلة
  • تعبئة سلة
  • ولاء العملاء (نسبة عدد الأسابيع مع عمليات الشراء إلى عدد الأسابيع التي شارك خلالها الشخص في برنامج ولاء المتجر)

وهكذا ، تم اختزال المهمة لتعلم مصفوفة من النموذج التالي:



عند التقاطع ، يجب ملء المصفوفة بقيمة دالة الهدف.

في الإصدار الأول من الخوارزمية ، تم اختيار الاستجابة المحددة للحملة كدالة للهدف.

النموذج الأولي الأول الذي طورناه في غضون أسبوعين في SQL (Oracle) و Python. كانت لدينا بيانات اتصالات تاريخية ، لذلك تمكنا من ملء المصفوفة جزئيًا بالوزن المقدر لأزواج "العرض إلى العرض". لسوء الحظ ، اتضح أنه بالنسبة لبعض الأزواج لا توجد بيانات كافية. هذا لم يوقفنا ؛ كنا نتوق للمحاكمات القتالية.

كلفنا قسم التسويق في Pyaterochka ببيانات عن مليوني عميل لمدة 10 أسابيع من التجارب. في هذا الوقت ، تم فصل هؤلاء العملاء عن جميع الاتصالات الأخرى. حددنا نصف العملاء في المجموعة الضابطة ، في المجموعات المتبقية قمنا باختبار النموذج الأولي.

أخبرتنا نظرية RL أنه لا ينبغي لنا فقط اختيار أفضل إجراء ، ولكن أيضًا مواصلة التعلم. لذلك ، في كل مرة نختبر فيها حملة عشوائية على نسبة صغيرة من العملاء. وبناءً على ذلك ، تلقى العملاء المتبقون أفضل عرض (أفضل حملة). وهكذا ، حصلنا على تنفيذنا لطريقة g الجشع لاختيار العرض الأمثل.



بعد ثلاث عمليات إطلاق للنظام ، أصبح من الواضح أن اختيار أفضل حملة استجابة لا يؤدي إلى زيادة في RTO المحدد لكل حملة (هذا المؤشر هو المقياس الرئيسي لفعالية أي حملة مستهدفة في أي منظمة).

من خلال تغيير وظيفة الهدف (وبالتالي خوارزمية اختيار أفضل حملة) مباشرةً إلى RTO المتزايد ، علمنا أن أكثر الحملات نجاحًا من وجهة النظر هذه غير مربحة من حيث عائد الاستثمار.

لذلك بالنسبة للإطلاق الثامن للنظام ، قمنا بتغيير وظيفة الهدف للمرة الثالثة ، الآن على عائد الاستثمار.

استنتاجات من تطوير النموذج الأولي

فيما يلي الرسوم البيانية للأداء للمؤشرات الرئيسية:

  • صافي استجابة العملاء للتواصل
  • RTO المتزايد
  • الهامشية







قد تلاحظ أنه بحلول الإطلاق الأخير ، تجاوزت كفاءة النموذج الأولي (في RTO التدريجي) متوسط ​​نتيجة الحملات التي أطلقها المحللون ، وإذا أخذنا بعين الاعتبار فقط الشرائح والعروض "الأفضل" ، يكون الفرق أكثر من الضعف.

بالنسبة للمستقبل ، توصلنا إلى الاستنتاجات التالية لأنفسنا:

  1. قد لا يكون التحدث إلى شركة KPI مقدمًا كافيًا. كما تتغير مؤشرات الأداء الرئيسية لعميل الأعمال. (لذلك انتقلنا من RTO إلى الهامش).
  2. الأهداف غير المباشرة (في حالتنا ، الاستجابة) جيدة ، ولكن سيُطلب منك عاجلاً أم آجلاً مراعاة مؤشرات الأداء المباشرة.
  3. تم العثور على أفضل أزواج حملة شرائح ، والتي تظهر نتائج جيدة باستمرار. تم إطلاق هذه الحملات في جميع أنحاء القاعدة وتدر الإيرادات بانتظام.

المجموع:

  1. أعمال الدائرة
  2. يجدر الأخذ بعين الاعتبار تكاليف العميل (النصر في IRTI لم يضمن نمو العائد على الاستثمار)
  3. أود أن تأخذ في الاعتبار تاريخ الاستجابة
  4. الآن ليس من المخيف الذهاب إلى مستوى العميل

المرحلة 2. ننتهي من النظام

مستوحاة من نتائج المرحلة الأولى ، قررنا وضع اللمسات الأخيرة على النظام وإجراء التحسينات الوظيفية التالية:

1) الانتقال من اختيار عرض إلى شريحة من العملاء إلى اختيار عرض فردي للعميل ، ووصفه بمجموعة من المقاييس:

  • إشارة استجابة العرض الأخير
  • نسبة PTO للعميل لمدة أسبوعين إلى PTO لمدة 6 أسابيع
  • نسبة عدد الأيام من آخر عملية شراء إلى متوسط ​​المسافة بين المعاملات
  • عدد الأسابيع منذ آخر اتصال
  • نسبة مقدار المكافآت المستخدمة شهريًا إلى مبلغ RTO شهريًا
  • تحقيق الهدف في الأسبوعين السابقين
  • أعلام الاستجابة للعروض بأنواع مختلفة من المكافآت
  • اختر لا 1 ، ولكن سلسلة من حملتين لاحقتين

2) توضيح وظيفة الهدف ، إضافة إلى الاستجابة ، بالإضافة إلى نمو PTO :).

الآن ، باختيار عرض فردي للعميل ، نركز على القيمة المتوقعة لوظيفة الهدف Q1:

  • س = 1 إذا استجاب العميل للحملة ونما RTO لمدة أسبوعين خلال الحلقة بنسبة m٪
  • س = 0 ، إذا لم يستجب العميل للحملة وزاد RTO لمدة أسبوعين خلال الحلقة بنسبة m٪
  • س = 0 ، إذا استجاب العميل للحملة وزاد RTO لمدة أسبوعين خلال الحلقة بنسبة أقل من m٪
  • س = -1 ، إذا لم يستجب العميل للحملة ونمو RTO لمدة أسبوعين خلال الحلقة أقل من m٪

تجريب النهج الثاني الآن على قدم وساق ، لكننا تجاوزنا بالفعل النتائج السابقة.

ما هي الخطوة التالية

لحسن الحظ ، لا تسعد النتائج فريق التنفيذ والتطوير فحسب ، بل أيضًا عملاء الأعمال ، وبالتالي ، في المستقبل ، بالإضافة إلى التحسينات الوظيفية ، من المخطط إنشاء أنظمة مماثلة تعمل في الوقت الحقيقي والتسويق عبر الإنترنت.

بالإضافة إلى ذلك ، سوف يلاحظ القارئ اليقظ أننا حتى الآن لم نستخدم RL في أنقى صوره ، ولكن فقط مفهومه. ومع ذلك ، حتى مع هذا التبسيط ، نلاحظ نتيجة إيجابية ونستعد الآن للمضي قدمًا ، مما يعقد الخوارزمية لدينا. بمثالنا ، نريد إلهام الآخرين للانتقال "من البسيط إلى المعقد".

يشكر إصدار Habr X5 شركة Glowbyte Consulting على المساعدة في إعداد منشور. تم الانتهاء من الطيار من قبل فريق مشترك من ستة متخصصين من Pyaterochka و Glowbyte.

بالمناسبة ، نحن نبحث عن مدير تطوير منتج البيانات الضخمة ، أخصائي البيانات ، أخصائي التحليلات ومدير برنامج الولاء.

Source: https://habr.com/ru/post/ar430112/


All Articles