كيف قمنا بتحليل مراجعات تطبيقات الهاتف المحمول باستخدام التعلم الآلي

في الآونة الأخيرة ، أكملنا ، فريق البيانات الضخمة لعلوم البيانات في Sbertech ، برنامجًا تجريبيًا مثيرًا للاهتمام في مجال التعلم الآلي: حاولنا تحديد الحوادث في عمل Sberbank Online المحمول باستخدامه ، استنادًا إلى نصوص تعليقات المستخدمين في متاجر التطبيقات. أخذنا مجموعة بيانات من المراجعات من Google Play للفترة من أكتوبر 2014 إلى أكتوبر 2017 (882،864 تعليقًا) ، وقمنا بتصفية 92،711 سلبية (1-2 نجوم) وبدأنا العمل. أي واحد سنخبره تحت القطع.



سنجيب على الفور على سؤال محتمل. تبين أن نسبة ردود الفعل الإيجابية إلى السلبية ليست مرتبطة بأي شكل من الأشكال بالحوادث ، لذلك كانت هناك حاجة إلى المزيد من الأساليب الماكرة. بالإضافة إلى ذلك ، أردنا تحديد مواضيع الحوادث.

لتحديد الحالات الشاذة ، اخترنا نموذج Arima لمتوسط ​​متحرك متكامل للارتداد الذاتي.

تحتوي ARIMA (p، d، q) للسلسلة الزمنية غير الثابتة Xt على الشكل التالي:


حيث εt هي السلسلة الزمنية الثابتة ؛ c ، ai ، bj - معلمات النموذج ؛ △ d هو عامل الاختلاف في السلسلة الزمنية للأمر d (مع أخذ الاختلافات بالتتابع d للاختلافات من الدرجة الأولى - أولاً من السلسلة الزمنية ، ثم من الاختلافات من الدرجة الأولى التي تم الحصول عليها ، ثم من الترتيب الثاني ، وما إلى ذلك).

قمنا بتدريب النموذج في جميع أنحاء العينة. للتنبؤ بالمستوى الطبيعي للمراجعات السلبية للتاريخ المحدد ، تم استخدام فاصل زمني من ثلاثة أشهر. تم بناء التنبؤ قبل أسبوع من التاريخ المحدد ، مع تقدير لمدة يوم واحد.

ثم شكلت مستوى الثقة. للقيام بذلك ، تمت إضافة القيمة المحسوبة لفاصل الثقة إلى قيمة دالة التنبؤ لكل تاريخ. الكمية الثالثة لتوزيع جميع انحرافات دالة التنبؤ عن العدد الفعلي للمراجعات السلبية على مدار فترة الثلاثة أشهر التي تم على أساسها توقع المستوى العادي.

تم تسجيل الشذوذ عندما تجاوز العدد الفعلي للمراجعات السلبية مستوى الثقة (القيمة المتوقعة + فاصل الثقة). إليك ما يبدو عليه على الرسم البياني:


الأحمر هو العدد الفعلي للمراجعات. اللون الأصفر - القيمة المتوقعة للمستوى الطبيعي بفاصل ثقة

لمزيد من التحليل ، تم اختيار 5 قمم مميزة حدثت في 27/2/2017 ، 03/15/2017 ، 09/14/2017 ، 09/18/2017 ، 09/20/2017.

تم تحديد الحوادث من خلال نصوص مراجعة التجميع مع نموذجين يستندان إلى BIGARTM و Word2Vec مع تجميع Kmeans المدمج.

مكتبة BIGARTM (نموذج مواضيعي)


النموذج المواضيعي هو تمثيل للتوزيع المشروط الملحوظ ع (ث | د) للمصطلحات (كلمات أو عبارات) ث في وثائق د من المجموعة د :


حيث T مجموعة متنوعة من المواضيع ؛
- توزيع غير معروف للمصطلحات في الموضوع ر ؛
- توزيع غير معروف للمواضيع في الوثيقة د .

معلمات النموذج المواضيعي - مصفوفة و - يتم إيجادها عن طريق حل مشكلة تعظيم الاحتمال:



الميزة الرئيسية على النماذج الاحتمالية الأخرى هي توافر منظفات للتنعيم ، والتخفيف ، وعلاقة الديكور.

نموذج مع Word2Vec


يعتمد النموذج باستخدام Word2Vec على الجبر الموتر. تحته تم تجميع قاموس لجميع الكلمات في المراجعات. أصبح تمثيل المتجهات لكلمات Word2Vec هو المساحة الأساسية للمجموعات.

الخوارزمية هي التي تسعى إلى تقليل الانحراف التربيعي الكلي لنقاط العناقيد من مراكز هذه العناقيد:


k هو عدد العناقيد ، S i هي العناقيد الناتجة ، i = 1.2 ... k ، و μ i هي مراكز كتلة جميع المتجهات x من المجموعة S i . الآن دعنا نرى نتائج النماذج على أمثلة محددة.

الفترة غير الطبيعية مع ذروة 03/15/2017


BIGARTM :
رقم الكتلة
العلامات
أمثلة على المراجعة العنقودية
(مفردات المصدر)
1
تحديث خطأ عمل حساب إصدار العملية غير قادر على تثبيت عودة نقل حذف

"الإصدار القديم لا يعمل. لا أحتاج إلى تحديث. لا توجد مساحة على الهاتف! إعادة الفرصة لاستخدام الإصدار القديم !!! "

"لا يمكنني تثبيت التطبيق على الإطلاق ، توجد ذاكرة كافية على الهاتف ، أكثر من 50٪ ، لكن التطبيق يكتب بعناد أنه لا توجد طريقة للتثبيت ، الخطأ 24! صحح الخطأ ، استخدمه من قبل ، أعجبني حقاً !!! "

"بعد الترقية ، توقفت عن العمل! تظهر نافذة تحتوي على الرسالة: "" حدث خطأ في التطبيق "" Sberbank „" "وداعًا. تحديث لعنة رعشة! قبل التحديث ، كان كل شيء يعمل بشكل جيد ، راضٍ تمامًا. وعلى طول الطريق ، ليس لدي مثل هذا هراء! "
2
اتصال للذهاب الكتابة إلى العمل لا تستطيع الذاكرة لا تطير باستمرار حذف المشكلة بشكل فظيع

"لا يمكنني إدخال التطبيق ، أدخل الرمز ، أكتب ، لا يمكنني استعادة الاتصال الآمن! ماذا تفعل!؟ أو هكذا تجبر على التحديث! كنت سعيدا بالتحديث القديم! حل المشكلة! "

"ماذا فعلت ببرنامج رائع؟ كشفت وندمت. كل دقيقتين ، تظهر نافذة بها نص "" يتم قطع اتصال سبيربنك "". قررت إزالة وإعادة تثبيت. الآن لا يفتح على الإطلاق. يطرده على الفور من البرنامج. يا شباب ، أرجعوا النسخة القديمة »
3
sms not_ للخروج في بطاقة الرمز تحتاج شكرا شكرا not_work الإدخال قد تكون قادرة على الطيران

"لا تأتي الرسائل القصيرة SMS إلى الهاتف بكلمة مرور"

"لا يسجل ، يكتب أن الرسائل القصيرة ستأتي مع الرمز ولا شيء ...."

"بعد التحديث ، تأتي رسالة SMS حول الدخول ، ولكن العتبة تطير بعد 4 ثوانٍ. كيف تكون؟ "

Word2Vec + Kmeans:
رقم الكتلة
العلامات
أمثلة على المراجعة العنقودية
(مفردات المصدر)
1
تحديث سجل الاتصال في استخدام التحديث
"لا يمكنني إدخال التطبيق ، أدخل الرمز ، أكتب ، لا يمكنني استعادة الاتصال الآمن! ماذا تفعل!؟ أو هكذا تجبر على التحديث! كنت سعيدا بالتحديث القديم! حل المشكلة! "

"تم قطع الاتصال ، اتصل بشبكة أخرى - هذا ما أراه غالبًا عندما أريد الدخول إلى التطبيق. أنا دائما أضع التحديثات على الفور عندما يخرجون. إذا نجحت ، كل شيء يعمل بشكل جيد ".

2
الرسائل القصيرة تأتي إدخال إدخال الهاتف
"بعد التحديث ، تأتي رسالة SMS حول الدخول ، ولكن العتبة تطير بعد 4 ثوانٍ. كيف تكون؟ "

"لا تأتي الرسائل القصيرة SMS إلى الهاتف بكلمة مرور"

"عند التسجيل ، لا تأتي الرسائل القصيرة برمز ..."

"لا يمكن الدخول. لا يأتي رمز SMS. صحح كل شيء في وقت أقرب."

بيجارتم
Word2Vec + Kmeans


  • فقط 194 تعليق.
  • حددت 3 مجموعات.

المشكلات التي تم تحديدها أثناء التجميع:

  • مشكلة في أداء التطبيق تتعلق بترقية الإصدار.
  • تتعلق مشكلة التطبيق بالارتباط مع Sberbank.
  • مشكلة إرسال الرسائل القصيرة إلى المستخدم باستخدام الكود.

  • 190 تعليقًا فقط.
  • تم تحديد مجموعتين.

المشكلات التي تم تحديدها أثناء التجميع:

  • مشكلة تسجيل الدخول مع الاتصال وترقية الإصدار.
  • مشكلة إرسال الرسائل القصيرة إلى المستخدم باستخدام الكود.


كما ترى من النتائج ، يسلط BIGARTM الضوء على السمات بشكل أكثر وضوحًا من Word2Vec + Kmeans. بالنسبة لنموذج Word2Vec + Kmeans ، لم تؤخذ في الاعتبار المراجعات القصيرة غير المعلوماتية مع الكلمات التي ليس لها تمثيل متجه (الكلمات التي تحتوي على أخطاء ، والألفاظ النابية ، وما إلى ذلك).

ومن المثير للاهتمام أنه خلال هذه الفترة ، لم يتم تصنيف الحوادث في نظام ServiceDesk الداخلي وفقًا لمشكلة تحديث الإصدار وتم التعامل معها بشكل منفصل. هذا يعني أنه في هذه الحالة ، تعامل النموذج مع المهمة بشكل أفضل من الشخص.

الاعتراف المبكر


وهنا مثال يوضح قدرة نموذجنا على العمل بشكل استباقي. 09/18/2017 تم تسجيل مشكلة كبيرة في ServiceDesk تتعلق بعدم القدرة على دخول التطبيق وتسديد المدفوعات لبعض المستخدمين. على الرسم البياني Arima ، نرى ارتفاعًا قويًا في المراجعات السلبية في هذا التاريخ ، بالإضافة إلى ثورة طفيفة قبل أربعة أيام.



قمنا بتحليل كل من هذه القيم المتطرفة.

14 سبتمبر 2017:
بيجارتم
Word2Vec + Kmeans


  • فقط 243 تعليق.
  • حددت 3 مجموعات.

المشكلات التي تم تحديدها أثناء التجميع:

  • المشكلة في تحويل الأموال. المشكلة مع الواجهة.
  • مشكلة دخول التطبيق بعد التحديث.
  • مشكلة تسجيل الدخول إلى التطبيق. المستخدم غير راضٍ عن سياسة الخصوصية.

  • 171 تعليقًا فقط.
  • تم تحديد مجموعة واحدة.

المشكلة التي تم تحديدها أثناء التجميع:

  • مشكلة العمل في التطبيق بعد التحديث. المستخدم غير راضٍ عن سياسة الخصوصية ، هناك أيضًا مشكلة في تحويل الأموال.


18 سبتمبر 2017:
بيجارتم
Word2Vec + Kmeans


  • 935 مراجعة فقط.
  • حددت 3 مجموعات.

المشكلات التي تم تحديدها أثناء التجميع:

  • مشكلة دخول التطبيق بعد تحديث الإصدار. التطبيق يعطي المستخدم رسالة حول النسخة القديمة.
  • مشكلة تسجيل الدخول إلى التطبيق. يقوم المستخدم بإدخال كلمة المرور عدة مرات ، يتجمد التطبيق.
  • مشكلة في أداء التطبيق تتعلق بمضاد الفيروسات المدمج.

  • فقط 828 تعليق.
  • تم تحديد مجموعة واحدة.


المشكلة التي تم تحديدها أثناء التجميع:
  • المشكلة في إدخال كلمة المرور وإدخال التطبيق. خطأ في تحديث الإصدار.


وإليك كيفية مقارنة هذه النتائج مع البيانات من ServiceDesk.
تم الكشف عن تاريخ غير طبيعي
تم الإبلاغ عن مشكلة في SM
تحديد طبيعة المشكلة باستخدام
بيجارتم
تحديد طبيعة المشكلة باستخدام
Word2Vec + Kmeans
2017-09-14
00:00 - 24:00

بعد تحديث التطبيق ، تشكلت خلفية متزايدة للمكالمات من التطبيقات المحدثة.
المشكلة في تحويل الأموال. المشكلة مع الواجهة.

مشكلة دخول التطبيق بعد التحديث.
مشكلة تسجيل الدخول إلى التطبيق.

المستخدم غير راضٍ عن سياسة الخصوصية.
مشكلة العمل في التطبيق بعد التحديث. المستخدم غير راضٍ عن سياسة الخصوصية ، هناك أيضًا مشكلة في تحويل الأموال.
2017-09-18
00:00 - 24:00
بين 09:23
بحلول الساعة 15:20 بتوقيت موسكو ، بالنسبة لبعض عملاء البنك ، تم تسجيل زيادة في وقت الدخول والقيام بالعمليات مع Sberbank Online.
لم يكن للحوادث أي تأثير عمليًا على عمل العملاء الذين يستخدمون iOS.
زيادة عدد مكالمات العملاء لمركز الاتصال في البنك (حتى 1369 مكالمة إضافية في 15 دقيقة).
مشكلة دخول التطبيق بعد تحديث الإصدار. التطبيق يعطي المستخدم رسالة حول النسخة القديمة.

مشكلة تسجيل الدخول إلى التطبيق. يقوم المستخدم بإدخال كلمة المرور عدة مرات ، يتجمد التطبيق.

مشكلة في أداء التطبيق تتعلق بمضاد الفيروسات المدمج.
المشكلة في إدخال كلمة المرور وإدخال التطبيق. خطأ في تحديث الإصدار.

من الواضح أنه في 18 سبتمبر ، حدث تدفق كبير من تعليقات العملاء السلبية والمكالمات إلى مركز الاتصال بسبب عدم وجود رد فعل مناسب لخلفية 14 سبتمبر المتزايدة. يوضح هذا المثال أن النموذج يمكن أن يساعد على تجنب مشكلة جماعية من خلال التعرف عليها في مرحلة مبكرة.

من المثير للاهتمام أيضًا أنه في الوقت نفسه ، اكتشف النموذج مشكلة أخرى (مع مضاد فيروسات مدمج) لم يتم تمييزها على خلفية المشكلة الرئيسية. التسجيل عليها في ServiceDesk غائب.

لتلخيص


يعمل التعلم الآلي بشكل جيد في تحليل تعليقات المستخدمين. في بعض الأحيان أكثر دقة من المعالجة اليدوية. سيساعد ذلك على تقليل الوقت لحل حوادث تطبيق الهاتف وتحسينه.

ربما تكون هذه الأساليب مناسبة ليس فقط لتحديد الحوادث ، ولكن أيضًا لتحليل الملاحظات المحايدة والإيجابية من أجل إبراز حالات المستخدم ذات الأولوية. سيساعد هذا على تطوير وظائف التطبيق بناءً على تفضيلات العملاء دون تكاليف إضافية لجمعها وتحليلها. لكن هذه الفكرة لا تزال بحاجة إلى التدقيق ...

Source: https://habr.com/ru/post/ar416399/


All Articles