Bagaimana kami menganalisis ulasan aplikasi seluler menggunakan pembelajaran mesin

Baru-baru ini, kami, tim Big Data Sains Data Sbertech, menyelesaikan satu pilot yang menarik di bidang pembelajaran mesin: kami mencoba mengidentifikasi insiden dalam pekerjaan mobile Sberbank Online yang menggunakannya, berdasarkan pada teks umpan balik pengguna di toko aplikasi. Kami mengambil dataset ulasan dari Google Play untuk periode dari Oktober 2014 hingga Oktober 2017 (882.864 ulasan), menyaring 92.711 negatif (1-2 bintang) dan mulai bekerja. Yang mana yang akan kami ceritakan di bawah potongan.



Kami akan segera menjawab pertanyaan yang mungkin. Rasio umpan balik positif terhadap negatif ternyata sama sekali tidak berhubungan dengan insiden, oleh karena itu diperlukan metode yang lebih licik. Selain itu, kami ingin mengidentifikasi topik insiden.

Untuk mengidentifikasi anomali, kami memilih model Arima dari rata-rata bergerak terpadu yang autoregresif.

ARIMA (p, d, q) untuk deret waktu non-stasioner Xt memiliki bentuk:


Di mana εt adalah deret waktu stasioner; parameter c, ai, bj - model; △ d adalah operator dari perbedaan dalam deret waktu orde d (secara berurutan mengambil d perbedaan dari orde pertama - pertama dari deret waktu, kemudian dari perbedaan yang diperoleh dari orde pertama, kemudian dari orde kedua, dll.).

Kami melatih model di seluruh sampel. Untuk memprediksi tingkat normal ulasan negatif untuk tanggal yang dipilih, interval tiga bulan digunakan. Prediksi ini dibangun satu minggu sebelumnya dari tanggal yang dipilih, dengan diskritisasi satu hari.

Kemudian terbentuk tingkat kepercayaan. Untuk melakukan ini, nilai yang dihitung dari interval kepercayaan ditambahkan ke nilai fungsi perkiraan untuk setiap tanggal. Kuantil ketiga dari distribusi semua penyimpangan fungsi prediksi dari jumlah aktual ulasan negatif selama interval tiga bulan yang menjadi dasar prediksi tingkat normal diambil untuk itu.

Anomali direkam ketika jumlah aktual ulasan negatif melebihi tingkat kepercayaan (nilai perkiraan + interval kepercayaan). Begini tampilannya pada grafik:


Merah adalah jumlah ulasan sebenarnya. Warna kuning - nilai prediksi tingkat normal dengan interval kepercayaan

Untuk analisis lebih lanjut, 5 puncak yang berbeda dipilih, yang terjadi pada 02/27/2017, 15/03/2017, 09/14/2017, 09/18/2017, 09/20/2017.

Identifikasi insiden dilakukan dengan pengelompokan teks ulasan dengan dua model berdasarkan BIGARTM dan Word2Vec dengan pengelompokan Kmeans bawaan.

Perpustakaan BIGARTM (model tematik)


Model tematik adalah representasi dari distribusi kondisional yang diamati p (w | d) istilah (kata atau frasa) w dalam dokumen d koleksi D :


di mana T adalah beragam topik;
- distribusi istilah yang tidak diketahui dalam topik t ;
- distribusi topik yang tidak diketahui dalam dokumen d .

Parameter dari model tematik - matriks dan - Ditemukan dengan memecahkan masalah memaksimalkan kemungkinan:



Keuntungan utama dibandingkan model probabilistik lainnya adalah tersedianya regulator untuk perataan, penipisan, dan dekorasi.

Model dengan Word2Vec


Model menggunakan Word2Vec didasarkan pada aljabar tensor. Di bawahnya disusun kamus dari semua kata dalam ulasan. Representasi vektor kata-kata Word2Vec telah menjadi ruang dasar untuk cluster.

Algoritma tersebut sedemikian rupa sehingga berusaha untuk meminimalkan penyimpangan kuadrat total dari titik-titik klaster dari pusat-pusat klaster ini:


k adalah jumlah cluster, S i adalah cluster yang dihasilkan, i = 1.2 ... k , dan μ i adalah pusat massa semua vektor x dari cluster S i . Sekarang mari kita lihat hasil model pada contoh spesifik.

Periode abnormal dengan puncak 03/15/2017


BIGARTM :
Nomor cluster
Tag
Contoh Tinjauan Cluster
(sumber kosakata)
1
perbarui versi operasi akun kesalahan kerja tidak dapat menginstal hapus pengembalian transfer

“Versi lama tidak berfungsi. Saya tidak perlu pembaruan. Tidak ada ruang di ponsel! Kembalikan kesempatan untuk menggunakan versi lama !!! "

“Saya tidak dapat menginstal aplikasi sama sekali, ada cukup memori di ponsel, lebih dari 50%, tetapi aplikasi ini dengan keras kepala menulis bahwa tidak ada cara untuk menginstal, kesalahan 24! Perbaiki kesalahan, gunakan sebelumnya, benar-benar menyukainya !!! ”

“Setelah peningkatan, itu berhenti bekerja! Sebuah jendela muncul dengan pesan: "" Terjadi kesalahan pada aplikasi "" Sberbank „" "dan selamat tinggal. Sialan pembaruan sialan! Sebelum pembaruan, semuanya bekerja dengan baik, benar-benar puas. Dan sepanjang jalan, saya tidak punya satu omong kosong seperti itu! "
2
koneksi untuk pergi menulis bekerja tidak dapat memori tidak bisa terbang terus-menerus menghapus masalah

“Saya tidak bisa memasukkan Aplikasi, saya memasukkan kode, menulis, saya tidak bisa memulihkan koneksi yang aman! apa yang kamu lakukan !? Atau Anda memaksa untuk diperbarui! Saya senang dengan pembaruan lama! Selesaikan masalahnya! ”

“Apa yang telah Anda lakukan dengan program yang hebat? Terungkap dan menyesal. Setiap 2 menit, sebuah jendela muncul dengan teks "" koneksi ke Sberbank terputus "". Saya memutuskan untuk menghapus dan menginstal ulang. Sekarang tidak terbuka sama sekali. Segera membuangnya dari program. Kawan, kembalikan versi lama »
3
sms not_to datang dalam kartu kode yang Anda butuhkan terima kasih not_work input not_m dapat terbang keluar

“SMS tidak datang ke ponsel dengan kata sandi”

"Tidak mendaftar, menulis bahwa SMS akan datang dengan kode dan tidak ada ...."

“Setelah pembaruan, SMS tentang masuk masuk, tetapi ambang batasnya terbang keluar setelah 4 detik. Bagaimana bisa? "

Word2Vec + Kmeans:
Nomor cluster
Tag
Contoh Tinjauan Cluster
(sumber kosakata)
1
perbarui koneksi koneksi masuk perbarui
“Saya tidak bisa memasukkan Aplikasi, saya memasukkan kode, menulis, saya tidak bisa memulihkan koneksi yang aman! apa yang kamu lakukan !? Atau Anda memaksa untuk diperbarui! Saya senang dengan pembaruan lama! Selesaikan masalahnya! ”

“Koneksi terputus, terhubung ke jaringan lain - inilah yang paling sering saya lihat ketika saya ingin masuk ke aplikasi. Saya selalu menempatkan pembaruan segera ketika mereka keluar. Jika Anda berhasil, semuanya bekerja dengan baik. "

2
input sms masuk telepon masuk
“Setelah pembaruan, SMS tentang masuk masuk, tetapi ambang batasnya terbang keluar setelah 4 detik. Bagaimana bisa? "

“SMS tidak datang ke ponsel dengan kata sandi”

"Saat mendaftar, SMS tidak datang dengan kode ..."

"Tidak mungkin untuk memasukkan. Kode SMS tidak datang. Perbaiki semuanya lebih cepat."

Bigartm
Word2Vec + Kmeans


  • Hanya 194 ulasan.
  • Mengidentifikasi 3 kluster.

Masalah yang diidentifikasi selama pengelompokan:

  • Masalah kinerja aplikasi terkait dengan peningkatan versi.
  • Masalah aplikasi terkait dengan koneksi dengan Sberbank.
  • Masalah mengirim SMS ke pengguna dengan kode.

  • Hanya 190 ulasan.
  • 2 cluster diidentifikasi.

Masalah yang diidentifikasi selama pengelompokan:

  • Masalah masuk dengan koneksi dan peningkatan versi.
  • Masalah mengirim SMS ke pengguna dengan kode.


Seperti yang Anda lihat dari hasilnya, BIGARTM menyoroti tema lebih jelas daripada Word2Vec + Kmeans. Untuk model Word2Vec + Kmeans, ulasan pendek tidak informatif dengan kata-kata yang tidak memiliki representasi vektor (kata-kata dengan kesalahan, kata-kata kotor, dll.) Tidak diperhitungkan.

Menariknya, selama periode ini, insiden dalam sistem ServiceDesk internal tidak diklasifikasikan sesuai dengan masalah memperbarui versi dan diproses secara terpisah. Ini berarti bahwa dalam kasus ini, model mengatasi tugas dengan lebih baik daripada seseorang.

Pengenalan awal


Dan ini adalah contoh yang menunjukkan kemampuan model kami untuk bekerja secara proaktif. 09/18/2017 masalah besar didaftarkan di ServiceDesk terkait dengan ketidakmampuan untuk memasuki aplikasi dan melakukan pembayaran untuk beberapa pengguna. Pada grafik Arima, kami melihat lonjakan ulasan negatif pada tanggal ini, serta sedikit ledakan empat hari sebelumnya.



Kami menganalisis kedua outlier ini.

14 September 2017:
Bigartm
Word2Vec + Kmeans


  • Hanya 243 ulasan.
  • Mengidentifikasi 3 kluster.

Masalah yang diidentifikasi selama pengelompokan:

  • Masalah dengan transfer dana. Masalah dengan antarmuka.
  • Masalah dengan memasukkan aplikasi setelah pembaruan.
  • Masalah saat masuk ke aplikasi. Pengguna tidak puas dengan kebijakan privasi.

  • Hanya 171 ulasan.
  • 1 cluster diidentifikasi.

Masalah yang diidentifikasi selama pengelompokan:

  • Masalah bekerja di aplikasi setelah pembaruan. Pengguna tidak puas dengan kebijakan privasi, ada juga masalah dengan transfer dana.


18 September 2017:
Bigartm
Word2Vec + Kmeans


  • Hanya 935 ulasan.
  • Mengidentifikasi 3 kluster.

Masalah yang diidentifikasi selama pengelompokan:

  • Masalah dengan memasukkan aplikasi setelah memperbarui versi. Aplikasi memberi pengguna pesan tentang versi usang.
  • Masalah saat masuk ke aplikasi. Pengguna memasukkan kata sandi beberapa kali, aplikasi membeku.
  • Masalah kinerja aplikasi terkait dengan antivirus bawaan.

  • Hanya 828 ulasan.
  • 1 cluster diidentifikasi.


Masalah yang diidentifikasi selama pengelompokan:
  • Masalah dengan memasukkan kata sandi dan memasukkan aplikasi. Galat saat memperbarui versi.


Dan di sini adalah bagaimana hasil ini dibandingkan dengan data dari ServiceDesk.
Anomali tanggal terdeteksi
Masalah yang dilaporkan di SM
Menentukan sifat masalah menggunakan
Bigartm
Menentukan sifat masalah menggunakan
Word2Vec + Kmeans
2017-09-14
00:00 - 24:00

Setelah memperbarui aplikasi, latar belakang panggilan yang meningkat dari aplikasi yang diperbarui terbentuk.
Masalah dengan transfer dana. Masalah dengan antarmuka.

Masalah dengan memasukkan aplikasi setelah pembaruan.
Masalah saat masuk ke aplikasi.

Pengguna tidak puas dengan kebijakan privasi.
Masalah bekerja di aplikasi setelah pembaruan. Pengguna tidak puas dengan kebijakan privasi, ada juga masalah dengan transfer dana.
2017-09-18
00:00 - 24:00
Antara 09:23
pada 15:20 waktu Moskow, untuk beberapa pelanggan Bank, peningkatan waktu memasuki dan melakukan operasi dengan Sberbank Online telah dicatat.
Insiden praktis tidak berpengaruh pada pekerjaan pelanggan yang menggunakan iOS.
Peningkatan jumlah panggilan pelanggan ke pusat kontak Bank (hingga 1369 panggilan tambahan dalam 15 menit).
Masalah dengan memasukkan aplikasi setelah memperbarui versi. Aplikasi memberi pengguna pesan tentang versi usang.

Masalah saat masuk ke aplikasi. Pengguna memasukkan kata sandi beberapa kali, aplikasi membeku.

Masalah kinerja aplikasi terkait dengan antivirus bawaan.
Masalah dengan memasukkan kata sandi dan memasukkan aplikasi. Galat saat memperbarui versi.

Jelas bahwa pada tanggal 18 September sejumlah besar ulasan negatif pelanggan dan panggilan ke pusat kontak disebabkan oleh kurangnya reaksi yang tepat terhadap peningkatan latar belakang 14 September. Contoh ini menunjukkan bahwa model dapat membantu menghindari masalah massal dengan mengenalinya pada tahap awal.

Sangat menarik bahwa pada saat yang sama, model mendeteksi masalah lain (dengan antivirus bawaan) yang tidak disorot dengan latar belakang masalah utama. Tidak ada pendaftaran di ServiceDesk.

Untuk meringkas


Pembelajaran mesin melakukan pekerjaan yang baik untuk menganalisis umpan balik pengguna. Terkadang bahkan lebih akurat daripada pemrosesan manual. Ini akan membantu mengurangi waktu untuk menyelesaikan insiden aplikasi seluler dan menjadikannya lebih baik.

Mungkin metode seperti itu cocok tidak hanya untuk mengidentifikasi insiden, tetapi juga untuk menganalisis umpan balik netral dan positif untuk menyoroti kasus-kasus pengguna prioritas. Ini akan membantu mengembangkan fungsionalitas aplikasi berdasarkan preferensi pelanggan tanpa biaya tambahan untuk pengumpulan dan analisis mereka. Tapi ide ini masih perlu diperiksa ...

Source: https://habr.com/ru/post/id416399/


All Articles