Pembelajaran mesin dalam keuangan mikro: membangun model penilaian untuk klien dengan sejarah kredit yang kosong

Tidak ada riwayat kredit - jangan memberikan pinjaman, jangan berikan pinjaman - tidak ada riwayat kredit. Lingkaran setan semacam itu. Apa yang harus dilakukan Mari kita perbaiki.


Hai Nama saya Mark, saya seorang ilmuwan data di Devim. Baru-baru ini, kami meluncurkan model untuk menilai peminjam IFC "Do Gaji," yang tidak memiliki riwayat kredit. Saya ingin berbagi pengalaman tentang pengambilan data, fitur desain, dan interpretasi fitur.



Topik ini dibagi menjadi dua publikasi, yang pertama saya akan berbicara tentang proses mencari dan membangun tanda-tanda. Bagian kedua adalah tentang membandingkan model arsitektur, menganalisis hasil, dan menafsirkan keputusan penilaian.


Bagian Satu Desain Fitur


Model pembelajaran mesin didasarkan pada data yang kualitas dan kelengkapannya merupakan faktor penentu dalam keberhasilan atau kegagalan suatu model. Tetapi bagaimana jika hanya ada sedikit data? Atau jika data tidak cukup informatif atau tidak akurat? Di mana menemukan informasi tambahan dan bagaimana menggunakannya ketika membuat model? Biarkan saya memberi tahu Anda bagaimana saya memecahkan masalah ini.


Faktor Penilaian Risiko Kredit


Penilaian kredit didasarkan pada analisis karakteristik peminjam yang terkait dengan risiko gagal bayar pinjaman. Mereka dapat dibagi menjadi ekonomi umum dan individu.


Faktor ekonomi umum


Lingkungan ekonomi memiliki dampak besar pada kondisi keuangan dan psikologis peminjam. Dimungkinkan untuk secara lebih akurat menilai tingkat pengaruh dengan menyoroti faktor-faktor yang terkait dengan peminjam. Mereka secara kondisional dibagi menjadi dua tingkatan:


  • Faktor tingkat makro adalah faktor yang eksternal bagi peminjam. Mereka biasanya termasuk GDP, inflasi, nilai tukar, dll.
  • Faktor tingkat mikro adalah faktor - faktor yang menjadi ciri peminjam tertentu, misalnya, profesi, industri, gaji rata-rata, dll.
    Perlu segera dicatat bahwa faktor ekonomi umum berfungsi sebagai faktor tambahan. Menurut banyak peneliti , informasi yang dikandungnya bersifat umum dan lemah mencirikan peminjam tertentu.

Faktor individu


Faktor individu berisi informasi yang paling berharga untuk model penilaian. Mereka juga dapat dibagi menjadi beberapa kategori:


  • Demografis - usia, jenis kelamin, status perkawinan, dll.
  • Keuangan - pendapatan dan pengeluaran, akses ke sumber daya keuangan, ketersediaan cadangan keuangan.
  • Psikologis - salah satu yang paling informatif. Sumber terbaik dari data tersebut adalah riwayat kredit. Sejarah kredit mencirikan disiplin keuangan klien, berisi informasi tentang kemampuan membayar jumlah tertentu, menunjukkan minat saat ini dalam pinjaman. Jika histori kredit tidak terbentuk, Anda harus mencari sumber informasi lain: jejaring sosial, perilaku saat mengisi aplikasi, dll.
  • Informasi kontak - volume dan komposisinya mempengaruhi risiko gagal bayar pinjaman.

Deskripsi dataset


Set untuk pelatihan model adalah 9.500 peminjam yang menerima pinjaman untuk pertama kalinya dari Mei hingga Desember 2018. Data pengujian - 1.500 peminjam untuk periode Januari hingga Maret 2019.


Pemisahan sementara peminjam digunakan karena beberapa alasan. Pertama, pemisahan seperti itu membuat kebocoran informasi dari masa depan tidak mungkin. Kedua, ini memungkinkan kita untuk mengevaluasi stabilitas model dari waktu ke waktu. Dalam pinjaman mikro PDL ( pinjaman Bayaran ), jumlah dan persyaratannya kecil dibandingkan dengan jenis pinjaman lainnya, oleh karena itu, berikut ini dipilih sebagai atribut target: keterlambatan pembayaran selama lebih dari 15 hari.


Desain Fitur


Kami memulai konstruksi tanda-tanda dengan yang lebih umum - ekonomi, kemudian kami akan beralih ke tanda-tanda individual.


Dari faktor makro ekonomi umum, hanya satu faktor yang stabil, dapat diakses, dan diperbarui secara teratur ditemukan - nilai tukar rubel. Ini tersedia di situs web Bank Sentral untuk periode waktu yang lama (dimungkinkan untuk mengunggah data dalam format yang mudah), dan yang paling penting, itu diperbarui setiap hari. Rubel memiliki tren turun yang stabil. Dalam bentuk mentahnya, faktor seperti itu lebih baik tidak digunakan. Setelah periode waktu tertentu, nilai-nilai karakteristik akan melampaui data yang masuk ke dalam set pelatihan dan akan ditafsirkan secara keliru oleh model.


Untuk menghindari konsekuensi negatif, kami akan mengonversi nilai tukar rubel sehubungan dengan nilai saat ini (pada saat pertimbangan aplikasi) ke nilai median selama 35 hari sebelumnya. Sekarang tanda itu bukan nilai absolut dari nilai tukar rubel, tetapi kecenderungan (pertumbuhan, penurunan, kondisi stabil) pada periode yang dipertimbangkan. Pada grafik 1, data diperoleh. Bagan 2 menunjukkan persentase pelanggan default berdasarkan kategori (drop, stabilitas, pertumbuhan).



Bagan 1. Perubahan nilai tukar rubel sehubungan dengan nilai median selama 35 hari terakhir.



Bagan 2. Jumlah pelanggan default tergantung pada perubahan tingkat.


Dari faktor mikro ekonomi yang tersedia: wilayah tempat peminjam bekerja, jenis organisasi, profesi.


Sekilas, wilayah kerja lebih terkait dengan faktor individu daripada faktor ekonomi umum. Namun, dimungkinkan untuk menambahkan informasi ekonomi umum ke dalam data melalui pengelompokan daerah. Situs web Rosstat menyediakan informasi tentang berbagai indikator ekonomi dari suatu wilayah tertentu. Probabilitas default ternyata adalah data tentang tingkat upah rata-rata di wilayah ini, biaya produk tetap, dan jumlah pembayaran yang terlambat pada pinjaman per kapita. Untuk mengelompokkan wilayah, dipilih algoritma pengelompokan aglomeratif. Metode Ward, yang menggabungkan cluster sehingga gain dispersi minimal, digunakan sebagai kriteria koneksi. Cluster data yang dihasilkan dalam grafik tiga dimensi.



Tabel Wilayah yang Dikelompokkan
123456
Wilayah belgorodWilayah MoskowWilayah KalugaWilayah RyazanWilayah TyumenRepublik Krimea
Wilayah BryanskMoskowRepublik KareliaWilayah SmolenskRepublik Sakha (Yakutia)Sevastopol
Wilayah VladimirRepublik KomiWilayah ArkhangelskWilayah TverWilayah MagadanRepublik Dagestan
Wilayah VoronezhWilayah MurmanskWilayah LeningradWilayah TulaRepublik Ingushetia
Wilayah IvanovoSt. PetersburgWilayah permWilayah VologdaRepublik Chechnya
Wilayah KostromaWilayah KamchatkaWilayah SverdlovskWilayah Kaliningrad
Wilayah KurskOblast SakhalinWilayah KrasnoyarskWilayah Novgorod
Wilayah LipetskWilayah IrkutskRepublik Kalmykia
Wilayah OryolWilayah NovosibirskWilayah Krasnodar
Wilayah TambovWilayah KhabarovskWilayah Astrakhan
Wilayah YaroslavlWilayah AmurWilayah Rostov
Wilayah PskovRepublik Bashkortostan
Republik AdygeaRepublik Tatarstan
Wilayah VolgogradRepublik Udmurt
Kabardino-Balkarian R.Republik Chuvash
Karachay-Cherkess R.Wilayah Kirov
Republik Ossetia Utara - AlaniaWilayah Nizhny Novgorod
Wilayah StavropolWilayah Orenburg
Republik Mari ElWilayah Samara
Republik MordoviaWilayah Ulyanovsk
Wilayah PenzaWilayah Kurgan
Wilayah SaratovWilayah Chelyabinsk
Republik AltaiRepublik Buryatia
Wilayah AltaiRepublik Tuva
Republik Khakassia
Wilayah Transbaikal
Wilayah Kemerovo
Wilayah Omsk
Wilayah Tomsk
Wilayah Primorsky

Faktor mikroekonomi penting lainnya adalah profesi. Gambar di bawah ini menunjukkan data tentang pangsa pelanggan default menurut profesi dari set data pelatihan.



Grafik dengan jelas menunjukkan ketergantungan probabilitas default pada profesi. Kepada peminjam kelompok, disarankan untuk menerapkan salah satu prinsip yang diterima secara umum dalam komunitas ekonomi. Rincian kategori dari situs web Rosstat berkorelasi baik dengan data yang disajikan pada grafik.


Pembagian karyawan ke dalam kategori personalia
Berdasarkan kategori personel, pekerja dibagi menjadi manajer, spesialis, karyawan lain, dan pekerja.
  • Manajer termasuk karyawan yang memegang posisi kepala organisasi, divisi struktural dan wakilnya (direktur, kepala: departemen, divisi, shift, dll., Manajer: produksi, kantin, bagian, gudang, binatu, klub, asrama, ruang bagasi dan dll., manajer, ketua, kapten, kepala akuntan dan insinyur, pengrajin, dll.).
  • Spesialis termasuk pekerja yang dipekerjakan dalam pekerjaan yang biasanya membutuhkan pendidikan kejuruan yang lebih tinggi atau menengah: insinyur, dokter, guru, ekonom, akuntan, geolog, dispatcher, inspektur, korektor, matematikawan, perawat, mekanik, penormal, programmer, psikolog, editor, auditor, dll. Spesialis juga termasuk asisten dan asisten untuk spesialis yang disebutkan.
  • Karyawan lain adalah karyawan yang menyiapkan dan melaksanakan dokumentasi, akuntansi dan kontrol, housekeeping, khususnya, agen, arsiparis, petugas, panitera, kasir dan pengontrol (kecuali pekerja), komandan, penyalin dokumentasi teknis, mesin tik, pengawas, statistik, stenografer, pencatat waktu, akuntan, juru gambar.
  • Pekerja termasuk orang-orang yang terlibat langsung dalam proses menciptakan kekayaan, serta mereka yang terlibat dalam perbaikan, perpindahan barang, transportasi penumpang, penyediaan layanan material, dll.


Profesi yang sering dijumpai, seperti pengemudi, manajer, akuntan, dll., Dapat menjadi ciri peminjam dengan berbagai cara, tergantung pada area atau jenis organisasi tertentu. Misalnya, seorang pengemudi yang bekerja di taksi dan pengemudi yang bekerja di pemerintahan kota adalah peminjam yang sama sekali berbeda.


Untuk menambahkan informasi ini ke model, kami akan membagi peminjam berdasarkan jenis organisasi tempat mereka bekerja:


  • Organisasi komersial
  • Organisasi pemerintah
  • Pengusaha individu dan wiraswasta
  • Menganggur
  • Jenis organisasi tidak ditentukan

Untuk memeriksa apakah pemisahan informasi menambah, kita melihat pada bagan “bagian dari peminjam default yang dikelompokkan berdasarkan profesi dan jenis organisasi”.



Penunjukan profesi dan jenis organisasi
profesijenis pekerjaan
0tidak ditentukan0tidak ditentukan
1eksekutif1komersial
2spesialis2negara
3karyawan lain3w wiraswasta
4pekerja4tidak bekerja
5lainnya

Grafik menunjukkan bahwa untuk beberapa profesi ada perbedaan signifikan dalam jenis organisasi peminjam bekerja. Hasil yang tidak terduga diperoleh ketika peminjam menunjukkan bahwa ia tidak bekerja, tetapi pada saat yang sama menunjukkan profesi. Analisis tambahan dari data menunjukkan bahwa perilaku tersebut adalah karakteristik warga negara senior.


Dan faktor ekonomi umum terakhir yang digunakan dalam model adalah hari di mana permohonan pinjaman diajukan. Ini mungkin karena aturan yang diterima secara umum untuk pembayaran upah di Rusia (misalnya, 10 dan 25). Hari-hari dalam sebulan dibagi menjadi dua periode dari hari ke-9 hingga ke-21 secara inklusif dan hari-hari lainnya dalam bulan itu.


Faktor individu


Demografis


Dalam data saya, hanya ada empat karakteristik demografis:


  • Usia peminjam (total tahun)
  • Senioritas di tempat kerja terakhir (dalam beberapa bulan)
  • Status perkawinan (lajang, menikah, pernikahan sipil, cerai, lajang, duda / janda, belum selesai)
  • Jumlah anggota keluarga (tinggal bersama dengan peminjam)

Keuangan


Data peminjam berisi informasi tentang upah dan penghasilan tambahan. Pentingnya faktor-faktor ini sering ditaksir terlalu tinggi oleh pelanggan, sehingga tidak mengandung informasi akurat tentang situasi keuangan peminjam, tetapi memungkinkan Anda untuk mengevaluasinya secara kasar.


Psikologis


Populasi peminjam yang dipilih tidak memiliki pinjaman, oleh karena itu, kami tidak memiliki informasi psikologis (perilaku) dasar. Tetapi 90% pelanggan memiliki informasi tentang jumlah permintaan riwayat kredit selama satu tahun, kuartal, bulan, minggu, hari, jam. Dengan demikian, adalah mungkin untuk menilai kebutuhan pinjaman pada saat ini dan kebutuhan akan pinjaman dalam perspektif historis. Jumlah aplikasi pinjaman yang diajukan dalam waktu singkat menambah informasi tentang psikotipe peminjam. (apakah dia mengajukan satu aplikasi dan menunggu keputusan, dan kemudian mengajukan yang kedua dalam kasus penolakan. Dalam kasus ini akan ada beberapa pinjaman dalam satu jam terakhir, tetapi banyak di hari terakhir. Atau peminjam mengajukan aplikasi ke organisasi yang berbeda dan menunggu keputusan dari semua orang sekaligus.)


Informasi kontak


Saat melamar, diperlukan mengisi informasi kontak Anda sendiri. Juga diinginkan untuk memberikan detail kontak dari dua teman dekat. Itu memungkinkan Anda untuk membuat dua tanda biner tambahan:


  • terisi atau tidak menghubungi 2
  • terisi atau tidak menghubungi 3

Hasilnya, kita mendapatkan tanda-tanda berikut:


  1. Perubahan nilai tukar rubel, tanda numerik
  2. Wilayah kerja, tanda kategoris (6 kategori)
  3. Profesi, tanda kategoris (5 kategori)
  4. Jenis organisasi tempat peminjam bekerja, atribut kategorikal (5 kategori)
  5. Hari pada bulan di mana aplikasi diajukan, tanda biner - jatuh dalam interval dari hari ke-9 hingga ke-21 atau tidak
  6. Jumlah permintaan riwayat kredit untuk:
    • jam
    • hari
    • seminggu
    • bulan
    • seperempat
    • tahun
  7. Status keluarga, tanda kategoris (8 kategori)
  8. Jumlah anggota keluarga, karakteristik numerik
  9. Pengalaman di tempat kerja terakhir, tanda numerik
  10. Usia peminjam, karakteristik numerik
  11. Penghasilan bulanan, karakteristik numerik
  12. Penghasilan tambahan, karakteristik numerik
  13. Diisi atau tidak, hubungi 2, tanda biner
  14. Diisi atau tidak, hubungi 3, tanda biner

Semua data di atas layak secara ekonomi dan mudah dikumpulkan. Terlepas dari kenyataan bahwa mereka tidak mengandung informasi lengkap tentang peminjam, atas dasar mereka dimungkinkan untuk membangun model yang efektif biaya dan bekerja.


Saya akan berbicara tentang proses memilih arsitektur dan hasil yang diperoleh di artikel selanjutnya.
Semoga ini menarik dan bermanfaat.


Panenko Mark, Devim

Source: https://habr.com/ru/post/id454574/


All Articles