Pertimbangkan bagaimana algoritma bekerja dalam penilaian perbankan, metrik apa yang digunakan dan apa parameter peminjam yang mempengaruhi apakah mereka akan memberikan pinjaman atau tidak. Artikel ini menjelaskan
persaingan masa lalu
dengan kaggle pada prediksi probabilitas default dan memberikan parameter yang memengaruhi risiko default.
Kesalahan jenis pertama dan kedua
Tujuan bank adalah menghasilkan uang. Risiko pertama yang dihadapi lembaga kredit adalah memberikan pinjaman kepada peminjam yang gagal bayar. Default dapat memiliki berbagai alasan, dari kesulitan keuangan peminjam hingga penipuan.
Bagi bank, ini adalah kesalahan jenis pertama.
Tetapi jika bank mengejar kebijakan yang keras dan tidak memberikan pinjaman kepada siapa pun, bahkan mereka yang akan mengembalikan uang itu, maka bank tidak akan mendapatkan bunga. Menolak pinjaman kepada peminjam yang bertanggung jawab adalah kesalahan jenis kedua.
Untuk menilai kualitas keputusan yang dibuat oleh algoritma, koefisien Gini (GINI) digunakan. Di bidang ekonomi dan Ilmu Data, koefisien Gini memiliki interpretasi yang berbeda. Untuk penilaian kredit, dihitung sebagai
GINI = 2 ROC AUC - 1
Untuk mengevaluasi skor bank, kurva ROC AUC standar digunakan!

Gambar. 1 ROC AUC curve. Area di bawah kurva menunjukkan kualitas algoritma. Jika luasnya 0,5, maka ini adalah ramalan acak (untuk klasifikasi biner), 1 adalah ramalan ideal.
Algoritma Skor
Fitur algoritma penilaian adalah persyaratan untuk interpretabilitas. Dalam hal ini, model linier sering digunakan.
Untuk memaksimalkan kualitas, masuk akal untuk menggunakan komposisi pohon seperti hutan acak, dan XGboost. Untuk kasus dengan sejumlah besar data transaksional, arsitektur DNN juga cocok, tetapi disarankan untuk menggunakan jaringan saraf hanya untuk lembaga kredit terbesar.
Penggunaan algoritma dalam lembaga kredit sering disebabkan bukan oleh memaksimalkan kualitas, tetapi oleh persyaratan untuk proses pengambilan keputusan, jadi pastikan bahwa jaringan saraf Anda cukup dapat ditafsirkan sebelum melepaskan keputusan ke dalam pertempuran!
Parameter yang Mempengaruhi Risiko Default
Kami akan menganalisis parameter yang mempengaruhi menggunakan contoh solusi dari kompetisi di Kaggle - Home Credit Default Risk, yang terjadi setahun yang lalu.
Dalam satu set 220 parameter.

Gambar. 2 Distribusi kredit macet dan dilunasi.
Sejumlah gambar diambil dari laptop yang diterbitkan oleh para kontestan, untuk perincian lebih lanjut tentang solusinya dapat ditemukan di
sini .
Sumber:
1 ,
2 ,
3Kelas tidak seimbang, default kurang dari pinjaman yang dibayar kembali.
Kami memvisualisasikan distribusi parameter untuk menentukan apakah kredit macet memiliki distribusi yang berbeda.

Gambar. 3 Contoh distribusi pinjaman macet dan dilunasi berdasarkan usia.
Dari gambar 3 dapat disimpulkan bahwa peminjam muda memiliki risiko gagal bayar yang lebih besar.
Selain karakteristik peminjam yang dijelaskan, ada juga parameter seperti EXT_SOURCE 1,2,3. Dalam kumpulan data ini, ini adalah parameter yang diperoleh dari biro kredit dan penyedia data eksternal. Perusahaan DATA4 tempat saya bekerja adalah contoh dari penyedia seperti itu, tetapi kumpulan data kami tidak tersedia. Pemain aktif di pasar perdagangan data adalah operator seluler dan BKI.
Kami akan membangun matriks korelasi untuk melihat parameter apa yang diprediksi berkorelasi dengan penyedia data eksternal dan bagaimana mereka mempengaruhi kualitas algoritma.

Kami membangun distribusi sesuai dengan data pemasok eksternal, dan kami akan melihat bahwa mereka memiliki perbedaan untuk pinjaman default.
Untuk lebih banyak fitur, kami mendapatkan gambar berikut, yang sulit untuk diinterpretasikan, tetapi yang memberikan pandangan holistik.


Temukan faktor default dengan fitur_importances

Mari kita buat diagram tentang pentingnya atribut untuk algoritma RF.

Apa yang mempengaruhi
1) Penilaian dari biro kredit dan penyedia data eksternal seperti perusahaan kami
2) Usia dan jenis kelamin
3) Waktu dimana peminjam tinggal di tempat pendaftaran terakhir
4) Jangka waktu pinjaman
5) Jenis pinjaman yang diminta
6) Persentase bahwa pinjaman akan berada pada arus kas dan gaji pelanggan
7) Waktu peminjam menggunakan nomor telepon terakhir
8) Waktu di tempat kerja terakhir, dan bagian dari total panjang layanan
9) Arus kas kredit
10) Jumlah pinjaman
Artikel memeriksa prinsip-prinsip penilaian kredit, dan menunjukkan parameter yang memberikan kontribusi terbesar pada keputusan pinjaman. Hasilnya terlihat masuk akal, semakin baik sejarah kredit peminjam, semakin lama peminjam bekerja di satu pekerjaan, semakin sedikit Anda mengubah nomor telepon dan tempat tinggal, dan semakin kecil bagian pinjaman dari pendapatan yang dapat dibuang, semakin rendah risiko gagal bayar. Tetapi harus diingat bahwa hasilnya didasarkan pada data lembaga pemberi pinjaman tertentu, dan mungkin tidak cocok untuk kasus lain.