Pembelajaran Mesin Terhadap Risiko Kredit, atau "Ayo, Gini, Ayo"

Bank, menurut definisi, adalah "organisasi moneter," dan masa depannya tergantung pada seberapa sukses organisasi ini mengeluarkan dan membayar pinjaman. Agar berhasil bekerja dengan pinjaman, Anda perlu memahami situasi keuangan peminjam, yang dibantu oleh faktor risiko kredit (FKR). Analis kredit mengidentifikasi mereka dalam sejumlah besar informasi perbankan, memproses faktor-faktor ini dan memperkirakan perubahan lebih lanjut. Biasanya, analisis deskriptif dan diagnostik digunakan untuk ini, tetapi kami memutuskan untuk menghubungkan alat pembelajaran mesin dengan pekerjaan. Baca tentang apa yang terjadi di pos.



Beberapa faktor risiko kredit berada di permukaan, sementara yang lain perlu dicari jauh di dalam perut data perbankan. Perubahan nilai tukar dolar, pendapatan pelanggan, beban utang, penurunan penjualan dan peringkat, pengadilan, kasus kriminal, merger dan akuisisi - semua ini memberikan sinyal statistik kekuatan yang berbeda. Untuk menyusun gambaran keseluruhan peminjam dengan benar, perlu tidak hanya menangkap semua sinyal yang terkait dengannya, tetapi juga untuk mengevaluasi kekuatan mereka.

Analitik deskriptif dan diagnostik telah bekerja dengan baik dalam bekerja dengan FCR, namun demikian, metode ini bukan tanpa kekurangan. Penggunaan analitik terbatas pada regulator - tidak semua metode dan model canggih dapat disetujui oleh mereka. Analytics tidak fleksibel dan tidak memberikan peluang untuk menyajikan data dalam irisan yang sewenang-wenang - dan ini seringkali sangat diperlukan. Dan dengan efisiensi dalam hal ini, tidak semuanya hebat. Dan itu juga terjadi bahwa untuk beberapa model analitis tidak ada cukup data.

Mengapa tidak mencoba pembelajaran mesin untuk tujuan ini? Jadi sangat mungkin untuk meningkatkan perhitungan pentingnya faktor risiko kredit, dalam istilah teknis - untuk meningkatkan beberapa poin persentase indikator Gini, dimana kami mengevaluasi keakuratan model perkiraan. Semakin baik perhitungan FKR, semakin akurat penilaian kondisi keuangan pelanggan - semakin tinggi kualitas portofolio pinjaman bank. Dan semakin rendah proporsi tenaga kerja manual.

Kemajuan proyek


Cloudera Hadoop dipilih untuk menyimpan data besar, Apache Spark dan Apache Hive SQL digunakan untuk akses ke data mentah, Apache Oozie digunakan untuk mengoordinasikan dan memulai unduhan dan aliran perhitungan. Menggunakan Apache, Zeppelin dan JupyterHub memvisualisasikan dan menjelajahi data. Selain itu, mereka menggunakan sejumlah perpustakaan pembelajaran mesin yang mendukung pemrosesan paralel - Spark MLIB, PySpark dan H20.



Tujuh node dialokasikan untuk semua ini:

  • 3 master node dengan 64 GB vRAM dan 2 TB ruang disk masing-masing
  • 3 node data dengan vRAM 512 GB dan masing-masing 8 TB
  • 1 node untuk aplikasi dengan 128 GB vRAM, 2,5 TB



Seluruh proyek memakan waktu tiga bulan dan terdiri dari tiga tahap demo, masing-masing empat sprint mingguan. Untuk perhitungan, 22 faktor risiko kredit dipilih selama proyek.

Pada tahap pertama, kami menggunakan infrastruktur dan menghubungkan sumber data pertama:

  • Penyimpanan informasi perusahaan (FIR) - penyimpanan utama di bank. Untuk beroperasi secara bebas dengan data dalam Data Lake dan tidak membuat beban pada sistem produksi, kami memuatnya secara keseluruhan.
  • Sistem penghitungan peringkat () adalah salah satu database utama untuk menilai risiko yang terkait dengan aktivitas klien perusahaan. Ini berisi informasi tentang peringkat perusahaan, indikator laporan keuangan.
  • Data dari sumber eksternal yang mencerminkan afiliasi dan kriteria lainnya.
  • File terpisah yang berisi informasi dan data tambahan untuk pekerjaan para ilmuwan data.

Pada tahap kedua, PCF pertama dihitung, kami mencoba membangun model berdasarkan indikator ini, memasang alat BI dan membahas bagaimana memvisualisasikan dinamika PCF. Sebagai hasilnya, kami memutuskan untuk mempertahankan struktur lembar bentang Excel yang sudah dikenal dalam alat baru, meninggalkan visualisasi lanjutan untuk masa depan.

Dan akhirnya, pada tahap akhir, kami mengunduh semua data yang hilang, termasuk dari sumber eksternal. Bank khawatir bahwa signifikansi statistik mereka akan kecil, jadi kami melakukan tes statistik yang membuktikan sebaliknya. Demo terakhir menunjukkan pengoperasian alat datacience, BI, pemuatan reguler, dan pembaruan data. Dari 22 faktor, hanya dua yang tidak dihitung dalam uji coba, karena alasan eksternal - kurangnya data dengan kualitas yang diperlukan.

Hasil


Cluster pada Hadoop mudah scalable dan memungkinkan model untuk memberi makan lebih banyak data, dan mereka dapat melakukan perhitungan secara paralel. Indikator Gini telah tumbuh - model telah lebih akurat memprediksi peristiwa tertentu yang terkait dengan faktor risiko kredit.

Sebelumnya, analis kami harus menghubungi Departemen TI untuk menulis pertanyaan SQL ke repositori perusahaan, dan kemudian memproses model di komputer pribadi mereka. Dan sekarang, pilot cluster memungkinkan analis untuk menulis pertanyaan sendiri, yaitu, meningkatkan data mentah dan memproses model jauh lebih cepat.

Paket


Tahun ini kami akan melanjutkan pengembangan proyek. Kami akan menggunakan infrastruktur Data Lake pada peralatan khusus untuk meningkatkan kecepatan pengambilan sampel dan pemrosesan. Kami mengatur berdasarkan "danau" sumber daya tunggal terpusat untuk analisis kredit. Tambahkan beberapa sumber data lagi dan tancapkan perpustakaan pembelajaran mesin baru.

Divisi lain dari bank menjadi tertarik pada proyek kami - CRM, audit internal (mencari penipu, identifikasi transaksi yang mencurigakan), dukungan operasional (anti penipuan), analis industri. Saat menggunakan "kotak pasir" yang kami berikan kepada mereka perkembangan kami, mereka akan mendapatkan akses mudah ke data, kemampuan untuk menghubungkan sumber data apa saja dan bereksperimen pada mereka menggunakan model pembelajaran mesin.

Source: https://habr.com/ru/post/id417739/


All Articles