什么影响信贷的发行。 房屋信贷违约风险竞赛概述

考虑一下算法在银行计分中的工作原理,使用的度量标准以及借款人的哪些参数会影响他们是否发放贷款。 本文介绍了与kaggle过去在预测违约概率方面的竞争,并提供了影响违约风险的参数。

第一种和第二种错误


银行的目标是赚钱。 信贷机构面临的第一个风险是向违约的借款人提供贷款。 违约可能有多种原因,从借款人的财务困难到欺诈。

对于银行来说,这是第一种错误。

但是,如果银行奉行强硬的政策,不向任何人发放贷款,即使是那些会归还钱的人,那么银行也不会赚取利息。 拒绝向负责任的借款人提供贷款是第二种错误。

为了评估算法做出的决策质量,使用了基尼系数(GINI)。 在经济学和数据科学中,基尼系数有不同的解释。 对于信用评分,其计算公式为

基尼= 2 ROC AUC-1

为了评估银行得分,使用了标准的ROC AUC曲线!




图1 ROC AUC曲线 曲线下方的区域显示了算法的质量。 如果面积为0.5,则这是随机预测(对于二进制分类器),1是理想预测。

评分算法


评分算法的一个特点是对可解释性的要求。 在这方面,经常使用线性模型。

为了最大程度地提高质量,可以使用诸如随机森林和XGboost之类的树组合。 对于具有大量交易数据的情况,DNN体系结构也适用,但是建议仅将神经网络用于最大的信贷机构。

在信贷机构中使用算法通常不是由于质量最大化而是决策过程的要求所致,因此在将决策付诸实践之前,请确保您的神经网络具有足够的可解释性!

影响默认风险的参数


我们将使用一年前在Kaggle进行的房屋信用违约风险竞赛中的解决方案示例来分析影响参数。

一组220个参数。


图2违约和还款贷款的分布。
许多图像是从参赛者发布的笔记本电脑上拍摄的,有关解决方案的更多详细信息,请参见此处

资料来源: 1、2、3

类别不平衡,违约小于还贷。

我们将参数的分布可视化,以确定违约贷款是否具有不同的分布。



图3违约和还款贷款按年龄分布的示例。

从图3中可以看出,年轻的借款人有更大的违约风险。

除了所描述的借方特征外,还有诸如EXT_SOURCE 1,2,3之类的参数。 在此数据集中,这些是从征信机构和外部数据提供者获得的参数。 我工作的DATA4公司就是这样一个提供程序的示例,但是我们的数据集不可用。 数据交易市场中活跃的参与者是移动运营商和BKI。

我们将建立一个相关矩阵,以查看外部数据提供者的预测与哪些参数相关以及它们如何影响算法的质量。



我们根据外部供应商的数据构造分布,我们将发现它们在拖欠贷款方面存在差异。

对于更多功能,我们得到以下图片,该图片难以解释,但提供了整体视图。





通过feature_importances查找默认因子



让我们构造一个属性对于RF算法的重要性的图表。



有什么影响


1)从信用社和我们公司等外部数据提供商那里获得评分
2)年龄和性别
3)借款人在上次登记地点居住的时间
4)贷款期限
5)要求的贷款类型
6)贷款占现金流量和客户工资的百分比
7)借款人使用上一个电话号码的时间
8)最后工作时间,占总工作时间的比例
9)信贷现金流量
10)贷款金额

文章研究了信用评分的原理,并显示了对贷款决定做出最大贡献的参数。 结果看起来似乎合理,借款人的信用记录越好,借款人从事一份工作的时间越长,您更改电话号码和居住地的次数就越少,可支配收入中贷款所占的份额越小,违约风险就越低。 但是应该记住,结果是基于特定贷款机构的数据,可能不适用于另一种情况。

Source: https://habr.com/ru/post/zh-CN483820/


All Articles