小额信贷中的机器学习:为信用记录为空的客户建立评分模型

没有信用记录-不提供贷款,不提供贷款-没有信用记录。 某种恶性循环。 怎么办 让我们做对。


你好 我叫Mark,我是Devim的数据科学家。 最近,我们推出了一种为没有信用记录的国际金融公司借款人“薪水”计分的模型。 我想分享数据检索,设计功能和功能解释的经验。



该主题分为两个出版物,在第一个中,我将讨论搜索和构造标志的过程。 第二部分是关于比较模型体系结构,分析结果以及解释评分决策。


第一部分 功能设计


机器学习模型基于其质量和完整性是模型成功或失败的决定因素的数据。 但是,如果数据很少,该怎么办? 还是数据不够充分或不准确? 在建立模型时在哪里可以找到更多信息以及如何使用它? 让我告诉你我如何解决这个问题。


信用风险评估因素


信用评分是基于对与贷款违约风险相关的借款人特征的分析。 他们可以分为一般经济和个人。


一般经济因素


经济环境对借款人的财务和心理状况有重大影响。 通过突出显示与借款人相关的因素,可以更准确地评估影响程度。 有条件地将它们分为两个级别:


  • 宏观因素是借款人外部的因素。 它们通常包括GDP,通货膨胀,汇率等。
  • 微观因素是表征特定借款人的因素 ,例如专业,行业,平均工资等。
    立即值得注意的是,一般的经济因素是另外的因素。 根据许多研究人员的说法,它们所包含的信息是一般性的,对于特定借款人而言微弱。

个人因素


各个因素都包含评分模型中最有价值的信息。 它们也可以分为几类:


  • 人口特性 -年龄,性别,婚姻状况等
  • 财务 -收入和支出,获得财务资源,财务储备的可用性。
  • 心理 -最有用的信息之一。 此类数据的最佳来源是信用记录。 信用历史记录表征客户的财务纪律,包含有关偿还特定金额能力的信息,并显示贷款的当前利息。 如果没有建立信用记录,则必须寻找其他信息来源:社交网络,填写申请时的行为等。
  • 联系信息 -其数量和构成会影响贷款违约的风险。

数据集描述


该模型的培训设置是9,500名借款人,他们从2018年5月至2018年12月首次获得贷款。 测试数据-2019年1月至2019年3月的1,500个借款人。


临时分离借款人有几个原因。 首先,这种分离使得未来信息泄漏的可能性不大。 其次,这使我们能够评估模型随时间的稳定性。 与其他类型的贷款相比,在PDL( 发薪日贷款 )小额贷款中,金额和期限较小,因此,选择了以下属性作为目标属性:延迟付款超过15天。


功能设计


我们从较一般的标志(经济的)开始构建标志,然后再转向单个标志。


在一般的经济宏观因素中,只有一个稳定,可获取且定期更新的因素-卢布汇率。 它可以在中央银行的网站上长期使用(可以方便的格式上传数据),最重要的是,它每天都会更新。 卢布走势稳定。 以其原始形式,最好不要使用这种因素。 在特定时间段后,特征值将超出属于训练集的数据,并且将被模型错误地解释。


为避免产生负面影响,我们会将卢布汇率(相对于当前汇率)(在考虑申请时)转换为前35天的中位数。 现在,符号不是卢布汇率的绝对值,而是所考虑时期内的趋势(增长,下降,稳定状态)。 在图1中,获得了数据。 图2按类别(下降,稳定性,增长)显示了默认客户的百分比。



图1.过去35天里卢布汇率相对于中值的变化。



图2.默认客户的数量取决于费率的变化。


在可用的经济微观因素中:借款人工作的地区,组织类型,职业。


乍一看,工作区域更多地与个人因素有关,而不是与一般经济因素有关。 但是,可以通过区域分组将一般经济信息添加到数据中。 Rosstat网站提供有关特定区域各种经济指标的信息。 违约的概率证明是该地区平均工资水平,一组固定产品的成本以及人均贷款的逾期付款额的数据。 为了对区域进行分组,选择了聚集聚类算法。 使用Ward方法(结合簇以使色散增益最小)作为连接标准。 所得的数据簇在三维图中。



分组区域表
1个23456
别尔哥罗德州莫斯科地区卡卢加地区梁赞地区秋明州地区克里米亚共和国
布良斯克州莫斯科卡累利阿共和国斯摩棱斯克州萨哈共和国(雅库特)塞瓦斯托波尔
弗拉基米尔地区科米共和国阿尔汉格尔斯克州特维尔地区马加丹地区达吉斯坦共和国
沃罗涅日地区摩尔曼斯克州列宁格勒地区图拉地区印古什共和国
伊凡诺沃州圣彼德堡彼尔姆地区沃洛格达州车臣共和国
科斯特罗马地区堪察加半岛领土斯维尔德洛夫斯克州加里宁格勒地区
库尔斯克地区萨哈林州克拉斯诺亚尔斯克地区诺夫哥罗德州
利佩茨克州伊尔库茨克州卡尔梅克共和国
奥廖尔州新西伯利亚地区克拉斯诺达尔地区
坦波夫地区哈巴罗夫斯克地区阿斯特拉罕地区
雅罗斯拉夫尔地区阿穆尔河地区罗斯托夫地区
普斯科夫地区巴什科尔托斯坦共和国
阿迪格共和国tar斯坦共和国
伏尔加格勒地区乌德穆尔特共和国
Kabardino-Balkarian R.楚瓦什共和国
卡拉恰伊-切尔克斯河基洛夫地区
北奥塞梯共和国-阿拉尼亚下诺夫哥罗德州
斯塔夫罗波尔地区奥伦堡地区
马里埃尔共和国萨马拉地区
莫尔多维亚共和国乌里扬诺夫斯克州
奔萨地区库尔干地区
萨拉托夫地区车里雅宾斯克州
阿尔泰共和国布里亚特共和国
阿尔泰地区图瓦共和国
哈卡斯共和国
跨贝加尔领地
克麦罗沃地区
鄂木斯克州
托木斯克州
滨海边疆区

另一个重要的微观经济因素是专业。 下图显示了来自培训数据集的按行业划分的默认客户份额数据。



该图清楚地表明了违约概率对专业的依赖性。 对于借款人,建议采用经济界普遍接受的原则之一。 Rosstat网站上的分类细目与图表上显示的数据密切相关。


将员工分为人员类别
按人员类别,工人分为经理,专家,其他雇员和工人。
  • 管理人员包括担任组织,结构部门及其代表的负责人(董事,负责人:部门,部门,班次等)的员工,管理人员:生产,食堂,部门,仓库,洗衣店,俱乐部,旅馆,行李室和经理,主席,船长,总会计师和工程师,工匠等)。
  • 专家包括通常需要高级或中等职业教育的工作的工人:工程师,医生,教师,经济学家,会计师,地质学家,调度员,检查员,校对员,数学家,护士,机械师,规范师,程序员,心理学家,编辑,审核员等 专家还包括助手和指定专家的助手。
  • 其他员工是指准备并执行文档,会计和控制,内务处理的员工,尤其是代理商,档案管理员,服务员,文员,收银员和控制员(工人除外),司令官,技术文档抄写员,打字机,主管,统计资料,速记员,计时员,会计师,制图员。
  • 工人包括直接参与创造财富过程的人员,以及涉及修理,货物运输,旅客运输,物质服务提供等的人员。


经常遇到的职业,例如司机,经理,会计师等,可以根据特定领域或组织类型以不同的方式来表征借款人。 例如,在出租车上工作的驾驶员和在城市管理部门工作的驾驶员是完全不同的借款人。


要将这些信息添加到模型中,我们将按借款人所在的组织类型进行划分:


  • 商业组织
  • 政府机构
  • 个体企业家和个体经营者
  • 闲置
  • 未指定组织类型

为了检查信息分离是否增加,我们查看图表“按专业和组织类型分组的违约借款人的份额”。



专业名称和组织类型
职业工作类型
0未指定0未指定
1个高管1个商业的
2专家2
3其他员工3无业者
4工人4不工作
5其他

该图显示,对于某些职业,借款人从事哪种组织类型存在显着差异。 当借款人表示他没有工作但同时表示职业时,会得到意想不到的结果。 对数据的进一步分析表明,这种行为是老年人的特征。


模型中使用的最后一个一般经济因素是提交贷款申请的月份。 这可能是由于俄罗斯普遍接受的工资支付规则(例如10和25)。 每月的日期分为两个时段,从第9天到第21天(包括该天)和该月的其余天。


个人因素


人口统计


在我的数据中,只有四个人口统计特征:


  • 借款人年龄(总年数)
  • 最后工作地点的资历(以月为单位)
  • 婚姻状况(单身,已婚,民事婚姻,离婚,单身,w夫/寡妇,未完成)
  • 家庭成员人数(与借款人共同生活)

财务方面


借款人的数据包含有关工资和额外收入的信息。 客户常常高估了这些因素的重要性,因此它们不包含有关借款人财务状况的准确信息,但可以让您粗略评估。


心理的


选定的借款人没有贷款,因此,我们没有基本的心理(行为)信息。 但是90%的客户了解有关一年,季度,月,周,日,小时的信用历史记录请求数量的信息。 因此,可以从历史的角度评估当前需要的贷款和需要的贷款。 短期内提出的贷款申请数量增加了有关借款人心理型态的信息。 (他是否提交了一个申请并等待决定,然后在拒绝时提交了第二个申请。在这种情况下,最后一小时的贷款很少,但最后一天会有很多。或者借款人向不同的组织提交申请,并等待每个人的决定。)


联络资料


申请时,需要填写您自己的联系信息。 还希望提供两个密友的联系方式。 这样就可以创建两个附加的二进制符号:


  • 充满或不接触2
  • 填补或未联系3

结果,我们得到以下迹象:


  1. 卢布汇率变动,数字符号
  2. 工作区域,分类标志(6个类别)
  3. 专业,分类标志(5类)
  4. 借款人所在的组织类型,类别属性(5个类别)
  5. 提交申请的月份中的哪一天(二进制符号)介于9天到21天之间
  6. 下列信用记录要求的数量:
    • 小时
    • 一个星期
    • 四分之一
    • 年份
  7. 家庭状况,分类标志(8个类别)
  8. 家庭成员人数,数值特征
  9. 最后工作的经验,数字符号
  10. 借款人年龄,数值特征
  11. 月收入,数值特征
  12. 附加收入,数值特征
  13. 填充或未接触2,二进制符号
  14. 填充或未接触3,二进制符号

以上所有数据在经济上都是可行的,并且易于收集。 尽管它们不包含有关借款人的完整信息,但在此基础上仍可以构建具有成本效益的工作模型。


我将讨论选择体系结构的过程以及下一篇文章中获得的结果。
希望它是有趣和有益的。


帕万科·马克,德文

Source: https://habr.com/ru/post/zh-CN454574/


All Articles