机器学习在信贷风控建模中的优势和应战
作者头像
  • 陈慧融
  • 2019-06-12 11:21:34 1

在国内和国际金融风控领域,大致可以分为两大流派。一种是以统计学为基础的方法,主要应用于传统金融机构,如银行和金融消费公司,侧重于评分卡模型的构建。另一种则是利用互联网背景的新方法,运用机器学习和深度学习等手段解决金融风控问题。本文将探讨这两种方法的优劣,并重点介绍机器学习和深度学习在金融风控领域的实际应用。

一、评分卡模型

评分卡模型是一种基于线性回归的简单模型,已在传统金融风控领域广泛应用了上百年。评分卡模型对特征的选择有以下偏好:

  1. 特征覆盖率高,通常超过70%;
  2. 特征与逾期率之间存在线性相关;
  3. 特征随时间变化而保持稳定;
  4. 特征变量与风险趋势的相关性具有较强的解释性,并且入模变量较少,一般为8-12个。

这些特征选择的偏好旨在保证入模特征的稳定性和有效性。例如,黑名单、负债和资产等特征常被纳入模型。在小样本量和强特征的情况下,评分卡模型可以提供稳定的预测效果。

1. 特征选择和参数求解

评分卡模型中的特征选择注重特征的覆盖率、线性相关性和稳定性。参数求解方面,通常设定损失函数并通过凸优化求解。当样本量较少时,可以通过专家经验和单特征的区分能力(如KS/IV值)来设定权重。

2. 非线性和交叉特征处理

评分卡模型在处理非线性和交叉特征时,常用WOE转换和分桶处理。WOE转换可以将非线性特征转换为线性特征,而分桶处理可以将跳跃性较大的连续特征转化为强线性特征,从而增强模型的鲁棒性。交叉特征的处理可通过客户分群实现,即将客户按照基本属性划分成不同群体,然后对每个群体单独建模。

3. 总结

评分卡模型的优点包括稳定性、高可解释性和快速适应市场变化的能力。然而,其缺点在于对特征的要求较高,且严重依赖建模者的经验,挖掘的信息价值相对有限。

二、机器学习的出现

随着机器学习技术的发展,传统金融逐渐向互联网金融转型。互联网金融具有订单数量多、订单金额低、贷款期限短、客群资质差和风控预算低等特点,这要求风控模型覆盖更广泛的人群,并具备快速预测能力和较低的成本。

1. 传统金融与互联网金融的差异及新要求

传统金融和互联网金融在订单数量、金额、贷款期限和客群资质等方面存在显著差异。互联网金融需要覆盖更多资质较差的客户,因此对风控模型的要求更高。此外,互联网金融的借贷期限较短,需要模型具备较短的预测有效期;同时,风控数据的价格也需要较低。

2. 金融风控数据

风控数据分为资质数据、信贷数据、消费数据和行为数据四类。资质数据包括个体的房产、教育水平和工资等信息;信贷数据包括历史借贷额度、借贷次数和还款情况等;消费数据包括电商平台上的消费记录;行为数据包括个体之间的联系、手机App的使用列表、手机型号和阅读内容类别等。互联网金融中,资质数据和合规信贷数据较少,但行为数据较为丰富。

3. 机器学习的优势及挑战

机器学习在处理弱相关性数据时具有较强的能力,尤其适合处理非线性和交叉特征。机器学习方法如随机森林、GBDT、XGBoost和LightGBM等,可以构建更为复杂的模型,从而更好地发掘数据价值。然而,机器学习在信贷风控领域的应用面临样本量较小、预测周期较长和泛化能力较弱等挑战。

三、机器学习技术的应用

在信贷风控领域,机器学习技术的应用主要集中在以下几个方向:

  1. 特征工程:通过社交关系图、二部图游走和Word2Vec等方法,从行为数据中提取新的特征,以增强模型的预测能力。
  2. 模型和数据管理:采用传统风控为主、机器学习为辅的方法,通过高要求特征选择和模型监控等手段,提升模型的稳定性和泛化能力。
  3. 大规模机器学习:尝试使用大规模机器学习模型,如XGB-LR、DeepFM和Deep&Wide等,以应对百万级别样本和数万维特征的需求。这类模型在实际应用中表现出较好的效果,但仍需进一步优化。

总结

机器学习技术在信贷风控领域尚处于成长阶段,未来还有很大的发展空间。引入新技术时,应充分考虑应用场景的特性,充分发挥机器学习的优势,以实现更好的风控效果。

    本文来源:图灵汇
责任编辑: : 陈慧融
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
应战建模信贷机器优势学习
    下一篇