编者按:去年P2P公司遇冷后,纷纷转型称会用大数据、机器学习等科技手段服务金融,摇身一变成为时髦的Fintech金融科技公司。但实现过程并不简单,让机器代替人去处理数据做判断,在国内金融领域才刚刚起步。
CreditX氪信是雷锋网接触的一家用机器学习做风控的公司,在金融领域拥有不少实验经验和思考。本文援引CreditX氪信在招商银行信用卡中心年度务虚会培训干货内容为例, 来解析人工智能和机器学习将会如何登上金融风控的主要舞台。
对于躲在触屏手机背后的客户,更广范围缺失征信数据的客户,金融风控体系已愈发难以通过传统风控手段去判断用户是谦谦君子还是骗子流氓,而人工智能作为过去互联网搜索、推荐处理上百万维数据的最重要手段,在处理新金融业务万维数据方面,正形成有效的降维颠覆。
在谈及机器学习在金融场景中的实际应用之前,首先我们以金融风控信用贷业务流程举例进行梳理,通常一个风控业务包括前端页面用户资料申请提交和收集,反欺诈、合规、逻辑校验,核心决策授信包括申请评分和电调,以及最后的催收。
面对这套业务流程, 新金融风控领域面对的数据痛点,一般有几大类:
业务流程上,机器学习已经在每个风控节点发挥作用。比如反欺诈环节,在泛互联网的环境里, 金融风控面临的传统个体欺诈已迅速演变为有组织、有规模的群体欺诈和关联风险。而传统反欺诈还停留在识别一度风险等这种简单规则方式,如联系人中借贷人个数等,对于二度、三度乃至更广范围的网络全局风险苦无良策。机器学习里面基于图的半监督算法很好地解决了这一诉求,基于申请人、手机号、设备、IP地址等各类信息建立节点,再根据其申请关系、电话关系、拥有关系等生成边,我们就可以构建庞大网络图并在此之上可进行基于规则和机器学习的反欺诈模型实时识别。
在申请评分环节,传统金融风控往往是基于评分卡体系对强征信数据如银行借贷记录等进行建模,而新金融的业务下,客群的进一步“下沉”,覆盖更多收入群体,新增群体的强征信数据往往大量缺失,金融机构不得不使用更多弱金融数据, 辟如消费数据、运营商数据、互联网行为数据等。这类底层数据的改变,对传统信用评分卡造成了巨大的困难,具体体现在:
1.诸如互联网行为、运营商数据很多都是非结构化数据,数据繁杂, 建模前的特征工程很难用传统人工的方式完成加工。
2.由于数据类型和范围的大幅扩大,新模型面对的往往是加工出来的上千维弱变量特征,评分卡体系根本无法融合吸收这些特征。
3.机器学习先进风控技术也带来了模型“黑盒”的问题,如何理解和把控黑盒结果与风险之间的关系已成为AI技术在金融领域应用的一大门槛。
人工智能和机器学习对上述问题有独到处理:
面对数据繁杂的问题,基于深度学习的特征生成框架已被成熟运用于大型风控场景中,通过如RNN、词嵌入、LSTM、CNN等深度学习神经网络可成熟实现对时序、文本、图像等稀疏属性数据的特征逐层提取。仅以CNN或LSTM提取短信文本特征为例,文本通过训练好的词向量模型映射到嵌入向量,通过CNN完成特征提取,最终进入分类器网络即可将文本数据与违约风险实现深度挂钩。
而成熟场景上的实践也证明,机器生成特征正显现出对模型效果超出想象的提升,深度学习对于挖掘深层时序关系,文本内容深层含义等都超越了人工定义的深度。
【图注】上图为大型信用贷场景中模型重要性特征列表,机器学习特征比例已经超过专家人工特征。
针对数据驾驭难的挑战,由于传统评分卡模型在面对上千维度弱变量且存在大量缺失值的情况下无法应对,目前氪信在大型金融场景核心风控系统中的成熟实践经验是复杂集成模型。通过对机器学习特征和专家人工特征构建规则模型、机器学习模型、深度学习模型等并进行复杂集成,即可灵活应对客户全方位需求,实现对不同用户的高度差异化定价,同时充分利用不断产生的数据和监控模型性能持续进行模型在线快速自迭代,为客户实现自适应的外部风险变化。
此外,我们知道金融风控专家都很关心模型的可解释性,而机器学习是一个“黑盒”,其中的风险很难去把控和估计,这与金融场景的诉求是矛盾的。目前氪信通过不断地验证,已成熟实现LIME模型解释器在风控场景中的应用。其原理在于对局部分界面以线性函数拟合部分曲线,就能够做到捕获影响结果的关键变量,并展示给我们的风控专家让其迅速理解结果和特征之间的内在联系。
事实上,机器学习要解决的问题很清晰,所有的这一套数据适配融合、群体反欺诈、特征工程、模型构建和训练、性能监控与自迭代的机制,包括深度学习,半监督学习,在线学习等技术,核心都是为了将互联网级别的机器学习技术“降维”应用到金融领域,解决新金融场景上数据的独特性,一方面可用数据比互联网要少,另一方面又比传统评分卡体系多了很多不可解释、高维稀疏的大数据。