FICO前首席科学家：风险信用模型的技术演进与未来

贷款神经网络 FICO 征信

2018/01/29 18:41

FICO前首席科学家：风险信用模型的技术演进与未来

作为金融业的基石，征信对于普惠金融发展的重要性不言而喻。而对比历经百年的美国征信市场，我国征信行业远未成熟，个人征信牌照也迟迟未落地。它山之石，可以攻玉。每当这时，美国征信巨头费埃哲(FICO)公司是一个无法绕开的典型研究案例。

在近日拍拍贷举办的2018年智慧金融高峰论坛上，FICO原首席科学家、大数据进行风险决策领域的世界级领军人物Joseph Milana博士进行了“风险信用模型的历史和展望”主题分享。

风险信用模型是借贷的前提。Joseph Milana博士表示，美国过去十五年最大的一块借贷是抵押贷款。2009年大萧条的一部分成因就是逾期贷款比例非常高，且并不重视风险建模，“那个时候有很多风险评估原则都被大家放弃了，因此当时有大量的不良贷款产生，这就是逆向选择，吸引贷款的都是信用不好的人。”在那之后，美国金融市场又开始重视，并建立了良好的风险评估机制。据雷锋网了解，目前，不良贷款又回到了可以被管理的水平。

以下是演讲原文，雷锋网作了不改变原意的编辑：

FICO公司的演进史

FICO创立于1956年，当时只是一个咨询公司，专门做运营研究。1958年，FICO发明了信用评分。在七十年代，美国国会推出了公平信用评分法案，法规要求进行贷款评估的时候必须确保信息是准确的，还有另外一个特点就是如果做出拒绝的决策，这个决策必须是可被解释的。1974年，推出了平等信用机会法案，必须要公平，给予信贷的时候必须要根据能力评估，不能根据性别或者说种族来评估。1975年，FICO开发了第一个系统来预测现有客户的信用风险。基于他们现在的行为，比如说使用信用卡的行为习惯，对人的信用风险做出评估。1987年FICO公司上市。他们想创建一种商业解决方案，利用神经网络或者说大脑的工作机制来帮助解决问题。

1989年，FICO推出了自己的FICO信用评分机制，一个通用型的信用评估机制的首次亮相。现在这个机制已经成为美国通用的为消费者提供贷款的评分机制。

2001年，myFico.com网站上线，消费者可以自有查询并管理FICO分数。MyFico可以让消费者了解信用分数的评估要素，例如信用历史、支付历史、新近贷款等。

2003年FACTA法案通过，强制让消费者了解信用部门提供的信用分数，有了更强的信用透明性，让消费者可以看到自己的信用评分。

2009年，因为FICO分的盛行，公司更名为“FICO”。目前，全球有25亿信用卡受到了FICO评级的保护。

政府法规对信用模型产生巨大影响

FICO前首席科学家：风险信用模型的技术演进与未来

在这个过程中，政府法规极大地影响了使用模型的类型。比如说七十年代通过的FCRA法案要求，任何时候做的拒绝决定，必须要给出解释。我们通过建立一种线性模型（linear model）解释为什么做出这样一个负面信用的决策。

第二个法案叫做ECOA法案，禁止使用消费者一些信息，比如性别、种族以及宗教信息等。这些因素不能植入到模型中，我们可以添加的维度有邮局邮编信息。由于不要求做欺诈检测，针对此可以用一个非线性模型（non-linear model）。

此外还有一些额外的法律要求，比如说评分必须根据年龄的变化进行变化，也就是说信贷申请人随着年龄的变化必须要及时更新评分，我们的应对方法是保序回归（Isotonic Regression）（雷锋网注：保序回归属于回归算法，对一个有限的实数集合Y表示观测响应，X集合表示未知的响应值，进行拟合找到一个最小化函数。）

那么我们究竟是如何解释负面评价的呢？

FICO前首席科学家：风险信用模型的技术演进与未来

人们比较关注模型是怎么样来解释的。FICO刚开始设立了一个非常清楚的方法——线性模型，里面有输入的变量、一些相关概率值，必须要把这个函数和概率链接起来。建模的时候必须考虑到逻辑回归跟概率的关系。为什么一个人会得到不太好的分数，必须要看变量是如何产生的，什么样的变量或者说因素会贡献负的变量，或者说得分比较低的变量。

首先要去掉这个尺度，因为这是一个线性的模型，在这里不是很必要去掉尺度，但是对于要求解的神经网络来说还是非常重要的。接着减去平均值，重新评估评分。分析哪个变量给线性模型贡献的变量是最大的，这里面有可能两个变量是有相互关系的，比如说有收入和成本两个变量，那么收入减成本就得到了消费者的利润。如果只单一看收入或成本的话，评估结果可能就非常不全面。所以解决方案就是把所有有意义的、可以解释的变量都放入子集中，根据子集的总量对总模型贡献来进行排序，构建一个比较有意义的或者是可解释的子集。这是一个关于线性模式的解释。

FICO前首席科学家：风险信用模型的技术演进与未来

至于非线性模型，我们使用神经网络，这与线性模型有较大不同。神经网络并非依赖于线性的模型，这并非意味着隐藏节点有很多层，也可以是单层的。在其中输出模型，必须要决定输入量是什么，有两种方法来确定：

第一种就是把每个子集的变量全部设置为平均值。如果所有都是平均值，要把新的变量和平均值进行比较，这样的子集会对总分产生一个非常大的变化，可以根据总分变化来排名，这是我们今天用得比较多的模型；

第二种方法是应用单独的模型。每次删除一个子集，然后构建一个单独的模型，再根据单独的模型进行评分，最后看在子集中，哪个变量会对模型变化量产生最大的贡献，并进行分析。

信用模型在其他领域的应用

除了应用于信用分析，信用模型在其他领域也能发挥作用。上世纪七八十年，保险行业已经用它来分析客户风险，有一本书《醉汉走路如何影响我们的生活》非常好地描述了风险应用。再比如，电信网络方面，怎么样减少风险和故障等等。以及应用于网络安全，预防黑客攻击，必须要做一些渗透测试以及怎么从网络当中提取信息，这些都是我们做风险建模的时候可以做非常多贡献的地方。技术问题非常有意思，有的时候数据没有做标签，你不知道网络是否被入侵了，我们要做平衡，有标签和无标签（数据集），有监督和无监督必须要有一个平衡。

FICO前首席科学家：风险信用模型的技术演进与未来