智能信贷 | 10秒授信的背后，计算机引擎里发生了什么？

机器学习贷款银行大数据

2017/02/01 08:51

Capital One目前是美国第八大银行控股公司，有信用卡、房屋贷款、汽车贷款、银行等金融产品。用信息技术来全面驱动公司业务发展，是Capital One公司的制胜法宝。

智能信贷服务商读秒，主要为自然人提供的无抵押无担保的个人短期小额信用贷款，利用大数据与机器学习，它把传统银行最快3天的授信业务做到10秒完成。该公司CEO周静，曾在美国“金融黑帮”之Capital One任职8年，历任产品、市场、风控高级经理。2006年，她回到中国进入渣打银行，任渣打中国零售风险总监，至今有着近20年的跨国银行风险经管经验。

2015年1月26日，周静加入PINTEC，带领团队开启了打造一款智能信贷产品的征程——即如今“读秒”的萌芽。历经一年多时间，读秒从最初的一款决策引擎产品，逐渐发展成为一套完整的智能信贷解决方案，产品团队也发展成PINTEC旗下子公司。

智能信贷 | 10秒授信的背后，计算机引擎里发生了什么？

10秒内外的火光闪电

天下武功唯快不破。读秒技术负责人仲惟晓向雷锋网介绍，读秒至今已经接入了业内约40个数据源，通过API接口实时调取。数据接入之后，读秒通过自建的欺诈、预估收入、预估负债比等多个模型（规则）对数据进行数十万维度的清洗、挖掘，再通过平衡卡和决策引擎给出综合决策。而且，所有决策是平行进行的。10秒完成授信决策的背后，既有前期日积月累的数据收集和清晰，也有最后时刻刀光剑影的模型计算。

一般人认为，大数据、机器学习技术如同一个黑箱，但事实上有迹可循。仲惟晓介绍，读秒的合作伙伴会海量的裸体数据给到他们，但真正有用的数据维度——基于数据构建的分析维度，实际上是由自己去挖掘的。“并不是说把数据拿来，然后放在一个很神奇的机器学习模型里就能把结果预测出来。”

比如在前期用户申请阶段，会产生大量的用户行为、交易数据，或者信用数据，这些数据能够帮助决策机构了解“用户是一个怎样的人”，比如说看一个人的出行记录，分析他的住所、行踪、打的什么车、做什么航班以及舱位等等。而这些数据本身也需要挖掘的过程，虽然挖掘的过程与整个授信的过程是分离的。“有海量的数据之后，我们需要利用距离、分组等决策算法，从这些数据中筛选出业务适用的模型，规避风险。”仲惟晓接着举例解释背后的门道：

一个很简单的例子，比如用户在多平台的借款的情况——以前我们觉得，一个客户借款5次、8次或者10次，第三方数据源可能会提供。但是现在，我们更加会看，比如多平台的借款频率，在过去的90天，或者270天、360天中是怎么变化的，此外还有借款的次数和借款平台数之间的关系。在这些裸体数据上面所建的就是所谓“维度”。

简单来说，这是一个将非结构化数据结构化的过程。仲惟晓表示，不同用户在不同平台留存的数据看似独立，其实它们之间也会形成网络交织，比如通话记录、交易对象等关系，“随着用户排量增加，留存的数据越来越多，现有模型才能得到进化，适用于更多场景。”大数据不是要找一个人，而是要找一群人。

而有前期台后累积的功力，才有台前10秒决策的速度。读秒科学决策总监任然坦然称：“其实建模型这个东西，大部分时间都花在挖掘数据上，把几千个，几百个数据跑出想要的维度，最后一气呵成建成模型，这个很快，只是之前这个东西是需要大量时间的积累。而且很多时候是需要试错的。就比如现在如果有一千个维度在跑的话，毫不夸张地说，我们会建大约十万或二十万个维度，去试哪些维度有用，哪些维度没用，因为需要去理解数据。”

智能信贷 | 10秒授信的背后，计算机引擎里发生了什么？

“前期的数据分析过程，相当于机器学习的过程，而接下来的案例应用中——从收到贷款申请到最后跑模型决策，相当于机器接受考试的环节。”仲惟晓说：

数据提供方提供的数据首先被我们指标化，即通过人工的方式把指标从数据特征中判断出来，平均一个消费信贷申请会有上百个指标。但是因为成本问题，这些指标并不会全部用在机器学习当中，我们会先利用历史经验数据做一个泛化的计算，从计算中筛选出大约十几个筛选度比较高的指标，然后这些指标的计算在线上实时进行。基本上每一条数据来了之后，我们每一个分布的节点会负责一定项的产品或者一定项数据的指标拆分。

这些拆分完成之后，它们会被压到整个计算决策引擎里去跑模型，然后模型的数据成为是否给用户提供授信的依据，这是指标之一。然后基于这个用户的行为来才会对模型进行修正。

CEO周静补充道：“每一个科目都有一个分数，然后科目都有不同的加权，但不一定每个科目加权都是同样的比例。因为维度和比例，都是跟后期的逾期率是有关联性的——如果关联性大，比例可能就大一点；如果关联性小，就小一点。”

除了时间人力成本，10秒之内决策还避免了哪些损失？

全球个人信用风险评估体系的缔造者，全球领先的预测分析和决策管理公司FICO的早期创始成员William Yao（姚志平）博士曾对雷锋网表示，人的大脑擅长做单因子的分析，而擅长于综合因子判断的恰好是计算机。“它们没有感情偏差，在几十个、几百个概念中做综合判断，只要给它数据，通过大量数据和权重，它都可以帮你计算出评分。美国几乎各大银行都在用机器学习做决策，这是机器学习一个很好的方面。”

快速、高效用的表现是机器决策引人探索和开拓的首要原因，而应用之后带来的边际效益就是它得到推崇和坚持的来源。以前获一个贷款客户成本很高，你要有网点，要有很多销售人员，这都是成本。而如今，周静称，即使业务规模不断壮大，团队人员都不需要太多变化，可能只需要增加一些服务器。“每一次迭代我们的能量就会放开。每一次上量，边际成本就降低，是一个复制性很强的模式。”

除了这些看得见的好处，调研环节大大缩短之后，也压榨了欺诈黑产的发挥空间。周静透露，根据以往碰到的欺诈现象，都是由中介第三方来包装的。这些客户可能人本身是真实的，但也许其本身的信用背景和收入并非真实，只是中介基于对整个审批流程了解的程度，而去做一套假的资料。所以从这个角度来讲，大数据风控便直接切开了第三方，即便用户造假，基于信息网络的交叉比对也能为识别欺诈提供了一定程度的帮助。

“那智能信贷的技术壁垒在哪里？”

“技术壁垒有几个，一是本身对金融产品的深度理解——不管是在什么形态当中，知道这个产品的本质盈利模式和分析点在哪里。与此同时，需要金融人员和科技人员紧密结合，基本上成一体地互相理解，从而把架构从零搭建起来。第三是数据的获取、挖掘能力和建立维度的能力。最后是整个公司的运营——因为风险都是后知的，你可能找到很多客户，也给了很多贷款，但是如果收不回来的话，也是不行的。所以本身它还是跟传统金融很多地方类似，就是怎么样可以长期地安全地运营一个信贷业务，这个不只是IT，还要对将来市场有一定的预测，包括整个获客的来源是否稳定，获客的人群本身是否可授信。总结起来是，风控、数据、贷后管理，最后就是整个客户的周期。”

最后，周静对雷锋网表示，数据与技术驱动之下从获客到决策，再到风控的整条完整的信贷产业链都做起来将是一个不可逆的趋势，银行不管是跟我们这样的公司合作，还是自己做，都将发展这样的模式。“如果能十秒钟做一个决策，为什么还要回到那个消耗巨大人力和成本去走的三天的决策过程？不管是Fintech、传统金融行业还是BAT，征信、风控公司也好，我不觉得这是一个只有几家变得很尖端的趋势，而是一定成为将来行业的常态。”