“智能+其实是个甜蜜又辛酸的过程。最后产生价值自然很甜蜜,但结果的过程常经历一系列复杂的磨合与调整,需要业务和技术多方的协同合作,其中业务人员的理解和支持至关重要。”
当雷锋网问到,拥有金融全牌照,业务产品线繁多的平安集团在打通全体系数据的背后,是否隐藏什么故事时,平安科技首席科学家肖京由衷感慨道。
平安集团是业界较早布局新金融的传统金融机构,目前也已经拥有不少代表作。最广为人知的是陆金所、平安好医生、平安金管家、一账通等 2C 产品。此外,作为平安集团探索金融科技道路上的一步重棋,平安科技人脸识别准确率突破99.8%的消息也刷足了今年各大平台新闻。平安金融云也是平安力推产品之一,据了解,平安70%核心系统群以及数十家中小银行已经上云。
为了更深入挖掘平安集团的Fintech实践经验,在由中国计算机学会主办,雷锋网与香港中文大学(深圳)承办的第二届CCF-GAIR全球人工智能与机器人峰会的第二天,肖京作为金融科技专场的嘉宾分享了平安的“智能+”过去、现在和未来发展之路。作为平安科技的首席科学家,肖京在平安内部主要负责大数据和人工智能技术研发及在平安金融和医疗健康相关业务中的应用产品和服务,管理智能引擎部、技术研究院、后台大数据平台及前端客户关系管理CRM等多个核心部门。
“智能+”脱胎于“互联网+”概念,平安将此视为业务升级最关键的发展方向。相较于重在模式创新的“互联网+”,平安认为“智能+”实质是技术创新,需要由数据、行业专家、场景、技术(算法和计算能力)四因素协同合作来实现。
毫无疑问,数据是一切的基石。2013年大数据概念兴起,平安开始做数据集中。前后花费了近一年时间,才打通了集团内部的数据孤岛,整合到一个平台上,并配置了自动更新及质量控制机制。
搭建数据平台只是起点,如何利用这些数据实现业务智能化才是最终的目标。肖京告诉雷锋网,他在2015年加入平安科技,并统领大数据部,制定的第一个计划就是平安脑智能引擎规划,帮助核心业务做智能分析与决策。
平安脑智能引擎可分为四层。
第一层是感知层,主要是进行数据的接入、采集和整合。
第二层是索引层,刻画画像脸谱如用户画像、产品画像、渠道画像,分别做好模型。
第三层是中枢层,聚集了商务智能、预测推荐、异常监控、深度智能等算法能力。
第四层是执行层,是平各相关核心业务的解决方案和应用场景实现层,主要有八个核心板块,分别为风险控制、欺诈识别、运营优化、精准营销、智能监控、商务智能、智能金融、智能客服。
在演讲中,肖京还强调了第三层算法能力实现的三部曲,指出不能简单应用深度学习这样的复杂算法。
第一阶段是需要建立全面的确定性专家系统和规则引擎。业务流程中的许多环节深度依赖规则、经验和知识,这些规则往往不能从历史数据中获取。
第二阶段是商务智能阶段,例如用户分群和关联分析。对用户分群可以进行不同的营销和风控策略,通过关联分析发现销售线索或者风控因子,很长时间以来在大量场景中产生了良好的效果。然而商务智能一般是对单一目标关联因素的统计分析,往往难以深入挖掘多目标多因素复杂的关联关系,尤其是对弱相关因子的挖掘和利用,而在大数据时代有显著的长尾现象,需要尽可能挖掘大量的弱相关因子,才可能充分利用大数据的价值。因此我们需要进入第三阶段。
第三阶段是人工智能阶段,利用机器学习及深度学习等人工智能技术,深度挖掘并充分利用大数据的价值,实现更精准分析。
当前兴起的这波人工智能技术是历史上的第三次复兴。这一次主要依托基于大数据的机器学习,属于人工智能中的联结主义范畴。这些技术分别在对结构化数据和非结构化数据的分析挖掘方面产生了良好的效果,但也存在一些不足。例如表现在,对因果关系考虑不足,过于依赖数据的相关性,这往往导致可解释性不足。另外,相关方法常针对的是大数据场景,欠缺快速吸收业务规则和知识的机制。而在金融和医疗的业务场景中,决策时常常要求知道因果关系,也常常面临需要小数据学习的场景,并且需要能快速应对规则的改变。基于此,平安在这三个方面都做了相应的改进。
在肖京演讲结束后,雷锋网对他进行了一次专访。以下是采访实录,雷锋网作了不改变原意的编辑:
雷锋网:平安集团内部的数据服务部门机制是怎样的?垂直业务线与数据部门如何配合工作?
肖京:平安集团有三地五个数据中心,这是基础架构服务。此外,平安科技针对每个垂直业务线设立了相应的IT服务部门,包括数据服务部门。这些部门和业务公司的相关业务部门协同合作,共同解决相应的业务数据分析需求。
雷锋网:曾采访过的一位互金企业CEO表示,他们不会特意研究前沿技术,因为高风险与高收益并存。风险有二,一是新技术的研发投入非常大,二是商用表现还是未知数。而平安不同,涉足了各个新兴技术领域,请问内部是怎么看待新技术的研究工作?或者说,平安在研究新技术时的追求是什么?
肖京:我认为前沿科技并不一定意味着高风险。平安会让专业的人做专业的事,首先做好目标分析规划才会大规模投入。如果定性目的不清楚,目标、可行性无法确定,我们不会盲目地大规模投入,所以不会有太高的风险,这就像是研究院做了一个项目的小尝试。
如果目标、可行性都有所依据,在平安大体量系统中尝试一下,可以快速看到趋势性业务效果。例如说定价风控模型,若有很强的执行力和足够大的体量,那么就能像互联网一样快速迭代,验证效果的好坏并进行调整改进。这也是平安综合金融大平台相比其他单一小平台或者单纯技术公司的优势之一。
另一方面,集团本身就非常重视科技,投入力度很大,也很愿意创新尝试。董事长马明哲一贯强调科技引领金融,平安未来5-10年更大的收入和成来自于技术,而不是资本。
雷锋网:作为传统金融机构旗下的技术公司,跟其他科技公司相比各有什么优劣势?
肖京:在人工智能基础技术研发方面,学校和研究机构是主力军。产业界的竞争优势体现在应用方面,演讲中我提过“智能+”的四要素——数据、行业专家、场景、技术。平安的优势也体现在这几点。
首先是数据优势。平安是一家全牌照金融机构,拥有绝大多数科技公司无法比拟的数据优势,包括广度和深度。科技公司更多地是分析用户的数字痕迹来猜测哪些服务有效,平安能更快速洞察用户需求并提供合适的产品和服务。
第二是专家优势。我们经过29年的发展,在金融和医疗领域有大量的行业专家。AlphaGo之所以比其他采用相似深度学习技术的机器人围棋水平更高,一个重要原因在于其核心研发团队不仅是技术专家,也是围棋高手。
第三是场景优势。平安的金融和医疗应用场景非常丰富,而大多数科技公司并不具备丰富的应用场景,要想验证技术效果,需要与业务公司磋商。从说服他们合作到最后的应用,需要经历很复杂的磨合过程,在得到甜蜜成果之前,这个过程会充满辛酸,绝不是一件容易的事情。实际上没有丰富的类似磨合经历的技术团队,最后的落地能力是要打个巨大问号的。
在技术层面,平安的综合性优势比较明显,经过多年的建设,平安拥有上万技术人才,搭建了强大的金融等级的基础架构及云平台,包括深度学习集群的集团大数据管理及分析平台。
当然,金融和医疗是两块非常大的蛋糕,有极其众多的技术应用的机会。科技公司深耕某一垂直领域,技术可能会更加深入。
雷锋网:平安会以什么形式与Fintech公司合作呢?
肖京:主要是技术合作方式,一般不涉及业务合作。我们已经跟MIT等多个顶级科研机构合作很多年了。此外,还包括承接平安的研发项目,或者直接合作应用对方已经成熟的某项技术等等。速度高效是我们决策的最重要因素之一,我们等不起,时不我待。总之对于技术合作我们是很开放的。
雷锋网:相较于传统金融机构旗下的科技公司,平安有什么差异性?
肖京:在金融科技方面,大部分金融机构战略战术上可能偏保守,缺乏足够的创新投入,对自身队伍能力的培养也常常比较欠缺,因而不得不依赖技术外包,购买别人的解决方案,但是外包会存在一些很大的问题,技术始终没有掌握在自己手中,恐受制于人,若是与小公司合作,稳定性也不太能保障。其实这也没关系,尤其是中小金融机构,像平安这样自建能力可能太困难了,但提高业务能力是必要的,只是要选对合作方。
雷锋网:目前的AI都是专用人工智能,您觉得与通用AI相比较而言,谁更有应用价值?
肖京:人工智能可以分为弱人工智能、强人工智能和超人工智能。目前人工智能处在弱人工智能阶段,这意味着它只是某些方面比人强,而有些方面还差得很远,它的能力是有限定领域的,而通用AI起码要到强人工智能这个阶段才会出现,现在还没有出现通用AI。
通用人工智能是个有意思的研究方向,但在大多数实际业务中未必能带来附加的应用价值。个人认为这应该留给科研机构来研究攻关,企业应该更专注于研发智能技术解决实际的业务痛点。即便要做也应该作为远期目标来规划,否则就有不切实际之虞。
现阶段人工智能技术要应用好,定义清楚目标场景和问题是很重要的。问题定得太大太通用,常常得不到很好的效果。目标清晰有的放矢,应用获得成功后,再考虑如何标准化并拓展应用。
雷锋网:那么,怎样将专用的AI技术快速复制到其他领域?
肖京::既然是讨论业务应用,而不是纯技术研究,我们一般认为,研发任何一项AI应用,首先要有明确的目的和目标,进行可行性分析,通过后再进行具体的规划和实施。
AI技术应用复制到其他领域,也应该采用类似的方式方法。先确定新领域相应的业务应用的目的、目标、可行性,再借鉴前期应用的工程经验,将前期成功的技术应用标准化并调整做出新领域应用的规划和实施方案。
雷锋网:有一种观点是,在金融行业,往往是5%的关键小数据发挥着作用。那么95%的弱相关数据怎样才能发挥作用?
肖京:5%关键小数据是强相关的,95%是弱相关数据。只看强相关的5%,是典型的商务智能的说法,还处于之前提到的智能化第二阶段,主要通过关联分析来挖掘数据价值。
而现在的AI技术不仅可以利用强相关数据,也能对弱相关数据进行深度的分析挖掘。弱相关数据也是有价值的,若方法使用得当,也能发挥作用提高模型效果。比如深度神经网络这样的端到端机器学习模型,不需要通过特征工程定义显性因子,可以充分结合所有数据深入分析挖掘自动找到最佳组合,以得到最优的业务应用效果。