招商银行周天虹：AI时代的分布式数据库是什么样的？

2018/10/11 13:04

在AI、大数据技术的推动下，银行的传统经营模式正在发生根本性的变化，数据驱动的轻型银行模式随之诞生。而在向数据驱动方向奔驰的路上，如何高效处理海量数据成为一个重要的课题。作为我国银行业数字化转型的先锋军，招行也面临着这样的难题。

IT架构转型是数字化创新的基石，而一个可扩展、高性能的数据库是IT基础设施的关键支柱，由此可见数据库之于数字金融的重要意义。

雷锋网AI金融评论获悉，在近日召开的华为2018全联接大会上，招商银行总行信息技术部总经理周天虹就带来了《AI时代的分布式数据库》主题演讲。他谈到一个先进的、面向AI时代的数据库应做到六点：高扩展、高性能、高可用、云架构、易运维、易开发，并分享了他们联合华为研发的新型数据库GaussDB的相关经验。

以下是演讲精要，雷锋网AI金融评论进行了不改变原意的编辑：

金融科技兴行

多年来招商银行一直在持续进行战略转型。今天我们最新的战略是金融科技银行战略，要致力于打造一家深度科技化的银行。我们也是一家以零售为主的银行，所以战略的主要的内容是要打造零售金融3.0，再以基于银行卡服务为特征的零售金融一点零时代，和以生成财富管理为特征的零售金融二点零时代，招商银行都抢占了先机。今天我们要率先开启零售金融的3.0时代。我们认为主要要做好三件事。第一是要把手机APP打造成零售业务经营服务的主平台。招行有两个主力APP，目前用户数已经超过了1.2亿，月活超过6000万。第二是要打造一个全产品，通过全渠道服务全客群的数字化的零售业务的经营服务体系。第三是要创造最佳客户体验。

今天一家先进的银行一定要走数据驱动的道路，不论是营销获客，还是服务运营和风控，招商银行覆盖了中国境内的130座城市，客群过亿，但是招商银行的网点数量只有1700多家，背后的支撑正是我们正在打造的一个数字化的银行业务的经营服务体系。

这里给大家看几个数据，在线上获客方面，招行的借记卡线上获客已经达到了14%，信用卡高达60%。理财产品销售和消费信贷这些零售业务的主要业务大概有50%左右都已经是完全在线上产生的。为了更好的了解我们的客户，我们在两大APP里面埋点数量超过3万个，每天收集的客户行为日志超过10亿条。基于客户的财富特征和行为特征，我们每天发起的个性化推推荐超过3亿次。

最近几年，随着深度神经网络算法的突破，人工智能迎来了诞生60年后的第一次爆发，在金融行业也有非常多的重要的应用。金融行业是一个经营风险的行业，机器学习在金融的风控方面正在发挥越来越重要的作用。在新技术的浪潮下，银行的IT基础设施也正在发生一些重要的变化，其中有三个板块显得越来越重要，就是云计算、大数据和人工智能。后两者都是用于支撑对数据和信息的深度的挖掘和利用。

招行在AI方面也开展了一系列的探索和实践。

2016年，我们在ATM取现方面应用了人脸识别技术，实现了刷脸取款，这是在金融行业人脸核身的第一个落地项目。
我们知道真正的海量数据，其实是来自于互联网，大量有价值的信息，是非结构化的文本信息。自然语言处理技术可以帮助我们有效地利用这些信息。招行通过分析网络上的各类企业和政府的招中标公告，解析出其中的中标企业中标项目中标金额，已经成为我们对公业务商机发现的起点。类似的，我们通过分析网络上的法院判决书，解析出其中的原告被告、涉案案由、判决结果，用于对个人客户和企业客户的风险预警。
我们正在大力地构建企业级的零售客户关系图谱和企业客户关系图谱，用来刻画个人和个人，个人和企业，企业和企业之间各种复杂的关系。目前这两个图谱已经覆盖了1.2亿的个人节点和5000万的的企业客户节点。
智能问答是自然语言处理技术和知识图谱这两种技术的综合运用，招行目前在超过600个场景已经接入了智能问答系统。
在金融行业，营销风控和智能投顾是机器学习的主战场，2016年招商银行推出摩羯智投，今天业务规模已经超过了120亿，服务的客户接近20万，是银行业最大的智能投顾产品，而且投资绩效长期是基于居于公募基金的前30%。
零售客户每一笔交易都会接入反欺诈平台，在这个平台上部署了一系列复杂的规则和模型，但是平均的处理时间只有50毫秒，实现了真正的实时智能反欺诈。

一个大型银行，一个比较有规模的经济体，就会涉及到大量的人财物这些资源的调度和配置。机器学习在预测规划方面可以发挥很好的作用。招商银行我们在这方面也做了一些探索。比如说网点客流的预测，网点业务量的预测，ATM的现金预测AI技术和大数据技术正在快速的融入到银行的技术体系，深刻地改变了银行经营管理服务的方方面面。

可扩展高性能的数据库是IT基础设施的关键支柱

在AI技术和大数据技术的推动下，银行的传统经营模式将发生根本的变化，产生一种全新的数据驱动的轻型银行模式。招商银行正在向数据驱动的方向发展，技术上要求对海量数据进行非常高效的处理。一个可扩展高性能的数据库就成为IT基础设施的关键支柱。

招商银行对一个先进的数据库有六个方面的要求：

首先因为要处理海量数据，所以需要高扩展。
第二，金融场景越来越需要对海量的数据进行从准实时到实时的处理，这样就需要高性能。
第三，银行业对整个信息系统的业务连续性有非常高的要求，因此需要高可用。
第四，我们希望计算和存储分离，这样计算资源和存储资源就可以按需分配；我们也需要对庞大集群上的不同的应用有效的隔离，这样就需要多租户，这些都可以归结为云架构。
第五，因为数据库的规模很大，需要易于运维。
第六，我们希望在应用层面避免分库分表，开发人员可以像使用集中式数据库一样来使用分布式数据库。

但是现在市场上缺乏满足这六个要求的成熟产品。常见的做法是在开源数据库上分库分表，比如使用Mysql，招行也是Mysql的重度用户。但一方面Mysql存在着一些明显的不足。比如说单库性能容量不佳，Mysql单库容量一旦超过500G，性能就急剧下降；高度依赖分库分表，复杂性高，扩展性差；另外没有原生的高可用方案。

另一方面，各种新型数据库，如NoSQL，也都存在着局限。比如说基本上对于数据库四大事物特征ACID（原子性Atomicity、一致性Consistency、隔离性Isolation、持久性Durability）支持不足，这样就无法用于金融的一些关键场景。

GaussDB从零到有

华为有打造数据库产品的意愿，招行也有需求有场景有实践经验，两家一拍即合。去年11月，双方共同成立了分布式数据库联合创新实验室，要打造一款领先的数据库产品，命名为GaussDB。

招商银行周天虹：AI时代的分布式数据库是什么样的？

这款产品目前已经发布了高性能的企业级内核以及分布式高可用特征。招商银行也开始在两个重要的业务系统的生产环境实际使用，即综合支付交易系统和信用卡重资产营销实时展示系统。

联合创新实验室对GaussDB提出了四个方面的建设目标：

第一是高性能企业级内核，要完整地支持分布式事物，满足金融行业对数据强一致的要求。单机的事物处理能力要达到每分钟百万级别。
第二个目标是要支持分布式高扩展，支持线性扩展，扩展比要大于0.8，要支持集群的在线扩容，扩容时业务要零中断。
第三个目标是分布式高可用，在单数据中心内要支持RPO (Recovery Point Objective，复原点目标)等于0的前提下，RTO (Recovery Time Objective,复原时间目标)达到秒级，同时要支持多数据中心，多副本、多活,故障可以自动诊断、隔离和切换。
最后是分布式云化，就是要支持计算、存储分离和多租户。

未来数据库是什么样？

关于未来数据库的总体架构，招行有三个方面的主要的思考：

首先要大力发展分布式数据库，结合数据库总体架构的转型，使数据库能够更好地支持业务发展。
第二，招行目前的主力数据库种类多达12种，未来要精简主力数据库的品种，精简数据库技术栈，方便开发和运维。
最后要利用AI技术和机器学习技术，持续构建高度自动化智能化的数据库的运维管理体系，实现低成本规模化运维。

更多资讯，请关注雷锋网AI金融评论