“我们生处在一个加速发展的大数据时代,每隔几年数据就出现指数级的增长。在这背后,伴随数据采集能力、互联网应用的爆发、智能硬件的进步,更多的是场景,带来闭环,导致数据如滚雪球般壮大。对于投资来说,数据可以分成三大类,一种是客观世界的数据,比如利用卫星观测地球,其次是主观数据,可以通过社交网络去观测人们表达出来的主观想法,以及关系变化,比如移动支付带来的资金流流动。这三种变化可以让我们对世界的观察更加细致彻底,而且非常及时,对投资来说非常重要。”
在近日深圳召开的2018 全球人工智能与机器人峰会(CCF-GAIR)上,通联数据首席科学家蒋龙带来了人工智能和大数据如何助力投资的主题演讲。会后,雷锋网AI金融评论与他进行了一次深入的对话。
蒋龙告诉雷锋网AI金融评论,他主要负责公司人工智能和大数据的战略研发工作。每当行业出现新趋势、用户有新的需求痛点,他们会研究技术应用的可行性与特色化。“比如智能投顾兴起时,我们需要作相关分析。首先,我们利用大数据分析每个人炒股的特点,绘制用户画像;第二,就是如何做到智能化的市场分析、买卖决策等。”
数据是投研业务的核心和基础。蒋龙介绍说,金融行业的数据主要有两种类型,一是传统金融数据,通过自动化的方式收集、整理市场公开信息,将这种大部分是非结构化的数据转化为结构化数据。据雷锋网AI金融评论了解,通联数据前期投资近3.5亿元资金,进行了从基础数据到大数据的收集、处理、分析,并依靠机器学习模型将其作用于投资分析。
金融文档结构化是其中的关键技术。除了分析财报数据用于投资决策,它也在制定业务合同中发挥着作用。“比如基金公司需要新成立一个专户,包含投资期限、标准等各种信息,而合同信息需要来回修改,信息内容也非常繁杂,所以这里也需要应用自动化。我们会提取出合同中的重要信息,一旦修改可以很容易发现。合同审核也需要类似技术。”
另一种叫作特色数据或者另类数据,比如说卫星图片。通过向专业机构购买卫星图片,再对原数据进行加工处理,以供客户使用。
“我们不生产数据,所谓的‘数据生产’其实就是数据整合处理。”他强调说。
事实上,在机器学习盛行之前,数据自动化处理就已经在业界得到较广泛的应用。机器学习提高了效率,降低了成本。比如表格自动化处理,“从前要识别表格的内容,需要制订很多规则,很有可能5~6个工程花了5年才做出90%正确率的系统。机器学习则能大量节约成本,可能2~3个工程师6个月的时间就能实现相同的系统功能。”
万得是国内金融信息服务行业的龙头,但其技术能力一直为人诟病。据雷锋网AI金融评论了解,万得向客户提供的数据,主要通过人工+半自动化实现。业内人士透露说,万得在南京就拥有数百人数据团队。当然,万得也注意到了机器学习的趋势,除了雇佣相关人才,它也与微软达成合作,微软为其提供自动化技术能力。
不过,据业内人士介绍,万得可识别的类型并不算多,大约5~6个,准确率在85%左右。另一方面则是传统公司的通病——组织、流程壁垒。“他们过去内部已经有一套成熟的人工+半自动化流程,如何分工、检查、系统入库等,而机器学习则带来了一套全新的规则,基本的认知、流程完全改变。这会是一个较大的挑战。”
“金融信息服务行业并不是一个很大的市场,大约百亿级,比不上风控或支付市场,所以这条赛道上无法容纳更多的机构。而智能投研机构数量则更少。”另一方面,很多大金融机构都有能力、资源进行自主研发,“比如招商银行花了10个亿做智能投顾,也有能力做智能投研。”
也就是说,银行、基金等大机构占去近半市场,传统厂商又分掉一块,创业公司的机会进一步压缩,不过还需注意一点,国内市场还未到短兵交接的时刻。“几乎所有的国内智能投研公司都想成为彭博,在国外彭博就有上百亿美元的市场,中国目前还很小。”
蒋龙指出,该领域的创业机会在于局部工作,比如信息爬取、人脸识别等,尤其是技术实力薄弱的中小银行,将会更加青睐采购解决方案。以通联数据为例,为客户机构提供的服务形式主要有两类,大客户一般要求上门组装系统,并自己进行二次开发,小客户多采用SaaS服务。同时他也指出,除非传统机构成立一个独立公司或者业务,否则系统更新也很容易与原有流程发生冲突,无法达到预期效果。
过去,机构内部会设置专门的风险控制委员会,负责投资及其他风险的控制和管理,而现在的智能风控能够用计算机实现预警、处理。但在实际应用中,出于对智能风控效果的担忧,投资风控的逻辑和框架不会发生大变化,那么一般只能实现阶段性的智能化,比如出现“一秒预警,再调给相关负责人审批”的情况。蒋龙举例说。
相较于金融信息服务,资产管理是一块更大的蛋糕。而近期的市场持续萎靡,不少投资者只能“关灯吃面”。雷锋网AI金融评论观察到,在数家智能投顾用户群中,用户晒出亏损不一的收益图,并宣称要放弃产品。
在蒋龙看来,这种情况下,越加凸显了管理用户预期的重要性。如何衡量智能投顾的效果好不好?并不是看收益会比用户的最好预期高多少,而是机器投资可以比用户自己投资少亏多少。如果人们的投资能力按照正态分布,当前的机器提供的组合可能能超过60%的个人用户。
“机器最大的价值在于提升效率,降低成本,并不意味着机器能凭空造出很多钱来,每个人都能赚钱。我们应该告诉投资者两点:一,市场大部分不可预测,可能80%很好,20%出现极端情况;二,随着时间的推移,极端情况出现率会不断减少。”
事实上,通联数据也有相关布局——他们面向C端将推出一款投资工具,目前还处于内测阶段,据透露将在今年正式发布。
该产品可能涉及一个功能,也是蒋龙近期的研究工作——自动盯盘。“很多投资者都不是全职的,不能一天到晚盯着屏幕,几分钟很可能就会错过一支股票(投资机会),我们希望能帮助他们自动监控市场并给出提醒。”
“举个例子,可能国家出台了控制产能的政策,有的公司会爆雷。那么我们就把行业中的所有公司按照财务指标算出一个分数,并预警最低分数的公司。”蒋龙称。