雷锋网AI金融评论报道,日前,“2017中欧金融科技产业发展论坛”在深圳举行。众多来自牛津大学、卢森堡大学、欧洲科学院以及法国美国等机构和地区的计算机科学专家也出席了大会,并发表各自领域的演讲。George Gottlob教授是牛津计算机系数据研究中心主任、量化金融研究中心创始人。他的分享主题是“网页大数据——如何获取数据并应用”。
以下是演讲原文,雷锋网进行了不改变原意的编辑:
过去10到15年,数据提取是我一大重要研究领域,今天我将介绍如何利用互联网收集数据。
数据就存在于我们的日常生活中,数据对今天的发展来说至关重要。很多人说互联网是最大的数据库,这是不准确的。互联网不是数据库,互联网仅仅是数据的集合。这些数据是非结构化的,非结构化的数据以各种形式存在,因此也无法进行结构化的检索。
举个例子,比如我要让互联网列出维也纳所有满足特定条件的公寓,而条件是带阳台、价格低于50万美元,附近有很多意大利餐馆,但是去互联网上无法搜到结果。因为互联网并不是数据库,只有有了数据库才能实现搜索。
那怎样将互联网变成一个巨大的数据库呢?数据是结构化的,我们可以创建相应的结构,为此必须提取数据。由于今天的时间问题,我不会涉及太多理论,我给大家展示一下使用方法。
一个网页有很多的标记,左边展示了网页结构,但网页到底怎么收集信息呢?我们从标记中来获取相应的信息。例如我要收集这个网页上所有电话号码,网页上会有电话号码的标记,树状结构上标黄的就是电话。
此外,还需要研究基础语言和逻辑。对于计算机科学家来说,逻辑学是非常重要的。然后再确定想从网页当中挖掘到什么样的信息, 这些数据记录是一些非常基本的数据源。如果有人想做编程,就需要做这个语言, 语言可以帮助他找到网页的很多特异性,它和其它网站相连,属性、图片、JAVA语言都非常重要,所以可以从一个语言跳到另外一个语言。
同时它中间有一个逻辑,必须要进行视觉上的处理,同时需要一个视觉工具。在设计产品和搜索产品的时候,还有上层和下层,包括大数据、数据库的编程以及设计。可视化的发展是指,自动化的工具能让挖掘信息的过程更加可视化,并且会是一个自动的过程。
比如说从ebay网页上挖掘相关链接。图上所示就是编程的语言,这些路是单一的数据,表示这些数据属于哪里,此页面数据是使用何种语言。但只是做这个语言是完全不够的,我们需要从几万页或者是几百万页的网页上去抓取、挖掘数据,所以会用到云。我们拥有云的数据,用云来做这样的工具。
在数据挖掘方面,我们有本地化的内容挖掘和云的内容挖掘。2001年我联合建立了一家公司,这个公司为客户提供了不少的帮助。以下是一些使用情景,体现了数据提取的重要性。
我们曾经有一些用户是电子产品的零售商。对他们来说,他们不仅要考虑市场的情况,还需要考虑竞争对手的情况,包括每日价格、成本、消费趋势、产品结构信息。这些数据对于他们来说非常难获得。而实现自动化的数据挖掘却又十分重要。我们得到了一个电子产品列表,表格列出了客户的竞争对手,并能显示出对方哪些方面做得更好。所以客户能从中看到可以改善的区域,比如是价格还是竞争力。
第二个代表性场景是对冲基金。房屋价格指数由国家统计部门经常性发布的。它影响着不同行业的股价。如果能够在国家统计部门宣布之前预见房价,可以做很好的投机。
第三个场景是建筑公司投标。投标者来自全世界,要想知道潜在竞争对手的信息非常昂贵并且不完整。但我们做的事情切中了竞标者痛点。
英国有超过15000个房地产网站,还有一些没有被完全覆盖的聚合,而这高度要求着完全自动的挖掘技术。因为虽然这些信息很容易获得,但是手动或者半自动化加工数据成本太昂贵。而目前不存在完全自动的挖掘工具或者技术。因此我和一位牛津教授合作,研究固化或者形式化数据挖掘,这样机器就能自动地挖掘数据。
这幅图中的黑点是URL的链接,这是一个源数据项目,我们通过构建黑盒子来改变数据,从几千万的页面到一个大数据集。
上图为两种不同来源的知识类型。就像一个小孩学习知识,在学校里会有许多人告诉他规则,他学习的就是规则。所以这就是一个从机器学习迁移到规则为基础的推理。这对于研究者来说非常重要。右边是通过规则建立的推理,我们通过规则实现自动化。规则总共有两种,本位规则和其它规则。
2015年我们创建了一个公司,为了使用这种系统和规则,我们需要识别和对齐对象、填充表单、区块分析和对象丰富化以及云的支持,这样才能更高效地提取信息。我们使用上面的语言从几千个网页提取容量信息,规则也需要语言。在很多领域例如二手车、房地产领域,都可以实现自动化数据提取。如果该领域非常简单,20天能形成相应的规则。但也存在一些非常复杂的领域,每个领域的特点都不同,每个国家都有自己的语言,这些都是需要克服的问题。
最后介绍一下我们目前的研究工作——知识图谱。知识图谱能以非常清晰的方式来管理大量的知识。它通过识别信息来改变人们的生活,从而形成一个非常大的知识世界。很多公司也跟随着我们的研究脚步,包括Facebook、亚马逊等。当然,小公司也希望利用知识图谱收集员工、客户、竞争者、价格等信息,从而提升业务质量。
而这个知识系统的核心(绿色标识)是推理,其中蕴含很多规则,有很多对外接口。其中一个接口就是外部数据的提取,主要从互联网上提取数据。此外还有内部的知识,数据库之间也存在着一些关系,可以非常容易地和物联网对接。事实上这是一个推理引擎, 我们这方面的客户包括央行以及其它银行。基于此可以开发很多应用,例如征信等。使用基于规则的系统也可以检测出交易中的欺诈行为。可以用来检测公司贷款的真实性,是否存在骗贷倾向。
上图展示的是公司的所有权,现实中公司间的股权结构往往非常复杂,可以使用这个系统来理清公司之间的关系,改进公司管理。具体表现在,可以根据股份的多少来确定控股公司。此外,若两家公司共同持有另外一家公司,而这些信息在SQL中是很难处理和查询的,但是使用该解决方案可以更方便管理,提高计算速度。
中欧金融科技论坛落下帷幕,但业界交流盛会永不停歇。由雷锋网承办的 CCF-GAIR 全球人工智能与机器人大会将于7月7日-9日深圳召开,届时也会举办Fintech专场。原牛津计算机系主任 Bill Roscoe 教授、香港科技大学教授张晓泉、平安科技首席科学家肖京、通联数据CEO王政、北航区块链实验室主任蔡维德、众安科技CTO李雪峰等都将为大家带来精彩分享,敬请期待!如果您希望现场与这些大牛们交流,欢迎参加大会,现在购票还能享有贵宾级优惠哦!