7月17日-18日,国际数据挖掘与知识发现大会前沿会议(KDD Pre-Conference)在成都开幕。京东集团副总裁、IEEE Fellow郑宇博士在本次组织换届中当选为新一届KDD China主席。
会上,郑宇博士做了题为《智能城市操作系统》的现场演讲,详细阐释了智能城市操作系统的五大特征。他提到,智能城市操作系统是新基建的核心内容之一,是智能城市建设的底座和数字基石。
据介绍,智能城市操作系统的五大特征分别是:数据直通车解决城市全域数据汇聚问题,时空数据引擎应对海量数据管理问题,时空智能引擎解决数据支撑赋能弱的问题,联邦数字网关解决数据互通不足的问题,莫奈视窗解决城市数字孪生问题。
演讲中,郑宇博士分享了他的洞察,并透露了出版两本畅销书的心得、感受。
以下为原文,雷锋网做了不改变原意的编辑整理。
非常高兴能够回到母校,我在这儿读书九年,现在也是西南交通大学的兼职教授和博导,所以我从来就没有离开过交大。今天借这个机会分享一下我们最近的进展。我今天题目叫做《智能城市操作系统》,这也是我们在雄安及其他一系列城市落地的成果。
数据被列为第五个生产要素,前四大分别是土地、劳动力、资金和技术,每一个生产要素都导致了行业的巨大变革。
既然数据作为生产要素,哪里的数据最多?现在城市里面因为场景多、用户多,所以产生的数据也最多,而政府作为数据的管理者,有责任、有动力,我相信也有能力来管理好和使用好数据这一生产要素。
当然,做这个事情的时候,由于缺乏一个有力的平台和工具,也面临以下三大困难:
1)数据壁垒问题,各个部门的数据在各自的服务器内部要打通很难,有的东西可能因为政策原因它有保密措施,也不能直接物理汇聚到一个地方。
2)现在有一些大数据平台、云计算平台,但并不是为智能城市专属设计的。云计算可以支持语音、文本、视觉分析,但并不直接支持诸如交通流量预测、空气质量分析、充电桩选址等系列工作。
3)以往在建设智能城市的时候,往往是一个特别大的项目拆成很多小包,由不同的公司用各自的技术系统分别搭建,搭建完毕之后系统之间相互不关联,就造成了数据孤岛,但也很难有一家公司靠一己之力把整个城市里面所有问题都解决掉。
为了应对这三个挑战,我们就提出了智能城市操作系统。
这是我们过去15年的积淀,从城市计算的理论体系到最近3年的产业化,我一直就在做这个事情。怎么定位呢?
它(指智能城市操作系统)是在云的上面、“脑”的下面,它是智能城市的数字基石。我们来做一个简单的类比:如果把云比成我们的PC(因为云里面有计算和存储单元,就跟PC机里面有主板、有芯片是一个道理),我们的PC上面有个操作系统,没有这个操作系统的话,去开发软件成本是很高的,可扩展性很低。
在云上面,以前是没有这样一个专门为智能城市打造的操作系统的,因此我们就推出了智能城市操作系统,它就相当于PC机上面的操作系统,有了操作系统之后,我们才搭建了办公等的应用,才会有更多的生态企业进来,基于统一底座共同高效地开发。未来城市的交通大脑、环境大脑就是我们智能城市操作系统的一个应用。
如何清楚地描述智能城市操作系统到底是什么?它不是系统集成,不是云,不是“脑”和中枢,不控制城市,它是智能城市的数字基石,这就是智能城市操作系统。
那么这个操作系统到底有什么亮点和价值呢?我们总结下来,有这五大方面的亮点和价值:
1)能够对全域数据进行感知和汇聚,这个其实很难。
2)能够对数据进行高效的管理,尤其是对城市里面的时空数据,我们能够提供比业界高10-100倍速度的查询效率。
3)专门为智能城市打造的AI引擎,它不是通用的自然语言处理、语音识别和人脸识别算法,而是为智能城市专属定制的算法模型。
4)联邦数字网关。怎么样在数据不出库的情况下做联合的建模,这是一个特别关键的安全技术。
5)数字孪生,这相当于操作系统跟人的一个交互的界面。如果Windows没有视窗系统的话,那它就是个Dos,就是命令行,系统强大的能力是不能得以展现的,所以数字孪生一方面去接收人的反馈,一方面把计算结果展现出来,形成一个良好的可视化交互界面。
这里,提一下数据的感知和接入。
城市的数据纷繁复杂,尤其是政府内部每个委办局的垂直系统都是由不同的公司在不同年代开发的,这些公司有的可能都已经不存在了,要去接这些数据本身就很难,它的接口不一致、应用系统不一致,那怎么办呢?
如果每一个系统都要去开发,花大量的成本去定制,这一定是很难有扩展性的,因此我们就提出了一个自动化和半自动化结合的方式,能够自动去识别各种数据接口,自动接入各种各样的数据,用低代码或者是无代码的方法高效接入、安全稳定接入各种各样的数据。
在雄安,我们就用的这个技术——看上去简单,但是是最难的一部分,这也是我们过去两年多做了大量的应用和系统之后,归纳总结出来的一个方法、沉淀出的一套很好的工具,这叫“数据直通车”。也就是说,只要城市里有数据,我们就能接,无论是政务的、IoT的还是视觉、语音文本的,都能高效接入。现在雄安的这套系统,把五十多个委办局所有的业务系统数据都接入,跑在我们的平台之上。
关于如何对数据进行高效的管理,重点强调一下我们对于时空数据的管理。
城市里面有大量时空数据,这个量有多大呢?比视频、语音、文本和政务数据都要大很多,我们的很多数据都是有时间属性和空间坐标的时空数据,包括电网、路网、飞机轨迹,所有的能源消耗、IoT、环境都是时空数据。大概算了一下,一个城市里面一天的时空数据的量比一个城市过去十年的政务数据的总和都要多,所以现在其实还没有哪个政府能够真把这些时空数据都接入,现在属于接不住、管不好,用不了、看不清的一个状态。
如果城市里面大量数据是时空数据,而智慧城市又不去管理和处理它,整个智慧城市数据的价值要素的价值就没有发挥出来。
针对这个现状,我们做了一系列的工作:首先提出了六个时空数据模型,能够用这个数据模型,把城市里面看似纷繁复杂的各类数据都装下,装下来以后,针对每一类模型的设计、特有的管理算法和分析挖掘算法,保证数据的一致性。
其次,我们把这些数据模型、时空索引技术和分布式技术进行结合。
以前算力不够的时候,大家就会去堆机器做并行和分布式,这是一条路径,但是如果能够把时空索引技术跟分布式进行结合,就可以用更少的机器、更少的资源做更高效的计算,而这些高效的计算带来的并不仅仅只是效率和时间,甚至是生命。
城市操作系统里的AI技术,有以下三个亮点:
1)城市里大量数据是时空数据,有周期性、临近性和趋势性,也有空间的距离、层次等属性,我们作时空AI建模时就要把这些属性考虑进来。
2)城市里面,我们往往要用到多种数据的融合,而不是单一数据。比如做交通流量预测,除了交通本身,我们还用到气象甚至事件,还有周边的学校和厂矿信息,都需要把很多数据融合在一起。
3)把能力沉淀下来,变成模块,放到平台里面开放。早年间的PM2.5预测是用传统的物理学和机理模型做的,准确率只有60%。在行业里面,专家告诉我们有30年没有技术突破。后面我们通过大数据和人工智能方法把这个精度从60%提到80%,提高了20个百分点,然后推广到中国的300多个城市。后来我们把这些能力沉淀成模块,放到城市操作系统里开放出来给第三方使用,利用这些模块就像搭积木一样,只需要1人两天时间就可以搭建出一个类似的应用。
我们也是一边做理论,一边做实践。我们一直强调“顶天立地”,给学生说论文的题目一定是来自于实际的工程项目,所以是从实际的工程中抽练抽象题目,完成之后落地应用,有了结果之后再去发表论文,其实这本是论文的本质。发表论文无非是跟同行去分享我们的经验,推动整个行业的进步,所以我希望未来各位同学也能够按照这个理念去做研究,就一定能越做越好。
关于联邦数字网关,杨强老师的团队在国际上面是非常领先的,在政府应用场景里面也是非常有需求的。
政府有很多部门的数据,像公安、财税的都是垂直汇报,你想完全把它集中到一个物理机房,不太可行,也没有必要。政府有时候想跟企业之间建立关系,利用企业和政府的数据来联合做一件事情。
大众如何理解联邦学习?
我们如果把不同的机构表示成不同的麦田,这个机构里的数据就是这个麦田里的小麦。那么首先把两个联邦数字网关分别放在两个麦田的内部,用这个磨麦机把小麦进行粗加工,变成了面粉,这个面粉是不能回溯出你小麦本身的品质的,因为这是个不可逆的过程,它不是加密,不是可以解密的。
然后我们把这个小麦的面粉拿出来,加上水和成面做成那个包子,这个包子就是我们想要的应用数据,但是我们从包子里面看不到小麦的任何信息,原始数据是没有离开这个场景的各自的机房的,这就是我们一个简单的联邦学习的示意,但其实比它要更加严谨。
我们第一个案例是跟联通智慧足迹做的。
大家知道,联通有很多线下的营业网点,位置都特别好,往往都在市中心,但是现在大家很少去营业厅办理业务了,基本上手机办理,那些资源就闲置了,所以联通会觉得这么好的资源怎么重新利用呢?
他们想的办法是拿出一些营业厅出来改造成一些智能的网点,什么叫智能网点呢?加入一些先进的电子化设备让大家体验,但是这个区域的人到底喜欢什么样的电子化设备呢?其实联通是不知道的,如果你在一个学生聚集的区域,假设学生比较喜欢小米的产品,我们去放了很多苹果的设备,就没有人去体验,只要有人去体验它就可以转化。
那问题又来了,怎么样考虑用户的购买行为和兴趣,以及结合联通用户本身的分布情况,既考虑存量用户也考虑增量用户,来选出有限的网点进行改造?并使得改造之后的收益获客率最大化?这就变成一个问题了。
基于京东多年的知识库的沉淀,所以把两个数据库进行联合建模,两边各自算,算完之后得到一个值,做一些排名算法或者预测算法,就可能得到一个结果,这就是一个典型的案例。
杨强老师这两年带领我们去做整个国际的标准,这也是咱们华人的骄傲。另外,现在我们的联邦数字网关也通过了信创和公安部的认证,我想未来中国也会走自主研发、自主可控的道路。
莫奈视窗是非常大的亮点,这个就相当于Windows视窗,如果Windows没有视窗,就是Dos,这里面我们的莫奈视窗可以支持非常高效地通过拖拉拽的方法构建我们各种各样的展示和应用,但它不只是个简单展示,它一方面要展现结果,另一方面要接受反馈,还要去对下层的这种设备和系统进行指导。
大家都听过一个数字孪生的概念,其实莫奈就是支持数字孪生的一个最好的工具,但数字孪生可能不同的人有不同的理解,我们也做了很多年,最后我也分享下我们的观点。数字孪生有三个境界,三个层级。
第一个层级就是把物理世界在虚拟世界进行1:1的建模,比如说这边有一栋楼、一个大厅,这个大厅有多大、多少把椅子、椅子材质、厂家是谁、哪个年代,全部数字化,但这只是第一层的,大家说这不就是3D地图吗?我也不认为这是数字孪生。
第二层,物理世界里面已经有大量的动态信息,比如说人流、车流信息,这种动态信息如何叠加过来,这就难了,因为这个量很大。如果把信息加载到我们的数字孪生体系里面来,你下面没有强大的处理引擎、管理引擎,你连接都接不住,就更不要说看了,所以第二层就是要把大量的动态信息接入。
第三,对这些信息进行分析和挖掘,产生决议,这个知识一定要去指导我们的行为,反控物理世界,指导物理世界人的真实的行为,比如说改变我们的出行轨迹、改变闸机开放状态、改变红绿灯信号、改变道路规划的线路等等,这样才形成了闭环,
三点都做到了,才叫真正的数字孪生。
江苏南通之前有105个指挥中心,我们在当地帮助建好市域治理现代化指挥中心后,把105个指挥中心全部打通,实现了四级联动指挥,数据全部共享,然后做了大量的应用,包括他们的消费、经济、人流,全部都可以数字化,这样的治理就会非常高效。
南通的轻纺业是最大的支柱产业,但轻纺业的产业怎么发展?怎么布局?政府的资金怎么下拨?可能并不完全清楚,政府的数据也不全,光靠经信委、发改委、财政的数据也只是一个维度,我们还要结合一些互联网的数据,这个时候就需要用到联邦学习了,建完之后我们还要加什么呢?还要加行业专家的知识。
做数据科学的人可能并不那么懂经济。懂宏观经济的人可能不太懂大数据、人工智能,所以我们是把这个平台做好之后,给我们的行业专家提供一套非常便利的工具,快速提炼他想要的各种指标,再结合专业知识写出这个报告。我们并不是用AI去写报告,而是用AI辅助经济学家来写出高质量的报告,这就是我们创新。
在南通,危化品车辆是一个大问题,南通有两千多家危化品企业,但应急管理的工作人员远远不足,根本管不过来,一旦危化品发生爆炸,对整个城市的隐患是极大的,那怎么办呢?
我们有很多智能分析的方法,比如通过分析这些危化品车辆的轨迹,找到它的驻留点,再把驻留点去跟周边的危化品企业进行匹配,如果在一些没有危化品企业的地方停靠了,要不是吃饭和加油的话,很可能是在非法的去拉一些黑工厂的危化品,这就是人工智能分析。通过数据结合,每一个礼拜南通都靠这个技术抓到5-6家非法复工的危化品企业或者是黑工厂,有大量的实战成果。这也是中国第一个市域治理现代化指挥中心。
目前,智能城市操作系统其实在雄安、南通、北京很多地方都在落地,20多个城市在使用,除了这些落地场景之外,我们也在学术上去推进。比如说京东智能城市牵头承担“国家物联网与智慧城市重大专项”,是互联网公司第一家做牵头单位的,同时,我们正在牵头制定国际的智能城市操作系统标准。
过去两年,我也有两本书出版,一本是有关轨迹计算,据说是Springer旗下华人面最畅销的十本计算机图书;另外一个就是我们《城市计算》这本书,我也是写完这本书才来业界工作。当时我在想什么事情对我来说最重要,这个方法也跟大家去分享,如果你不知道什么对你最重要,你假设明天是你最后一天,你还有什么事情没做完,你会感觉特别遗憾。
2017年的时候,我当时想如果这本书没写完,我会特别遗憾,可能对我个人损失没有太大,更多是我能不能把十几年的知识沉淀下来,分享给这个社会。
我遇到很多同行专家,也有几个院士跟我提到,希望我把智能城市操作系统写出来,这是对行业有帮助的。从我写完这文章之后,大家再搜一下城市操作系统,现在已经有很多家也推出来了各自的城市操作系统。我觉得能够帮到行业、大家共同进步、也是一个对社会的贡献。 (雷锋网雷锋网)
郑宇博士
京东集团副总裁、IEEE Fellow、美国计算机学会杰出科学家,具有超15年中美领先科技公司的管理和产品研发经验,是城市计算领域的先驱和奠基人,也是大数据、人工智能领域的领军人物和实践者。
他还是上海交通大学讲座教授、南京大学、香港科技大学等多所知名高校的客座教授。他担任人工智能顶尖国际期刊ACM TIST的主编、IEEE智能城市操作系统国际标准组主席、国家重点研发计划-智慧城市与物联网重大专项首席科学家、总负责人。
加入京东后,他开创了京东智能城市业务板块,从0到1搭建了业务体系,为全国60多个城市提供了技术服务。他带领团队设计和研发的城市操作系统成为雄安智能城市建设的数字基石;他作为总负责人在南通建设了中国第一个市域治理指挥中心,成为市域社会治理现代化的国家级标杆。
2013年,他被MIT科技评论评为全球杰出青年创新者(TR35);2014年,被美国《财富》评选为中国40位40岁以下商界精英。2019年,作为大陆首位受邀学者,他在国际人工智能顶尖会议AAAI上发表主旨演讲。2021年,根据AI2000的权威排名,郑宇博士在数据挖掘领域的学术影响力位列中国第一。同年5月,因在智能城市领域作出杰出贡献,郑宇博士被授予首都劳动奖章。
相关文章: