2021年12月9日,第六届全球人工智能与机器人大会(GAIR 2021)在深圳正式启幕。
140余位产学领袖、30位Fellow聚首,从AI技术、产品、行业、人文、组织等维度切入,以理性分析与感性洞察为轴,共同攀登人工智能与数字化的浪潮之巅。
会上,IEEE/ IET/ EIC Fellow于非教授向与大家分享了题为《互联:从质量、能源、信息到智能》的演讲。
于非教授是加拿大工程研究院院士(Fellow of the Engineering Institute of Canada),IEEE Fellow,Institution of Engineering and Technology(IET)Fellow,IEEE杰出讲者,IEEE车载技术学会理事(2016- 今),副主席(2017- 2019)。连续3年入选科睿唯安计算机科学领域“全球高倍引科学家” (2019- 2021)。Google学术20,000+次引用,H- index88。研究领域为互联自主智能,区块链,机器学习,自动驾驶及无线网络。担任多个国际期刊编辑。多个科研成果及论文获奖。今年,于教授来到深圳,出任人工智能与数字经济广东省实验室(深圳)(光明实验室)执行主任。
于教授的主要研究方向包括:联网自动驾驶汽车(CAV),机器学习与人工智能,区块链和分布式账本技术,无线网络物理系统和网络中的安全和隐私等。
为了能将于教授的精彩演讲"原汁原味"地呈现给大家,AI科技评论做了不改变原意的编辑。
首先。非常感谢杨强主席、罗智泉校长和其他各位领导的邀请,很荣幸能参加这次大会,跟大家分享我们最近的研究进展。
今天我的报告题目相对抽象,是《互联:从质量、能源、信息到智能》。
我将“以车为例”进行汇报。第一部分是背景知识——互联和自动车辆。二是分层设计、跨层设计、跨系统设计。三是人工智能在信息中互联的方法。四是报告的主题,以联网的角度,从“大尺度”考虑网联,可分为质量互联、能源互联、信息互联和智能互联。第五部分为总结。
自动驾驶的巨大影响不限于车和路,对整个社会而言影响也非同一般。每天早晨我们也许会思考:到底是我驾驶车,还是车驾驶车。几年前人们对自动驾驶的前景比较乐观,为什么提到自动驾驶?人们说起人工智能时,其中大多应用主题就是“将来不用自己开车了”。第一张图:1900年美国的第五大道Easter早晨车水马龙,请问大家能看到汽车吗?1900年摄影技术有限,大家可能看不太清,但是有一辆汽车的,也只有一辆,其他都是马车。第二张图,是1913年,13年之后也是同样的一天在美国纽约第五大道Easter的早晨,请问照片上还能看到马车吗?不,已经全部都是汽车了。他们用两张图的对比表达一个事实,当技术想抛弃你的时候,连声招呼都不打。用这个类比是为了说明将来自动驾驶也会像之前汽车代替马车一样快速的迭代。在前几年的时候,这些人用在融资和技术报告里去说服投资者:自动驾驶很快会实现。虽然理想很丰满,现实却是非常残酷的。大家可能听闻过国内外各种各样的例子,尤其是特斯拉、UBER和一些大厂出现的人为事故,包括引起广泛关注的特斯拉不能识别白色物体的问题,从而导致各类事故。Waymo的CEO也曾给大家泼了一盆水,Waymo是谷歌自动驾驶的子公司,所以Waymo在自动驾驶领域是有发言权的,从2009年开始,Waymo的自动驾驶车辆在真实道路上一共跑了超过2千万英里和在虚拟环境下跑了20亿英里。但是Waymo的CEO说自动驾驶几十年之内都不可能大规模的出现在真实交通中。问题出在哪儿?他最近评论,Technology is really really hard,技术太困难了。Elon Musk今年七月也有过著名的评论。人们都在问他,你早先说全自动驾驶很快就能实现,到底什么时候能实现?然后Musk把这个“球”推到学术界和产业界的工程师和科学家面前,他说:“这不是我的问题,不是我做不出来,是科学界没有解决人工智能科学的问题。” 他把“责任”推脱到了学者身上。所以做不出来自动驾驶跟特斯拉关系不大,是“我们”的问题。我作为学者、工程师看到这句话其实有所欣慰,从消费者来的角度,大家看到会将关注落在“自动驾驶不会短期内实现”这一点上,但是作为学者、工程师来讲,我们看到了机会,为什么?全部都做好以后就没有机会了,如果做不好的话我们还有机会实现它。所以我一直在思索到底是什么问题?大家众说纷纭。本质而言,信息跟智能是有很大差别的。什么差别?自动驾驶的车一天能产生5T数据,各种各样的传感器都在生产大量数据,比如相机、GPS、LIDAR等。但对自动驾驶而言,这些信息不等同于智能。智能在这里我定义为「开车这件事情」,像可以转向、刹车、油门。我想简单介绍下在信息互联网时期我们的设计方式。它在通信网络里属于自动驾驶里的基础设施,我们一般使用DSRC,或者是C-V2X。最早是分层式的优化方式,即每层都处理单独的任务,比如物理层的功率、AMC(adaptive modulation and coding),MAC层处理不同的用户分级、RLC处理重传、非重传、可靠性;PDCP处理包的压缩;RRC(Radio Resource allocation),CELL Selection、Handover、Admission等优化都是在这一层。applications这部分也可以优化,像用哪种codec,H.261或者H.262。用户也能参与其中,这就是几十年前的优化方式,但分层优化不能满足整个的系统要求。后来出现跨层优化,即把各个层联合起来优化。例如上层和下层联合起来优化,效果更好。举个例子,应用层传输实时信息或自动驾驶的控制信息,对时延要求高。物理层有实时的网络信息,联合优化会产生良好效果。下一步进展是跨系统优化,通信和网络变成子系统,其他子系统也很重要, 比如计算系统,考虑的是边缘计算、云计算、物计算。另外一部分是存储,请不要忽略控制部分,它不是传统通信和网络所做的内容,另属其他子系统。这里将通信和网络归为一个子系统,联合起来优化是十分必要的。为什么这样讲?因为不同的applications。比如自动驾驶,或者现在比较火的元宇宙、AR, VR,对计算有较高需求,只有网络无法满足整个系统的需求。对多媒体传输而言,在存储、缓存方面的要求更多。我总结为跨系统设计。对此,回顾我们做过的一些工作。1. )通信计算相结合的工作;2. )通信、计算和缓存相结合的工作;3. )通信和控制相结合的工作。每次结合都会提升网络或系统的性能。当我们写文章时,性能提升高是特别高兴的事情。但大家不要忘记随之而来的“惨痛代价”。其中一个代价是复杂度大幅提升,从单层设计到跨层设计再到跨系统设计,每次考虑的参数越来越多。大量参数放在一起优化,虽然系统性能有所提高,但维数灾难也会伴随而生,也可以被称为第一个“诅咒”。另一个问题是Curse of Modeling(模型灾难),即「如何建模」。一层建模不复杂,多层建模、跨系统建模、跨不同网络建模却十分麻烦。几乎建模中都会产生问题,有句名言:All Models Are Wrong. 建模和真实环境有不可忽略的差别。所以有两个curses:Curse of Dimensionality和Curse of Modeling。因为建模困难和复杂度越来越高,我们希望能够用人工智能的方式解决网络优化问题。我们的会议主题是「全球人工智能与机器人大会」,在座各位或多或少都是与人工智能有关联的人。AI并不是新概念,"人工智能"是1950年被提出,1980年开始机器学习,一直到2010年效果优越的Deep Learning(深度学习)出现。当时为什么不能提及人工智能?图灵奖得主Hinton教授,当年从美国"出走"到加拿大,也是因为遇到“人工智能寒冬”。Hinton教授一直沿着机器学习和神经网络方向研究,2012年终于有所突破。人工智能的发展并非一帆风顺,可以说是几起几落。我们较多用Reinforcement learning(强化学习)。机器学习可分为三类:监督学习(Supervised learning)、 非监督学习(Unsupervised learning)、 强化学习(Reinforcement learning)。图中左下的文章是2004年我发表的博士论文最后一章。它也是我一个惨痛经验教训的具象。当时用机器学习或强化学习是没办法发表顶会文章的,因为大环境并不认可。「人工智能」彼时属于贬义词,被认为是垃圾输入、垃圾输出,不能产出Insight,没能获得业界和学术界的承认。强化学习是我本人非常喜欢的算法,主要因为它可以做广泛的“动作”,控制车、控制网络或控制各式各样的参数。Deep Reinforcement learning(深度强化学习)中心思想很简单:模拟动物或人跟环境交互的过程。深度强化学习可以解决很多"大问题",其中之一就是Alpha Go。Alpha Go的核心思想是运用强化学习解决问题。强化学习技术和加拿大渊源颇深,深度学习是图灵奖得主Hinton教授主导的。强化学习是加拿大另一位学者Richard Sutton主导的。用AI approach,用跨层设计、分层设计、跨系统设计,并不是毫无问题。数据十分重要。现代人工智"茁壮成长"起来的根基就是Data-driven(数据驱动)。Data-driven在几年前是褒义词,它不是全部从模型而来,而是存在真实数据的。但许多小团队、小公司等相对较难获得大数据。Data driven另一种形式的解读:Big data导向big intelligence,Limited date导向Limited intelligence。回到自动驾驶这一话题,世界道路千万条,人类无法让模型具体学习到每个路口、每类天气情况、每种司机的驾驶条件,数据不足也是自动驾驶目前未能大规模商用的重要因素。前面说到数据驱动,因而Limited data就是Limited intelligence。其他挑战还有data inefficiency(数据利用率低效),需要大量的数据训练。Poor generalization, 泛化能力较弱。Lack of interpretability,可解释性差。出现问题却不知原因。一方拥有大规模网络数据时能不能与他人分享?机器之间的share intelligence是需要特定语言、程序进行。2019年《Nature》的一篇文章提到:现在的人工智能也许不及动物。其中一个例子,也是我们中文耳熟能详的俗语“龙生龙,凤生凤,老鼠的孩子会打洞”。描述的正是生物基因里面已经存在的技能。一如文中:Learning is NOT very important. 这篇文章无异于给我泼了盆冷水。我们研究人工智能和机器学习也有一些时间了,如果AI不如动物,更不能和人相提并论。后来我希望能从书中获得答案,了解动物和人之间的根本区别。对此,《人类简史》解答得十分清晰。《人类简史》中有个颠覆性的观点:人和动物的主要区别就是「Gossip」,即"八卦能力"。为什么是"八卦能力"?人类可以传递并不真实存在的信息。像在公司里“传”闲话,WeChat、Keynote,甚至于今天的分享报告,都是一种“八卦能力”。我们只能和同类讲,不能跑到森林里和动物们做报告。“八卦能力”的说法不太正式,所以我找到另一种正式说法— Collective Learning(集体学习),Big history project (大历史项目)中许多历史学家同样疑惑:人为什么比动物更加聪明?回顾从大爆炸到人类进化到现在,得出基本结论就是Collective Learning。Collective Learning的第一步都是从数据学到的,数据驱动也是目前人工智能和机器学习的基本思想。第二步、第三步之后,机器和动物基本不具备把智能存储下来的能力,只有人可以做到。我们可以泼墨挥毫写文成书,这是人类才有的特殊能力。与《人类简史》里说的"八卦能力"异曲同工,人可以相信不存在的信息并分享智能。以上两点,非正式说法「Gossip」,正式说法「Collective Learning」。大家可能会问:现在人工智能可以拥有「八卦能力」吗?或向其他智能体进行学习吗?目前而言十分困难。因为没有Incentives(激励)、trust(信任)、Language(语言)。如何实现这些能力?这就是我们的下一主题,质量、能源、信息、智能。爱因斯坦说过:You cannot solve a problem on the same level that it was created. You have to rise above it to the next level. 这句话令我感触颇深。"当你遇到问题时千万不要在问题同等水平上思考它,应该提升到另一个层次上考虑",从而产生新灵感。这也是我今天汇报的主题,从"大尺度"考虑网联。许多媒体报道,包括Elon Musk也认为,人类历史上最大的发明创造是车轮。车轮的本质是质量的互联,它可以把有质量的东西快速、高效地在两点间传送。车轮促使交通网络的形成。第二个重要发明是能源的互联,以前的汽油和现在的电能,都属于能源互联。第三个重要发明是人们乐享其中的互联网,它是信息的互联。简而言之,“车”见证了人类历史整个技术的发展路线。从最初的运输质量,随后是使用能源,到现在的信息联网。以发展角度看,Abstraction(抽象)在一层一层的提高。我们心生疑惑,将来会如何进阶发展?疫情期间经过长时间思考,我写下一篇文章。在优化网络时的分层设计、跨层设计和跨系统设计,归根到底我们是在做一件事情,传递信息。这也是我们所说的Internet of information,让信息从A点移到B点。特斯拉发明了交流电,可以理解为是传递能量。当下信息发展过载,铺天盖地的信息无处不在地充斥着我们的生活,获取信息对现代人而言易如反掌。因此我在文中推断,这是一种intelligence(智能)的缺乏—— 拿到信息该如何运用。比如一个自动驾驶车,每天可以获得5T的数据,手握巨量数据,车技却依然不高。那目前能实现move intelligence(传递智能)吗?暂时不能。但我们可以考虑用Blockchain(区块链)解决相关文通。《哈佛商业评论》曾发文,问历史中是否出现过类似Blockchain的事物?答案是有的,就是TCP/IP(传输控制协议/网际协议)。首先它们都是分布式的,分布式的优势在于集中式促进创新,也可以支持大规模其他应用,这是TCP/IP和Blockchain的相似之处。Blockchain应用繁多,我们的国家级报告里常把Blockchain视为数字经济的重要技术手段。我们近期有出版关于区块链的书籍——《区块链:原理、框架与应用》和《Blockchain Technology and Applications》;以及区块链研究的网站vDLT. io;还有区块链优化问题,我们提起Blockchain多是实现方面,优化方面较少。为什么人比动物更加聪明,答案指向一点—— Collective learning approach(集体学习研究),我们近期所做也是希望通过区块来实现集体学习。从车的角度做智能网联。我在文章中有提出雏形,它也是元宇宙的雏形,每个车都对应到元宇宙里的“数字孪生”车,并在其中分享智能。另外一个是算法方面的创新,Collective Reinforcement Learning,基本思想也是模仿人类。强化学习原是单个智能体,现在多个智能体相互融合、学习、实现智能网联。对于当下和将来面临的挑战。挑战看似容易,只需传递智能。但实践中频频受阻。从信息论而言,为什么信息可以轻易“挪来挪去”,我们的互联网为何能高速发展?关键在于信息的定义和描述。眼下对整个Intelligence的描述是十分艰难的。也是比较难攻克的问题。Internet of Information可以用分层、跨层、跨系统的设计,最近比较流行用AI approach。我们认为Internet of Intelligence(智能网联)是未来趋势,对机器和人而言,作出正确决定更加重要。共享智能不仅仅是技术问题,也是经济的问题。
我们的人工智能与数字经济广东省实验室(深圳)刚刚成立不到一个月。因为落户在深圳市光明区,所以起名光明实验室,是广东省政府批准筹建第三批省实验室之一。
我们目前主要聚焦四个方面:一是区块链与金融科技;二是智能传感与精准医疗;三是机器学习和智能系统;四是泛在感知与智慧城市。再次感谢大家,欢迎各位到我们实验室指导工作。雷峰网(公众号:雷峰网)雷峰网