雷锋网 AI 科技评论按:芮勇博士在 2016 年 11 月正式从微软亚洲研究院卸任常务副院长职务,担任联想集团首席技术官、高级副总裁,负责联想集团技术战略和研发方向的规划和制定,并领导联想研究院的工作。2017 年年底,芮勇博士凭借对图像、视频和多媒体分析、理解和检索的贡献当选 ACM Fellow。
在任职联想 CTO 的一年多时间内,如芮勇博士所言,联想正在进行「from device/infrastructure only to device + cloud and infrastructure + cloud powered by AI」的转型。目前联想研究院在人工智能的发展上存在哪些优势,芮勇博士所擅长的多媒体计算领域又将如何与联想的产品与业务相结合?
雷锋网 AI 科技评论近期与芮勇博士进行了一次专访,结合国际计算机学会(ACM)对芮勇博士进行的采访内容整理成文,并做了不改动原意的编辑和删减。
您是怎样进入多媒体计算研究领域的?
在我读本科和硕士的时候,我的方向是控制理论和大规模系统优化。这些专业知识对我后来在多媒体领域的研究工作,比如「相关性反馈 (relevance feedback)」,神经网络和深度学习等,都发挥了重要的作用。
在伊利诺伊大学厄巴纳-香槟分校读博期间,我开始从事多媒体分析和检索的研究。那时,互联网还处于幼年时期,Web 浏览器刚刚出现,而搜索引擎还没有诞生。在那个时代,图像搜索的概念相当超前。
当时我遇到了一个很好的机会。美国国家自然科学基金会设立并资助了「数字图书馆」项目。我有幸参与其中。我把控制理论,信息检索和计算机视觉这三个领域融合起来,进行了深入的跨学科研究,最终,我成为第一批基于相关性反馈实现图像搜索的研究者,为图像搜索创造了一种全新的模式。「相关性反馈」是一种通过用户先前的搜索结果和行为模式分析而优化搜索结果的方法。
获得博士学位后,我开始了在微软 18 年的职业生涯。在那里,我继续从事多媒体分析、理解和检索,机器学习,计算机视觉和模式识别等领域的研究工作。
现在,作为联想的首席技术官和联想研究院的领导者,我将继续带领团队推进多媒体计算的发展,并将最前沿的多媒体研究成果融入到联想的产品和服务中去。
在人工智能的研究上,联想目前取得了哪些进展和应用?有哪些难点和挑战?
联想研究院目前已建立了公司级别的人工智能平台,支持计算机视觉,语音,自然语言理解等领域的研究。
在计算机视觉领域,我们已经取得了显著进展。比如我们在 2017 联想 Tech World 上展示了 E-Health。E-Health 是应用于医学领域的智能医疗图像辅助诊断解决方案。它集成了前沿的深度学习算法,依托于拥有强大计算能力的联想云平台,凝聚了众多医学专家全方位的诊疗经验。它一方面在减轻医生工作量的同时,也可以避免由于医生疲劳等因素而产生的误诊情况;另一方面能够智能分析医疗图像自动为医生提供辅助诊断的意见。
在 2017 全球肝脏肿瘤医疗图像分割大赛 (Liver Tumor Segmentation Challenge) 中,E-Health 团队力压群雄,夺得冠军。
我们还研发出融合了先进 slam 技术和计算机视觉技术的联想第一代晨星 AR 眼镜和 AR 平台,致力于将 AR 与工业维护、教育、培训等垂直行业结合。
在自然语言理解方面,联想发布了旗下首款智能音箱,它可通过语音交互实现选歌播放,天气查询,电台收听等操作,其中的自然语言理解以及会话引擎就是来自联想研究院的研究成果。研究院为智能音箱提供了多轮、多子域、上下文相关的会话引擎,其交互体验和准确率均达到了国内领先水准。
在人机交互方向,联想研究院研发的自动语音识别平台能够使用户通过语音完成手机上打电话等基本操作,以及查询天气,叫车等基于互联网的服务。目前该平台已应用在了 Moto 手机的智能语音助手、应用商店等预装服务中。
还有,我们研发的联想小乐智能客服解决方案,有机结合人工智能客服机器人和人工客服代表,实现任何时间、任何地点、以客户喜欢的多媒体方式(文字,图片,语音)为客户提供服务。
从 ACM MM 17 的论文录用情况来看,视觉依然是多媒体领域的一个重要研究方向。而近年来,计算机视觉与 NLP 之间的结合也越来越丰富。面对这种研究领域间的交叉融合,相较其它企业,联想具有哪些研发优势?
是的,计算机视觉与自然语言理解之间的结合越来越丰富。联想研究院在这方面也取得了不少成果,比如刚才提到的、我们在 2017 联想 Tech World 上展示的 E-Health。它可以智能分析医疗图像,并自动为医生提供辅助诊断的意见。
从技术的角度来说,以深度学习为代表的人工智能算法正在并将继续促进多媒体研究,尤其近期深度学习较好构建了基于多模态 (multi-modality) 的算法框架,使得跨领域的多媒体数据的有效融合、利用/检索成为可能。
比如图像和视频的描述 (captioning)。几年前,描述能做的只是给图像或视频自动打上标签 (tag)。而深度学习建立了计算机视觉和自然语言处理之间的连接,可以将零散的标签变成一句基于视觉内容并且通顺连贯的自然语言描述。这是交叉领域的典型应用,不仅需要理解视觉,也要知道如何对自然语言进行建模。
随着相关领域和硬件设备的进一步发展,图像/视频描述甚至将支持一段(多句)关于内容的自然语言描述,也将支持更自然的用户交互系统;支持的模态 (modality) 也会超越计算机视觉和自然语言处理的范围,例如,可以导入语音特征 (voice features), 空间深度信息 (depth feature), 文本特征 (text features) 等。
联想在人工智能的算法方面有很多投入。联想研究院人工智能实验室研究人员已增加到 100 多位,吸引了全球的顶尖选手加入。
除了算法,在发展人工智能方面,不论是大数据、计算力,还是从端到云,联想都有很多优势。
大数据:联想在大数据上也有非常多的投入。我们是国内最大的制造企业数据集群,拥有超过 12 个 PB+的数据,并且每天还新增 30 个 TB 的数据,处理超过 150 亿条的信息。
计算力:联想拥有强大的运算能力。全球前 500 个超级计算机中有 87 个是联想的。联想连续第四次取得 HPC TOP 500 榜单中国第一,全球第二的成绩,并以 17% 的增长率成为全球增速最快的 HPC 厂商。目前全球 500 强企业超算系统中,有 87 家采用了联想的 HPC。
联想其实对垂直行业非常了解。一个算法再好,也必须要和垂直行业相结合,这一点也是联想的优势。
此外,我们还有从端到云的独特优势。联想拥有设备入口,能让设备和服务更好结合。后端又有云,通过云,利用人工智能技术,我们可以更好地了解用户的需求,从而会把服务做得更好,更贴心,更加个性化。设备、服务、云三个元素有机结合起来,从而形成一个相互放大的、正反馈的循环。
在研发团队方面,我们正在大力建设我们的创新军团。去年底,凭借在图像、视频和多媒体分析、理解和检索领域的贡献,我当选了含金量非常高的国际计算机学会(ACM)Fellow,而且是中国大陆首位来自企业的 ACM Fellow。此外,联想研究院 AI Lab 负责人是原德国人工智能研究中心徐飞玉博士,欧洲科学院院士汉斯·乌思克尔特博士是我们的首席 AI 顾问。我相信,在众多优秀人才的努力下,联想的创新能力将得到极大提升。
您于 2016 年 11 月加入联想担任 CTO,在您的推动下,人工智能在一年多的时间里成为联想「设备+云」、「基础设施+云」战略转型的重要支撑点。从研发的角度来看,目前联想重点攻关的人工智能技术是什么?有哪些方针与规划?
技术研发方面,目前,联想研究院正在计算机视觉、语音、自然语言理解、情景感知、知识图谱等人工智能重点技术领域加大研发。
布局方面,联想和联想研究院将发力智能设备、智能云平台和智能服务三个方向。
联想是非常强大的设备公司,我们将不断研发新型的智能设备,不仅是传统意义上的设备,还包括一些能够跟人紧密相连,能够拿在手里,穿在身上的设备。
我们还将大力发展软件定义数据中心和跨平台的智能云管理平台,构建更加智能化的数据中心。
此外,我们也建立了公司级别的人工智能平台,通过这个平台,连接设备和服务,打造垂直领域解决方案,比如刚才提到的智慧医疗,为行业转型和发展赋能。
联想目前有三个大的业务结构,一个是 PC、一个是手机,还有一个是数据中心集团。除了将 PC 与手机作为设备入口,数据作为多媒体内容相关算法的基础外,从您的角度来看,还能有哪些创新与可能性,以带动多媒体内容在业务间的应用和落地?
首先,未来的 PC 和手机都会发生变化,在 5G 迅猛发展的今天,我们正在着眼于下一代 PC 和手机的研究,我相信,它们会支持更丰富的多媒体内容和体验。
此外,联想研究院一直致力于未来新型智能设备的研发,包括可穿戴设备、AR 设备等。在这些新型智能设备上,我们会融合多媒体技术。比如在 2017 年联想 Tech World 上展示的 SmartCast+,它是联想推出的、全球首款拥有物体识别能力、实现 AR 体验的智能音箱原型。它让人工智能从声音层面扩展到图像、交互,以及识别的更高层面,极大地丰富了用户的实际体验。
说到 AR,现在也迎来了大发展的时期。未来 AR 的形态可能会更加丰富多彩,比如可能有 transparent display overlay, projected display 以及更多的 augmented senses 等。
此外,多媒体内容在垂直行业也会拥有广阔的应用前景。比如刚才我提到的联想晨星 AR,在工业维护维修、教育等行业都大有用武之地。
从技术的角度而言,后台训练平台是提升多媒体内容训练效率的关键。比如我们搭建的联想公司级别的人工智能平台,是一个分布式深度学习平台,支持多种开源框架,可实现分布式任务调度,通过多节点并行加速实验、算法研究和模型迭代的过程,能够面向多个 AI 应用。它拥有足够充分和有效的训练数据,既包含业内公开的数据库,也使用了联想自己积累的大数据。
智能手机是人们消费多媒体内容的主要渠道之一,联想也是智能手机制造商。根据现有研究和产品开发的进展,您认为未来的智能手机会是怎样的?
从技术的角度来看,未来,像人工智能、VR/AR, 5G, 实时翻译,新电池技术以及全息技术的发展,将深刻改变智能手机和用户的体验。
具体而言,无边框屏 (infinity screen),神经网络处理器 (NPU),以及更多的传感器可能会出现在智能手机上。在传感器方面,手机将会融合生物特征传感器、深度摄像头,多摄像头以及更好的计算机视觉技术。此外,5G 的发展将为智能手机用户带来 10 倍带宽和零延迟。
智能手机的形态也可能会发生大的变化。其中一个可能性是可折叠手机。比如,2016 年,联想研究院研发出业界第一个真正的可折叠手机原型 CPlus 和 Folio。CPlus 可以在手机和腕表之间转换形态,而 Folio 则可以在平板和手机之间随意切换。
联想正在进军 AR/VR 领域,比如联想 VR Classroom 以及迪斯尼和联想合作推出的《星球大战:绝地挑战》AR 设备 Lenovo Mirage。AR/VR 技术已存在了几十年,为什么现在这些技术正在走向主流?
是的,AR/VR 技术已经存在了几十年。但近年来的技术突破,比如光学镜头,计算机视觉以及 slam(simultaneous localization and mapping, 即时定位与地图构建),让 AR/VR 技术开始加速发展,巨大潜力开始显现。另外,AR/VR 可以帮助解决很多行业上的痛点问题,也能够给用户带来全新的娱乐体验。
我个人认为,与 VR 相比,未来 AR 很可能会成为一个更大的、更有前景的平台。尤其是当 AR 与垂直行业结合时,比如教育,培训以及工业维护等。在联想 2017Tech World 上,我们展示了联想研究院研发的晨星 AR(daystAR) 眼镜原型以及我们的 AR 平台。一位工程师在现场展示了如何利用这些 AR 设备和平台维修出现故障的飞机发动机,生动地诠释了 AR 技术在垂直领域的广阔应用前景。
雷锋网AI科技评论报道。