5G、AI等技术的不断发展,正在逐步拉近虚拟与现实空间的物理距离,XR作为全真互联的重要入口之一,也进入了高速发展期。近年来,XR频繁出现在各类政府报告中,并被列为数字经济发展的七大重点产业之一。作为XR落地产业应用的桥头堡领域,多媒体赛道更是备受期待和关注。
针对XR技术趋势及落地场景,在2022腾讯数字生态大会·腾讯云多媒体技术专场上,多位行业专家就“多媒体与XR技术的演进、现状和发展”展开深度讨论。围绕如何基于低码率高画质、超分等视频处理技术带来的画质提升、三维视频带来的深度感知、任意视点视频带来的用户交互、扩展现实与虚拟现实带来的超现实感等业界关注的焦点问题,输出自身独到的观点和建议。
IEEE Fellow、腾讯杰出科学家、腾讯多媒体实验室负责人刘杉表示:“近年来XR在产学研各界被反复提及,XR无论是发展的广阔前景还可能的广泛应用,都有很多技术空间可以让我们去提升,也可以有更沉浸的体验。除了技术性的音视频标准之外,关于XR以及相关的合规的标准也非常重要。因为这些标准不仅有其商业价值,更有其社会价值。目前国内国际包括腾讯在内的企业都非常重视这一部分的投入。
(图:IEEE Fellow、腾讯杰出科学家、腾讯多媒体实验室负责人刘杉)
随着XR不断渗透至游戏、影视、娱乐等消费类ToC场景,以及医疗、零售、教育等产业类ToB场景。中国工程院院士、广播电视技术专家丁文华表示,XR与多媒体的技术演进相辅相成,它不仅影响着每个人的工作、学习,未来还有可能影响到包括教育、医疗、工业乃至整个制造环境的再造。
无论是消费类ToC场景还是产业类ToB场景,在IEEE Fellow、清华大学计算机科学与技术系教授温江涛看来,XR真正实现落地的前提,是需要更多不同技术及理论的支撑。多媒体技术是其中最主要的一部分,另外还涉及显示材料、电池等技术方向。
全景声科技创始人、董事长潘兴德补充认为,XR产业的发展更多由内容驱动,C端文娱内容或成为第一阶段最重要的落地方向。未来包括电影、音乐、游戏、视频等行业都可以在虚拟世界里面匹配对应的呈现方式。
腾讯多媒体实验室扩展媒体中心负责人、国际标准专家许晓中,腾讯在线视频BU播放技术中心总监朱子荣参与了本次讨论。
此外,腾讯多媒体实验室还对外宣布即将发布一份基于产业洞察、自研技术积累梳理而出的VR技术白皮书,将为行业的高效、健康发展提供重要的参考价值。
XR是一种近眼显示的综合技术应用,人们过去更多通过手机、ipad、电脑等远场显示去获取信息。如今,近眼显示的发展已经融入了很多技术元素,譬如如何实现感知问题、如何让显示图像更具沉浸感、如何将声音更好融入其中,甚至还能控制互动,多种技术的叠加能够为消费者带来更为沉浸式地体验。
XR作为人机交互最主要的入口装置之一,它与多媒体技术的演进相辅相成,能够为人们的生产、生活带来比较大的变化。它不仅影响着每个人的工作、学习,还可能影响到医疗、教育,乃至工业等整个制造环境的再造。目前,XR相关技术都在不停地更新迭代,这几年的进步比较明显,未来前景可以期待。
(图:中国工程院院士、广播电视技术专家 丁文华)
从行业标准出发,XR应用应该具备一个下限——佩戴的舒适性;同时,我们还应该去不断追求它的上限——效果的逼真度、体验的沉浸式,而这些都需要产业界去制定相对应的标准。
从合规角度出发,软硬件合规非常重要,应该由政府牵头、企业跟进,一同促进行业的高效、健康发展,目前整个行业的核心还是聚焦在内容生产方面,未来应该在多层面做进一步的革新和突破。
XR眼下大受关注,它下一步的技术拓展也远不止于视觉、听觉层面。而是面向交互、面向感知、面向脑机接口技术,去做更多的技术探索与突破。“X”是未知的,它的变化对人类产生的影响是非常深远的。
XR实现真正落地的前提,需要多种技术及理论的支撑。多媒体技术是其中最主要的一部分,另外还涉及显示材料、电池等技术方向的突破,最终目标是为了能够让消费者更舒适、更长时间地去佩戴、体验相关产品。
通常,大众所理解的多媒体是包括音频、图像等多个不同媒体形态的组成。比如电视台,它是“一个生产者面向众多消费者”的形态,类似金字塔架构。但在目前的融媒体生态中,无论是直播形态或是社交网络上其他各式各样的形态,多媒体已经变成了“众多生产者面对众多消费者”的形态,更像是网格架构,而非金字塔架构。
在我看来,网格架构更适合未来技术趋势的发展。所有伟大的产品,我们看到的可能不只是技术,而是体验。譬如刚刚拿到的第一款Iphone,首先不会想到其中有上百亿个晶体管、有上亿行复杂的代码,消费者最先关注到的是更好的体验。XR未来也是这样,一方面我们希望多媒体的技术能够不断地演进去促进XR产业的发展;另外一方面可能也需要使用多媒体技术去弥补其他行业发展的不足。
(图:IEEE Fellow、清华大学计算机科学与技术系教授 温江涛)
此外,我认为面向XR的标准可以分为两类:一类是企业喜欢的标准,另外一类是企业排斥的标准。比如说视频编解码等,这些标准能够推动产品的落地,企业都会积极参与;另一类标准可能涉及安全、伦理等问题,有些企业则避之不及,因为会阻碍相关产品的落地。未来,我希望更多的产品在投入市场之前,可以保证它的安全性、合规性得到完全验证。
XR中的“X”象征着未知。未来如何去使用XR技术,以及它的应用形态在哪些方面能够落地,需要大家一起探索。
我们一直在关注产业的发展。未来的XR行业必然会深入影响人们日常生活的方方面面,会深刻影响现实世界的运转规则。但我们距离沉浸式的、或者能够媲美现实世界的XR应用还有很长一段路要走。一方面是技术本身的鸿沟,另一方面则是标准化问题,其中涉及互通互联、社会伦理等方面的问题。
XR落地,内容为王。未来,电影、音乐、游戏、视频等行业都可以在虚拟世界里面找到对应的呈现方式。
(图:全景声科技创始人、董事长 潘兴德)
在终端显示层面,我们也正在尝试使用越来越少的扬声器去实现更好的效果。比如目前使用两只扬声器在理想条件下,就能够实现接近八分之一的声场。接下来,我们还要解决包括渲染模型个性化问题和各种更精确建模等极具挑战性的问题。
XR对于音频场景,需要解决的是三自由度、六自由度、沉浸感、互动性问题。在一个虚拟世界或虚实共生的世界中,用户需要听到真实的声音。而声音中又包括各种各样的声音源,这会涉及到大量的建模问题。未来,XR场景的声学问题可能会带来很多新的挑战,需要整个产业界去一同面对、解决。
从底层技术角度出发,XR涉及到视觉、听觉、触觉和其他更接近于现实感官的技术。为了能够支撑使用体验,我们需要为用户提供更高维度的数据,会涉及到诸多与多媒体相关的技术元素。
譬如,从视觉角度出发,为了能够消费更高维度、更丰富的视觉信息,我们需要对更高维度的内容进行压缩编码操作;从听觉角度出发,包括六自由度的视频、音频之间协同的系统设计比较重要,消费者要有更多的自由度去感知自己所消费的内容。
(图:腾讯多媒体实验室扩展媒体中心负责人、国际标准专家 许晓中)
但这个融合过程会遇到不少挑战。一方面,视觉、听觉等感知技术的标准化工作还在推进、探索中;另一方面,如何将更多的技术进行系统整合,从而协同一致地为用户提升体验,都比较考验技术基础和整合能力。
我个人的观点是,XR可以有一个标准平台,为工业界、学术界和其他研究力量提供开放宽广的平台,业界同仁们可以将自己的长处发挥起来,去促进XR技术方方面面的进展。
从软、硬件到人机交互,XR的底层技术非常复杂,想要实现更为沉浸式体验感受,需要将这些技术互融互通。近些年,不管是硬件、软件、还是内容方面,都有很大的发展。但是,目前的XR仍然处于技术的早期阶段,距离我们预期的虚拟世界感受还有较大差距。
(图:腾讯在线视频BU播放技术中心总监 朱子荣)
从XR的应用层面出发,游戏、运动健身和视频占据前三甲。游戏跟运动健身比较好理解,它们本身具有一定的三维立体或者沉浸体验的感受,用户自然会比较青睐。在视频领域,人们从公共影院再到对私人空间的期待,用户非常希望在观看视频时能够有非常好的沉浸感受。
但是在这个过程中,内容硬件的发展必不可少,用户会要求更高的画面清晰度、更低的时延以及更准确、更自然的人机交互方式,让人们在VR、AR里面有更好的体验。这样慢慢从生态的角度、从需求角度再传导到上游的生产跟分发生态,整个生态就会发展起来。
圆桌论坛之后,在活动的主题分享环节,腾讯多媒体实验室专家研究员赵欣带来《国际视频编码标准前沿进展》主题演讲,他表示各个国际视频编码标准组织目前正在推动下一代视频编码标准项目,VVC标准化项目是腾讯第一次站上国际视频标准的大舞台。根据第三方德国专利信息分析机构IPLytics报告,腾讯在VVC采纳技术提案总数中位列所有公司排名前三。
(图:腾讯多媒体实验室专家研究员赵欣)
开放媒体联盟(AOMedia)在2018年发布了AV1标准,在视频应用产业中产生了巨大影响。开放媒体联盟2020年启动下一代AV2视频编码标准项目,腾讯多媒体实验室团队从AV2项目的筹备阶段就开始参与,目前已贡献了30多项技术提案,其中17项技术提案获得采纳并且进入了AV2的AVM编解码软件平台。在AV2项目中,腾讯多媒体实验室团队创新地提出了“跨色度像素偏移滤波”的自研技术,该技术属于传统混合编码框架下的六大编码模块之一的滤波技术。
腾讯多媒体实验室高级研究员李一鸣以《O264rt编解码——实时业务优化实践》为主题,分享了实时业务场景驱动的264相关优化。他表示视频编码标准目前仍然是属于一个百家争鸣的时代,在生态方面264仍有它独特的优势,比如说专利、终端支持度。
(图:腾讯多媒体实验室高级研究员李一鸣)
多媒体实验室主导的实时的端侧的264编码器,被命名为O264rt。O264rt编码器抛弃了X264的设计方向,在设计上是直接针对业务场景去深度定制的目前,O264rt的对接场景其实包含了纯RTC应用,电竞直播,以及云游戏、短视频录制等等,场景的话包括了腾讯很多ToB、ToC的产品,比如说TRTC、全民K歌等等。
腾讯多媒体实验室高级应用研究员田思达带来《开箱即用的智能音乐平台》,他表示腾讯的智能音乐平台的技术能力,按照方向可以分为三个部分。音乐理解方面,不仅可以处理整曲,还可以细化到片段,甚至是音符或者字词的粒度,实现了对一首音乐全方位无死角的解析;在音乐生成方面,不仅能作曲,还可以写词,也可以通过演奏和演唱的方式来对音乐的作品进行呈现;在音乐融合方面,将音乐和视频等其他模态的信息进行跨模态的融合,这样能够批量产生高质量的内容。
(图:腾讯多媒体实验室高级应用研究员田思达)
田思达介绍了腾讯的智能音乐平台的业务情况,包括为腾讯云的各条业务线提供多个算法,为金融产品提供了音乐标签的能力,为腾讯水墨画提供了智能配乐的能力等。
整场论坛中,“未知”一词频频出现,这是人们对XR充满想象和期待的缩影,它可以是AR,可以是VR,也可以是MR,不同的形态对应着不同的技术标准,业界都在实践和探索。而腾讯多媒体实验室分享的多项技术进展可以看到其对于XR的思考与选择,以及XR如何改变多媒体的形态。在即将发布的VR技术白皮书中,腾讯多媒体实验室或将分享更多XR的研究与产业调查,敬请期待。