声网Agora 侯云忆：让实时互动成为元宇宙的“空气和水”∣GAIR 2021

声网Agora 候云忆元宇宙

2021/12/21 11:19

声网Agora 侯云忆：让实时互动成为元宇宙的“空气和水”∣GAIR 2021

2021年12月10日，由雷峰网(公众号：雷峰网)与小虎互联科技联合举办的全球人工智能与机器人大会元宇宙分论坛在深圳成功进行。参会的观众与嘉宾热情高涨，都对元宇宙概念的前景满怀期盼。

在概念被热炒的当下，有许多人却能够透过浮躁的市场，看到在元宇宙进程中实行基建的可能性。声网Agora就是其中之一。10日会上，声网Agora的物联网负责人侯云忆出席并就实时互动（RTE）发布了主题演讲，题为《RTE：元宇宙的基础设施》。

侯云忆表示，在元宇宙的基础架构设计中，实时互动是无比重要的基础设施，甚至能被称为元宇宙的“空气和水”。一方面，延迟的降低能降低用户在XR使用中的眩晕感；另一方面，交互的实时性也能让虚拟世界更令人置信，用户的沉浸体验也会相应被很大增强。

而关于如何将实时互动落到元宇宙建设的实处，侯云忆认为有四点应该特别关注：

“一是‘高实时性’，即如何在更高的信息密度下达到高实时性；二是‘高互动性’，就是我们今天强调的高参与感，如何有更高的互动性，而不仅仅是过去所谓的音视频的通信和传输；三是‘高沉浸感’，还原我们在物理世界里参与社会活动，去生活、去工作；四则是‘无处不在’。”

下面是侯云忆的演讲内容，雷锋网在不变更原意的前提下对其进行了一定的整理：

谢谢雷锋网的邀请，首先向大家简单介绍一下声网。

声网是实时互动云服务开创者和引领者，我们在公共互联网上定义了软件定义的虚拟网络，为开发者提供全球化低延时的实时互动服务。我们的开发者经常形容声网提供的SDK是场景化的SDK，目前我们覆盖了200多个场景和行业，包括在线教育、社交娱乐、金融、AR、VR、IoT等场景，也服务了全球超37万款应用，资本市场形容我们是第一个技术出海的技术型公司，我们从Day1开始以全球化业务覆盖200多个国家。目前线网的单位通话数达到500亿分钟，这是什么概念？超越了任意一家单一运营商的规模。

在今年，声网发布了整个实时互动全产业链的万象图谱，在整个大赛道上，包括在教育、泛娱乐、IoT上，也包括在非互联网原生的传统行业的数字化转型，面向于金融、医疗、政企、数字政府和智慧城市等等，全面覆盖了20多个大的行业、200多个大的场景。我们在做实时互动的时候发现，过去从整个异步到实时，每个行业都可以重新来一遍，今天我们说的下一代互联网，在元宇宙的场景下是否也是一样的？

其实我自己加入声网之前，也在做多模态的人机交互和AI，所以我也非常兴奋“以人为本”这四个字，我会从整个信息和交互的视角，快速回顾一下整个互联网的历程。其实我们可以看到，从2G-3G-4G-5G，我们和互联网发生互动的信息媒介，在不断发生改变。从最早的时候，2G时我们只能通过音频和文字传播，到互联网时代我们可以做图片和视频的互动，实时互动赋能之下，很多短视频走向了高清视频的直播和实时互动。再往后是什么？我们想象当中是更高的信息载体、更大的屏幕、更高清的视频以及更大带宽的需求吗？好像是，也好像不是，因为我们交互的形态和互动载体在发生改变。

刚才有很多专家和老师提到，我们有更多更自然的语音交互、视觉交互，甚至是触觉更多模态的感知出现了，所以我们的交互入口在整个移动智能时代，每个手机就是我们每个人跟互联网发生交互的超级入口，每个手机背后也代表了人。从2020年开始，其实手机已经在负增长了，这也是第一次物联网出现了连接设备数“物超越人”的情况，所以未来我们的交互，一定会回顾到人更自然的交互、更加的多模态，我们的入口也会越来越多，一定是物联网的时代。我们也看到，随着整个算力的提升，包括硬件性能的提升，以及更加轻量级长续航的设备，AR/VR极有可能成为下一代的交互入口。

元宇宙对交互的底层逻辑有什么冲击？

我们常说，在1000个人眼里，会有1000个不一样的元宇宙。今天有很多老师给了不一样的定义，可能大家现在对于元宇宙最终会成为什么样，对于它最终的终局还没有一个统一的定论，在这里我分享一些不成熟的小观点，这也是我们在必然趋势上看到的，交互和互动的底层逻辑，其实已经在发生改变了。

1、交互逐渐走向自然化、多模态和分布式。

2、在元宇宙和过去移动互联网的交互上，最大的改变是一切都从2D变成了3D，XR可能是下一代新的无处不在的交互形态，而我们的AR/VR设备，极有可能会是下一代的个人终端。

3、在整个远程或数据传递的第一性原理里，过去从文字、图片到了视频，下一代一定是流媒体和物理信息如何被还原。

4、虚拟现实和增强现实的核心，就是要对现实进行实时感知、渲染和还原。

5、IoT是还原现实，构建数字孪生重要的基础感知设施。

6、未来每个人参与到元宇宙的时候，一定会有自己的Avatar虚拟化身，它和现在每个人在各个App后面的ID不同，它会是你的身份，你的个人价值，以及你的参与。所以元宇宙一定不是一个封闭的虚拟世界，而是虚实相融的，任何人随时随地都应该、也可以在元宇宙里创造内容。

也因为上面这几条，我个人认为，未来只有一个元宇宙，它就是我们的现实本身，是我们现实本身在虚拟世界里的参与跟互动，而元宇宙的构建，需要的是开放和共享的基础设施。

今年年初，当大家还在讨论元宇宙到底是什么、声网到底是不是一个和元宇宙相关的公司时，我们其实就是“被元宇宙”的一家公司了。在整个产业图谱当中，我们出现在了基础设施环节，甚至这张图谱在今年年初只有十几家公司的时候，声网已经出现在上面了。后来我们也看了一下，不仅是趋势的视角，在当时那个时点，有非常多的开发者和客户，也已经在元宇宙应用的版图上了，当时我们发现自己已经不知不觉服务了非常多的虚拟人、AR/VR等虚拟空间场景，所以我们今天想表达，实时互动一定是构建整个元宇宙的水和空气。

声网Agora 侯云忆：让实时互动成为元宇宙的“空气和水”∣GAIR 2021

构建元宇宙RTE的四个关键技术点

怎么做到？我们认为，要构建元宇宙，对实时互动其实带来了更高的技术要求和必要的技术要素。我们认为有四个关键的技术点。

1、高实时性。如何在更高的信息密度下达到高实时性。

2、高互动性。就是我们今天强调的高参与感，如何有更高的互动性，而不仅仅是过去所谓的音视频的通信和传输。

3、高沉浸感。还原我们在物理世界里参与社会活动，去生活、去工作。

4、无处不在。

声网Agora 侯云忆：让实时互动成为元宇宙的“空气和水”∣GAIR 2021

我们先看一下高实时性。以典型场景举例，AR/VR可能是下一代元宇宙的重要入口。其实在去年，华为就在《Cloud VR白皮书》里提到对XR硬实时的要求。对于要在VR形态内发生实时互动，并规避一些因为物理局限导致的晕眩，从云渲染、传输流化延时的定义要求来看，是70毫秒起步的，这对我们在下一步交互上，从“端-云-边”带来了非常大的挑战，现在端侧的处理基本耗时就是10-20毫秒左右。

声网在做什么？目前声网已经可以做到全球中位数（76毫秒的端到端延时），我们在全球首创了软件定义实时网络SD-RTN ™，我们通过在全球200多个节点，通过中心控制、边缘接入的方式，可以让我们实时互动的音视频和一些消息就近接入，以最快速的方式导航出一条最佳路径。

同时我们有千万级的并发能力，不论你是小的互动，还是千万级的大规模互动，都可以以低延时、高可靠和强同步的方式发生在互联网上；

第二个是高互动性。共享情景不仅仅是音视频了，我们想一下平时是怎么开会的。现在的视频会议，我们和大家面对着屏幕，我们看到的都是屏幕对面你的物理空间，其实我们的世界是分开的，但是在元宇宙当中，我们应该怎么开会互动？我们想要真实看到你，跟你在现实物理世界当中是一样的交互，也许你背对着我的时候，我可以走过去拍拍你的肩，向你请教一个问题，也许我们可以在一个空间白板上，共同讨论一个话题和议题，我也能及时看到此刻你的情绪感，你对我表达的意见的反馈，这才是一个真实的交互。所以我们需要的不仅仅是音视频，事实上在当下这个阶段，声网已经提供了丰富的产品组合，以API的方式，可以让开发者构建这样的场景。包括我们在整个空间当中语音通过的API、视频通话的API，当然也有互动的白板和实时的消息构建我们在空间当中交互的更加丰富的内容。也有媒体流加速的API和实时录制API，实现在互动过程中的媒体服务和展览服务。声网也提供了水晶球质量监控工具，能够让开发者和用户全程全链路地监控实时互动和媒体传输的质量；

第三个是高沉浸感。刚刚提到在元宇宙中，所有的一切都变成了三维世界，这跟我们过去互动最重要的两件事，就是和空间以及和人的关系发生了改变。声网现在基于AI提供了几个技术。首先我们有空间音频，可以通过球形感知声场模型以及听声辨位的算法，还原空间当中的声音强弱，能够在虚拟空间里听到来自不同方向和距离的声音，能够还原我在物理空间中的距离感，让我们的临场感更加身临其境。第二个是 Spatial Audio，在虚拟空间的交互下，一定是虚实融合的，比如刚刚紫为云提到的AR场景，我们会有视频流和点云数据的视频融合技术，保证实时传输是强同步的。最后是Avatar，其实声网在去年就支持我们的开发者，帮助远在日本虚拟偶像小姐姐直播，让他在日本的动捕棚里采集动作，并且在上海的舞台进行现场还原，并在多地还原这个全息的虚拟偶像。我们在整个虚拟人、数字人领域，从采集、捕捉、传输再到还原的端到端，依然也是有低延时、音话同步、数据传输的，以及刚才提到的下一代的交互，如何用小数据驱动，如何用纯语音的方式驱动Avatar的肢体动作，这也是声网在探索和实践的；

最后是无处不在。我们相信在元宇宙里，让任何人都能随时随地参与，一定是通过任意规模、任意设备、任意场景下都能让他发声，这也是声网从物联网视角提供的整体全场景架构。底层基于SD-RTN ™，通过音视频通信、媒体加速等一系列服务，可以支持1v1到百万人大频道不同规模场景互动，今天我们也提到，元宇宙一定要最终打破平台壁垒，做到跨平台、跨终端，进行真正实时的互联互通。在设备角度，声网目前覆盖穿戴、家居、户外等30个领域的细分品类。在这当中最重要的，刚刚提到VR/AR的交互入口，我们也跟很多头部企业从硬件生态层面做了合作，包括HTC VIVE，国内的Rokid、LLVISION等企业，都可以开箱即用声网的服务。最终面向应用层的每个行业，包括游戏、社交、娱乐、教育、医疗、工业、公安等等，都可以重新发生一遍。

元宇宙应用未来的三个阶段

刚才说了很多技术的趋势和概念，今天也想让大家现场直观地感受到我们已经落地的一些初期的元宇宙场景，在展示场景之前，我个人认为元宇宙的应用未来有三个阶段，每个阶段的发生，不再是简简单单地把物理世界搬到虚拟世界，而不仅仅是把线下搬到线上，而是对时间、生产力和生产关系的重新求解。这里大致有三个阶段。首先是数字孪生，可以精准实时还原物理世界；其次是虚实相融，物理世界和虚拟世界可以彼此交融发生关系，造成一些生产力的变革；最后，虚拟世界发生的一切，一定可以反过来真实地影响现实世界。

具体是什么意思？我们来看几个场景。

第一个非常典型的场景，我们称之为虚拟空间，它重新定义了在一起这件事，让我们在不同物理空间的人，可以同时在一个虚拟空间发生共享和交互。比如我们在这里看到了几个典型的场景。左边的是虚拟展会，也是我们合作伙伴的发布会。我们现在以Avatar的形式参与到会场当中进行发言，也可以以Avatar的形式在会场当中自由游览，参观一些3D模型。右下角的图是HTC VIVE新一代Sync app，如果有使用过HTC VIVE，或者即将使用这个应用的伙伴，可以开箱即用这个产品，可以在虚拟空间里，通过我们内嵌的媒体流和Spatial Audio来感受沉浸会议。如果有关注AR/VR领域的伙伴就会知道，HTC VIVE最近几次所有的发布会都是在线上，并且他们的老板也都是以Avatar的形象出现的，用的都是这样的底层技术和工具。

除了工作，最大被改变的地方，一定是我们的生活和娱乐方式，我们可以把派对、K歌、健身的场景都搬到虚拟空间里。这是美国TribeXR的应用，这两位DJ在美国当地非常有名，他们以数字化身的方式出现在虚拟空间。同时我们觉得，元宇宙最重要的是参与感，我们不仅要能够看到未来的偶像和明星出现在虚拟空间里，我们也要参与在其中，可以在这个案例中看到，观众可以通过不一样的席位，参与到整个现场活动当中的。

声网Agora 侯云忆：让实时互动成为元宇宙的“空气和水”∣GAIR 2021

在移动社交上，我们也有很多场景落地，包括以Avatar的形式出现在虚拟社区当中。今天开场时沈老师也提到，韩国在元宇宙方面做得非常前列，事实上通过声网Metaverse场景的构建，我们甚至看到，韩国已经把议员参选的拉票搬到了线上，也有企业会在线上提供虚拟空间进行办公和楼宇的售卖租赁，所以从整个应用场景来说，我们已经看到了未来整个社会活动的真实改变。

刚才讲的场景是把大家放到一个虚拟空间。下一个不同的交互泛式，是我们把你带到一个远程的现场，让你真实地感受，以第一视角的临场感来看。典型的方式是AR眼镜，比如工业场景，我们可以把AR眼镜的第一视角回传到远端的专家，远端的专家可以通过实时标注的方式进行现场指导。特别是疫情之下，我们看到非常多的跨国企业都在采用这种远程协作的方式，改变一些对于生产力的依赖，解决了很多跨越时空，让效能在疫情、贸易战之下还能得到快速的前进。

再往后，平行控制和裸眼3D。这个场景是真实裸眼3D的显示屏，它是一个远程挖矿遥操的场景，可以让远程的人非常真切地感知、还原到远在几千公里之外的现场矿区，并进行精准的远程遥操。下一步是什么？我们相信不仅仅有虚拟世界的数字人，一定也有物理世界的数字人，整个元宇宙不会单一发生在某一个AR/VR设备内，它一定是跨终端的。有一个典型场景，平行控制。也就是说，通过我的感知设备，能够把我的动作和表达精准还原到远端物理的机械数字人上，进行精准操控。

声网Agora 侯云忆：让实时互动成为元宇宙的“空气和水”∣GAIR 2021

以上这些，其实也是声网在元宇宙场景上的探索，也是我们能够给行业带来的价值。最后这句话，其实也是声网一直以来的愿景，把它送给大家：相信在元宇宙里，实时互动可以像空气和水一样，无处不在。

谢谢大家。

专题

GAIR 2021 查看更多文章