IEEE院士Ming C. Lin：VR中音频渲染模拟为何这么难？

虚拟现实声音音频模拟

2016/06/16 17:03

虚拟现实（VR）技术的目的是提供如亲临其境般的沉浸感体验，而到目前为止，不说尚未能模拟的嗅觉、触觉，已经能在VR中体验得到的音频却并非如视觉完美。相信体验过一些VR设备的用户会发现，VR中的音频失真度较高。这些问题在2000年的时候就被意识到了。然而，为什么连解决方案都有了，VR音频的真实感模拟仍这么难呢？以下是国际数字感知大会上，UNC讲席教授、IEEE院士Ming C. Lin的讲演摘录，为了便于理解，部分内容有适当增减：

VR视频进步了，声频还处于80年代水平

刚才袁昱博士也提到了追踪和延迟的问题，而另外的一个问题就是怎么样去创造一种体验，以及捕捉，很多人都没解决这个问题。此外，就是人与VR环境的互动。目前，VR/AR领域有很多已经开展的研究都是关于怎么样去显示的——视觉的展示。但是，触觉的话，就是一个非常有挑战性的话题，我们的皮肤是可以传达感官的，但要知道怎么样去取样的话，就可能要运行上千次的。那么这个标准是怎么样的，很多台计算机才可以预算出来。我们尝试了不同的装置，在这个领域的研究里，你是开发者或者是研究者的话，你会深受鼓舞地去研究这个领域的，但如果你是物理学家的话，你会知道这个是非常困难的问题。

IEEE院士Ming C. Lin：VR中音频渲染模拟为何这么难？

而今天要详细讲的是，VR中我们的音频实时渲染做得并不好。VR视频进步了，声频还处于80年代水平。VR中位置不同、阻碍物不同时，声音是不一样的，而目前我们与声音是没有任何交互的。在VR系统里面体验一些内容的时候，有声音和没声音的体验差别非常大，这意味着沉浸感是否深刻。想象一下，当我们处于一个交互的VR环境中时，是怎么样利用声音的录制来制作效果的呢？——声音控制在哪里？看视频如果没有听到声音的话，你都不知道发生了什么。VR也是一样的，你听不到声音的话，你都不知道他是发生了什么。AR环境为保证视觉的逼真度，动态图象要以每秒20-30帧的频率进行刷新，单位时间内的刷新率则使图象具有一维的时间信息。为实现声音与图象的较好信息融合，必须使声音的三维方位信息与图象显示的三维信息相融合，图象的刷新时间与声音的时间信息相融合。

而重要的是，如果我们人类要去感知这个声音，就是生理层面去感受空间内的声音时，如何获得一个实时的感受呢？如果声音无法实时渲染，而是依靠外部配音来完成的话，那么实际的声音轨迹只能是固定的2D效果，而非像现实一样能让我们分辨出声音的来源、发声的物质，也就是当视频画面能够移动了，但配音中的声音声源是固定的，这就大大降低了VR系统中的真实感。另一方面，采用配音的话，无法百分百模拟每一个场景所能够产生的声音，比如当木头、金属、流体等一系列复杂元素交错碰撞时，模拟配音只能是大致地完成；并且，当在虚拟空间中，声音传递会经过一些比如墙壁等的阻碍，那么这个配音是无法模拟的，所有这些造成的问题是失真度较高。最后，如果每一帧的声音都需要外部模拟再匹配，那么千千万万帧的内容将需要庞大的配音工程。

而更大的问题的是，其实耳朵的形状，就决定了每个人听到的声音都是不一样的。所以，我们需要做的是依靠算法来结合人体生理条件自动实时渲染生成场景中的声频。需要建模、建立音频数据库、建立算法。

难以实现的解决方案

对声音仿真的目的，就是用计算机生成的声音能够非常逼近真实世界中的声音。从频域上讲，二者的频谱分量要相当接近。任何真实世界中的声音都可看作许多幅值、相位唯一的正弦波分量的混合，对声音的建模，可理解为对声音的频谱分析。

IEEE院士Ming C. Lin：VR中音频渲染模拟为何这么难？

我们先了解一下声音传播中数学函数和几何方面是如何表现的：模拟声音时，需要用方程来计算声音传播的压力波，就是欧姆的4次方——这是非常高的一个频率，需要超级计算机来完成计算，需要100倍升级CPU。

举个例子说，在一个教堂中，模仿里面分散的声音会用不同的材料，它们会有不同的吸收率。因为材料的质量本质上是不一样的，不同的材料会有不同的效果。应该怎么样做模拟呢？以流体声音为例，目前的方案是利用许多材料来与一缸水撞击，然后捕捉起这些单点水珠的声音素材，并转化成代码，那么日后出现的新环境中，计算机就能利用算法把不同的素材合成为符合场景活动的声音。这所做的，可以理解为声音的克隆。那么有了这样的模拟能力，VR就可以允许用户感觉在水中进行互动了，否则，用户在VR中游泳一点感觉都没有。那么延伸开来，不同的素材可以做不同的声音模拟，对万物的模拟也同样需要海量的素材。

IEEE院士Ming C. Lin：VR中音频渲染模拟为何这么难？

又比如，珠子掉落到木板上时，随着珠子的体积、形状、速度、质量的不同，其声音是不同的。那么根据以往收集的声源材料，比如各种木头之间相互撞击、铁块与木块撞击等等，来自动合成这个声音。

IEEE院士Ming C. Lin：VR中音频渲染模拟为何这么难？

所以说，这面临的难题有两个层面：第一是基础建模的困难，我们有海量的声源物体需要建模；第二是根据模型生成声音的算法困难，复杂的逻辑、巨大的计算量。目前，我们所能做到的是水流、滚珠等几个模型。

IEEE院士Ming C. Lin：VR中音频渲染模拟为何这么难？

此外，在仿真环境中，要想每时每刻观察到运动中的实体，计算机生成的图象所对应的视点必须能够象电影镜头不停变焦距那样实时切换，要达到声像的良好融合，听点应跟随视点变化。声音的听点实时切换在头部跟踪中是非常必要的，当头部姿态变化时，为保证生成的虚拟声源的位置应是不动的，必须反向切换相应的头部脉冲响应函数。

然而，可以说，所有这些物理当中的声音，都可以通过模拟来逐个生成。我们可以用这个技术来获得一个多通道的交互，所以说这是一个多模态的交互。这个技术已经在展开研究了，未来将是一个突破的关键点、难点。