嘉宾介绍:张瑞博,森声数字科技创始人&CEO。瑞典乌普萨拉人机交互硕士、图形图像&计算机科学学士,专注领域包括矩阵算法,识别技术,VR/AR技术,数字模拟,社交网络。拥有多项专利以及大量第一发明人,曾推出全国首例地产AR增强现实发布会。雷锋网雷锋网雷锋网
在电影行业有一句话,“没声音再好的戏也出不来”,这句话强调了声音对电影的重要性。当然,这个道理同样适用于VR影视。谷歌Cardboard的高管Nathan Martz曾表示,VR音频不容忽略。他说,许多人认为在开发VR产品和体验过程中,视频和视觉是最重要的因素,其实不然,声音也同样重要。在资深游戏开发者群体中,有一个行业经验——“声音让场景更加真实”。
但VR音频到底是什么鬼?森声数字科技创始人&CEO张瑞博为我们带来他的看法。
VR音频的概念
(一提到VR音频,有人会说3D音效(往往是游戏),有人会说杜比全景声,甚至还有说人头录音。到底VR音频是什么?)
首先,VR音频并不是一个技术名称。它是对所有能解决VR技术中音频方位模拟的技术解决方案的统称。
其次,游戏中使用的3D音频也可以包括在VR音频的范畴。上面列举的例子都是在解决特定场景下的特定问题。比如说雷蛇的游戏3D音效和Oculus Audio SDK是解决游戏中虚拟音源的技术。但是,现场采集怎么办?音乐会怎么办?直播怎么办?而杜比Atmos(杜比全景声)的核心是基于object音源的影院扬声器矩阵的还原技术,更多是针对杜比推出的下一代影院效果。这并非真实声场模拟,更多是追求来自于周围和上方震撼的音效。但是,不是影院怎么办?现场采集怎么办?头盔终端回放怎么办?
在音频技术上,人们会因为实现方式流程以及对应用户场景不同,所采用的技术也完全不同。这并不是提问所理解的一个技术通吃所有情况,而是不同情况都需要对应技术方案。
VR音频实际效果
(VR音频具体效果以及甄别真伪的方式?)
首先我不知道什么叫作伪VR音频。因为VR音频本来就随着VR的发展而开始的一个技术板块。就像是高清标准刚刚开始的时候你能说720p是伪高清1080p是真高清么。只是执行程度彻底与否的区别而已。如果说VR音频效果的话,主要有几个特征点:
1.能够和头显视觉画面对应,并表现出对应视角下的声源方位与声源距离;
2.同时体现出对应空间环境中的混响情况、声音反射和吸收情况等;
3.满足以上部分或者全部要求的都可以叫VR音频。
我这里有一个图,可以表明VR音频的基本概念。(下图)
VR音频的实现要求
(VR音频对比现有的3D音效有什么技术上的硬性要求,比如采集,储存,传输等方面的?)
嗯,这个问题问得好。很多人都知道3D音效,但是并不了解3D音效和VR音频的关系。
3D音效是一个有一定年头的东西了,最早你在一些游乐园中听到3D鬼故事或者是网上的理发店都是3D音效。目前3D音效主要由立体声来承载信息,但是由于VR音频需要实现和头显视觉画面对应的空间音效变化,可以理解为声音的维度升级。如果假设传统的3D音效是2维的话,那VR音效至少要做到3维才能实现基本要求,所以整体信息采集量和传输量和传统的3D音效都是天翻地覆的区别,理论上讲至少4倍以上。
不过,好在目前的情况看来VR音频并不会对带宽提出新的挑战,因为相对于4K的全景视频的带宽需求,音频提升所带来的带宽压力基本可以忽略了。
(在视频,游戏,电影等不同领域,对VR音频的需求是不是有所不同?为此带来的算法和方案也会有所不同么?)
答案是肯定的。不同情况下对VR音频的需求和实现方式都是不同的。
比如游戏中的VR音频,游戏厂商在开发游戏的时候会把对应的发声源object的对应音轨准备好。比如说脚步声,开火的声音,这些音轨都是普通的音轨。在游戏引擎中设置好根据这些发声的object在虚拟环境中与player的相对位置,然后对应调用HRTF(Head Related Transfer Function,头相关变换函数)算法来实现音源的方位化与距离化,最后通过耳机播放让玩家感觉的方位信息,实现听声辨位。
又比如音乐会VR节目制作,VR游戏中音频不存在采集的问题,因为音轨是准备好的,你不可能把一个现场的音乐会通过事先准备好的音轨代替吧,那就不是这个音乐会了。所以这个时候的VR音频是要通过现场采集的方式来实现。这里实现的方式就比较多了,有通过多向采集再进行声场运算的方式,有通过数字HRTF加工的方式,也有自然HRTF采集的方式,各有各的好处和问题,目前还没有一个标准是肯定的。但是可以肯定的是大多数方式都是通过耳机回放来实现。
VR音频的挑战与瓶颈
(目前VR音频遇到的技术瓶颈是什么呢?)
我认为VR音频相对于现有的VR视频技术而言并不存在非常难受的技术瓶颈。比如说VR视频中的几个比较难受的瓶颈包括终端屏幕dpi(像素密度)、高分辨率传输、带宽等等。这些都是需要非常大的投入促使量变到质变的发展过程。
但对于VR音频而言,大部分现有的技术加以升级和改进已经可以满足VR的需求,更多的是如何推广和适应实际应用的过程。
(所以,哪一部分成熟之后,VR音频才会大规模在内容商普及?)
嗯,你问到一个关键点上了。
虽然没有太大的瓶颈但是技术挑战还是非常大的。我认为在影视与视频节目方面VR音频的主要挑战是对传统制作方式与制作思路的挑战。
这个问题影响其实非常大,由于VR影视的特殊性,导演在叙事的过程中如何对观众产生视觉方向的引导,如何布置场景,如何隐藏灯光和道具,如何保持观众的代入感和临场感......实际上VR影视对于从19世纪末就发明的电影积累下来的拍摄手法和理论都是颠覆性的。很多以前理所当然的东西到现在都不适用了,各种拍摄团队都在摸索的寻找新的规律和方法,所以VR音频最终能走入千家万户,还要看我们奋战在影视制作一线的工作者能否找到VR音频制作的新规则并创作出各种富有感染力的作品。
当然,我们作为技术与硬件提供商,也会尽全力去帮助他们一起来寻找VR中的声音之路,毕竟在那在头盔之后可是一个对想象力没有边界的世界。
读者提问
(VR音频输出需要杜比或者DTS解码技术吗?VR音频如果主要输出到耳机端,立体声模拟3D音效,比起传统影院或者家庭影院不是弱爆了吗?)
首先,我要提出2个词语来回答这个问题:真实性与震撼性。
VR一切的目的最终是以真实性为核心。这里说的真实和并不是说游戏中的3D是假的,而是说VR的目的是为了给人的感官再创造一个“真实”的世界,这个世界可以是虚构的,但是一定要真实,这个是VR的核心。
而DTS这些技术追求的核心是震撼性, 说白了就是电影并不在乎当时爆炸是不是这个声音,也不在乎直升机是不是正好从你左后方30度的位置飞过,它们需要的只是观众觉得爽就OK。所以说VR音频并不需要和影院系统做对比,它们本来就不是替代关系,相反在不同领域各有各的追求和特长。比如说,影院系统的音域范围要强悍的多,下沉的低音连椅子都在颤抖。 但是影院只是通过7.1、11.1等多声道系统实现的,它可以模拟出一定的音源方向,但是却模拟不出音源远近的距离。
而VR音频追求的是....你可以这么假设,如果我在这个VR的世界是真的,我应该听到的是怎么样的声音,所以VR音频追求的真实性在技术上就体现在“如何模拟出真实的方向和距离感”,当然由于技术的限制,在耳机上实现及其震撼的低音效果还不可能超过影院。