8i 全息人像
长期关注 VR 的人应该知道,各种 360 度或 180 度全景视频虽然都自称 VR 视频,却一直被诟病为伪 VR,体验不佳。这些视频采用 2 个或多个摄像头捕捉画面然后拼接成全景视频,包括 3D 和非 3D 内容都只能提供一个固定视角,用户无法在视频里自由移动。
Lytro 打造的光场视频( light field video,非专业名词)则不同,虽然被称为“视频”,但它像游戏场景一样,用户可以在视频里可以进行 6 自由度(前后上下左右)移动,观看物体的不同角度。
同样在这个星期宣布融资消息的 8i 也在往这个方向努力,而包括英特尔、微软、索尼在内也都将 6 自由度视频(学名 Volumetric Video)视为 VR/AR 内容的未来发展方向。
都说 VR 可以带你穿越到另一个世界,但如果穿越过去后没法四处走动也是挺没意思的,所以包括 8i、Lytro 和英特尔都想解决这个问题。
据雷锋网了解,8i 是一家总部在新西兰和美国的全息影像公司,2 月 14 日刚刚宣布获得 2700 万美元融资,领投的是时代华纳,跟投方还包括成立不久的百度风投。
8i 拍摄现场
8i 采用容积捕获 (volumetric capture) 的方式来捕捉人物的全息影像,该方法通过训练多个摄像头对人物进行拍摄,并将照片拼接起来形成全息影像。这个全息影像可以和任何三维 CG 场景结合。
下面是 8i 在 2015 年发布的一种 3D 视频格式,它让人站在四周都是绿幕的场景中,用一圈摄像头摄制人物的全息影像,然后制作成 VR 视频,用户可以从各个角度看。
不过要想完整感受 8i 的视频,一般的手机盒子是不行的,必须要带空间定位的头显,比如 HTC Vive、Oculus Rift 和索尼 PlayStation VR 三大头显。
为了让技术更加亲民,该公司计划在今年推出一款名为 Holo 的手机 app,让用户用手机来拍摄这种 3D 人像。类似的 app 微软在去年的 Win 10 大会上也展示过。
既然可以拍摄全息人像视频,那么把视频通过网络传送就成了全息传送,而这也是前段时间微软用 HoloLens 演示全息通话所用的技术。只是这种传输必然要求通话者被一圈摄像头围着。
HoloLens 全息通话
如果说 8i 展示的用一圈摄像头环绕着拍摄一个人的完整全息影像,刚刚获 6000 万美元 D 轮融资(阿里参投)的Lytro,要做的就是用一撮摄像头(数百个)将环境的光场影像拍摄下来。
Lytro Immerge
根据雷锋网此前的报道,Lytro 在 2015 年 11 月发布了一款 VR 光场相机 Lytro Immerge,比谷歌、Facebook 等公司做的 10 几个摄像头组成的专业级 3D VR 摄像机更进一步,其内部的数百个镜头和图像传感器分为五个“层”(你可以想象 5 个 Google Jump 相机阵列组合在一起的效果),从不同方向、角度捕捉数据。
后来 Lytro 对这款相机进行了改进,现在是用一个平面镜头阵列,旋转着拍摄整个 360 度场景。
结果就是,Lytro Immerge 不仅可以让 VR 场景变得更加清晰和立体感,用户还可以在这个 VR 场景中走动——虽然这个由 Lytro Immerge 创造的能四处行走的 VR 空间大概只有一个立方米左右。这样的行走效果过去一般是通过电脑生成素材,场景的逼真程度有限,而 Lytro Immerge 则是提供了另一种可能。
在今年 CES 上,英特尔就对外演示了这种 6 自由度视频,通过与 HypeVR 合作,英特尔用 Alloy 头显对在场的媒体演示了一段穿越到越南的 VR 视频。
HypeVR 用的拍摄设备
根据外媒 RoadtoVR 记者的体验,与一般的 VR 视频不同,这段视频不仅清晰,而且沉浸感更好,主要是因为观看者不只是可以用眼睛四处看,还可以四处走动,虽然范围只有一个房间大小。
而为了拍摄这样一段 6 自由度视频,HypeVR 动用了体型巨大的拍摄设备(见上图),这款设备放置在场地中央,拍摄 60 帧每秒的 3D 全景视频,与此同时,激光雷达(LiDAR)也在对四周进行深度信息的扫描建模,之后再将图像数据和深度数据融合,制作出 60 帧每秒的 6 自由度视频。
实际上,这样的视频帧是场景的实时 3D 渲染模型,连在一起不间断播放,所以才能让用户在场景里来回走动,就像在 VR 游戏里能做的那样。而这也是视频看起来非常清晰的原因——头显渲染的每一帧的画面都是从现有数据进行的最优选择,而每个角度看到的 3D 信息也都经过位置的修正(相比之下 360 度 3D 视频只有不多的几个不错的视角)。
8i 用一圈摄像头拍摄一个人,再把画面拼接起来,这样的数据量绝对不会小;Google Jump 16 个 GoPro 相机的数据量已然大到用云端电脑来处理了,Lytro 的数百个摄像头的相机就更不用说了。
到底有多少数据呢?不妨来看看 HypeVR 的情况,他们拍摄那段穿越到越南的 6 自由度视频用上了 14 台红龙相机,每台都以 6K 分辨率 60FPS 的速率拍摄,加上每帧还有激光雷达捕捉的数据。首先要把这些数据整合成最终的视频,这就要花费不少的渲染时间,本地的话现在是 6 分钟每帧(是的你没看错)。
等到全部渲染完成,要让用户看到它也是不容易的,因为它的体积是 2 GB 每 30 秒。而相对之前这已经是进步了,此前 HypeVR 曾拍摄出 5.4 TB(是的我没写错) 每 30 秒的数据量。
这也意味这些产品即使是 2B,也不是普通专业用户用得起的,更不用说到消费者手上了。
不过在雷锋网看来,以科技业的发展速度,有生之年大规模生产、消费这些内容还是可期的。