雷锋网按:苹果和谷歌相继加入 AR 战局后,该技术的火热程度瞬间被拔高了一个层次,在数千万潜在用户面前,开发者也鼓起了干劲,准备为市场提供吸引力十足的沉浸式 AR 体验,那些我们在视频上见识过的神奇魔法仿佛即将成真。
确实,我们比以往更接近梦想成真,但事实上在沉浸式 AR 进入主流之前,我们在研发和设计上依然需要多年的努力。下面,我们就对 AR 面临的三大关键挑战进行一次概览。
同样的VR体验中,不同视场效果比对
在 YouTube 上看炫酷的 AR 演示(雷锋网此前介绍过很多)是一个事,在现实中体验 AR 又是另一个事儿。即使是今天最为先进的便携 AR 头戴设备在视场方面也不够理想,甚至与 VR 设备还差着一大截呢。
就拿微软 HoloLens 来说,它已经是市场上能买到的最好的 AR 头戴设备了,但视场却只有可怜的 34 度,而就连谷歌的廉价 VR 产品 Cardboard 都有 60 度的视场。
对 AR 来说,视场相当重要,因为要实现一定的沉浸感,AR 世界必须与现实世界无缝融合。如果不能实时看到眼前的 AR 世界,你就会不自然的挪动头部“扫描”周边环境,就像通过望远镜在看世界。这样一来,大脑就无法通过直观的映射将 AR 世界看作真实世界的一部分,所谓的沉浸感也会化为乌有。
其结果自不用说,沉浸感不够强,无法变成人们的自然意识,也意味着,这并不能成为针对消费和娱乐市场的自然的人机交互。
不过,现在不是有了 Meta 2 AR 眼镜吗?它的视场可是达到了 90 度,难道这也不行吗?
确实,Meta 2 是市场上视场最为宽广的 AR 头戴设备,它几乎能与现在的 VR 产品媲美,不过 Meta 2 依然非常笨重,如果不牺牲一定的视场,就无法缩小光学系统的体积。
Meta 2 AR 眼镜
Meta 2 的光学组件其实非常简单,头盔上那个巨大的“帽檐”里面藏着一个类似智能手机的屏幕,这块屏幕角度冲下面向地面。此外,那块巨大的塑料护目镜则内部镀银,它会把屏幕上显示的画面投射到用户眼中。如果想缩小头戴设备的体积,就得把屏幕和护目镜同时缩小,这样视场角度也会跟着缩小。对开发者来说,Meta 2 是绝对的神器,但如果放在消费市场上恐怕难有消费者问津。
ODG R9
ODG 也在运用类似方案做 AR 眼镜,不过它们的光学系统有所瘦身,视场也降到了 50 度,一款名为R-9 的产品售价依然高达 1800 美元。以消费市场的角度来看,这家伙不但价格不合格,体积也不合格。与其相比,运用光导式技术的 Lumus 则利用 2 毫米厚的光学系统实现了 55 度的视场。
Lumus
虽然 50 度的视场已经相当不错了,但与顶级 VR 设备 110 度的视场相比还是差距太大,而且消费者对视场的追求是无穷无尽的。Oculus 此前也表示,想实现真正的沉浸感,视场至少要达到 90 度,因此 AR 必须尽快翻过这座大山。
苹果的 ARKit 和谷歌的 ARCore 都能给你带来新颖且漂亮的 AR 体验,但由于智能手机能力有限,这两套系统只能理解平面上的“新世界”,这也是如今 iOS 上 99% 的 AR 应用在墙面或桌面上玩耍的原因。
为什么非要是桌面或墙面?因为它们容易分类。地板或墙壁的平面与另一地板和另一墙壁的平面相同,所以系统有信心假定这一平面能够向所有方面延展,直到与另一平面相交。
注意,在这里我用了“理解”(understand)而非“感知”(sense)或“探测”(detect)等词语,这是因为系统虽然能“看到”物体的形状(除桌面和墙壁以外),但却无法理解它们。
打个比方来说,当你看着一个杯子时,看到的绝对不是一个形状。而且你已经对杯子非常了解,那么了解程度有多高呢?
1. 你已经知道杯子与它所在的平面截然不同;
2. 即使不看杯子,你也知道它有能容下液体和其他物体的空间;
3. 你深知杯子里的液体不会冒出杯口;
4. 你知道我们能用杯子喝水;
5. 你清楚的知道杯子很轻,容易被撞倒,从而导致杯子内物体被抛洒出来。
……
看起来有点傻,不过我还能继续往下说。这里我列出以上的文字主要是为了告诉大家,我们知道的常识计算机可不知道。它们只能看到一个形状,而不是一个杯子。计算机无法得到杯子内部的完整视图并映射出完整的形状,计算机甚至不能假定杯子内部存在一定的空间。同时它也不知道杯子是独立于其所在平面的一个对象。但你知道这一切,因为在你看来它就是一个杯子。
对计算机来说,只看到一个形状可不行,它必须“理解”这个杯子。这也是多年以来我们在 AR 演示中把基准标记附加到物体身上,以实现更细致的追踪和交互的原因。
那么为什么让计算机“理解”杯子这么难呢?第一大挑战在于分类,杯子有数千种形状,大小,色彩和纹理。一些杯子还拥有特殊的属性和用途,因此不同的杯子会适用于不同的场景和背景。
如果要类比,其难度就相当于写一个帮计算机理解以上所有概念的算法,或者说写几行代码来向计算机解释杯子和碗之间区别。
仅仅是解决一个杯子的问题就能带来如此巨大的挑战,所以想把世界上成千上万的物体都囊括进来就更加困难了。
如今,以智能手机为基础的 AR 确实可以融入周边环境,但交互起来却很困难,这也是苹果和谷歌不约而同选择桌面和墙面的原因。现有系统无法与我们周边的环境进行令人信服的交互,因为系统虽然能够“看到”地板和墙壁,但无法“理解”它们。
想要我们幻想中的科幻式 AR 成真(如 AR 眼镜直接显示咖啡的温度或微波炉剩余时间),我们需要系统对周围的世界有更深刻的“理解”。
那么我们要如何跨越这座高山呢?答案中肯定要有所谓的“深度学习”。我们必须为各种类型的物体编写出手写分类算法,而且要知道,即使是普通算法也是超级复杂的任务。不过,我们可以训练计算机神经网络,把这种神经网络设计为拥有随时间发展而自动调整编程,并具有可靠地检测周围常见物品的能力。
业内已经有人开始在该领域进行探索了,他们也取得了一定的突破。在下面的视频中,系统在检测任意人类、雨伞、交通灯和汽车之间的差异上已经有了初步能力。
使用 Tensorflow API 的物体识别
下一步,我们则需要大幅扩展分类,然后将以图像为基础的探测和与从 AR 追踪系统采集到的实时环境映射数据融合起来。一旦我们能将理解周边世界的能力赋予 AR 系统,就可以着手解决 AR 体验的适应设计挑战了。
自适应 AR 设计
第三个问题还是要先打个比方。对于网络开发者来说,可靠、实用的设计规则是多年开发的成果,这也是网页能适应不同屏幕形状的原因。不过,与自适应 AR 设计(Adaptive AR Design)相比,这只能算是一个简单的任务,因为后者需要涵盖跨越三维的任意环境。
这并非一个简单的问题,即使在 VR 游戏设计行业,设计师还处在解决该问题的基础阶段,他们只能针对不同的游戏场所大小进行设计。一般来说,VR 游戏场所都是正方形或矩形,而且这块空间都是玩家独占,而 AR 要解决的麻烦可是复杂得多。
想像一下,即使住对门的邻居,家里的家具和物品摆设也完全不同,因此要找到打造令人信服娱乐体验的方法,设计师还需要打磨多年。毕竟这种娱乐体验需要一个近乎无限的环境需求,它需要覆盖从地面到天花板再放大到数以百万计家庭和建筑的空间,当然室外环境也不能忘掉。
你可能会认为打造一个简单的 AR 射击游戏并不困难,因为游戏中的 NPC 会从特定房间中钻出来。不过别忘了,如果不预先对环境进行映射,AR 系统连屋子里有另一个房间都不知道。
假设我们已经解决了物体分类问题,即系统已经可以在人类层面上理解你周围的对象,那开发者该怎么利用这一突破打造游戏呢?
假设我们要打造一款简单的农场游戏,玩家可以在增强现实中种植并用杯子浇灌农作物,但如果你周边没有杯子呢?是不是这游戏就没法玩了?当然不是,开发者聪明着呢,他们准备了不少备用方案。玩家可以将手握成拳头当杯子,倾斜拳头时,水就会流下来。
搞定了以上这些问题后,我们就可以着手种地了。美国开发者希望玩家能准备一个屋子种十排玉米,但对于欧洲玩家来说,这样的空间实在是太奢侈了,家里根本没有这么多的空间供 AR 娱乐使用。
如果需要,这个故事还能继续讲述下去,但总的来说,如果我们想体验不只是局限于地板和墙面的沉浸式 AR,我们需要设计出自适应 AR 游戏和应用,它们会充分利用到我们周围的空间和物体。通过一些巧妙的设计,我们就能控制无数的变量。
自适应 AR 设计是三大挑战中最难实现的,但在能满足需求的设备诞生前,我们可以先进行理论设计。
去年,不断有人提出意见,称 AR 和 VR 在成熟度上可以旗鼓相当,但事实上 AR 比 VR 落后好几年。AR 确实是一个令人兴奋的产品,但从硬件到感知再到设计,都有巨大的进步空间。现在的 AR 确实赶上了好时候,这一领域相当开放,留给新来者去突破的机会和空间也很多,如果你有信心,现在绝对是进军 AR 的好时机。
via RoadtoVR 雷锋网编译