AR目前无法跨越的三座高山：视场角、理解物体和自适应设计

AR VR 三大难题苹果

作者：大壮旅编辑：田苗

2017/10/11 14:46

雷锋网按：苹果和谷歌相继加入 AR 战局后，该技术的火热程度瞬间被拔高了一个层次，在数千万潜在用户面前，开发者也鼓起了干劲，准备为市场提供吸引力十足的沉浸式 AR 体验，那些我们在视频上见识过的神奇魔法仿佛即将成真。

确实，我们比以往更接近梦想成真，但事实上在沉浸式 AR 进入主流之前，我们在研发和设计上依然需要多年的努力。下面，我们就对 AR 面临的三大关键挑战进行一次概览。

沉浸式视场

同样的VR体验中，不同视场效果比对

在 YouTube 上看炫酷的 AR 演示（雷锋网此前介绍过很多）是一个事，在现实中体验 AR 又是另一个事儿。即使是今天最为先进的便携 AR 头戴设备在视场方面也不够理想，甚至与 VR 设备还差着一大截呢。

就拿微软 HoloLens 来说，它已经是市场上能买到的最好的 AR 头戴设备了，但视场却只有可怜的 34 度，而就连谷歌的廉价 VR 产品 Cardboard 都有 60 度的视场。

对 AR 来说，视场相当重要，因为要实现一定的沉浸感，AR 世界必须与现实世界无缝融合。如果不能实时看到眼前的 AR 世界，你就会不自然的挪动头部“扫描”周边环境，就像通过望远镜在看世界。这样一来，大脑就无法通过直观的映射将 AR 世界看作真实世界的一部分，所谓的沉浸感也会化为乌有。

其结果自不用说，沉浸感不够强，无法变成人们的自然意识，也意味着，这并不能成为针对消费和娱乐市场的自然的人机交互。

不过，现在不是有了 Meta 2 AR 眼镜吗？它的视场可是达到了 90 度，难道这也不行吗？

确实，Meta 2 是市场上视场最为宽广的 AR 头戴设备，它几乎能与现在的 VR 产品媲美，不过 Meta 2 依然非常笨重，如果不牺牲一定的视场，就无法缩小光学系统的体积。

AR目前无法跨越的三座高山：视场角、理解物体和自适应设计 Meta 2 AR 眼镜

Meta 2 的光学组件其实非常简单，头盔上那个巨大的“帽檐”里面藏着一个类似智能手机的屏幕，这块屏幕角度冲下面向地面。此外，那块巨大的塑料护目镜则内部镀银，它会把屏幕上显示的画面投射到用户眼中。如果想缩小头戴设备的体积，就得把屏幕和护目镜同时缩小，这样视场角度也会跟着缩小。对开发者来说，Meta 2 是绝对的神器，但如果放在消费市场上恐怕难有消费者问津。

AR目前无法跨越的三座高山：视场角、理解物体和自适应设计 ODG R9

ODG 也在运用类似方案做 AR 眼镜，不过它们的光学系统有所瘦身，视场也降到了 50 度，一款名为R-9 的产品售价依然高达 1800 美元。以消费市场的角度来看，这家伙不但价格不合格，体积也不合格。与其相比，运用光导式技术的 Lumus 则利用 2 毫米厚的光学系统实现了 55 度的视场。

AR目前无法跨越的三座高山：视场角、理解物体和自适应设计

Lumus

虽然 50 度的视场已经相当不错了，但与顶级 VR 设备 110 度的视场相比还是差距太大，而且消费者对视场的追求是无穷无尽的。Oculus 此前也表示，想实现真正的沉浸感，视场至少要达到 90 度，因此 AR 必须尽快翻过这座大山。

理解不同的物体

AR目前无法跨越的三座高山：视场角、理解物体和自适应设计

苹果的 ARKit 和谷歌的 ARCore 都能给你带来新颖且漂亮的 AR 体验，但由于智能手机能力有限，这两套系统只能理解平面上的“新世界”，这也是如今 iOS 上 99% 的 AR 应用在墙面或桌面上玩耍的原因。

为什么非要是桌面或墙面？因为它们容易分类。地板或墙壁的平面与另一地板和另一墙壁的平面相同，所以系统有信心假定这一平面能够向所有方面延展，直到与另一平面相交。

注意，在这里我用了“理解”（understand）而非“感知”（sense）或“探测”（detect）等词语，这是因为系统虽然能“看到”物体的形状（除桌面和墙壁以外），但却无法理解它们。

打个比方来说，当你看着一个杯子时，看到的绝对不是一个形状。而且你已经对杯子非常了解，那么了解程度有多高呢？

1. 你已经知道杯子与它所在的平面截然不同；

2. 即使不看杯子，你也知道它有能容下液体和其他物体的空间；

3. 你深知杯子里的液体不会冒出杯口；

4. 你知道我们能用杯子喝水；

5. 你清楚的知道杯子很轻，容易被撞倒，从而导致杯子内物体被抛洒出来。

……

看起来有点傻，不过我还能继续往下说。这里我列出以上的文字主要是为了告诉大家，我们知道的常识计算机可不知道。它们只能看到一个形状，而不是一个杯子。计算机无法得到杯子内部的完整视图并映射出完整的形状，计算机甚至不能假定杯子内部存在一定的空间。同时它也不知道杯子是独立于其所在平面的一个对象。但你知道这一切，因为在你看来它就是一个杯子。

对计算机来说，只看到一个形状可不行，它必须“理解”这个杯子。这也是多年以来我们在 AR 演示中把基准标记附加到物体身上，以实现更细致的追踪和交互的原因。

那么为什么让计算机“理解”杯子这么难呢？第一大挑战在于分类，杯子有数千种形状，大小，色彩和纹理。一些杯子还拥有特殊的属性和用途，因此不同的杯子会适用于不同的场景和背景。

如果要类比，其难度就相当于写一个帮计算机理解以上所有概念的算法，或者说写几行代码来向计算机解释杯子和碗之间区别。

仅仅是解决一个杯子的问题就能带来如此巨大的挑战，所以想把世界上成千上万的物体都囊括进来就更加困难了。

如今，以智能手机为基础的 AR 确实可以融入周边环境，但交互起来却很困难，这也是苹果和谷歌不约而同选择桌面和墙面的原因。现有系统无法与我们周边的环境进行令人信服的交互，因为系统虽然能够“看到”地板和墙壁，但无法“理解”它们。

想要我们幻想中的科幻式 AR 成真（如 AR 眼镜直接显示咖啡的温度或微波炉剩余时间），我们需要系统对周围的世界有更深刻的“理解”。

那么我们要如何跨越这座高山呢？答案中肯定要有所谓的“深度学习”。我们必须为各种类型的物体编写出手写分类算法，而且要知道，即使是普通算法也是超级复杂的任务。不过，我们可以训练计算机神经网络，把这种神经网络设计为拥有随时间发展而自动调整编程，并具有可靠地检测周围常见物品的能力。

业内已经有人开始在该领域进行探索了，他们也取得了一定的突破。在下面的视频中，系统在检测任意人类、雨伞、交通灯和汽车之间的差异上已经有了初步能力。

AR目前无法跨越的三座高山：视场角、理解物体和自适应设计使用 Tensorflow API 的物体识别

下一步，我们则需要大幅扩展分类，然后将以图像为基础的探测和与从 AR 追踪系统采集到的实时环境映射数据融合起来。一旦我们能将理解周边世界的能力赋予 AR 系统，就可以着手解决 AR 体验的适应设计挑战了。

自适应 AR 设计

AR目前无法跨越的三座高山：视场角、理解物体和自适应设计

第三个问题还是要先打个比方。对于网络开发者来说，可靠、实用的设计规则是多年开发的成果，这也是网页能适应不同屏幕形状的原因。不过，与自适应 AR 设计（Adaptive AR Design）相比，这只能算是一个简单的任务，因为后者需要涵盖跨越三维的任意环境。

这并非一个简单的问题，即使在 VR 游戏设计行业，设计师还处在解决该问题的基础阶段，他们只能针对不同的游戏场所大小进行设计。一般来说，VR 游戏场所都是正方形或矩形，而且这块空间都是玩家独占，而 AR 要解决的麻烦可是复杂得多。

想像一下，即使住对门的邻居，家里的家具和物品摆设也完全不同，因此要找到打造令人信服娱乐体验的方法，设计师还需要打磨多年。毕竟这种娱乐体验需要一个近乎无限的环境需求，它需要覆盖从地面到天花板再放大到数以百万计家庭和建筑的空间，当然室外环境也不能忘掉。

你可能会认为打造一个简单的 AR 射击游戏并不困难，因为游戏中的 NPC 会从特定房间中钻出来。不过别忘了，如果不预先对环境进行映射，AR 系统连屋子里有另一个房间都不知道。

AR目前无法跨越的三座高山：视场角、理解物体和自适应设计

假设我们已经解决了物体分类问题，即系统已经可以在人类层面上理解你周围的对象，那开发者该怎么利用这一突破打造游戏呢？

假设我们要打造一款简单的农场游戏，玩家可以在增强现实中种植并用杯子浇灌农作物，但如果你周边没有杯子呢？是不是这游戏就没法玩了？当然不是，开发者聪明着呢，他们准备了不少备用方案。玩家可以将手握成拳头当杯子，倾斜拳头时，水就会流下来。

搞定了以上这些问题后，我们就可以着手种地了。美国开发者希望玩家能准备一个屋子种十排玉米，但对于欧洲玩家来说，这样的空间实在是太奢侈了，家里根本没有这么多的空间供 AR 娱乐使用。

如果需要，这个故事还能继续讲述下去，但总的来说，如果我们想体验不只是局限于地板和墙面的沉浸式 AR，我们需要设计出自适应 AR 游戏和应用，它们会充分利用到我们周围的空间和物体。通过一些巧妙的设计，我们就能控制无数的变量。

自适应 AR 设计是三大挑战中最难实现的，但在能满足需求的设备诞生前，我们可以先进行理论设计。

去年，不断有人提出意见，称 AR 和 VR 在成熟度上可以旗鼓相当，但事实上 AR 比 VR 落后好几年。AR 确实是一个令人兴奋的产品，但从硬件到感知再到设计，都有巨大的进步空间。现在的 AR 确实赶上了好时候，这一领域相当开放，留给新来者去突破的机会和空间也很多，如果你有信心，现在绝对是进军 AR 的好时机。

via RoadtoVR 雷锋网编译

AR目前无法跨越的三座高山： 视场角、理解物体和自适应设计

沉浸式视场

理解不同的物体

AR目前无法跨越的三座高山：视场角、理解物体和自适应设计