增强现实的权力江湖

2016/01/27 08:50

【编者按】本文来自Medium，原作者Noah Norman，由王嘉俊原创翻译。

增强现实的权力江湖

这篇文章是基于Mark Domino 和Jasper Speicher 2009 年的谈话升华而成。现在尽管硬件方面有所进步，但和那时候相比并没多大改变。

现在我给出一个结论：增强现实的发展很像早期的互联网。增强现实正处于潜在的变革上，也面临着和早期互联网相同的问题。我会指出其中的一些陷阱。

现在正是技术增长的拐点期：作为个体而言，很难做出很有影响力的决策。我们全体选择了一条道路，出于私有产权而束缚技术的发展，限制了它改变生活的可能性。

这篇文章最重要的基础假设是：忽视所有权，在不久的将来增强现实会无处不在，始终开放，会如同现在的智能手机一样被广泛采用。从硬件的角度来说，这可能意味着增强眼镜、隐形眼镜、车里的挡风玻璃、大脑植入、栓剂（suppositories）或者你有的东西。

如果你不是在这个前提下和我探讨，那么下面的的内容将对你没什么帮助。也许有一天这儿会出现关于这个前提的讨论，但对我来说这个结论已经不需要争辩了。

在这个信仰之外，我也套用Nick Bostrom 的话：这篇文章里的许多假设可能是错误的，但我不知道是哪一个。

| 与早期互联网相比

对现在而言，增强现实无论是嵌入到可穿戴设备中，还是以“魔法镜子”或手机窥视镜的方式，它在部署和消费方面都很像早期互联网的布局。主要是，消费级增强现实系统被设计为在一个时间内只运行一个程序，而那时候的互联网应用程序，也是在一个时间里只能连接一个系统或数据模型。

相对应在内容创作方面，创作者必须给每个应用单独创作内容。如果我想给Layar AR 平台创造内容，我必须基于他们的用户界面后端（这不是可扩展的方法），然后根据这个目标提供一个版本。如果我想对Aurasma、Wikitude或BrowsAR 做同样的事，或者做其他的标记来追踪，我需要重新给每个平台设计。

互联网的早期应用，在某种程度而言有非常多的限制。上个世纪90 年代，如果你想传输文件给一个用户，你得先打电话给他，让他们准备好，启动和收件相关的程序，通过拨号连接联系到对方，然后传输文件。而如果我想和他们聊天，我需要断开连接，打电话给他们让他们启动聊天应用程序，关闭收发程序，然后才可以聊天。

早期互联网的部分力量，在于它使得任意的内容可以在任何地方进行演示。这个能力从HTML 开始，TimBerners-Lee 采用了已被接受的标准SGML。不久后浏览器诞生了，从1992 年基于文本的浏览器Lynx 的到来开始。

正是这种内容和表现形式的分离，才有可能创造现在被称为互联网的生态系统。也正是在这样的背景下，创新的推动和标准化的发生，才带给我们现在的浏览器：可以同时运行多种程序，有功能齐全的应用以及独立于浏览器的设计。

这并不是说，人们致力于围绕互联网各大平台做专门化的设计是没有价值的。必须强调的是，现在的情况有些跳跃，超越对当前创造物和增强现实内容的思考。现在是一场竞赛，去定义最具有实力的平台，并希望它能够成为事实上的标准。通过这样做，这些早期进入者希望能围绕封闭系统，定义自己的市场。

| 但问题显然更大

这些问题可以被解决，通过对网页和3D 图形标准化，建立灵活的标记语言，给AR 浏览器开放SDK，并使之和内容彼此独立。这将是寻求共识的挑战，但这不是在重新发明轮子，事实上他们已经在这儿了。

广泛采用一种标记语言是可以想象的，而且很可能会出现一个或多个独立于内容的AR 浏览器（更重要的是，也独立于硬件），这就像我们现在基于屏幕的互联网内容。

更大的问题来自于真实增强现实应用对内容的感知能力。用户在互联网中的输入，限制在键盘和鼠标，但AR 应用被期待能够对我们的思想做出反应。AR的硬件必须转播AR 软件的内容，并且连接到系统里从各个传感器的输入：视觉输入、音频输入、语音命令、地理信息等。

但这样的系统会对信息流做什么事情？当然，你可以想象一个应用程序做一些和你的位置和方向相关的工作，并且在头戴式设备中进行地图标记，但我们现在就有了，而且这非常无聊。

在互联网的情况下，搜索通过超链接，能够对文本输入访问远程托管的内容。以AR 作为等价的类比，但在“搜索”这个环节就失败了。就结果而言，我们在AR 操作中并没有鼠标，所有输入到搜索里面的，是视觉和传感器的数据，而非小心输入的文本信息。所以超链接往往不管用。

在最普遍的意义上，AR搜索是必须的，作为第一步，要把我们大脑所想的和信息做到一致。听起来很简单么？并不是这样。

| 教机器以语义

要教会机器识别它看到的东西，这里面有一百万个难题。我不打算把它们一一列举出来，部分是因为我不够资格，另外也因为这篇文章并不是直接关于机器学习和计算机视觉。

这是关于未来的重要难题。当机器能够识别出东西，或者一个具体的实例、地点和接近用户的其他人，这都是AR 未来的问题。

当一个AR 系统解决了它看到的问题，这就能够给刺激带来反应链，导致系统实际上给你的周围增加新的场景。例如，当指向我的AR 隐形眼镜的时候，它会采集一些颜色的信息，也许会有一些深度信息（3D），一些规模信息（上下文），地理信息，声音、温度、高度等，然后根据这些信息来识别出物体。

目前来说，小规模的作者驱动的AR 系统，需要内容创造者在创造时输入3D 模型和2D 文本。应用程序在这个时候，会搜索输入的视频流，看这些物体的文本和数据库中哪些物品能够匹配上。而当它能够识别出一个的时候，就给出设计好的回应。这些回应是有限的，在大多数情况下，对视频或3D 内容在预先定义的空间关系上进行叠加或者识别。

为了解当前系统固有的问题，增强现实反应和输入之间的对应关系，取决于个人作者的决定。在这个封闭系统里，我们来看看关于这些的案例，里面有很多的利益相关者。

在我们的假设下，未来不依赖于内容的AR 浏览器，会在各种各样的硬件上运行。当我们看着一个可乐瓶的时候会发生什么？首先，这儿会有很大的光泽，而下面会更多，系统会像我们的大脑一样，识别出这个罐子，并且说道：“这儿有一件你的东西，属于可乐罐的类别，甚至可能会有更多的信息，例如凹陷的、打开的、生产于亚特兰大，2017年11 月过期等。

更重要的是，这是一个象征性的识别，相比于现在的文本检索，更抽象也更强大。

作为最近的例子，Google发布了Cloud Vision API，使用机器学习的方法进行图像识别。这很像Google Goggles 过去做的，给实际的图像添加标签，给地图添加坐标，进行人脸识别和OCR。给这些识别进行堆栈，并且配对置信分数，通过Rest API 得到反馈。通过这项服务，开发人员可以利用Google 的能力以确定内容图像。我们可以看到图像识别的能力还会进一步扩大，随着系统给更多的具体物品建立标签，甚至对世界的名字进行链接的分类，例如把WordNet 和ImageNet 联系起来。

不管执行情况怎样，我们做出一个关键的决策：下一步会发生什么？当系统识别出可口可乐的存在后，会展现出什么？请记住，未来这些系统已经得到普遍和广泛的使用，难道不应该发生些事情吗？

增强现实的权力江湖

可口可乐的广告，一下子就显得有生命起来了。可能是一段AR 的效果展现在可乐瓶上面，或者一群美丽的家人，以3D 的形式聚集起来，拿着自己的可乐瓶向你致敬？或者百事可乐的广告在前面出现，遮挡住可口可乐的品牌？

对我来说，可以运行一个AR 广告屏蔽的插件吗？或者购买服务，以减少程序的赞助商内容？当我访问时代广场并且抬头看到三星的广告牌，我能看到一个“真的”广告牌吗？

增强现实的权力江湖

那么，你周围人的脸呢？你从屏幕上阅读的文字？公寓里的墙壁？你都能得到图片。

问题的复杂性在于，一个弹出的画面可能会不安全。假如说我在驾驶公交车，那么这些事情的解释就不是文字那么简单。这些复杂的因素会对我们的行为影响很大。

问题在于我们拥有的语义学上，或者在更大的意义上说，网络符号学。让系统识别符号看起来有点琐碎，相比于一些更复杂的问题，例如涉及到环境中物体的意义，这背后还有知识产权的问题。

而当所有权和网络空间的知识产权结合在一起，这里面的问题就远多于其他方面。这会逐渐变得Ugly。

| 话语权的问题

对于那些关注者来说，这个问题可能听起来很熟悉。DNS的基础是广泛采用的协议，它由非政府组织ICANN 管理，这是总部设在美国的非盈利组织。它具有对URL 语义专属的解释权，而且也对应到互联网协议的空间。它没有什么排他性，这成为了互联网的基础，创造了通用文本的白皮书，由于它和现实情况关于商标、产权等案例的相似性，互联网协议能够根据它解决问题。

不过我不相信，这些涉及到商标、知识产区和隐私纠纷的事会很容易扩展到VR 的领域。

关于所有权的话语权问题，正如很多东西一样，背后都有一些共同的利益，通过主导和游说律师，最终落在了私人手里。我不需要对此过多解释，但这不是最好的结果。不过为了使可能性成为可能，系统需要设计为依赖于有话语权的中央权威，而背后有利润的动机。

没有发生和DNS 相似的事情，因为还没有人意识到坐在ICANN 的位置上会带来多少价值，直到已经为时尚晚。这并不意味着这不会发生，有一个猜测是，微软在生产AR 硬件的兴趣上，其利润可能不局限于设备本身。这不是他们玩的游戏。他们和Magic Leap 希望拥有自己的传输管道，所有东西从生产到内容到分发，都通过这里进行。你也可以对Google 最新的CV 服务做类似的假设。

这给我们带来了技术背后的支撑，不依赖于文本、传感器驱动、上下文感知、总是运行的消费者端AR 系统，这些问题的解决是非常重要的，最早这么做的也许能获得那个圣杯。

| 没有键盘的操作系统

正如Google 演示的一样，能够运行各种随意代码的浏览器，和操作系统的区别是不多的。就像一些操作系统需要使用Windows 管理来保证GUIs 运行的不错，我们的AR 系统也在确保内容以一种好的方式来展现，考虑到我们的喜好以及大脑传感器的带宽。

例如说，你对于边开车边听纽约时报表示完全的舒适，甚至在你视野的角落上，有一个小的视频聊天窗口也可以。但当你在高速公路疾驰的时候，你完全不想要更多的东西。相反，当你在家里的时候，你也许会愿意接受更为沉浸式的体验，但你也不会希望窗口弹出：你的煤气账单该交了。

在一个用户定义的背景下，这有点像今天智能手机里的权限（Permissions）。我们可以给特定的应用程序访问我们的注意力的权限，而我们的屏幕也会在特定的情况下弹出提醒。这是一个开始，尤其是一些浏览器自己能提供通知和权限设置，这也是通常操作系统的功能。

先不管输出的问题，操作系统的任务如何接收传感器的输入和上下文信息？别忘了我们没有键盘和鼠标，我们都是通过自己对世界的感知，来驱动这个系统。

| 两种途径

正如我们常年期望电影CGI 的智能能够超越实时系统能提供的，它将持续超越用户端系统的能力，以掌握视觉处理和任务搜索，以感知周围的世界，满足我们对速度、正确率和带宽不断增长的期待。

这意味着我们的设备会部署在一个低延迟、高带宽的连接上。他们会通过刺激和上下文的理解，对用户的状态、联系人、历史、喜好和习惯进行反应，就像当下设备和互联网做的那样。

由于这些限制，到目前为止，所有潜在的方法都是相同的。在返回结果的性质上，可能会出现问题，而问题的核心在于所有权和利润的动机。

在AR 生态系统里，识别服务是由一个非盈利或其他中立的实体组织提供，服务器会不断吸收这些信息流，并且从提供的零散联结刺激中进行推断。

这是一辆自行车。那是124鹰街。那是你的朋友Willy。那是西方。这是一辆卡车。那是街。这是石头。这是一个交通灯，它是绿色的。

这些离散标记的集合，会通过管道返回到硬件里，作为对世界的标记，然后准备好在用户的应用程序里得到解释。

这意味着刺激的识别以及增强现实解释，通过用户端的代码可以持续的作用，就像现在互联网做的一样。在一个物理分布式的网络中，相同的组织会被某些广泛联系、同意授权的DNS 控制。关键是，这意味着识别和解释的任务，是被分离的。

当然，这样的处理能力会给供应商带来巨大的成本，无论是开发还是经营费用。因此，必须使得供应商通过某些方式收回成本。在ICANN 的情况下，这项服务是通过非盈利组织来提供的，现在看起来运行的还不错。它会象征性的收取注册费用，而最近它也拍卖了一些顶级域名。

我们正在讨论的系统类型，并不会如此简单的发展或者根据DNS 的根域名服务器进行维护。而正如上面讨论的，现在还很难界定清楚，作为一个非盈利组织究竟什么可以出售。即便是拥有非常民主化的深度学习工具，GPU集群也不便宜，而带宽也不是免费。

我们可以很容易的想象到，识别服务会差不多由一小部分Google 规模的公司垄断。这些提供识别服务的公司会寻求垂直的整合，密切和消费者的硬件、软件服务进行联系，就像我们现在看到的智能手机、游戏机和阅读器等。

一旦循环被关闭，就很难阻止供应商给最高价格的公司提供前所未有的用户访问权。

这可能意味着任何数量的货币，优先展现赞助商关于产品、地方和人的内容，甚至是具体的文本，例如当你看到车的引擎盖的时候，会出来如何维护的手册，或者是零售产品的评论。想想一个有惊人经济实力的公司，它能够完全控制始终开启的视觉系统，嵌入到成千上万的消费者的注意力中。至少，你现在还可以不看电视广告。

想象一下，当这些应用处于追求利润的公司手上时，或者在分布式的生态系统时，会有什么不同。

以微软为例，Harris确认说，微软对HoloLens 平台的意图，是通过服务器同步所有用户的体验。这些多用户的体验是一种共享幻觉，这能带来AR 的广泛使用。

服务器端的应用程序和预先渲染的内容，将进一步加强垂直整合，避免各地客户端的反向工程或“越狱”，并把客户端的硬件转化为简单的哑巴终端，并把它变成免费服务发放出去。

| 如果我们一起做

我们拒绝：国王、总统和投票。我们相信：共识和运行的代码。Tao of IETF

除了最坚定的自由主义者，我们不得不承认利润动机和垄断相结合，会导致非常不好的事情。

除了最左派的份子，我们也不得不承认，系统越现代和复杂，越不适应政府提供的服务。近期这些自豪吹嘘的政客们，也表现出对互联网知识缺乏了解。

即便是像ICANN 这样的非政府、非盈利组织来规范识别任务，我们也会有微妙的形势，审查制度、文化规范、禁忌、地缘政治冲突、政府、警察，远远超过Google 在世界范围内遇到没完没了的挑战。这是一个永无止境的战斗，而且没有更高的权威来仲裁纠纷。

有一种观点认为，识别问题的规模表明，唯一可行的、可拓展的解决方法，将会依赖于用户在输入上的逐渐增多，类似于reCAPTCHA 中的分布式OCR 项目。而在深度学习技术出现之前，语音识别和计算机视觉的问题都过于复杂，而难以操作。

这些早期的方法，试图把复杂的识别问题，分解为较小的不相关的任务。深度学习，虽然更加自主，但还是需要大量正确标记的数据集，这需要培养对真实世界的经验。这意味着，人类需要先对此进行标记，这种工作也许超越了最财大气粗的实体。

深度学习最近在各个领域的成功是一个提示，但是寻找合适的训练材料，依然是个障碍。

即便有一个合适的组织，训练一个识别系统能够对各种任务进行反应，数据中心也不便宜，而除了维基百科之外，我们还没看到哪些大规模的自组织任务能够在年轻网络实行的案例。这不是找到谁来买单的问题，必须有人来驾驶这艘船只。

但是，假如我们从最近的假设中学习到了某些错误，而你也同意我的观点，那么什么时候会开始建立一个在互联网协议层，结束被单一组织控制的的垂直实体？这个组织是什么样子？

甚至可以想象，未来这个角色由一个营利性公司来承担？

或者说，一个分布式的组织，或者一个标准组织，一个政府实体，来扮演这个角色？

［推荐阅读］

1、Google Venture 合伙人：什么样的机器人公司值得投？| 深度

2、揭秘Google虚拟现实：浑水如何与葡萄酒竞争？| 深度