【编者按】本文来自Medium,原作者Noah Norman,由王嘉俊原创翻译。
这篇文章是基于Mark Domino 和Jasper Speicher 2009 年的谈话升华而成。现在尽管硬件方面有所进步,但和那时候相比并没多大改变。
现在我给出一个结论:增强现实的发展很像早期的互联网。增强现实正处于潜在的变革上,也面临着和早期互联网相同的问题。我会指出其中的一些陷阱。
现在正是技术增长的拐点期:作为个体而言,很难做出很有影响力的决策。我们全体选择了一条道路,出于私有产权而束缚技术的发展,限制了它改变生活的可能性。
这篇文章最重要的基础假设是:忽视所有权,在不久的将来增强现实会无处不在,始终开放,会如同现在的智能手机一样被广泛采用。从硬件的角度来说,这可能意味着增强眼镜、隐形眼镜、车里的挡风玻璃、大脑植入、栓剂(suppositories)或者你有的东西。
如果你不是在这个前提下和我探讨,那么下面的的内容将对你没什么帮助。也许有一天这儿会出现关于这个前提的讨论,但对我来说这个结论已经不需要争辩了。
在这个信仰之外,我也套用Nick Bostrom 的话:这篇文章里的许多假设可能是错误的,但我不知道是哪一个。
对现在而言,增强现实无论是嵌入到可穿戴设备中,还是以“魔法镜子”或手机窥视镜的方式,它在部署和消费方面都很像早期互联网的布局。主要是,消费级增强现实系统被设计为在一个时间内只运行一个程序,而那时候的互联网应用程序,也是在一个时间里只能连接一个系统或数据模型。
相对应在内容创作方面,创作者必须给每个应用单独创作内容。如果我想给Layar AR 平台创造内容,我必须基于他们的用户界面后端(这不是可扩展的方法),然后根据这个目标提供一个版本。如果我想对Aurasma、Wikitude或BrowsAR 做同样的事,或者做其他的标记来追踪,我需要重新给每个平台设计。
互联网的早期应用,在某种程度而言有非常多的限制。上个世纪90 年代,如果你想传输文件给一个用户,你得先打电话给他,让他们准备好,启动和收件相关的程序,通过拨号连接联系到对方,然后传输文件。而如果我想和他们聊天,我需要断开连接,打电话给他们让他们启动聊天应用程序,关闭收发程序,然后才可以聊天。
早期互联网的部分力量,在于它使得任意的内容可以在任何地方进行演示。这个能力从HTML 开始,TimBerners-Lee 采用了已被接受的标准SGML。不久后浏览器诞生了,从1992 年基于文本的浏览器Lynx 的到来开始。
正是这种内容和表现形式的分离,才有可能创造现在被称为互联网的生态系统。也正是在这样的背景下,创新的推动和标准化的发生,才带给我们现在的浏览器:可以同时运行多种程序,有功能齐全的应用以及独立于浏览器的设计。
这并不是说,人们致力于围绕互联网各大平台做专门化的设计是没有价值的。必须强调的是,现在的情况有些跳跃,超越对当前创造物和增强现实内容的思考。现在是一场竞赛,去定义最具有实力的平台,并希望它能够成为事实上的标准。通过这样做,这些早期进入者希望能围绕封闭系统,定义自己的市场。
这些问题可以被解决,通过对网页和3D 图形标准化,建立灵活的标记语言,给AR 浏览器开放SDK,并使之和内容彼此独立。这将是寻求共识的挑战,但这不是在重新发明轮子,事实上他们已经在这儿了。
广泛采用一种标记语言是可以想象的,而且很可能会出现一个或多个独立于内容的AR 浏览器(更重要的是,也独立于硬件),这就像我们现在基于屏幕的互联网内容。
更大的问题来自于真实增强现实应用对内容的感知能力。用户在互联网中的输入,限制在键盘和鼠标,但AR 应用被期待能够对我们的思想做出反应。AR的硬件必须转播AR 软件的内容,并且连接到系统里从各个传感器的输入:视觉输入、音频输入、语音命令、地理信息等。
但这样的系统会对信息流做什么事情?当然,你可以想象一个应用程序做一些和你的位置和方向相关的工作,并且在头戴式设备中进行地图标记,但我们现在就有了,而且这非常无聊。
在互联网的情况下,搜索通过超链接,能够对文本输入访问远程托管的内容。以AR 作为等价的类比,但在“搜索”这个环节就失败了。就结果而言,我们在AR 操作中并没有鼠标,所有输入到搜索里面的,是视觉和传感器的数据,而非小心输入的文本信息。所以超链接往往不管用。
在最普遍的意义上,AR搜索是必须的,作为第一步,要把我们大脑所想的和信息做到一致。听起来很简单么?并不是这样。
要教会机器识别它看到的东西,这里面有一百万个难题。我不打算把它们一一列举出来,部分是因为我不够资格,另外也因为这篇文章并不是直接关于机器学习和计算机视觉。
这是关于未来的重要难题。当机器能够识别出东西,或者一个具体的实例、地点和接近用户的其他人,这都是AR 未来的问题。
当一个AR 系统解决了它看到的问题,这就能够给刺激带来反应链,导致系统实际上给你的周围增加新的场景。例如,当指向我的AR 隐形眼镜的时候,它会采集一些颜色的信息,也许会有一些深度信息(3D),一些规模信息(上下文),地理信息,声音、温度、高度等,然后根据这些信息来识别出物体。
目前来说,小规模的作者驱动的AR 系统,需要内容创造者在创造时输入3D 模型和2D 文本。应用程序在这个时候,会搜索输入的视频流,看这些物体的文本和数据库中哪些物品能够匹配上。而当它能够识别出一个的时候,就给出设计好的回应。这些回应是有限的,在大多数情况下,对视频或3D 内容在预先定义的空间关系上进行叠加或者识别。
为了解当前系统固有的问题,增强现实反应和输入之间的对应关系,取决于个人作者的决定。在这个封闭系统里,我们来看看关于这些的案例,里面有很多的利益相关者。
在我们的假设下,未来不依赖于内容的AR 浏览器,会在各种各样的硬件上运行。当我们看着一个可乐瓶的时候会发生什么?首先,这儿会有很大的光泽,而下面会更多,系统会像我们的大脑一样,识别出这个罐子,并且说道:“这儿有一件你的东西,属于可乐罐的类别,甚至可能会有更多的信息,例如凹陷的、打开的、生产于亚特兰大,2017年11 月过期等。
更重要的是,这是一个象征性的识别,相比于现在的文本检索,更抽象也更强大。
作为最近的例子,Google发布了Cloud Vision API,使用机器学习的方法进行图像识别。这很像Google Goggles 过去做的,给实际的图像添加标签,给地图添加坐标,进行人脸识别和OCR。给这些识别进行堆栈,并且配对置信分数,通过Rest API 得到反馈。通过这项服务,开发人员可以利用Google 的能力以确定内容图像。我们可以看到图像识别的能力还会进一步扩大,随着系统给更多的具体物品建立标签,甚至对世界的名字进行链接的分类,例如把WordNet 和ImageNet 联系起来。
不管执行情况怎样,我们做出一个关键的决策:下一步会发生什么?当系统识别出可口可乐的存在后,会展现出什么?请记住,未来这些系统已经得到普遍和广泛的使用,难道不应该发生些事情吗?
可口可乐的广告,一下子就显得有生命起来了。可能是一段AR 的效果展现在可乐瓶上面,或者一群美丽的家人,以3D 的形式聚集起来,拿着自己的可乐瓶向你致敬?或者百事可乐的广告在前面出现,遮挡住可口可乐的品牌?
对我来说,可以运行一个AR 广告屏蔽的插件吗?或者购买服务,以减少程序的赞助商内容?当我访问时代广场并且抬头看到三星的广告牌,我能看到一个“真的”广告牌吗?
那么,你周围人的脸呢?你从屏幕上阅读的文字?公寓里的墙壁?你都能得到图片。
问题的复杂性在于,一个弹出的画面可能会不安全。假如说我在驾驶公交车,那么这些事情的解释就不是文字那么简单。这些复杂的因素会对我们的行为影响很大。
问题在于我们拥有的语义学上,或者在更大的意义上说,网络符号学。让系统识别符号看起来有点琐碎,相比于一些更复杂的问题,例如涉及到环境中物体的意义,这背后还有知识产权的问题。
而当所有权和网络空间的知识产权结合在一起,这里面的问题就远多于其他方面。这会逐渐变得Ugly。
对于那些关注者来说,这个问题可能听起来很熟悉。DNS的基础是广泛采用的协议,它由非政府组织ICANN 管理,这是总部设在美国的非盈利组织。它具有对URL 语义专属的解释权,而且也对应到互联网协议的空间。它没有什么排他性,这成为了互联网的基础,创造了通用文本的白皮书,由于它和现实情况关于商标、产权等案例的相似性,互联网协议能够根据它解决问题。
不过我不相信,这些涉及到商标、知识产区和隐私纠纷的事会很容易扩展到VR 的领域。
关于所有权的话语权问题,正如很多东西一样,背后都有一些共同的利益,通过主导和游说律师,最终落在了私人手里。我不需要对此过多解释,但这不是最好的结果。不过为了使可能性成为可能,系统需要设计为依赖于有话语权的中央权威,而背后有利润的动机。
没有发生和DNS 相似的事情,因为还没有人意识到坐在ICANN 的位置上会带来多少价值,直到已经为时尚晚。这并不意味着这不会发生,有一个猜测是,微软在生产AR 硬件的兴趣上,其利润可能不局限于设备本身。这不是他们玩的游戏。他们和Magic Leap 希望拥有自己的传输管道,所有东西从生产到内容到分发,都通过这里进行。你也可以对Google 最新的CV 服务做类似的假设。
这给我们带来了技术背后的支撑,不依赖于文本、传感器驱动、上下文感知、总是运行的消费者端AR 系统,这些问题的解决是非常重要的,最早这么做的也许能获得那个圣杯。
正如Google 演示的一样,能够运行各种随意代码的浏览器,和操作系统的区别是不多的。就像一些操作系统需要使用Windows 管理来保证GUIs 运行的不错,我们的AR 系统也在确保内容以一种好的方式来展现,考虑到我们的喜好以及大脑传感器的带宽。
例如说,你对于边开车边听纽约时报表示完全的舒适,甚至在你视野的角落上,有一个小的视频聊天窗口也可以。但当你在高速公路疾驰的时候,你完全不想要更多的东西。相反,当你在家里的时候,你也许会愿意接受更为沉浸式的体验,但你也不会希望窗口弹出:你的煤气账单该交了。
在一个用户定义的背景下,这有点像今天智能手机里的权限(Permissions)。我们可以给特定的应用程序访问我们的注意力的权限,而我们的屏幕也会在特定的情况下弹出提醒。这是一个开始,尤其是一些浏览器自己能提供通知和权限设置,这也是通常操作系统的功能。
先不管输出的问题,操作系统的任务如何接收传感器的输入和上下文信息?别忘了我们没有键盘和鼠标,我们都是通过自己对世界的感知,来驱动这个系统。
正如我们常年期望电影CGI 的智能能够超越实时系统能提供的,它将持续超越用户端系统的能力,以掌握视觉处理和任务搜索,以感知周围的世界,满足我们对速度、正确率和带宽不断增长的期待。
这意味着我们的设备会部署在一个低延迟、高带宽的连接上。他们会通过刺激和上下文的理解,对用户的状态、联系人、历史、喜好和习惯进行反应,就像当下设备和互联网做的那样。
由于这些限制,到目前为止,所有潜在的方法都是相同的。在返回结果的性质上,可能会出现问题,而问题的核心在于所有权和利润的动机。
在AR 生态系统里,识别服务是由一个非盈利或其他中立的实体组织提供,服务器会不断吸收这些信息流,并且从提供的零散联结刺激中进行推断。
这是一辆自行车。那是124鹰街。那是你的朋友Willy。那是西方。这是一辆卡车。那是街。这是石头。这是一个交通灯,它是绿色的。
这些离散标记的集合,会通过管道返回到硬件里,作为对世界的标记,然后准备好在用户的应用程序里得到解释。
这意味着刺激的识别以及增强现实解释,通过用户端的代码可以持续的作用,就像现在互联网做的一样。在一个物理分布式的网络中,相同的组织会被某些广泛联系、同意授权的DNS 控制。关键是,这意味着识别和解释的任务,是被分离的。
当然,这样的处理能力会给供应商带来巨大的成本,无论是开发还是经营费用。因此,必须使得供应商通过某些方式收回成本。在ICANN 的情况下,这项服务是通过非盈利组织来提供的,现在看起来运行的还不错。它会象征性的收取注册费用,而最近它也拍卖了一些顶级域名。
我们正在讨论的系统类型,并不会如此简单的发展或者根据DNS 的根域名服务器进行维护。而正如上面讨论的,现在还很难界定清楚,作为一个非盈利组织究竟什么可以出售。即便是拥有非常民主化的深度学习工具,GPU集群也不便宜,而带宽也不是免费。
我们可以很容易的想象到,识别服务会差不多由一小部分Google 规模的公司垄断。这些提供识别服务的公司会寻求垂直的整合,密切和消费者的硬件、软件服务进行联系,就像我们现在看到的智能手机、游戏机和阅读器等。
一旦循环被关闭,就很难阻止供应商给最高价格的公司提供前所未有的用户访问权。
这可能意味着任何数量的货币,优先展现赞助商关于产品、地方和人的内容,甚至是具体的文本,例如当你看到车的引擎盖的时候,会出来如何维护的手册,或者是零售产品的评论。想想一个有惊人经济实力的公司,它能够完全控制始终开启的视觉系统,嵌入到成千上万的消费者的注意力中。至少,你现在还可以不看电视广告。
想象一下,当这些应用处于追求利润的公司手上时,或者在分布式的生态系统时,会有什么不同。
以微软为例,Harris确认说,微软对HoloLens 平台的意图,是通过服务器同步所有用户的体验。这些多用户的体验是一种共享幻觉,这能带来AR 的广泛使用。
服务器端的应用程序和预先渲染的内容,将进一步加强垂直整合,避免各地客户端的反向工程或“越狱”,并把客户端的硬件转化为简单的哑巴终端,并把它变成免费服务发放出去。
我们拒绝:国王、总统和投票。我们相信:共识和运行的代码。Tao of IETF
除了最坚定的自由主义者,我们不得不承认利润动机和垄断相结合,会导致非常不好的事情。
除了最左派的份子,我们也不得不承认,系统越现代和复杂,越不适应政府提供的服务。近期这些自豪吹嘘的政客们,也表现出对互联网知识缺乏了解。
即便是像ICANN 这样的非政府、非盈利组织来规范识别任务,我们也会有微妙的形势,审查制度、文化规范、禁忌、地缘政治冲突、政府、警察,远远超过Google 在世界范围内遇到没完没了的挑战。这是一个永无止境的战斗,而且没有更高的权威来仲裁纠纷。
有一种观点认为,识别问题的规模表明,唯一可行的、可拓展的解决方法,将会依赖于用户在输入上的逐渐增多,类似于reCAPTCHA 中的分布式OCR 项目。而在深度学习技术出现之前,语音识别和计算机视觉的问题都过于复杂,而难以操作。
这些早期的方法,试图把复杂的识别问题,分解为较小的不相关的任务。深度学习,虽然更加自主,但还是需要大量正确标记的数据集,这需要培养对真实世界的经验。这意味着,人类需要先对此进行标记,这种工作也许超越了最财大气粗的实体。
深度学习最近在各个领域的成功是一个提示,但是寻找合适的训练材料,依然是个障碍。
即便有一个合适的组织,训练一个识别系统能够对各种任务进行反应,数据中心也不便宜,而除了维基百科之外,我们还没看到哪些大规模的自组织任务能够在年轻网络实行的案例。这不是找到谁来买单的问题,必须有人来驾驶这艘船只。
但是,假如我们从最近的假设中学习到了某些错误,而你也同意我的观点,那么什么时候会开始建立一个在互联网协议层,结束被单一组织控制的的垂直实体?这个组织是什么样子?
甚至可以想象,未来这个角色由一个营利性公司来承担?
或者说,一个分布式的组织,或者一个标准组织,一个政府实体,来扮演这个角色?
[推荐阅读]