试想一下,你在一个陌生的城市开车狂奔时,在汽车的挡风玻璃上挂载了一个屏幕,它指引穿梭于城市之间。这就是所谓 AR 技术,上面显示的信息不仅包括导航地图,还有提示司机注意环境中重要信息(比如有行人和自行车经过之类)的作用。这些信息地正确展示甚至关乎于生命安全。
这些信息不能遮挡住其他的物体,并且必须显示足够长的时间以便于司机阅读理解,但是又不能过长。计算机系统必须实时做出决定,保证这些信息可读又不喧宾夺主——警告司机「前方有自行车」的信息决不能挡住现实世界中骑自行车的人。如果屏幕上显示的信息太多,会困扰司机,而在屏幕上展示的信息太少,又会让人觉得这个功能过于鸡肋,那么问题来了,我们如何在这两者之间找到一个平衡点?
这个问题的核心在于检测出司机眼睛盯着哪儿看。只有这样我们才能把他们关心的信息展示在的他们能分心注意的地方。接下来要展示的研究涉及到实时测量用户观察的位置,以便于辅助决定放置 AR 信息的位置。随着 AR 无声地融入到我们生活中的方方面面,从驾驶到工作再到娱乐,在 AR 能为生活工作提供更关键和有意义的辅助之前,我们必须解决掉这一问题。
让用户盯着的地方出现提示信息是最有效的方式。在导航的时候,用户可能看着一栋建筑物,街道或者其他物体,系统将会知道如何隐藏其他的展示信息,以避免扰乱用户关注的主要信息。
那我们如何得知用户在盯着什么看呢?人们视野的细微变化可以作为我们计算出他们注视地方的参考。通过对比这些数据与展示人们视角的摄像机,我们就可以得知这个人看到的景象有哪些以及 ta 正在注视的物体是什么。
上世纪,眼球追踪系统系统第一次被提出来。最开始这一项技术是被用在研究阅读障碍上面。而最近实时视线追踪被提出来,这会儿这项技术成本降低了,体积也变小了并且更容易实现了。
实现视线追踪器可以被贴在屏幕上,或者整合进可穿戴眼镜或者头显中去。结合摄像头,投影以及计算机视觉算法,我们能计算出眼睛在显示器上凝视的位置。
在检测视线追踪数据的时候,我们通常有两种方法。第一种方法是「fixation(固定)」,这个方法通常是被用在用户停下视线之时。这种情况通常是在视线停留在一个有趣的地点时发生的,因为用户的注意力被吸引住了;第二种情况就是「saccade(扫视)」,为了确定凝视对象,眼睛将会扫视现场中的物体。基本上,我们的眼睛从一个地方快速扫视到另一个地方,从同一场景下的不同部分采集了多条信息。我们的大脑将这些固定(fixation)景象的信息拼凑在一起,以在我们大脑中形成虚拟影像。
一般情况下,AR 内容是被固定在现实世界中物体或者具体地点之上的。比如,包含街道姓名的标签就应该在那条街道某处。理想情况下,我们希望 AR 标签尽可能地与它所代指的实物之间足够近。但我们也必须注意不要让多个 AR 标签重叠在一起,让信息变得不可读。合理安放 AR 标签的方法不止一种。我们在探索的就是其中的一个法子,计算出人们凝视的实景,仅在该地点上展示 AR 标签。
想象这样一个场景,在杂货店里用户使用移动应用挑选低卡路里的燕麦片。在那种 AR 应用中,每一种燕麦片都有与之相关联的卡路里信息。这种情况下,用户无需拿起每一盒燕麦片查看其营养表的内容,只需拿着手机对着某一款燕麦片照一照,就能得出相关信息了。但杂货店里燕麦片货架所在的走廊肯定十分拥挤。没有空间展示 AR 标签,那么所有燕麦片的营养成分表肯定无法展示。更没办法确定用户感兴趣燕麦片的卡路里成分表。
如果我们能追踪 ta 的视线,那么我们能检测出用户在盯着哪一盒特定的燕麦片,然后我们把那一盒确定的燕麦片的营养成分表展示给用户看即可。当 ta 目光移动到下一盒之时,我们再展示下一盒的信息。ta 的视野中不会出现杂乱的信息,但当他需要其他的信息之时,我们早就准备好了,可以随时展示出来。
对于 AR 研究而言,这才是让人激动的研发方向。我们在移动设备上整合计算机画面与现实景象的能力正在发展之中。这种开发功能前景无限,它能拓展人类与周围环境互动,从环境中学习以及娱乐的能力。
本文编译自 weforum,转载请务必注明来源。