Mars说光场（2）— 光场与人眼立体成像机理

光场立体视觉 VR眩晕 VAC

作者：MarsCao

2018/10/24 11:44

雷锋网按：光场技术是目前最受追捧的下一代显示技术，谷歌、Facebook、Magic Leap等国内外大公司都在大力布局。然而目前国内对光场（Light Field）技术的中文介绍十分匮乏，曹煊博士《Mars说光场》系列文章旨在对光场技术及其应用的科普介绍。

曹煊博士系腾讯优图实验室高级研究员。优图— 腾讯旗下顶级的机器学习研发团队，专注于图像处理、模式识别、深度学习。在人脸识别、图像识别、医疗AI、OCR、哼唱识别、语音合成等领域都积累了领先的技术水平和完整解决方案。

《Mars说光场》系列文章目前已有5篇，包括：

《Mars说光场（1）— 为何巨头纷纷布局光场技术》；

《Mars说光场（2）— 光场与人眼立体成像机理》；

《Mars说光场（3）— 光场采集》；

《Mars说光场（4）— 光场显示》；

《Mars说光场（5）— 光场在三维人脸建模中的应用》；

雷锋网经授权发布。

【摘要】 — 人眼产生三维立体视觉来源于心理感知和生理感知。根据能够产生多少3D视觉信息，可以把现有显示设备分为4个层级。第1等级是传统的2D显示屏：只能产生仿射、遮挡、光照阴影、纹理、先验知识五方面的心理视觉暗示，从而“欺骗”大脑产生伪3D视觉。第2等级是眼镜式3D电影：能提供部分生理视觉信息（双目视差），但缺少移动视差和聚焦模糊。第3等级是VR头盔：具有更多的生理视觉信息，能同时提供双目视差和移动视差，但仍然缺乏聚焦模糊。第4等级是光场显示：能提供所有的心理和生理视觉信息，可以在视觉上逼真重现真实世界。

1、人眼的立体成像机理

1.1 心理感知

众所周知，人眼能感知到远近深度信息的一个重要方面是因为我们拥有两只眼睛，从而可以从双目视差中判断物体深度。然而双目视差并不是我们感知三维世界的唯一途径。人眼对三维环境的感知主要可以分为心理感知和生理感知。其中心理感知主要是通过仿射、遮挡、光照阴影、纹理、先验知识五方面的视觉暗示[1,2]，从而“欺骗”大脑感知到三维信息，如图1所示，尽管是在平面上绘图却能产生一定的三维视觉。

Mars说光场（2）— 光场与人眼立体成像机理

图 1. 人眼感知深度的心理暗示信息

（1）仿射：其直观的感受是“近大远小”，随着物体与人眼的距离减小，物体在人眼的成像越大。

（2）遮挡：更近的物体会遮挡更远的物体，通过相互遮挡关系可以判断物体间的相对远近关系。

（3）光照阴影：不同方向的光照会在物体表面产生不同的阴影，通过对阴影模式的判断可以推断物体的三维形状。

（4）纹理：通过有规律重复的动/静态特征分布产生立体视觉。

（5）先验知识：人类在观看大量物体以后会总结一些基本的经验，例如天空中的飞机和风筝都非常小，但飞机比风筝距离人眼更远。

1.2 生理感知

上述五种心理感知上的立体视觉通过平面介质即可呈现，例如手机屏幕、电视屏幕、画布等。然而立体视觉的生理感知需要对人眼产生特殊的视觉刺激，无法通过2D平面介质呈现。立体视觉的生理感知主要包括双目视差、移动视差、聚焦模糊[3]，分述如下。

（1）双目视差（binocular parallax）：如图2所示，视差即同一个物体在左右眼中所成的像之间的轻微偏差。所观察的物体越近，则视差越大。所观察的物体越远，则视差越小。为了避免左右眼视差所产生的重影，人眼会动态的调节视线的汇聚方向。当我们观看漫天繁星时，双眼的视线方向几乎平行，当我们观察自己的鼻尖时，双眼的视线方向会相交于鼻尖，通过双眼汇聚的角度可以判断物体的远近。双目视差的感知必须依靠双目协同工作才能完成。

Mars说光场（2）— 光场与人眼立体成像机理

图 2. 生理视觉信息（双目视差与双目汇聚）

（2）移动视差（motion parallax）：如图3所示，当远近不同的物体在空间中移动时，在人眼中产生的位移会不同。当发生同样的空间移动时，远处的物体在人眼中产生的位移更小，近处的物体在人眼中产生的位移更大。例如当我们在移动的汽车上观看窗外的风景时，近处的树木总是飞快的向后移动，而远处的高山却移动缓慢。与双目视差不同，单眼就可以感知到移动视差。例如鸽子虽然有双眼，但是两只眼睛位于头部的两侧，双眼的视野范围并不重合，因此鸽子无法依靠双目视差来感知深度。鸽子主要依靠移动视差来判断物体远近，从而完成着陆和啄食等动作。

Mars说光场（2）— 光场与人眼立体成像机理

图 3. 生理视觉信息（移动视差）

（3）聚焦模糊（Accommodation）：如图4所示，人眼的睫状肌扮演着相机镜头的调焦功能，从而使聚焦平面上的物体清晰成像，非聚焦平面的物体成像模糊。如图4所示，当睫状肌紧绷时，人眼聚焦在近处平面。当睫状肌舒张时，人眼聚焦在远处平面。单眼即可感知到聚焦模糊。当我们举起大拇指，用单眼去观察大拇指上的指甲盖纹理时，门口的盆栽以及墙上的油画变得模糊了。当我们用单眼试图看清盆栽或者油画时，大拇指却模糊了。根据睫状肌的屈张程度和对应的聚焦模糊反馈，视觉系统可以判断出物体的相对远近。

Mars说光场（2）— 光场与人眼立体成像机理

图 4. 生理视觉信息（聚焦模糊）

2、如何满足人眼的视觉要求？

2.1 传统显示屏

从黑白到彩色，从CRT到LCD/OLED，从720p到4K，显示设备的色彩还原度和分辨率在不断的提高，然而却始终没有显示维度的突破。根据7D全光函数的描述，目前的2D显示屏可以在（x, y）位置显示不同的像素。但每个像素在可视角度（一般为120度）范围内不同的方向发出的光线却是近似相同（或同向衰减）。因此2D显示屏只能提供各向同性的光线，不能呈现光线的方向信息（θ, Φ），如图5所示。换句话说，传统显示屏只能呈现（x, y, λ, t）四个维度的信息，只能提供上述仿射、遮挡、光照阴影、纹理、先验知识这五种心理感知信息。然而对于双目视差、移动视差、聚焦模糊三方面的生理感知却无能为力。首先、左右眼从显示屏接收到的图像完全一样，因此不能产生双目视差。其次、当人眼在屏幕前左右移动时，显示屏所呈现的内容会产生相同的位移，因此无法提供移动视差。最后，显示屏上所有像素的实际发光位置到人眼的距离都是一致的，并不会引起人眼睫状肌的屈张，所以显示屏无法提供动态聚焦。

Mars说光场（2）— 光场与人眼立体成像机理

图 5. 传统2D显示器各向同性光学特性

2.2 3D电影

3D电影除了提供传统显示屏的心理视觉感知信息，还能提供双目视差这一生理视觉感知信息。如图6所示，3D电影通过一副立体眼镜将两幅具有细微偏差的图像分别呈现给左右眼（当取下立体眼镜，直视大屏时会看到两幅重叠的图像），让人眼感知到双目视差，进而让大脑融合左右眼图像产生三维信息。立体眼镜的工作原理又包括分光式、偏振式、快门式三种，这里不再展开讨论。然而，3D电影只提供了双目视差这一种生理视觉信息，并不能提供移动视差和聚焦模糊。举个例子，如果是一场真人话剧，左侧的观众应该看到演员的右侧脸；而右侧的观众应该看到演员的左侧脸。然而在3D电影院中，左侧和右侧的观众看到的都是演员的同一个侧脸。即使观众戴着立体眼镜跑动到电影院的任一位置，所看到的仍然是同一个视点。换句话说，3D电影院呈现的图像并不会因为观看位置的移动而更新视点图像。由于缺乏移动视差和聚焦模糊，观看3D电影时双目视差告诉大脑看到了3D场景，而移动视差和聚焦模糊又告诉大脑看到了2D场景，大脑会在3D和2D这两种状态之间不停的切换。由于双目视差与移动视差和聚焦模糊之间的冲突，从而导致“烧脑”。这也是大部分人群第一次体验3D电影时会产生不适感的主要原因。当大脑适应这种相互冲突的3D视觉后，不适感会明显减轻，但是所体验的视觉效果还是无法与真实三维世界相媲美。

Mars说光场（2）— 光场与人眼立体成像机理

图 6. 3D电影产生立体视觉原理

2.3 虚拟现实（VR/AR）

虚拟现实（Virtual Reality，VR/AR/MR都在本文讨论范围内）头盔属于头戴显示设备（HMD，Head Mounted Display）的一种[4,5]。相比3D电影，虚拟现实头盔不仅能提供双目视差，还能提供移动视差，从而带来更丰富逼真的立体视觉体验。虚拟现实头盔主要利用准直放大透镜（Collimating Lens）将眼前的显示屏图像放大并拉远。如图7所示，虚拟现实头盔的显示屏与透镜光心的距离略小于透镜焦距，屏幕上某一真实像素发出的光线经透镜折射进入人眼，沿着折射后光线的反向延长方向，人眼将感知到较远处的虚拟像素。同样的两套准直放大光学显示系统分别为左右眼提供不同的图像。

Mars说光场（2）— 光场与人眼立体成像机理

图 7. 虚拟现实头盔准直放大光路示意图

相比于3D电影院，VR头盔最大的改进之处在于它能提供移动视差。当人眼移动到不同的位置或旋转到不同的方向时，VR头盔会提供不同视点的图像。仍然以观看演员为例，在3D电影院中无论观众移动到任何位置或旋转到任意方向，所看到的都是演员的同一个侧脸。而在VR中，随着观众的移动，可以看到演员的左侧脸、右侧脸、下巴等不同的视点。正是由于VR所提供的移动视差，使得观众从导演预先设定的观看视角中脱离出来，可以从自己喜欢的角度去观察。这是VR能够提供强烈沉浸感的主要原因之一。

那么VR头盔是不是就能在视觉上完美地重现真实三维世界呢？答案是：还差一个关键要素，那就是聚焦模糊。VR头盔能同时提供双目视差和移动视差，但目前在售的VR头盔中都不能提供聚焦模糊（Accommodation）。VR头盔中使用的显示屏与主流手机使用的显示屏都属于LCD/OLED范畴。举个例子，真实环境中人眼看到远处的高山和近处的人物是分别接收了从远近不同地方发出的光线。然而VR屏幕中出现的高山和人物都是从距离人眼相同距离的显示屏上发出的光线。无论人眼聚焦在“远处”的高山还是“近处”的人物，睫状肌都是处于相同的屈张程度，这与人眼观看实际风景时的聚焦模糊状态是不相符的[6,7]。

引起VR眩晕主要有两方面的原因：（1）运动感知与视觉感知之间的冲突；（2）视觉感知中双目视差与聚焦模糊之间的冲突；详述如下。

人体主要依靠前庭、本体感觉、视觉三方面的感知途径综合推断出人体的位置、运动状态、姿态等信息。一方面，人耳的前庭内有3个半规管，每个半规管就像半瓶水一样；当人体运动时，前庭内的“半瓶水”就会晃动，再加上本体感觉的信息，大脑从而推断出目前的运动加速度和姿态。另一方面，人眼视觉能感知周边三维环境，从而反向推断出目前自身的位置等信息，类似与SLAM的工作原理[8]。在早期的VR设备中，由于定位精度、渲染速度，显示屏刷新频率等技术的限制，当身体移动时，VR头盔呈现画面并不准确和及时。例如在VR中“走独木桥”，身体已经移动而双目图像并未及时更新，此时前庭和本体感觉告诉大脑身体已经移动，而VR视觉告诉大脑身体没有移动，从而导致大脑产生困惑，这可以总结为“身已动，而画面未动”。再例如在VR中“坐过山车”，双目图像快速的切换让大脑以为身体在快速的上下移动，而实际上身体却是静止的坐在椅子上，会导致大脑产生困惑，这可以总结为“画面已动，而身未动”。随着VR设备在屏幕刷新率的提高、移动端图像渲染帧率的提升、交互定位精度的提高，以及万向跑步机和体感椅的出现，引起VR眩晕的第（1）方面原因已经得到大幅缓解。

第（2）方面原因引起的VR眩晕才是当前亟待解决的主要问题。VR头盔佩戴者始终聚焦在一个固定距离的虚拟屏幕上，而不能随着虚拟显示物体的远近重聚焦（refocus）。例如通过VR头盔观看远处的高山时，人眼通过双目视差感知到高山很远，但人眼并没有实际聚焦到那么远。类似的，当通过VR头盔观看近处的人物时，人眼仍然聚焦在虚拟屏幕上，与双目视差所呈现的人物距离不符。由于双目视差和聚焦模糊所呈现的远近距离不同，从而导致大脑产生深度感知冲突，进而引起视觉疲劳[9]。这种现象在学术上称为ACC或者AVC（Accommodation-Convergence Conflics, Accommodation-Vergence Conflics）[10,11,12]。与此同时，目前VR头盔的呈像平面为固定焦距，长期佩戴存在引起近视的潜在风险。如果希望VR取代手机成为下一代移动计算平台，首先就需要解决VR设备长时间安全使用的问题。目前来看，光场显示是解决这一问题的最佳方案之一。

2.4 光场显示

光场显示包含全光函数中所有维度的光线信息，可以提供上述所有的心理视觉感知信息和生理视觉感知信息。目前光场显示主要有：体三维显示（Volumetric 3D Display）、多视投影阵列（Multi-view Projector Array）、集成成像（Integral Imaging）、数字全息、多层液晶张量显示等多种技术方案。《Mars说光场（4）— 光场显示》会进一步分析光场显示技术的实现原理。

随着显示技术的演进，显示设备能提供越来越丰富的视觉感知信息。根据所能呈现的视觉信息，可以将显示设备分为4个等级，如图8所示。2D平面显示只能提供心理视觉信息来“欺骗”大脑产生三维立体视觉，属于第1等级。眼镜式3D电影不仅能提供心理视觉信息，还能提供部分生理视觉信息（双目视差），属于第2等级。现阶段的VR/AR/MR头盔在眼镜式3D电影的基础上进一步增加了移动视差，属于第3等级。光场是终极显示方式，能提供所有的心理和生理视觉信息，属于第4等级。

Mars说光场（2）— 光场与人眼立体成像机理

图 8. 不同等级显示技术所能提供的视觉信息范畴

[1] Geng J.Three-dimensional display technologies[J]. Advances in Optics and Photonics,2013, 5(4): 456-535.

[2] B. Blundell and A. Schwarz, Volumetric Three Dimensional Display System
(Wiley, 2000).

[3] T. Okoshi, Three-Dimensional Imaging Techniques (Academic, 1976).

[4] O. Cakmakci and J. Rolland, “Head-worn displays: a review,” J. Disp. Technol. 2, 199–216 (2006).

[5] D. Cheng, Y. Wang, H. Hua, and M. M. Talha, “Design of an optical see-through headmounted display with a low f-number and large field of view using a free-form prism,” Appl. Opt. 48, 2655–2668 (2009).

[6] T. Inoue and H. Ohzu, ―Accommodation responses to stereoscopic three-dimensional display,‖ Appl. Opt., vol. 36, 4509-4515 (1997)

[7] Vienne C, Sorin L, Blondé L, et al. Effect of the accommodation-vergence conflict on vergence eye movements[J]. Vision Research, 2014, 100:124-133.

[8] Davison A J, Reid I D, Molton N D, et al. MonoSLAM: Real-Time Single Camera SLAM[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2007, 29(6):1052-1067.

[9] D. M. Hoffman, A. R. Girshick, K. Akeley, and M. S. Banks, “Vergence–accommodation conflicts hinder visual performance and cause visual fatigue,” J. Vis. 8(3):33, 1–30 (2008).

[10] Mackenzie K J, Watt S J. Eliminating accommodation-convergence conflicts in stereoscopic displays: Can multiple-focal-plane displays elicit continuous and consistent vergence and accommodation responses?[J]. Proceedings of SPIE, The International Society for Optical Engineering, 2010, 7524:752417-752417-10.

[11] Hoffman D M, Banks M S. Disparity scaling in the presence of accommodation-vergence conflict[J]. Journal of Vision, 2010, 7(9):824.

[12] Takaki Y. Generation of natural three-dimensional image by directional display: Solving accommodation-vergence conflict[J]. Ieice Technical Report Electronic Information Displays, 2006, 106:21-26.