雷锋网按:光场技术是目前最受追捧的下一代显示技术,谷歌、Facebook、Magic Leap等国内外大公司都在大力布局。然而目前国内对光场(Light Field)技术的中文介绍十分匮乏,曹煊博士《Mars说光场》系列文章旨在对光场技术及其应用的科普介绍。
曹煊博士系腾讯优图实验室高级研究员。优图— 腾讯旗下顶级的机器学习研发团队,专注于图像处理、模式识别、深度学习。在人脸识别、图像识别、医疗AI、OCR、哼唱识别、语音合成等领域都积累了领先的技术水平和完整解决方案。
《Mars说光场》系列文章目前已有5篇,包括:《Mars说光场(1)— 为何巨头纷纷布局光场技术》、《Mars说光场(2)— 光场与人眼立体成像机理》、《Mars说光场(3)— 光场采集》、《Mars说光场(4)— 光场显示》、《Mars说光场(5)— 光场在三维人脸建模中的应用》 ,雷锋网经授权发布。
【摘要】 — 光场显示能在视觉上完全重现真实世界,但在显示光场以前首先要采集光场,否则将会是“巧妇难为无米之炊”。传统相机拍摄的2D图片不能用于光场显示[1],因此需要专业的光场采集设备。相关研究者已经建立了一系列光场采集的理论[2],并在光场采集技术的发展过程中出现了多种设计方案,受到广泛关注和研究的主要有三种设计思路:(1)基于微透镜阵列(Microlens Array)的光场采集;(2)基于相机阵列(Camera Array)的光场采集[3];(3)基于编码掩膜(Coded Mask)[4]的光场采集。
1、基于微透镜阵列的光场采集
基于微透镜阵列的光场采集最早可以追溯到1908年Lippmann提出的集成成像(Integral photography)[5],集成成像为基于微透镜阵列的光场采集奠定了重要的理论基础。关于集成成像的发展历史,可以参考Roberts在2003年的详细梳理[6]。基于集成成像理论,MIT的Adelson在1992年尝试采用微透镜阵列来制造光场相机[7],斯坦福Levoy将集成成像应用于显微镜,实现了光场显微镜[8]。
基于透镜阵列的光场采集主要依靠在成像传感器与主镜头之间加入一片微透镜阵列,物体表面光线首先经过主镜头,然后经过微透镜,最后到达成像传感器(e.g. CCD/CMOS)。如图1所示,物体表面A点在FOP角度范围内发出的光线进入相机主镜头并聚焦于微透镜,微透镜将光线分成4x4束,并被成像传感器上对应的16个像素记录。类似的,空间中其它发光点,例如B点和C点,在其FOP角度范围内的光线都被分成4x4束并被分别记录。
微透镜阵列的主要作用是将物体表面同一点在一定角度范围内的各个方向发出光线进行离散化解耦,图1中的微透镜将光线离散化为4x4束,离散化程度由微透镜光学参数、主透镜光学参数及微透镜与成像传感器之间的距离等多方面因素决定。
参照光场4D模型,微透镜阵列好比(s, t)平面,成像传感器好比(u, v)平面。在基于微透镜阵列的光场采集模型中,(s, t)平面微透镜的数量决定了光场的图像分辨率。(u, v)平面像素数量决定了能采集光线的总数量,(u, v)平面像素总量与(s, t)平面微透镜数量的比值即为光场角度分辨率,也即采集视点个数。
图 1. 基于微透镜阵列的光场采集原理示意图
基于微透镜阵列的光场采集具有体积小,单次拍摄成像等优点。但也存在两个明显的缺陷,一方面是单视点的图像分辨率损失严重[9],例如使用4K(4096*2160)的图像传感器采集4x4视点的光场,则图像分辨率在水平方向和垂直方向都降低到原分辨率的四分之一,既单个视点图像分辨率只有1024*540。另一方面是采集光场的FOP角度较小,也即视差较小,只能在较小的角度范围内变换视点。
尽管存在上述的缺点,但由于总体成本在可控范围内,基于微透镜的光场采集方案是商业化光场相机主要采用的方案。目前已经商业化的光场相机主要包括美国的Lytro和德国的Raytrix。Lytro是一款基于微透镜阵列的手持光场相机,由斯坦福大学Ren Ng(Marc Levoy的博士生)在2005年提出 [10,11],并分别于2011年和2014年正式向市场推出第一代和第二代手持式光场相机Lytro[12]。相比传统相机,Lytro的关键设计是在传统相机中嵌入一块微透镜阵列,如图2所示。物体发出的光线被主透镜聚焦在微透镜阵列平面,微透镜阵列将光线分开并被图像传感器分别记录下来,从而同时记录了不同方向上光线的强度。
图 2. 美国Lytro基于微透镜阵列的光场相机
Raytrix [13]是德国一家创业公司,同样是基于微透镜阵列的便携式光场相机[14]。Lytro主要面向大众普通用户,而Raytrix不仅面向普通用户还面向工业和科研应用领域,如图3所示。Raytrix扩大了采集光场的深度范围[15]并开发了一套自动标定算法用于标定光场相机[16]。
图 3. 德国Raytrix基于微透镜阵列的光场相机
Adobe Systems Inc. 的Todor Georgeiv在2006年研究了视点分辨率与角度分辨率之间的互相平衡关系[17],在2008年提出了一种统一的光场相机仿射光路理论[18]并提高光场分辨率[19],基于该理论框架构造的光场相机如图4所示。严格来说,Todor Georgeiv提出的光场相机与上述Lytro和Raytrix的基于微透镜阵列的光场相机并不完全相同。图4中透镜阵列更靠近相机主透镜位置,解耦合后的光线在成像传感器上形成的图像与Lytro或Raytrix并不相同,因此从成像传感器原始数据提取光场的算法也与Lytro和Raytrix不同。
图 4. 美国Adobe Systems Inc.光场相机
2、基于相机阵列的光场采集
基于相机阵列的光场采集不需要对相机进行改造,但需要增加相机的数量。光线从物体表面发出,分别进入多个相机镜头,并分别被对应的成像传感器记录。如图5所示为4x4相机阵列,A点在半球范围内发出各向异性的光线,其中FOP角度范围内的光线进入了相机阵列,并被分成4x4束光线,每束光线被对应的镜头聚焦在成像传感器上,由此A点各向异性的光线被离散化为4x4束并被分别记录。
对比图1中基于微透镜的光场采集方案,相机阵列通过多个镜头将物体表面同一点在一定角度内各向异性的光线解耦和,并离散为多束光线分别记录。解耦和后的离散化程度由相机阵列的规模决定。相机数量越多,离散化程度越高。
参照光场4D模型,图5中镜头阵列好比(s, t)平面,成像传感器阵列好比(u, v)平面。(s, t)平面镜头的数量,也即相机的数量,决定了光场视点个数。(u, v)平面所有像素数量决定了能采集光线的总数量。(u, v)平面像素总量与(s, t)平面镜头数量的比值即为单个视点分辨率。一般而言,相机阵列中各个相机成像传感器的分辨率一致,所以单个相机成像传感器的分辨率即为光场视点分辨率。
图 5. 基于相机阵列的光场采集示意图
相比基于微透镜阵列的光场相机,基于相机阵列的光场采集方案具有两个明显的优势:(1)采集光场的FOP角度较大,也即视差较大,可以在较大的角度范围内变换视点。(2)图像分辨率不损失,因此单个视点的图像分辨率一般都高于基于微透镜阵列的光场相机。但基于相机阵列的光场采集方案也存在成本高昂,体积较大的明显缺陷,例如图6中Jason Yang于2002年在MIT搭建出全世界第一套近实时相机阵列[20],由8x8共64个相机组成,单个视点分辨率为320x240,光场采集速率为18FPS,延迟为80毫秒。
图 6. Jason Yang于2002年在MIT实现的实时相机阵列
斯坦福大学Bennett Wilburn在2000年实现了数据编码压缩的光场视频相机[21],之后进一步改进光场相机系统,在2004年展示了稠密光场相机阵列[22]。Bennett Wilburn设计的稠密光场相机阵列包含52个30fps的COMS成像单元,单个视点分辨率为640x480,如图7所示。
图 7. Bennett Wilburn于2004年在斯坦福大学设计的稠密光场相机阵列
Bennett Wilburn在2005年进一步增加相机数量到约100个,构建了大规模光场相机阵列[23],并搭建了三种不同类型的大规模光场相机,如图8所示,分别是(a)紧密排列的长焦镜头大规模相机阵列,主要用于实现高分辨率成像。(b)紧密排列的广角镜头大规模相机阵列,主要用于实现高速视频捕获和混合合成孔径成像。(c)分散排布的大规模相机阵列。
图 8. Bennett Wilburn于2005年在斯坦福大学设计的大规模光场相机阵列
由于硬件成本高昂,体积较大等缺点,目前To C端的应用中还没有采用基于相机阵列的光场采集方案。曹煊在2015年提出稀疏相机阵列光场采集方案[24],利用压缩感知和稀疏编码大大减少了相机数量,降低了硬件成本,但仍然存在体积大的问题。Pelican是美国硅谷的一家创业公司,正在尝试将相机阵列小型化。该公司在2013年实现了超薄高性能的相机阵列[25],如图9所示。通过光学设计的优化[26]和光场超分辨算法的应用[27,28],Pelican制造了小巧的相机阵列,并形成一个独立的光场相机模块。Pelican综合了多种方法在保持相机阵列轻薄的前提下提升了所采集光场分辨率[29,30]。
图 9. 美国初创公司Pelican设计的超小体积高性能相机阵列
3、基于编码掩膜的光场采集
基于微透镜阵列和基于相机阵列的光场采集都有一个共同点——“阵列”。前者通过多个微透镜构成阵列,牺牲图像分辨率换取角度分辨率。后者通过多个相机构成阵列,在不牺牲图像分辨率的情况下增加了角度分辨率,但是需要增加大量的图像传感器。总体而言,视点分辨率与角度分辨率是一对矛盾因素,总是此消彼长。通过增加成像传感器数量来抵消这一矛盾会造成硬件成本的急剧增加。
上述两种光场采集方案必须在图像分辨率和角度分辨率之间进行折中。学术界最新出现的基于编码掩膜的光场采集打破了这一局限。该方案通过对光场的学习去掉光场的冗余性,从而实现了采集更少的数据量而重建出完整的光场。
如图10所示,在传统相机的成像光路中加入一片半透明的编码掩膜,掩膜上每个像素点的光线透过率都不一样(也称为编码模式),进入光圈的光线在到达成像传感器之前会被掩膜调制,经过掩膜调制后的光线到达成像传感器。利用提前学习好的光场字典,从单幅采集的调制图像就可以重建出完整的光场。掩膜的编码模式理论上可以采用随机值,Kshitij Marwah证明了通过约束变换矩阵的转置与变换矩阵的乘积为单位矩阵可以得到优化的编码掩膜,采用优化后的编码掩膜可以重建出更高质量的光场。
图 10. Kshitij Marwah于2013年在MIT设计的掩膜光场相机
很多学者已经尝试利用编码掩膜来实现计算成像,例如国立台湾大学的Chia-Kai Liang 在2008年采用可编程的光圈结合多次曝光成像实现了光场采集[31]。美国MIT大学在掩膜相机方面的研究非常深入,MIT大学CSAIL的Anat Levin 于2007年采用编码光圈实现了深度图像的采集[32],MIT Media Lab的Veeraraghavan Ashok 在2007年采用掩膜实现了可以重聚焦的相机[33],后于2011年结合闪光灯和相机掩膜实现了对高频周期变化的图像进行高速摄像[34]。MIT Media Lab的Kshitij Marwah于2013年提出了基于掩膜的压缩光场采集[35]。
基于编码掩膜的光场采集方案最大的优势在于不需要牺牲图像分辨率就能提高角度分辨率。但该方案存在光场图像信噪比低的缺点,这主要是由于两方面的原因造成:(1)掩膜的透光率不能达到100%,因此会损失光线信号强度,导致成像信噪比低;(2)所重建的最终光场图像并不是成像传感器直接采集得到,而是通过从被调制的图像中进行解调制得到;本质上是基于已经学习的光场字典去“猜”出待重建的光场。
4、光场采集方案对比
上述三种主流的光场采集方案与传统相机总结对比如下表。
表1. 传统2D采集设备与光场采集设备的对比
采集数据维度 | 优点 | 缺点 | |
传统相机 | R(x, y, λ, t) | 技术成熟, 价格低廉 | 只能采集平面图片, 等同于角度分辨率为1X1的低阶光场 |
微透镜阵列 | R(x, y, θ, Φ, λ, t) | 体积小, 成本较低 | 图像分辨率损失严重 |
相机阵列 | R(x, y, θ, Φ, λ, t) | 基线大,视差大 图像分辨率较高 | 成本高,体积大 硬件同步困难 |
编码掩膜 | R(x, y, θ, Φ, λ, t) | 体积小 分辨率不损失 | 信噪比低 光场质量下降 |
基于微透镜阵列的光场采集具有体积小巧,硬件成本低等优点。但其缺点也很明显:1)光场视点图像分辨率损失严重,随着视点数量的增加,单个视点分辨率急剧降低。2)受到相机光圈的限制,光场中可观察的视差范围较小。
基于相机阵列的光场采集相比基于微透镜阵列的光场采集具有更多优点:1)视点分辨率不损失,由单个相机成像传感器决定。2)光场的视差范围更大。但基于相机阵列的光场采集仍然面临两个问题:1)需要的相机数量较多,硬件成本高昂,例如采集7x7视点的光场需要49个相机。2)相机同步控制复杂,数据量大,存储和传输成本高。
基于编码掩膜的光场采集打破了角度分辨率与视点图像分辨率之间的互相制约关系,利用“学习”的方法去掉光场冗余性,从少量信息中恢复光场。虽然存在信噪比降低的问题,但在2K时代,分辨率不损失这一优点使得该方案受到广泛关注。
[1] Van Berkel C. Image Preparation for 3D-LCD[C]//Stereoscopic Displays and Virtual Reality Systems VI,1999.
[2] Chai J X, Tong X, Chan S C, et al. Plenoptic sampling[C]// Conference on Computer Graphics and Interactive Techniques. ACM Press/Addison-Wesley Publishing Co. 2000:307-318.
[3] Levoy M. Light Fields and Computational Imaging[J]. Computer, 2006, 39(8):46-55.
[4] Lanman D. Mask-based light field capture and display[C]// Ph.D. Dissertation, Brown University, 2011.
[5] Lippmann G. Epreuves reversibles. Photographies integrals[J]. Comptes-Rendus Academie des Sciences, 1908, 146(3):446-451.
[6] Roberts D E. History of Lenticular and Related Autostereoscopic Methods[J]. Leap Technologies Hillsboro, 2003.
[7] Adelson E H, Wang J Y A. Single Lens Stereo with a Plenoptic Camera[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1992, 14(2):99-106.
[8] Levoy M, Ren N, Adams A, et al. Light field microscopy[J]. Acm Transactions on Graphics, 2006, 25(3):924-934.
[9] Hoshino H, Okano F, Isono H, et al. Analysis of resolution limitation of integral photography[J]. Journal of the Optical Society of America A, 1998, 15(8):2059-2065.
[10] Ren N, Levoy M, Bredif M, et al. Light Field Photography with a Hand-Held Plenopic Camera[J]. Tech. Rep. CSTR Stanford Computer Science. 2005.
[11] R. Ng, “Digital light field photography”, PhD. Thesis, Stanford University, 2006.
[12] https://illum.lytro.com/
[13] www.raytrix.de
[14] Raytrix, “Digital imaging system for synthesizing an image using data recorded with a plenoptic camera,” European Patent EP09005628.4 (April 2009).
[15] Perwass C, Wietzke L. Single lens 3D-camera with extended depth-of-field[C]// IS&T/SPIE Electronic Imaging. International Society for Optics and Photonics, 2012.
[16] Heinze C, Spyropoulos S, Hussmann S, et al. Automated Robust Metric Calibration Algorithm for Multifocus Plenoptic Cameras[J]. IEEE Transactions on Instrumentation & Measurement, 2016, 65(5):1197-1205.
[17] Georgeiv T, Zheng K C, Curless B, et al. Spatio-angular resolution tradeoffs in integral photography[C]// Eurographics Symposium on Rendering Techniques, Nicosia, Cyprus. DBLP, 2006:263-272.
[18] Georgeiv T, Intwala C. Light Field Camera Design for Integral View Photography[J]. Adobe Technical Report, 2008.
[19] Lumsdaine A, Georgiev, T, Full resolution lightfield rendering, Adobe Technical Report, 2008.
[20] Yang J C, Everett M, Buehler C, et al. A real-time distributed light field camera[C]// Eurographics Workshop on Rendering. Eurographics Association, 2002:77-86.
[21] Wilburn B S, Smulski M, Lee K, et al. The Light field video camera[J]. Proceedings of SPIE - The International Society for Optical Engineering, 2001, 2002:29--36.
[22] Wilburn B, Joshi N, Vaish V, et al. High-Speed Videography Using a Dense Camera Array[C]// Computer Vision and Pattern Recognition, 2004. CVPR 2004. Proceedings of the 2004 IEEE Computer Society Conference on. IEEE, 2004:II-294-II-301 Vol.2.
[23] Wilburn B, Joshi N, Vaish V, et al. High performance imaging using large camera arrays[J]. Acm Transactions on Graphics, 2005, 24(3):765-776.
[24] Cao X, Geng Z, Li T. Dictionary-based light field acquisition using sparse camera array[J]. Optics Express, 2014, 22(20):24081-24095.
[25] Venkataraman K, Lelescu D, Duparr, et al. PiCam : an ultra-thin high performance monolithic camera array[J]. Acm Transactions on Graphics, 2013, 32(6):166.
[26] Tanida J, Kumagai T, Yamada K, et al. Thin Observation Module by Bound Optics (TOMBO): Concept and Experimental Verification[J]. Applied Optics, 2001, 40(11):1806.
[27] Baker S, Kanade T. Limits on Super-Resolution and How to Break Them[J]. Pattern Analysis & Machine Intelligence IEEE Transactions on, 2000, 24(9):1167-1183.
[28] Bishop T E, Zanetti S, Favaro P. Light field superresolution[C]// IEEE International Conference on Computational Photography. IEEE, 2009:1-9.
[29] Georgiev T, Chunev G, Lumsdaine A. Superresolution with the focused plenoptic camera[C]// IS&T/SPIE Electronic Imaging. International Society for Optics and Photonics, 2011:78730X-78730X-13.
[30] Wanner S, Goldluecke B. Spatial and Angular Variational Super-Resolution of 4D Light Fields[M]// Computer Vision – ECCV 2012. Springer Berlin Heidelberg, 608-621.
[31] Liang C K, Lin T H, Wong B Y, et al. Programmable aperture photography: Multiplexed light field acquisition[J]. Acm Transactions on Graphics, 2008, 27(3):55.
[32] Levin A, Fergus R, Durand F, et al. Image and depth from a conventional camera with a coded aperture[C]// ACM SIGGRAPH. ACM, 2007:70.
[33] Veeraraghavan A, Raskar R, Agrawal A, et al. Dappled photography: mask enhanced cameras for heterodyned light fields and coded aperture refocusing[C]// SIGGRAPH. 2007:69.
[34] Veeraraghavan A, Reddy D, Raskar R. Coded Strobing Photography: Compressive Sensing of High Speed Periodic Videos[J]. Pattern Analysis & Machine Intelligence IEEE Transactions on, 2011, 33(4):671-686.
[35] Marwah K, Wetzstein G, Bando Y, et al. Compressive light field photography using overcomplete dictionaries and optimized projections[J]. Acm Transactions on Graphics, 2013, 32(4):1-12.