内刊访谈

[科技前沿] 基于人因感知模型的计算显示学在3D产业中的应用

发表时间:2019-08-15 14:21:24

  文/尤志翔 安平

 

  尤志翔:浙江未来技术研究院(嘉兴)虚拟视效工程中心研究员

  安平:上海大学通信与信息工程学院教授

 

  提话:本文介绍了计算显示学在3D显示中的应用,以人眼感知模型为理论依据,将观看者的实际感受(3D效果和3D舒适度)作为优化目标,对终端硬件和内容信号的联合处理技术进行了详细描述。人因工程与计算显示学的结合,对相关产业有着深远的意义。  过去的几十年间,显示技术和显示产业经历了一段高速发展期。超大面板尺寸、超高清分辨率、高动态范围(High Dynamic Range,HDR)、高刷新率(High Frame Rate)、精准色域表现等一系列核心技术指标持续升级,显示终端在产品形态上不断迭代,观看效果越来越接近、甚至超越人眼对真实世界的直接感受。在此基础上衍生的3D显示技术(眼镜式、裸眼式、光场式、全息式)、近眼显示技术(VR头盔、光波导AR眼镜)近年来也受到了研究机构和产业界的极大关注,从显示纬度和交互形式上进一步突破传统技术的局限。

  为了达到还原真实场景、提高受众感知效果的目的,我们可以从人因工程理论出发,结合视觉感知模型和计算机视觉技术,对显示系统和图像信号进行全局处理,突破硬件局限、增强观看效果、消除不舒适感。这种人因视觉感知模型(Human Visual System,HVS[1,2])分析框架最早由MIT Media Lab[3]和CSAIL[4]实验室提出,被称为计算显示学(Computational Display[5])或感知显示学(Perceptual Display[6])。本文重点分析影响立体视觉相关的人因模型理论,以及在3D显示终端系统中的技术实现,并结合产业发展提出相关建议。 
 

    概述
 

  全光函数(plenoptic function[7])描述了某一时刻在空间任意位置所能感知到的所有方向的光线,是对场景的全局描述,包含了亮度(光强)、色彩(波长)、时间、位置、视角等多维信息。能体现全光函数所有维度信息的显示技术,被认为是显示产品的最终形态。

  受限于当前硬件的约束,可以综合全光函数的多维度信息对特定显示要素进行增强(表格1)。比如,运动估计和帧间补偿技术可以用来提高视频序列的帧率,以空间信息增强显示画面的时间解析度[8];多次曝光采集和非线性映射融合技术用来提高显示图像的动态范围[9];快门式眼镜以牺牲一半显示刷新率的代价,增加了显示的立体维度[10];而狭缝和柱镜光栅式多视点裸眼3D显示技术,则以“牺牲”部分空间分辨率换取更大的观看视角(空间角分辨率)和额外的运动视差信息[11]。这些信号处理手段都可以归类为计算显示学技术,预期在显示终端尽可能增强观看效果,符合感受真实世界的方式。

  客观地说,全光函数多维信息的增强有一定的适用范围,显示硬件每一次的创新和升级也需要考虑现实的成本因素,而人因感知模型则提供了可参考的技术边界和指导标准。从信号处理的角度看,人眼视觉系统是一个条件带通模型[12],不同观看条件下,人眼对全光函数某一维度信号的感知有着不同的范围和解析度。比如,家用电视机的刷新率普遍要求达到100/120Hz标准,而电影院暗光环境下即便是24帧率格式的图像也可以有很好的表现力;再比如,同样内容的3D大片在影院上映的震撼表现力,却在普通3D电视上显得平淡。显示技术和终端产品的迭代绝对不是单一技术指标“单兵突进”式的进步,而需要综合端到端的内容制作、终端呈现等环节在系统应用时提供良好的观看体验,从受众需求侧出发促进产业整体良性联动。

  以全光函数理论为结构支撑,在显示设备现实条件的基础上,参考人因感知模型,重点关注影响观看者实际感受的生理因素,将计算机视觉/图形/图像等算法综合到硬件终端的光学设计、信号处理等研发环节中,对信号源和显示系统进行特定增强和整体优化,提供了一个不同于以往的新视角、新思路,有利于设备研发、内容生产、标准制定。

表格1:计算显示学相关信号增强技术与应用

  对比度
亮度
色彩 空间
分辨率
时间
分辨率
双目立体 多视点
裸眼3D
感知模型 动态范围
CSF函数
双路处理
色彩适配
SPEM 时间暂留
CFF
SPEM
DSF
视差模型
视差模型
运动视差
显示架构 多层光学模组
Local Dimming
基色提纯
多基色显示
激光显示
光学叠加
时域叠加
共享像素
背光闪烁 偏振3D
快门3D
分色3D
光栅3D
Volumetric
光场
内容信号 HDR Imaging
亮度增强
Tone Mapping
色彩模型
调色系统
超分辨率
子像素渲染
时域插值
帧间插值
运动补偿
Image Warping
立体摄影
视差重构
虚拟视点
虚拟视点
视差重构
多视点转换
 
 
  七维全光函数理论涉及的内容比较广泛,本文重点讨论与立体显示相关的计算显示学技术,突出人因感知模型在3D信号处理中的作用。


  人眼3D感知模型
 

  2009年以来,由一系列影视大片成功带火的3D热潮,引发了从消费者到显示器厂商的极大关注。从院线数字荧幕到家庭影院,从影视节目到数字娱乐,给观众带来逼真、震撼、舒适的3D画面感受始终具有一定的挑战。

  人眼视觉系统(HVS)依赖一系列复杂机制来感知真实世界的立体层次。这些复杂机制被称为深度线索(depth cues),分为先验信息(遮挡、尺寸、纹理、透视、阴影等)、双目视差(左右眼图像存在的视差,binocular disparity)、眼动视差(聚焦、汇聚等运动)、运动视差(图像随观看视点移动而发生的变化,motion parallax)四大类[13]。观看立体画面时,人脑将融合多种深度线索,呈现一个整体的景深层次感知[14]。不同的深度线索或相互增强,给人以强烈的立体层次感;或相互冲突,干扰融合过程,使人有不舒适感。基于HVS的带通模型理论,人眼视觉系统对这些深度线索的实际感知度和敏感度,会因为画面差别、观看条件变化(观看距离、环境亮度等)、显示设备不同种类(3D方式、屏幕尺寸等)而有不一样的表现[15]。各种深度线索的影响和相互作用机制异常复杂,至今仍是一个开放课题,需要综合生理、心理等多学科内容进行整体建模。

  在各类深度线索中,双目视差和运动视差被认为是决定3D层次感的主导要素[16],3D层次的丰富依赖于足够大的视差来表现。眼镜式3D显示系统依靠光电系统分别投射左右眼双目视差画面,而多视点裸眼3D显示系统则进一步增加了运动视差,根据技术实现方式和自由视点数目的多少,决定立体观看范围和立体视角分辨率。

  眼动视差则是造成不舒适感的最大诱因[17]。在平板显示器上观看3D影像时,肌肉调节单眼眼球使晶状体焦点(accommodation)调节于面板位置,同时肌肉调节双眼视线汇聚点(convergence)适应左右眼图像3D视差,视线汇聚点处于面板前时表现为出屏3D效果(左右眼图像为负视差),视线汇聚点处于面板后时表现为入屏3D效果(左右眼图像为正视差)。这种聚焦-汇聚冲突(accommodation-convergence conflict)在基于平板显示技术实现的3D终端上不可避免(眼镜式3D和裸眼式3D都有这个问题)。幸运的是,人眼视觉系统可以容忍并融合一定范围之内(3D舒适区,图1)的冲突,3D电影和3D电视标准都划定了所谓安全区域的视差范围,超出此范围的视差图像则会因为无法融合而在视觉感知系统中形成重影,引起观看者的不适,并且这种不舒适感会随着立体效果的不断增大(出屏过大、入屏过深)而愈加强烈[18,19]。

  图1 3D舒适区域与眼动视差冲突

  事实上,由于人眼视觉系统的复杂性,单一3D视差绝对值舒适范围还不足以定义完美的3D显示性能和3D画面感受。观看立体画面时,眼球相关肌肉的调节会给人脑一个生理信号反馈,辅助判断视差大小等3D参数。眼球肌肉的调节能力、调节速度和调节精度在观看不同距离的3D场景对象上有不同表现,这种表现还跟图像的亮度、颜色、深度梯度有关。类似于著名的人眼对比感敏度函数(Contrast Sensitivity Function,CSF[20]),我们也可以通过设计一系列严格的主客观实验,合理测定不同条件下3D视差相关的感敏度曲线(Disparity Sensitivity Function,DSF,图2)作为3D感知模型的合理代替(图3),对3D硬件设计、3D内容制作、3D系统应用、3D标准制定有着非常现实的指导意义[21,22]。

图2 视差敏感度曲线

图3 详细测定人眼3D感知模

 

  计算显示学在3D显示中的应用
 

  当前主流3D显示设备的关键技术在于通过“牺牲”全光函数其他维度上的部分信息来复用和分离视差图像,并正确投射于左右眼。有多种途径可以在平板显示器件上实现视差图像的3D效果:快门式眼镜(shutter glasses)通过时分复用和红外同步方式实现3D影像效果,单眼图像“损失”了一半显示时间,显示亮度偏低;偏振眼镜(polarized glasses)通过损失一半空间分辨率的方式复用了3D影像;分色眼镜(color-coded glasses)则是在色域范围内分离左右眼视差图像,单眼图像的色彩表现力相应打了折扣。额外佩戴的3D眼镜也降低了观看者的舒适度。通过屏幕前增加夹缝或透镜光栅的设计,可以同时显示两个或多个视点的图像,由此实现的裸眼3D显示终端不需要观看者佩戴特殊眼镜[23]。

  人眼观看真实世界可以在任意景深距离迅速形成3D感知,不存在显著不舒适感,HVS模型也远不止视差模式这么简单,但主流3D显示设备的技术形态却限制了我们观看立体影像的方式。因此,不少研究机构和产业团体的关注点转移到了显示终端和图像信号进行整体优化,即在3D感知模型理论指导下,将现有硬件框架作为约束条件,对视差图像进行处理,满足视差安全范围,按照敏感度曲线调整景深分布,强调3D效果的同时符合人因舒适度要求,相关信号处理工作可以广泛分布在拍摄、编码、传输、显示、评测等多个环节。

  [24-26]等团队给出了3D拍摄系统的参数化模型(3d-rig parameter settings),可以提前将显示设备的技术指标纳入考察范围,针对不同场景、拍摄器材、观看条件,设置合理的立体摄像机配置参数,如间距、汇聚角等。这些模型除了可以将拍摄的3D内容限制在视差模型安全范围内,还可以根据拍摄者的艺术创作要求,给出合理的3D脚本(depth-script)建议,如场景的3D层次分配、镜头间的深度连贯性(temporal coherence)处理等。

  当显示硬件的参数无法提前预知,或者3D内容的播放终端覆盖广泛的种类、尺寸和环境时,视差信号处理就得在后期处理和终端重现环节进行。视差重构(disparity retargeting)或深度调整(depth toning)技术[27,29](图4)被用于对已有3D信号进行特定处理,包括深度图非线性映射(disparity nonlinear mapping[28],图5)、虚拟视点绘制(virtual view synthesis[30,31])、频域重采样(frequency-domain resampling[32,33] )、双视点到多视点图像转换(binocular-to-multiview conversion[34])等。

图4 3D内容针对不同显示终端(左)和不同人群(右)的适应性调整

图5 3D视差根据图像显著度进行的调整

  应用于3D的计算显示学信号处理技术都是在人因工程的考量下,针对显示终端的技术参数,对原有内容进行适应性调整,在符合硬件条件、观看舒适度、减少失真的总体目标下,最大程度优化3D效果。人眼感知模型在这个过程中,对信号处理的算法体系提供极有价值的方向性指导和定量分析框架。

 

  小结和建议
 

  本文介绍了计算显示学在3D显示中的应用,以人眼感知模型为理论依据,将观看者的实际感受(3D效果和3D舒适度)作为优化目标,对终端硬件和内容信号的联合处理技术进行了详细描述。人因工程与计算显示学的结合,对相关产业有着深远的意义:

  (1)从产品角度来看,更好的性能、更少的失真、更佳的感受是产品设计的3个最重要的命题,通常这三者属于相互制约的关系,而感知模型与计算显示学可以用来分析和评测产品的综合性能表现,找到显著技术短板存在的原因与发生条件,尤其是给观看者造成的实际影响,并给出合理的短板解决方案;

  (2)从观众角度来看,显示效果和舒适度是第一要素,新的显示技术或者产品形态想要吸引持续关注并转化为消费趋势时,必须考虑其他维度的不利影响。从立体显示产业这几年发展的过程尤其可以看出,震撼的3D效果和舒适的3D感受这一对矛盾的解决,已经成为观众对产品接受度的首要考虑;

  (3)从行业角度来看,更多从需求端出发,形成科学、有效的行业标准,有利于促进上下游形成良性互动,产业得以长效健康发展;更深远地,基于人因的视觉感知模型不仅可以应用于3D产业,对于近眼显示(VR/AR)等产业热点和未来方向都有参考意义。

 

  参考文献:

  1、 B. Wandell, Foundations of Vision. Sinauer Associates Inc.; 1995 ISBN 9780878938537.

  2、 G. Mather, Foundations of Perception. Psychology Press; 2006 ISBN 9780863778346.

  3、 MIT Media Lab Homepage: http://www.media.mit.edu

  4、 MIT CSAIL Homepage: http://www.csail.mit.edu

  5、 B. Masia, G. Wetzstein, P. Didyk, D. Gutierrez, A Survey on Computational Displays: Pushing the Boundaries of Optics, Computation, and Perception. In: Journal of Computers & Graphics , 2013 , 37 (8) :1012-103.

  6、 P. Didyk, Perceptual Display, [Ph.D Dissertation], 2012.

  7、 E. Adelson, J. Bergen, The Plenoptic Function and the Elements of Early Vision. In: Computational models of visual processing, vol. 1, 1991. p. 3–20.

  8、 P. Didyk, E. Eisemann, T. Ritschel, K. Myszkowski, H. Seidel, Perceptually Motivated Real-time Temporal Up-sampling of 3D Content for High-Refresh-rate Displays. In: Computer graphics forum. Proceedings of Eurographics, vol. 29(2), 2010. p. 713–22.

  9、 E. Reinhard E, G. Ward, S. Pattanaik, E. Debevec, W. Heidrich, High Dynamic Range Imaging—Acquisition, Display, and Image-based Lighting. 2nd ed. Academic Press; 2010 ISBN 9780123749147.

  10、 N. Holliman, N. Dodgson, G. Favalora, L. Pockett. Three-dimensional Displays: a Review and Applications analysis. IEEE Trans. on Broadcast 2011; 57(2):362–71.

  11、 K. Perlin, S. Paxia, J. Kollin, An Autostereoscopic Display. In: ACM SIGGRAPH, 2000. p. 319–26.

  12、 T. Aydin, Human Visual System Models in Computer Graphics [Ph.D. thesis]. Max Planck Institute for Computer Science; 2010.

  13、 S. Palmer, Vision Science: Photons to Phenomenology. MIT Press; 1999.

  14、 J. Cutting, P. Vishton, Perceiving Layout and Knowing Distances: The Integration, Relative Potency, and Contextual Use of Different Information about Depth. In: Perception of Space and Motion. Academic Press; 1995.

  15、 B. Julesz, Foundations of Cyclopean Perception. MIT Press; 2006.

  16、 I. Howard, B. Rogers, Seeing in Depth, vol. 2: Depth Perception. I, Porteous, Toronto, 2002.

  17、 D. Hoffman, A. Girshick, K. Akeley, M. Banks, Vergence–Accommodation Conflicts Hinder Visual Performance and Cause Visual Fatigue. J Vis 2008;8(3):1–30.

  18、 T. Shibata, J. Kim, D. Hoffman, M. Banks, The Zone of Comfort: Predicting Visual Discomfort with Stereo Displays. J Vis 2011;11(8).

  19、 S. Du, B. Masia, S. Hu, D. Gutierrez. A Metric of Visual Comfort for Stereoscopic Motion. In: ACM transactions on graphics. SIGGRAPH Asia, vol. 32(6), 2013.

  20、 F. Xiao, J. DiCarlo, P. Catrysse, B. Wandell, High Dynamic Range Imaging of Natural Scenes. In: The Tenth color imaging conference, 2002

  21、 M. Bradshaw, B. Rogers, Sensitivity to Horizontal and Vertical Corrugations Defined by Binocular Disparity. Vis Res 1999;39(18):3049–56.

  22、 P. Didyk, T. Ritschel, E. Eisemann, K. Myszkowski, H. Seidel, A Perceptual Model for Disparity. In: ACM transactions on graphics. Proceedings of SIGGRAPH 2011, Vancouver, vol. 30(4), 2011. p. 96:1–10.

  23、 H. Urey, K. Chellappan, E. Erden, P. Surman. State-of-the-Art in Stereoscopic and Autostereoscopic Displays. Proc. IEEE 2011; 99(4):540–55.

  24、 G. Jones, D. Lee, N. Holliman, D. Ezra, Controlling Perceived Depth in Stereoscopic Images. In: Proceedings of SPIE, vol. 4297, 2001. p. 42–53.

  25、 T. Oskam, A. Hornung, H. Bowles, K. Mitchell, M. Gross, OSCAM—Optimized Stereoscopic Camera Control for Interactive 3D. In: ACM transactions on graphics. Proceedings of SIGGRAPH Asia, vol. 30, 2011. p. 189:1–8.

  26、 S. Heinzle, P. Greisen, D. Gallup, C. Chen, D. Saner, A. Smolic, Computational Stereo Camera System with Programmable Control Loop. ACM Trans Graph 2011;30 94:1–10.

  27、 R. Held, M. Banks, Misperceptions in Stereoscopic Displays: a Vision Science Perspective. In: Proceedings of the 5th symposium on applied perception in graphics and visualization. ACM; 2008. p. 23–32.

  28、 M. Lang, A. Hornung, O. Wang, S. Poulakos, A. Smolic, M. Gross, Nonlinear Disparity Mapping for Stereoscopic 3D. In: ACM transactions on graphics. Proceedings of SIGGRAPH, vol. 29(4), 2010. p. 751–60.

  29、 B. Masia, G. Wetzstein, C. Aliaga, R. Raskar, D. Gutierrez, Display Adaptive 3D Content Remapping. Computer Graphics 2013;37(8):983–96.

  30、 F. Banterle, A. Artusi, T. Aydin, P. Didyk, E. Eisemann, D. Gutierrez, Multidimensional Image Retargeting. In: ACM SIGGRAPH Asia 2011 courses. ACM; 2011.

  31、 F. Banterle, A. Artusi, T. Aydin, P. Didyk, E. Eisemann, D. Gutierrez, Mapping Images to Target Devices: Spatial, Temporal, Stereo, Tone, and Color. In: Eurographics 2012 tutorials, 2012.

  32、 C. Birklbauer, O. Bimber, Light-field retargeting. Comp Graph Forum 2012;31 (2pt1):295–303.

  33、 Zwicker M, Matusik W, Durand F, Pfister H, Forlines C. Antialiasing for automultiscopic 3D displays. In: Proceedings of EGSR, 2006. p. 73–82

  34、 Didyk P, Sitthi-Amorn P, Freeman W, Durand F, Matusik W. Joint view expansion and filtering for automultiscopic 3d displays. ACM Trans Graph (SIGGRAPH Asia) 2013;32(6).