
第2章 视觉特性和彩色电视信号
2.1 人的视觉特性
2.1.1 图像对比度与视觉的对比度灵敏度特性
1.图像的对比度
对比度表示图像相邻区域或相邻点之间的亮度差别。对比度C由下式定义:
式中,Imax、Imin分别代表图像中的最大和最小亮度。
在自然景物中,对比度经常可以达到200∶1,甚至更高。电视机和显示器只有给出类似的对比度,电视上的景物才有自然景物那么明亮和层次丰富。
2.视觉的对比度灵敏度特性
在给定的某个亮度环境下,人眼刚好(以50%的概率)能够区分两个相邻区域的亮度差别所需要的最低对比度,称为临界对比度,或称为视觉阈。在研究数据压缩技术时,人们关心人眼是否能够察觉到压缩所引入的图像(对比度)失真,因而对视觉阈的研究就是十分必要的了。临界对比度的倒数,称为对比度灵敏度。
视觉阈的大小与观察条件(如周围环境的亮度、邻近区域亮度的变化等)有关。假设我们考虑图2-1(a)所示的情况,其中环境亮度为LS,图的中间有一个张角为1.5°、亮度为LB的环,环内包围着一个亮度为L的小区域。调节L的大小使其刚好能被觉察到与LB有所不同,则L-LB=ΔL为视觉阈。在不同的LS下,经实验得到ΔL随LB变化的曲线如图2-1(b)所示。在LS=LB的情况下,ΔL/LB接近于常数,这称为韦伯(Weber)定律。ΔL与LB成正比意味着,人眼区分图像亮度差别的灵敏度与它附近区域的背景亮度(平均亮度)有关,背景亮度越高,灵敏度越低。

图2-1 视觉阈的测量(背景亮度固定)(A.N.Netravali and B.G.Haskell,Digital Pictures:Representation,Compression and Standards,2ndEd.,Plenum Press,New York,1995)
3.空间域的掩蔽效应
视觉阈的大小不仅与邻近区域的平均亮度有关,还与邻近区域的亮度在空间上的变化(不均匀性)有关。假设将一个光点放在亮度不均匀的背景上,通过改变光点的亮度测试此时的视觉阈,人们发现,背景亮度变化越剧烈,视觉阈越高,即人眼的对比度灵敏度越低。这种现象称为视觉的掩蔽效应(Masking)。
2.1.2 空间频率与视觉的空间频率响应
1.空间频率
人们所熟悉的时间频率是用单位时间内某物理量(如交变的电流、电压、波动或机械振动等)周期性变化的次数来定义的,单位为周/秒。类似地,空间频率的定义是:物理量(如图像的亮度)在单位空间距离内周期性变化的次数,即
式中,fx表示亮度信号在x方向的空间频率,x是空间距离变量,(x)表示亮度信号沿x方向的相位变化。
以图2-2(a)所示的正弦光栅为例,如果光栅亮度在1厘米内变化10次,那么它的空间频率为fx=1000周/米。

图2-2 空间频率的单位
人们通常有这样的经验,从不同距离上观察空间频率相同的正弦光栅,感觉光栅亮度变化的密集程度是不同的。因此在涉及观察者时,需要将空间频率用每度多少周表示,这里的度是几何角度的单位。这样表示的空间频率可以理解为从某一观察点来看,亮度信号在单位角度内周期性变化的次数,即
式中,α为图2-2(b)中所表示的角度,(α)代表亮度信号在角度α内的相位变化。两种空间频率单位间的转换可以通过图2-2(b)来推算。假设图中S
r,则存在如下的近似关系:
式中,α的单位为弧度。因为信号在S长度内变化的周期数等于在α角内变化的周期数,故可得下式:
式中,fx的下角标m和d分别用来区别以长度为单位和以角度为单位的空间频率。将(2-4)式代入(2-5)式,得到fxd和fxm之间的转换公式
二维图像的空间频率谱可以用二维的傅氏积分来表示,即
式中,L(x,y)为亮度在x-y平面上的分布函数,x、y为图像的平面坐标,fx、fy分别是在x、y方向上的空间频率。
对于图2-3(a)所示的正弦光栅,其亮度函数为
根据(2-7)式得到它的频谱如图2-3(b)所示,其中包含直流分量和fx=fx0、fy=fy0的频率分量。与一维的频谱分析相类似,任何一个复杂的亮度函数(图像),都可以通过傅氏分析将其分解成为一系列不同频率分量(正弦光栅)之和。

图2-3 一个正弦光栅和它的空间频率谱

图2-4 视觉的对比度灵敏度响应(正弦光栅的亮度为600坎德拉/米2)(A.N.Netravali and B.G.Haskell,Digital Pictures:Representation,Compression and Standards,2ndEd.,PlenumPress,NewYork,1995)
2.视觉的空间频率响应
人的视觉系统基本上可以认为是一个线性系统。图2-4给出了视觉对不同空间频率的正弦光栅的响应(A.N.Netravali and B.G.Haskell,Digital Pictures:Representation,Compression and Standards,2ndEd.,Plenum Press,New York,1995),它表示了该线性系统的频率域特性。从图可以看出,当空间频率在3~4.5周/度时,视觉的对比度灵敏度最高,即人眼对这些空间频率的分辨能力最强。由于眼睛的光学孔径大小的限制和视网膜上光敏细胞分布的密度不够等原因,对于空间频率高于50~60周/度的正弦光栅,人眼就很难分辨了。视觉系统频率响应在低端的下降,则需要用眼睛的横向抑制效应来解释。
2.1.3 视觉的时间域响应
1.视觉惰性与闪烁
人眼的视觉是有惰性的,这种惰性现象也称为视像的暂留。就是说,当眼前实际的景物已经消失后,所看到的影像却不立即消失。如果让观察者观察按时间顺序重复的亮度脉冲(如黑暗中不断开、关的手电筒),当脉冲重复频率不够高时,人眼就有一亮一暗的感觉,称为闪烁。如果重复频率足够高,闪烁感觉消失,看到的则是一个恒定的亮点。闪烁感觉刚好消失时的重复频率叫做临界闪烁频率。脉冲的亮度越高,临界闪烁频率也相应地增高。
视觉惰性现象已被人们巧妙地运用到电影和电视当中,使得本来在时间上不连续的图像,给人以真实的、连续的感觉。在通常的电影银幕亮度下,人眼的临界闪烁频率约为46Hz。所以电影中,普遍采用每秒钟向银幕上投射24幅画面的标准,而在每幅画面停留的时间内,用一个机械遮光阀将投射光遮挡一次,得到每秒48次的重复频率,使观众产生亮度是连续的、不闪烁的感觉。人们也曾做过用遮光阀将每幅画遮挡两次的实验,这时可以在不产生闪烁感觉的前提下将每秒钟投影的画面幅数减少到16,从而能够进一步缩短电影复制所需的胶卷的长度。但是,每秒钟投影16幅画面时,对于速度稍高的运动物体,由于前一幅画面和后一幅画面中的物体在空间位置上的差别过大,会产生像动画片那样的动作不连续的感觉。在2.2.2节中我们将会看到,类似的思想也在电视中得到了应用。
实验表明,人眼在高亮度下对闪烁的敏感程度高于在低亮度的情况。对于今天的高亮度的显像管而言,临界闪烁频率可能达到60~70Hz。
2.运动的连续性
一般来说,要保持画面中物体运动的连续性,要求每秒钟摄取的画面数约为25帧左右,即帧率要求为25Hz;而临界闪烁频率则远高于这个频率。在传统的电视系统中由于整个通道中没有帧存储器,显示器上的图像必须由摄像机传送过来的画面所刷新,所以摄像机摄取图像的帧率和显示器显示图像的帧率必须相同,而且相互是同步的。在数字电视和多媒体系统中,在最终显示图像之前插入帧存储器是很简单的事,因此摄像机的帧率只要保证动作连续性的要求,而显示器可以从帧存储器中反复取得数据来刷新所显示的图像,以满足无闪烁感的要求。现在市面上出现的100Hz的电视机,就是用这种办法把场频由50Hz提高到100Hz。
3.时间域的掩蔽效应
影响时间域掩蔽效应的因素比较复杂,对它的研究还处于初始阶段。这里仅介绍一些实验结果,这些结果可能在数据压缩方面有潜在的应用价值。实验表明,当电视图像中相邻的画面变化剧烈(如场景切换)时,人眼的分辨力会突然剧烈下降,例如下降到原有分辨力的1/10。也就是说,当新场景突然出现时,人基本上看不清新景物,在大约0.5秒之后,视力才会逐渐恢复到正常状态,很显然,在这0.5秒的时间内,传送分辨率很高的图像是没有必要的。研究者还发现
,当眼球跟着画面中的运动物体而转动时,人眼的分辨力要高于不跟着物体而转动的情况。而通常在看电视时,眼睛是很难跟踪运动中的物体的。
2.1.4 彩色的计量和彩色视觉
1.彩色的定量表示
人们在生活中,用红、橙、黄、绿、青、蓝和紫等名词来描述彩色的大致范围。如果再进一步地细分,红色则有深红、浅红、大红、粉红等。即使这样细分,仍然不能把颜色表达得很准确。
根据德国科学家格拉兹曼所总结的法则,任何一种彩色都可由另外的不多于三种的其他彩色按不同的比例合成。这意味着,如果选定了三种人所共知的标准基色(标准基色必须是独立的,即其中一种不能由其他两种产生),那么任何一种彩色,可以用合成这一彩色所需要的3种基色的数量来表示。例如,选择波长分别为700nm、546.1nm和435.8nm的红、绿、蓝光作为基色,用不同比例的三基色光可以配出任何一种彩色。三种光的能量之和决定了合成光的亮度,而三种光强之间的比例关系决定了合成光的色调(颜色)和饱和度(颜色深浅)。一个任意光(A)和三基色光之间的关系可以写成下式
(A)=ra(R)+ga(G)+ba(B)(2-9)
式中带有括号的大写字母只代表某种光。例如(R)只代表红光,并不具有数量和量纲的含义,数量由它们各自的系数代表。
(2-9)式表明,在基色光(R)、(G)和(B)选定以后,任何一种彩色(A)都可以用三个相应的数ra、ga和ba来表示。这事实上已经解决了用数学的方法严格地定义彩色的问题。但是在实际的应用中发现,这样的三个数有时相互之间在数量上可以相差几个数量级,以至于有的数值小到在进行色度计算时可以忽略,而它在光的合成中却起着明显的作用,又不能忽略。解决这一问题的办法,是用合成某种标准白光(如等能白光)所对应的三个系数值,分别作为三种基色光的1个计量单位。以此计量单位度量的任意彩色(A)的三个系数称为三色系数(Tristimulus),用R,G,B表示。
在R、G、B三种基色构成的颜色空间中,以三色系数为坐标,任何一种彩色都可以由这三个坐标值所确定的矢量来表示。矢量的幅值代表了彩色的亮度,矢量的方向代表了它的颜色信息(色调和饱和度)。图2-5中,坐标原点O是R、G、和B都等于零的点,代表黑色。与O点相对的立方体的顶点的三个坐标值都等于1,代表等能白色。从图看出,具有同样颜色、不同亮度的矢量都与虚线三角形相交于同一点,这说明虚线平面三角形内的一点,唯一地确定了一种颜色;三角形包围的区域定义了在这种三色坐标下所有可能产生的颜色。
图2-5中虚线平面三角形中的一点唯一地确定一种彩色,说明彩色只需要两个(而非三个)变量就可以描述。我们将三色系数作如下的归一化:
则有r+g+b=1。这样,一种彩色只需要两个变量,例如r和g,就可以严格定义了。
由于用r和g来描述自然界中的彩色有计算上的不便之处,国际照明委员会(CIE)于1931年基于假想的三个基色X,Y,Z建立了一个标准色度系统。XYZ系统中的三色系数可以由RGB三色系数经线性变换获得。在XYZ系统中,以x和y(对应于RGB系统中的r和g)为坐标表示的色度图如图2-6所示。图中舌形的区域展示了人类可见的所有彩色,外侧边界是光谱(单色)光轨迹。一个多媒体或电视系统能够展示给观众的彩色由其显示设备所使用荧光粉的发光特性所决定。图2-6中实线和虚线三角形的三个顶点分别代表PAL和NTSC电视系统R、G、B荧光粉的色坐标,中间E代表等能白色的色坐标,三角形包围的面积代表该系统可以展示的彩色。
除了RGB和XYZ坐标系外,还有其他的彩色坐标系统,如在电视和多媒体系统中经常使用的YUV(见2.2.4节),在艺术和计算机视觉领域广泛使用的HSV、HSI等。有兴趣的读者,可以参阅有关的文献(A.N.Netravali and B.G.Haskell,Digital Pictures:Representation,Compression and Standards,2ndEd.,Plenum Press,NewYork,1995 [美]冈萨雷斯著.数字图像处理(第二版).阮秋琦等译.北京:电子工业出版社,2003)。

图2-5 三维彩色矢量空间

图2-6 x-y坐标色度图
2.彩色视觉的空间频率响应
图2-7给出了视觉对彩色变化的频率响应。由图看出,人眼对亮度的分辨力要明显的比彩色的高。对间隔较密的黑白正弦光栅我们可能可以分辨清楚,而同样间距的蓝黄光栅,我们可能分不清,而只能看到一片绿。

图2-7 彩色视觉的空间频率响应
3.彩色的掩蔽效应
在亮度变化剧烈的背景上,例如在黑白跳变的边沿上,人眼对色彩变化的敏感程度明显地降低。相类似地,在亮度变化剧烈的背景上,人眼对彩色信号的噪声(如彩色信号的量化噪声)也不易察觉。这些都体现了亮度信号对彩色信号的掩蔽效应。