五 统计诊断
有许多状况会让回归分析的正确性受到质疑,但总的来说都与回归系数的估计有关,因此许多学者建议在进行回归分析的同时,应该要进行某些项目的统计诊断,来及时发现问题并采取适当的方法来修正回归分析的结果。由于统计诊断最常用于简单线性回归模型的估计中,并且其修正方法的发展已具有体系而被广为熟知,因此本节仅针对简单线性回归模型中常见的四种问题来进行讨论,分别有关于离群值(outlier)、多元共线性、模型选定和非线性关系。
(一)离群值的问题
通常回归分析所使用的样本资料,其中所含括的资讯如何连结到研究者所关心的假设,都是基于既有的理论依据。倘若在进行回归分析时发现,有某些个案明显地偏离回归分析所得到的关系式,或者具有相当大的残差值,使得整个回归分析的误差变异变大,那么研究者就有必要来审视这些离群值所代表的个案,其偏离回归关系式的结果,是不是受到某些无关乎研究假设的特殊因素影响。如果答案是肯定的,那么研究者就可以将这些离群值个案剔除在分析的样本之外,如果答案是否定的,那么则不能将这些个案剔除而必须寻找其他方法来解释其离群的原因。
比方说,假定台湾各县市“事故伤害率”(每十万人口中事故伤害死亡人数)的主因来自交通事故死亡,而交通事故死亡人数与汽车道路密度(每汽车享有道路面积)有密切的关系。根据1999年“行政院”主计处的资料,在控制了“机车人口密度”(每千人持有机车数)之后,汽车享有道路面积每增加1平方公尺(即汽车道路密度减少),意外伤害率则增加0.603,其样本的回归关系式如图2-2所示。而审视样本的残差值后,发现台中县和南投县明显偏离其他县市,为样本中的主要离群值个案,经过调查之后发现,在1999年所发生的“九二一”地震的主要伤亡人数,就发生在台中县和南投县,而此因素乃属于特别的一次性天灾,并不在研究假设所讨论的范围之内,因此若将这两个个案剔除,重新进行回归分析所得到的结果,虽然汽车道路密度仍与事故伤害率呈反比,但是其回归系数值已降至0.400,因此可以得到一个结论,若没有排除“九二一”大地震对于台中县和南投县的事故伤亡人数增加的影响,则有关汽车道路密度和事故伤害率的反向关系将会被夸大,此即离群值所造成参数估计误差的现象。
图2-2 离群值的侦测(以“九二一”大地震为例)
在简单线性回归中,离群值的侦测可以由统计量DFBETA来判定,DFBETA的公式如下:准为| DFBETA | 超过或1即为离群值,以图2-2为例,则为0.417,在23县市中仅有南投县的DFBETA(1.775)满足离群值的定义,至于台中县的DFBETA为-0.133,未能达到离群值的判定标准。
即去除个案i之后对于回归系数β向量的改变量。通常对于离群值的判定标
除了DFBETA之外,尚有许多离群值的统计指标可以提供判定的标准,但是基本上这些指标都仅能提供研究者哪些个案的选入或剔除对于回归分析结果会有较大的影响,但不能决定到底本质上这些具有较大影响力的个案是否为“异例”应该要剔除,还是其存在本来就是研究对象的一部分。关于对于离群值是否应该自样本分析中剔除,都必须依赖对于个案的调查才能下实际判断,并没有统一的法则。
(二)多元共线性的问题
从数学上来说,回归分析本质是针对各个自变项的独自变异来探求其与依变项的共变关系,所以回归系数的估计值,特别在前乘项(X′X)-1的部分,就是针对自变项和依变项所有的共变关系X′Y来剔除掉,因为各个xi之间共变所同时产生X′Y的部分。多元共线性的问题就出在,当有一个自变项xi与其他自变项呈现高度的线性相关时,那么基于此xi的独自变异所求得的回归系数βi,就会有高度不稳定的问题发生,甚至是在完全线性相依的情形下,因为X′X为奇异矩阵(即行向量或列向量不为全秩),因此无法进行反矩阵的运算(X′X)-1,而导致无法求出回归系数的解。
针对多元共线性的问题,最佳的解决方式就是增加分析样本的个案数,借由自变项矩阵的变异量增加,来加大有问题自变项的独自变异,使其参数推估的基础不是来自少数的资讯。如果在样本数加大之后,多元共线性的问题仍然没有得到解决,那么问题可能就来自于自变项之间的概念在本质上就有高度线性相依的关系,因此与其说它们为个别独立的自变项,倒不如将其视为测量同一概念的类似指标,而仅择取其中之一,或者利用多变量方法(比方说因素分析)形成一个综合指标变数,再纳入回归模型的分析中,这样的做法与下节所介绍的“主成分回归分析法”在概念上是相通的,都是处理多元共线性的可能做法。
通常判定一个回归模型是否有多元共线性的统计指标是共变数膨胀因子(variance inflation factor, VIF),其定义为:
此处为将自变项xi当做依变项而可被其他自变项解释的解释变异,其共线性程度的测量。如果当Ri2→1,则,代表多元共线性的问题相当严重。一般说来,当,或者Ri>0.8,代表多元共线性的程度很高,而当,许多学者建议应该要将此变量剔除在回归模型之外。
至于究竟应该采取增加样本数、剔除特定自变项还是采取其他进阶方法来解决多元共线性的问题,其实各有不同的考量,请参考延伸阅读5。然而基本上如果研究者有能力可以取得适合的新样本,或者研究设计允许新样本的增加,那么增加样本数的解决之道应优先使用,除非在理论上这两个概念具有高度重叠性,否则共线性的问题很可能纯粹是经验问题,而非模型设定的问题。然而如果在增加新样本此法不可行的条件下,那么剔除共线性高的自变项,或者重新整理共线性高的自变项成单一综合指标,都是可以考虑采取的选项。
(三)模型选定的问题
在进行回归分析的时候,研究者究竟应该设定多少数目和哪些特定的自变项,就是模型选定的问题。一般来说,在简单线性回归的分析中,针对“遗漏相关自变项”和“选入不相关自变项”这两项错误,已有严格的数学证明说明前者的风险是会造成回归系数估计值的偏误,即违反估计的“不偏性”;而后者的风险是让回归系数估计值的变异量增大,则会降低估计的“有效性”(陈超尘,1992: 281~306)。换句话说,以参数估计的观点来看模型选定的问题,多数学者主张不偏性的价值高于有效性,因此建议如果研究者在面对模型选定问题时,可以将所有相关自变项放入模型进行估计,然后逐次将回归系数不显著的自变项剔除,来完成模型的选定工作。
这样的做法,如果纯粹是将回归分析当做预测工具来使用,问题并不大,而此法等同于去除那些不具解释能力而又会降低推论效率的自变项,以达到去芜存菁的目的。不过如此一来,回归分析就全然变成资料驱使(data-driven)的数字游戏,因为所有选入模型的自变项都全然基于其在特定样本的解释力,而非理论上的说服力,因此在多数社会科学中,这种方法很少被接受。
换言之,极大化模型的解释力并非多数社会科学的分析目的,而将模型选定的问题视为对应于理论根据的实验设定,然后将回归分析的操作,当作进行“控制的比较法”之实验程序,来验证原先选入自变项所意涵的理论假设是否得到经验上的支持。按此观点,选入模型的自变项并不需要极大化依变项解释变异,其回归系数也不一定要具有显著性,而是在理论层次上这些自变项是否有推论的需要而需要带入模型中。至于所有未被选入但与依变项相关的因素,其综合的作用皆已由常数项的推估值所反映出来,这如同进行自然科学实验时,科学也仅能按照其已知的相关因素来进行实验室控制一般。
上面所谈的两种策略,在现实上研究者往往同时采用,因为一个缺乏理论依据但却有很高的解释变异的模型,不但难以说服读者其论理依据,同时也很难通过不同样本的检定,而有过度适配(overfitting)的问题,即其结果高度依赖特定的抽样样本。然而一个全然否定其理论假设的模型,即便论理依据十分充足,但缺乏经验上的统计证据支持,将使得整体的研究贡献大打折扣,失去发表的价值。因此研究者通常不会采取极端的立场,而是抱持着试误(trial and error),找寻具有解释力的自变项,并且试图理则化其选入模型的原因,最后强调这些变项的选入对于推进既有理论发现的必要性。
倘若是针对非线性模型,那么模型选定的问题就远远复杂得多,因为不管是“遗漏相关自变项”还是“选入不相关自变项”的错误,都会造成参数估计的偏误,因而在判断哪些自变项应该加入模型分析上,就很难有所定论。关于非线性模型选定的问题,请参考Weiss(1995)。
(四)非线性关系的问题
在简单线性回归分析中,由于我们已经预设了每个选入的自变项都与依变项呈现线性的关系,因此参数估计的结果都是基于这样的前提下来进行。然而许多时候,我们会发现事实上有某些自变项与依变项之间的关系如果用非线性关系来描述,不但可以增强模型的解释力,甚至在理论上的说服力会更强,而这正是碰到非线性关系的问题。
非线性关系有许多种类,最常见的是例子是“二次曲线”或“交叉项”的关系。比方说在政治参与的研究中学者发现,从年满法定年龄具有投票权开始一直到死亡为止,年龄大小与实际参与投票的机率是呈一个倒U形的二次曲线关系,主因是当刚满法定投票年龄时,一般年轻人对于政治的参与尚属学习阶段,对于谁主政也还没有太大的利害关系,加上正处求学期有许多的其他活动参与,因此一般的投票率会比处于中壮年人来得低。至于老年人的政治参与降低,一方面是体力的限制和行动的不便,再来是逐渐接近死亡因而对现实政治的期望较低,因此投票率也会较中壮年人低。而遇到类似像这种“二次曲线”的回归假设,常见的做法是除了设定原来的线性关系之外,同时也增加一个原自变项的二次项当做新的自变项,如此一来
当(β1,β2)为(+, -)的结果时,就验证了年龄与政治参与的倒U形关系,因为当年龄一开始增大时,β1Age的效果会强过β2Age2,所以总和关系为正向,但到一定程度之后,年龄所带有的二次项就会快速将政治参与的几率拉低,因而年纪和政治参与的关系转为负向。
同样的道理也出现在某些需要设定交叉项的回归模型中。比方说在宗教与政治的研究中,许多学者发现在伊斯兰国家中,当社会经济情势较佳的时候,宗教虔诚度高的民众对于政府的支持度是较高的,但是当社会经济情势变得很糟的时候,宗教虔诚度高的民众对于政府的支持度反而变得较低(黄旻华,2006b)。若依此论点来设定回归模型,就是一个典型需要设定交叉项的例子,模型设定如下:
当(β2,β3)为(+, -),就验证了宗教虔诚度(religiosity)与社会经济情势(SES)与支持政府(Support)的交互关系。因为当社会经济情势变糟时β3<0,便抵消了原先宗教虔诚度与支持政府的正向关系,甚至将总和关系变成负向的,如此一来,宗教虔诚度与支持政府的确切关系都必须端视于社会经济情势的状态,因而说明了这两个自变项的交叉关系是如何左右了依变项的变化。
以上所述的非线性关系,单指依变项和特定自变项具有的二元非线性关系,不是指涉非线性的回归模型。事实上在线性回归模型中加入自变项的平方项或交乘项,并没有改变回归模型中线性关系的本质,唯在诠释回归结果时,可以呈现出相关变项间的非线性关系。