第二章
回归分析
一 前言
回归分析是一种研究变项与变项之间关系的统计方法。一般而言,分析对象为过去已经发生的经验资料,至少包括一个被解释变项和一个解释变项,以及两者之间的数学函数关系。在回归分析中,被解释变项称为依变项,解释变项称为自变项,连结自变项和依变项的数学函数关系则称为模型,其中包括了研究者所设定的回归系数,而推估回归系数的数值是否符合研究者的期待正是回归分析的主要旨趣所在。通常模型无法完美地连结自变项和依变项之间的关系,因此需要设定误差项,来填补经验资料和模型预测值之间的差距。
“回归”一词,在统计史上是一个横跨统计学、人类学、生物学众多学术领域的学者Francis Galton所创。原先回归一词的指涉并不具有当代所称“回归分析”的意义,而是指涉子女在遗传上倾向会将父母的极端特征朝中间方向来显现,简称子裔回归(filial regression)的现象(Galton, 1885:1207)。由于Galton亦为创造相关系数这一统计概念的先驱,而子裔回归所描述的正是父母极端特征和子女在遗传上趋中显现的相关性,之后经过许多统计学者的不断努力,将相关系数的概念进一步发展成回归分析的方法,遂将原先仅具有生物学意义的“回归”一词,沿用至当代来称呼今日所指涉的回归分析。
解释和预测是回归分析的两项主要目的。虽然两者的意义在某种程度上并不能完全分开,但侧重于“解释”的研究者,基本上不会太强调极大化模型的解释力,一味地追求模型可解释变异的大小,而比较重视的是为什么某些解释变项具有解释力,为什么某些不具有解释力,因此评价这些模型的标准多半在于能不能提出合理的理论观点来解释实证结果。至于侧重“预测”的研究者,则关切如何能够找出一个最有解释力(或最简约)的模型,来极小化我们所无法预测的变异。在此目标之下,解释变异就是评价模型好坏的主要标准,因为在使用同一笔资料的前提下,当解释变异愈大,对于依变项的预测会愈准确,因此自变项的挑选是以何者能极大化解释变异,至于解释说法往往是后来才提出的。由此可见,以“解释”为目的之研究,事前的理论建构和讨论是非常重要的,并且自变项的选用都必须有明确的假设依据;而以“预测”为目的之研究,焦点会放在最佳模型设定的搜寻过程及事后的解释。
为了强调两种不同研究的目的,上面的讨论放大了两者间的区别,然而这两个目的绝非是互斥的,而是代表评价模型好坏的两种哲学观。因此,不是强调“解释”就不管模型的解释变异,或者强调“预测”就不重视事前的理论建构;而是从“解释”的角度来说,如果影响依变项的变化的因果机制没有办法被清楚的理解,就算这个模型整体的解释力再强,都缺乏理论上的正当性;但从“预测”的角度来说,只要这个模型的解释力是具有“一般性”(同样适用在许多不同母体的样本上)和“一致性”(同样适用在同一母体的不同样本上),都具有实用上的正当性,而理论的部分可以事后再来合理化。不难发现,社会科学家多倾向前者的立场,而自然科学家以及部分的经济学家或管理学家多倾向后者。
回归分析的分类主要可分为“线性回归”和“非线性回归”两大类。在线性回归中,按依变项不同分配的特性,分别对应的回归模型为:常态分配对应于“简单线性回归分析”,伯努力分配(Bernoulli distribution)对应于“二分依变项模型”(包括“逻辑回归分析” “普罗比回归分析”),多项分配对应于“多项名目回归分析”,多项顺序变量机率分配对应于“顺序的逻辑回归分析”,卜瓦松分配对应于“对数线性回归分析”等。
倘若在回归模型的设定中自变项和依变项间呈现非线性的函数关系,不管依变项分配为何,都可称为“非线性回归分析”;然而多数的非线性函数都可以运用相关的数学技巧转换成线性关系,因此经过这种转换而变成线性关系的模型都统称为“广义线性回归模型”。
当依变项的资料结构中带有群组性或时序性时,如果考量群组特性来进行分析,则为空间回归分析,若考量时序性来分析,则称为时间序列回归分析,而这两者在广义上,都代表了资料结构内部有层层叠套的特质,广义上可以用“阶层线性模式”来含括。
一般所称的受限依变项(limited dependent variable),包括依变项受限(censored),即某些依变项的数值可能发生但观测不到;依变项被截断(truncated),即依变项的值域受到限制;依变项仅为可计数(countable)数值,即正整数或0。这三者分别可以对应到托比回归分析(tobit regression analysis)、截断回归分析(truncated regression analysis)或卜瓦松回归分析(poisson regression analysis)。
近年来兴起的分量回归法(quantile regression),其基本概念是将原来回归分析中,基于特定自变项数值所推估出来的依变项条件期望值,从原来的平均数设定改为中位数或者是其他的统计分量。这种方法不同于传统依照最小平方法所发展出来的分析方法,因为模型所采的集中趋势统计量不是平均数,不过此法的理论和应用已经发展得相当完备,有兴趣的读者可参考Koenker(2005)。
最后,当依变项为多项类别分配,但是各个选择类别之间出现的几率并不独立,因此违反了“多项名目回归分析”中不相关选择的独立性(independence from irrelevant alternatives)假设,这时可以采用由Daniel McFadden发展出来的条件式胜算分析(conditional logit analysis),不但将个人对于选择类别的影响因素纳入模型设定,同时亦将不同选择类别彼此间的特质差异纳入模型,应用上可以分析选择类别之间的相依性是如何影响个人对于选择类别的偏好,有兴趣的读者可参考McFadden(1974)。
本章介绍线性回归模型的分析方法,内容涵盖了回归模型的设定,回归系数的估计、假设检定、分析结果的统计诊断以及相关回归课题的讨论,包括变异数分析、类神经网络分析、经典回归分析及主成分回归分析。