六 其他回归模型
(一)变异数分析
当我们的资料来自许多不同群组时,变异数分析在找出资料的变异究竟是来自群组之间的差异,还是来自于各个群组内部的差异。这里所谓群组的概念,可以由离散自变项来表示,因而变异数分析在形式上可转换成回归分析,称为“一般线性模式”。当回归模型中仅有一个离散自变项,则称为“单因子变异数分析”,若有两个离散自变项以上,称为“多因子变异数分析”,而如果模型中除了离散自变项外还有连续自变项,则称为共变数分析(ANCOVA),倘若依变项不止一个的话,则称为多变量变异数分析(MANOVA)。
由于变异数分析在统计学教科书中都另有专章讨论,且基于篇幅的限制,在此仅介绍单因子变异数分析及共变数分析,至于其他不同的变异数分析模型,请参考Christensen(1998)。
单因子变异数分析是所有变异数分析中最简单的形式,除了依变项之外,仅有一个类别自变项在回归模型中,以符号来表示其模型为:
其中yij是在j群组中的i成员的依变项值,μj表群组平均数,eij是j群组中的i成员与j群组平均值的离差,γ是样本的总平均数,uj是群组平均数与总平均数的离差。这里的μj可以用βjxj来表示,xj为群组的类别变量,在设定模型时,可预设一个组别的平均数为β0,然后将βj视为组别j与此预设组别的平均数之差,因此组别j的平均数为(β0+βj),比方说,有一个带有三个类别(A, B, C)的自变项,设其A组为预设常数项,B和C组分别由x1和x2来表示,则回归模型为:
如果各个资料的观察点不止一个,比方说在不同时间或实验处理(treatment)下,就称为重复测量变异数分析(repeated measure ANOVA),模型可设定为:
与式(2-27)不同的,式(2-28)中多了下标k,代表不同时间(实验处理)的重复测量点,比方说,yijk可代表工厂工人(以下标i表示)分成不同组别(以下标j表示),在“低度噪声”“中度噪声”“高度噪声”的环境下(以下标k表示)的生产力,所以在此各个符号的意义可以理解为:μjk为j组工人在噪声程度k下的生产力水准;eijk为隶属于j组的工人i在噪声程度k下的生产力水准与μjk的差距;γk为所有工人不分组别在噪声程度k下的生产力水准;ujk为j组工人在噪声程度k下的生产力水准与γk的差距;π为所有工人不分组别不分在何种噪声度程度下的生产力水准;δk为在噪声程度k下的生产力水准与π的差距。
在参数估计上,单因子变异数分析与一般回归模型一样,可用最小平方法将回归系数估计出来后,算出“总变异量”“回归变异量”和“误差变异量”。其中“回归变异量”由于纯粹是群组平均数差异所构成的变异,因此在除以其自由度之后,称为“组间平均变异”。而“误差变异量”由于纯粹是每个组别成员与其群组平均数差异所形成的变异,因此在除以其自由度之后,称为“组内平均变异”,将组间平均变异除以组内平均变异,就得到F分配的统计量,如果F统计量显著大于1,则显示组间的变异的确大于组内,或者是组间的平均数有相当显著的差异,故分组是有必要的,如果F统计量并没有显著大于1,代表组间变异并没有显著大于组内变异,组间的平均数没有显著不同,因此没有分组的必要。
承式(2-28),若以数学符号表示,“时间/实验处理”变异量SSR为V(δk), “组别”变异量SSG为V(ujk), “组内”变异量为V(eijk);“时间/实验处理”变异量的自由度为时间点数减1(即k-1), “组别”变异量的自由度为组别数减1(即j-1), “组内”变异量的自由度为时间点数减1和组别数减1的乘积,即(j-1)(k-1); “时间/实验处理”变异量的F统计量等于:
“组别”变异量的F统计量等于:
至于,平均数检定的显著性则需要用F检定来进行。单因子变异数分析中所需的统计数字如表2-2所示。
表2-2 群组数为j重复测量时间为k的单因子变异数分析
关于共变数分析的实例,详见参考方块2-2。
参考方块 2-2:不平衡资料(unbalanced data)的共变数分析实例
在进行变异数分析时,若实验的各组样本数相同则称为“平衡资料”;倘若资料有下面三种特性则称为“不平衡资料”。
1.实验各组的样本数并不相同(unequal sample size)。
2.有某些实验分组没有资料(missing cells)。
3.某些受试者的实验资料因故而遗失了(missing responses)。
针对不平衡资料,如果使用一般变异数分析的计算方式,最大问题在于要如何界定总平均数和各组效果平均数(effect mean)的计算基准。不同的计算方式,都可能造成总变异、组内变异和组间变异量上计算的差异,而对分析结果有显著的影响。
生物学者Ruth Shaw与Thomas Mitchell-Olds(1993)对于上述问题进行了深入的探讨,归结出三大类的处理方法:
1.将多余资料随机删除而达到平衡的条件。
2.使用不同的估计方法对漏失的资料进行填补来达到平衡。
3.采用进阶处理漏失资料的估计方法,如EM(expectation-maximization)演算法,同时完成资料填补和参数估计的工作。
第一种方法有很大的缺陷,因其舍弃许多宝贵的资料不用;而第二种方法也有相当的争议,因为不同的填补方法都可能产生不同的分析结果;至于第三种方法,在学理上的优点相当明显,需要透过“一般线性模式”来进行估计,这也是许多学者主张将变异数分析统整在回归模式中的主要原因。
下面的例子来自Kevin Kim与Neil Timm(2007: 464-469),说明了如何使用“一般线性模式”来对于不平衡资料进行共变数分析。假定我们有一组资料如表2-3所示。
表2-3 单因子重复测量的实验资料
资料来源:Kim & Timm(2007: 464)。
若因故遗失了部分资料,如表中星号所示,则我们可以将上述单因子重复测量共变量分析,转成一般线性模型中的混合模式(mixed model)来进行分析,以数学式表示之。
接下来便可透过EM算法来针对遗失资料进行模型估计,利用SAS中的PROC MIXED指令,可得到下面的结果,如表2-4所示。很明显的,虽然显著性检定的结果没有改变,但是F值的估计在两样本间的差异相当明显,基于EM算法在统计方法上对于处理遗漏值的优点,故建议采一般线性模式来克服传统变异数分析在遗漏值处理上的不足。
表2-4 单因子重复测量共变数分析
资料来源:Kim & Timm(2007: 468-469)。
上面所述的变异数分析,可以应用在多个类别自变项的状况下,但是如果当其中带有连续自变项时,由于连续自变项并不具备组别的意义,不是变异数分析分析的主体,因此必须对于上式进行修正。比方说,倘若式(2-27)中加进个一连续自变项x3,则回归模型变为:
此时除了β3x3之外,上式的各参数的意义都没有改变,而x3所代表的是某连续自变项的数值,β3是一单位x3的变化会造成依变项改变的大小,在这种共变数分析中,通常像x3这样的连续自变项都是作为检证群组平均数时的控制变项。
以数学式来表示:
这里亦可将连续自变项的回归参数αj设为随机的,则:
此处多数的符号同式(2-27)之说明,xij为每个成员的连续自变项值,为连续自变项的总平均值。在式(2-30)中,连续自变项的回归参数α设为固定,而式(2-31)中,则将连续自变项的回归参数αj设为随机,令其为群组的类别变量来解释。共变数分析的基本概念与单因子变异数相同,然而其依变项的变异必须先减去连续自变项的解释变异之后,才能用来进行变异数分析。
此外,在多因子变异数分析中,可以进一步将组间变异数依其来源,分解成纯粹由单个因子(时间、组别、实验处理)产生的变异数,以及不同因子交互作用所产生的变异数。以二因子的模型为例,总变异数等于组内变异数、第一因子变异数、第二因子变异数和两因子交互作用变异数的总和结果。然后对不同来源的变异数分别进行假设检定,来判定两因子各自或其交互作用能否显著地解释依变项的变异。
(二)类神经网络分析
神经网络分析(neural networks)原本指涉的是针对生物神经元(biological neurons)网络的分析,在神经科学中,神经网络分析旨在探求大脑神经元、细胞、触点之间的传导系统如何形成生物的意识,进而解释其认知和行为。而类神经网络分析(artificial neural networks)则是指涉利用数学模型来模拟神经网络系统的一种研究方法,此法除了应用在生物神经元的网络分析外,已经广为应用在工程科学和社会科学的领域中。
类神经网络分析的基本构成单元是神经元,一个神经元的结构是由输入节点(input nodes)、隐藏单元(hidden unit)、输出节点(output node)三部分组成。每一个输出神经元的节点,所接收的讯号都是来自所有“输入节点”传递的分量讯号,经过“隐藏单元”的某种传递函数转换,最后形成输出的讯号,如式(2-32)和图2-3所示:
图2-3 神经元的基本结构
“输入节点”的讯号分量可以为变量或是定值,如果为变量,则代表每次的神经传导中,这些输入节点所传递的讯号分量都会依某种加权数(weight)而变动;若为定量,则代表每次传导时都有相同的分量传递,此定量一般称为偏置量(bias),而输出偏置量的输入节点则另外称为偏置神经节点(bias neuron)。至于“隐藏单元”对于输入讯息的处理,可以由非线性或线性函数描述之,而偏置量亦在函数转换前、后或者同时设定,其例子如式(2-33)和式(2-34)所示:
式(2-33)所描述的是线性的传导模型,式(2-34)所描述的是非线性的传导模型,转换函数为tanh,在二式中θ(1)和θ(2)分别为函数转换前后的偏置量。当“隐藏节点”多于一个时,二式可推广成:
应用在回归分析上,类神经网络分析可以看做是线性或非线性回归分析的一种变形:输出节点所收到的讯号y为依变项,各输入节点所传递出的讯号分量为自变项xi,分量的权数为回归系数βi,而偏置量则为常数项β0。只要给定目标式,就可以依已观测到的依变项和自变项数值,推估出回归系数βi和常数项β0,完成类神经网络的分析。一般常用的目标式为最小误差平方函数,其推估原理同先前所提的“最小平方法”。
与简单线性回归不同,类神经网络分析通常涵盖多个隐藏单元和输入输出节点,所以其方程组较为复杂,且不同的转换函数有其适用的节点范围。一般而言,在应用类神经网络的分析时,研究者会将资料分成两部分,一部分运用在找出各个输入节点的分量权数和偏置量,称为训练资料(training dataset),另一部分用来验证由训练资料得到的参数推估结果,称为验证资料(test dataset)。由于类神经网络分析的本质为“曲线适配”问题,在评估其适合度时,要注意是否有“过度适配”和“适配不足”的问题,前者所指涉的是转换函数过度适配于训练资料,因而在验证资料中其模型适合度不佳,而后者指涉的是在适配训练资料时,其所选择的转换函数过于简单而产生适配不足的结果。
与回归分析相比,由于“类神经网络分析”设定的网络关系相当复杂,因此适合于现象本质具有高度不确定性的研究中,其主要的功能在于预测,比方说时间序列的分析,像股市的指数波动、国际事件的发生等。此外,亦可广泛应用在区辨分析、群集分析、因素分析以及其他相关的统计课题上。有关类神经网络在社会科学上的应用,请参阅Garson(1998),至于实例说明请详见参考方块2-3。
(三)典型回归分析
在回归分析中,当依变项具有多个变量,但彼此间具有很高的相关性,则可应用典型回归分析(canonical regression analysis)来解决依变项高度相依所造成的推估问题。以数学关系来表示,最基本的典型回归分析为:
与回归分析不同的是,“典型回归分析”要解释的不是单一依变项的变异量,而是一组高度相关依变项之共变数,所以可视为测量模型中的潜藏变项,不过由于上式只取一组线性组合,且在模型推估时并不纳入共变异矩阵的分解和特征值、特征向量的分析,所以此法与结合测量模型和回归模型的“结构方程式”分析有显著的差异,比较接近于线性回归分析。
参考方块 2-3:类神经网络的分析实例
管理学者Salchenberger等(1992)三人运用类神经网络分析,来研究储蓄机构倒闭的原因,并与传统常见的胜算对数回归法进行比较其预测的效力。使用的资料报括3479家“储蓄与贷款机构”(S&Ls)于1986年1月至1987年12月的财务资料,来源出自于“联邦住宅贷款银行委员会”。作者根据先前的研究,提出了五个自变项:资本充足、资产质量、管理效能、获利以及资产流动性,是解释储蓄机构财务健全程度的主要因素。在模型假设上,将类神经网络的输入节点设定为此五个自变项,中间阶层仅有一阶,包括三个节点,而唯一的输出节点则为储蓄机构倒闭的几率。
在模型估计上,作者将资料分成三组。第一组资料为训练资料,包括了100家倒闭和未倒闭的成对样本,配对和选取的标准是根据地域位置、总资产价值。第二组资料为成对的验证资料,包括了58家成对机构在倒闭前六个月的资料、47家成对机构在倒闭前十二个月的资料以及24家成对机构在倒闭前十八个月的资料。第三组资料为较接近现实状况的稀释样本,包括了75家倒闭和329家未倒闭的机构。
分析结果显示,在训练样本中,除了资产流动性外,其他四项自变项对于储蓄机构倒闭的几率都有显著的解释力。而针对成对样本的验证,结果显示,不管在全部样本、倒闭样本,还是未倒闭样本中,类神经网络模型的预测正确率,都比传统胜算比分析来得高,并且此结果不受依变项临界值的设定影响(即预测结果为失败的几率水准),显示了类神经网络模型在预测上的优越性。
稀释样本的分析结果如表2-5所示,结果显示,若将临界值设为0.5,类神经网络模型在全部样本和倒闭样本的预测正确率为96.8%及85.3%,皆显著地高于逻辑分析的94.3%(p=0.1)和72.0%(p=0.05)。如果将临界值设为0.2,则类神经网络模型在全部样本和未倒闭样本也以95.8%和96.9%的预测正确率,高于逻辑分析的92.2%和93.6%,同样再次验证了先前的结果。
表2-5 类神经网络与逻辑分析对于储蓄机构倒闭的预测比较(稀释样本)
注:p值为显著水准。
资料来源:Salchenberger et al.(1992: 914)。
在模型设定上,如果亦对自变项进行线性组合而形成一综合变量,则自变项与依变项间的相关系数便称为典型相关系数,而依变项和自变项中的线性组合权数,则说明了单项变量与共变数之间的组合关系。
在参数推估上,典型回归分析可利用最大概似法来求解,其原理同线性回归。此外对于模型结果的诠释,由于实质的被解释项为依变项间的共变数,因此必须找出依变项间的主要共同元素,赋予其意义并进行解释。有关典型回归模型的延伸应用,请参考Estrella(2007),至于实例说明,请详见参考方块2-4。
参考方块 2-4:典型回归分析的分析实例
经济学家Kwabena Gyimah-Brempong与Anthony O. Gyapong(1991)利用典型回归分析,来解释学校资源、学生特质和经社特性对于教育生产函数的解释力。依变项为教育产出,包括高三学生的数学(ACTM)和英语(ACTE)测验成绩,而自变项为三大类变量,其中学校资源包括“学生人均教学支出”“学生人均资本支出”“学生人均辅助教学支出”及“师生比”;学生特质包括“先前数学成绩”和“先前英文成绩”(两者从全校高一测验成绩而来);经社特性则包括“收入”“成人教育程度”“贫穷度”及“犯罪率”。
由于教育的投入和产出要素都是多重的,而且皆无法单独分割来衡量,所以作者采用Cobb-Douglas函数,来定义教育生产过程投入和产出之间的关系,如下式:
其中Y是教育产出、X是学校资源、W是学生特质、Z是经社特性,而μ为随机误差,λ,α,β,γ,θ为待估计的未知参数。如对(A1)取对数,则可得:
其中Y,X,W,Z的下标代表各类变量为多重的。基于(A2),我们可以进一步将等式左边和右边视为教育产出和投入的综合变量,两者皆由产出和投入要素的对数线性组合而成,因此可以进行典型回归分析,来估计出两者的典型相关系数以及线性组合的权数。
此外,作者也针对生产投入的边际效果进行分析,边际效果的定义为:
直观上可解释为一单位生产要素Xj增加可以造成多少单位产出Yi的变化。
资料来自于1986 / 1987学年度,密歇根州175个人口数超过1000人的公立学区,依变项资料来自于“美国大学测验中心”,自变项的部分,学校资源资料来自“密歇根州教育委员会”,学生特质资料来自1985 / 1986学年度,密歇根州教育部的“中等学校学区报告”,经社变项资料分别来自统计局、联邦调查局以及密歇根州商业部。
研究结果如表2-6显示,典型回归分析结果、卡方值和F值都相当显著,否决了所有回归系数皆为零的虚无假设,模型解释力为57%。至于三组自变项的回归系数,学生素质的确与教育产出有显著的正向关系,然而在学校资源上,却发现四个变量皆呈现不显著或者是负向的关系,与一般认为增加学校资源可以增进教育产出的看法相左,在经社特性上,仅有教育程度一项具有显著的正向关系。
表2-6 教育产出的典型回归分析
注:1.典型回归分析系数括号内是t值的绝对值。
2.计算边际效果的基准是各个自变项的平均值。
资料来源:Gyimah-Brempong & Gyapong(1991: 12)。
进一步从教育产出的边际效果来看,每学区中成人教育程度每增加一年,学生ACT数学和英文成绩会增加0.197和0.161分,学生高一数学和英文的平均成绩增加一分,也会提高ACT数学和英文0.074~0.134不等的分数;然而学校在人均辅助教学支出上却呈现每单位会减少0.0038和0.0039分的结果,这个结果推翻增加学校资源可以改善学习成绩的传统看法。
(四)主成分回归分析
在回归分析中,当自变项彼此间具有很高的相关性,也就是具有多元共线性的问题时,则可应用主成分回归分析来解决自变项高度相关所造成的推估问题。
从概念上来说,主成分回归分析试图将高度相关的自变项,透过对于其共变异矩阵的分解和重组,将其转换为彼此正交的新自变项。其中新自变项的组成,可由主成分分析中的特征值和特征矩阵来定义,但自变项组的共变异矩阵维度并没有改变。然而要能解决多元共线性所造成的推估问题,必须要找出多元共线性的来源,针对此,特征值的大小提供了评估的判断的依据:特征值愈小,可解释原自变项的变异愈少,代表多元共线性的程度愈大。基于此,可将对应于最小特征值的新自变项剔除在回归模型之外,此举虽然会造成参数推估的偏误,但因为剔除的新自变项的变异很小,所以对整体模型影响不会太大,并且解决了多元共线性的问题。
以数学式来表示,可将简单线性回归整理成主成分回归模型:
其中
为主成分分析后的依新自变项zi形成的回归模型,相对应于zi的特征值和特征向量为λi和cj=(c1j,c2j, …,cnj)T,而
令zi所对应的特征值λi由i=1, …,n依序递减,则可以依删去zi个数,算出n-1个回归分析式结果:
在模型结果的选取上,可根据三项因素作为评价模型的依据:①回归系数估计的稳定性;②多少资讯量被纳入模型中(即zi的个数); ③模型的解释变异。基本上回归系数的估计愈稳定愈好,被纳入模型的资讯量愈高愈好,模型的解释变异愈大愈好,有关于主成分回归分析的应用,请参见Jolliffe(1986),至于实例说明,请详见参考方块2-5。
参考方块 2-5:主成分回归分析的应用实例
社会学者Abu Jafar Mohammad Sufian(2005)针对发展国家中的总生育率(total fertility rate)进行回归分析,模型中选入9个自变项,分别为“都市化程度”“安全饮用水供给率”“人口密度”“人均每日摄取卡路里量”“15岁以上妇女识字率”“家庭计划实施分数”“婴儿死亡率”“人均能源使用量”以及“人均国民所得”。主要的理论假设是一国现代化的程度愈高,总生育率会随之下降,因此在上述9个自变项中,除了“婴儿死亡率”应该与依变项是正相关外,其余皆应为负相关。
作者使用的资料来自于美国哥伦比亚大学人口与家庭健康中心(Center for Population and Family Health)以及“世界人口资料要览”(World Popula - tion Data Sheet),包括亚洲、非洲和拉丁美洲43个发展中国家。使用简单线性回归分析的结果,发现自变项之间的多元共线性相当高,而为了排除此问题对于参数估计的影响,作者决定采用主成分回归法来进行分析。
结果如表2-7所示,回归系数和模型解释力都在纳入前七个主成分之后达到稳定(0.72左右),因此取前七个或前八个主成分分析结果都是合理的。如果选取所有的主成分,那么其结果等同于原先的简单回归分析,这样就没有解决多元共线性的问题。表中所列出来的数字是标准化回归系数,由于原作者并没有附上显著性检定的结果,因此仅能从标准化回归系数的大小来进行解读。简单来说,家庭计划、都市化、妇女识字率和婴儿死亡率依序是解释总生育率变化最有效的因子,而安全饮水供给率和人均卡路里的正相关与原先的理论预期是相左的。
表2-7 43个发展中国家总生育率的主成分回归分析
注:表中数字为标准化回归系数。
资料来源:Sufian(2005: 228)。