![社会及行为科学研究法(3?资料分析)](https://wfqqreader-1252317822.image.myqcloud.com/cover/924/23667924/b_23667924.jpg)
六 次序类别资料的回归模型
到目前为止所讨论到的模型,无论是采两分类或多分类的类别资料,都是建构在选项之间无先后、高低等顺序的形式之上。当类别变项中出现高低的排列次序时,此时的资料类型具有所谓的次序尺度,具这种尺度特性的类别变项则称之为次序变项,本节便是探讨当依变项是次序变项时,所该采取的回归分析方法。
次序尺度的资料在社会科学领域日益普遍,这与愈来愈多的研究采用调查资料来做分析息息相关。例如,问卷设计常提出一段叙述来询问受访者的态度与意见,并提供有顺序性的李克特量表,像是“非常同意”“同意”、“既不同意亦不反对”“不同意”“非常不同意”等五类让受访者填答,这便是一种典型的次序变项。面对这类型资料,我们可由高至低或由低至高,依序编码选项成0、1、2、3、4来加以估算。对于这类型次序变项的理解,一般咸认是一个或多个连续变项定位成一个特定次序变项值的单一性转换;简单来说,受访者对于提问的实际见解是潜在不可测的,同时更是一种对该问题同意程度的连续变量,透过次序变项的设计将之转化成数个程度有别的选项。
正由于次序变项的概念与潜在的连续变项密不可分,早期许多研究认为即使依变项具次序尺度,仍旧可采连续或等距变量使用的线性回归来做分析。不过使用这种方法,是假设该次序变项相邻的两个类别都是等距的,也就是上述“非常同意”到“同意”的距离,与“同意”到“既不同意亦不反对”的距离相同,并以此类推。此一假定不仅相当严苛也不易认定,Winship与Mare(1984)便从理论及实证分析,整理出线性回归应用在次序依变项上的偏误结果。
目前惯用于分析次序变项的统计模型主要有两种,一个是有序机率单元模型(OP),另一个是有序胜算对数模型(OL),由于两者的相关性很高,Long(1997)统称两者为次序回归模型,本节便是介绍这种回归模型的内涵与架构。
(一)次序资料的潜在变项模式
次序回归模型多是以潜在变量的分析形式加以理解,这从最早Aitchison与Silvey(1957)提出相关模型开始,便是广为使用的分析架构。假设y∗是不可测的潜在连续变项,范围从 -∞ 到 ∞,而确实可观察到的次序变项y与y∗间的关系是:
![](https://epubservercos.yuewen.com/C22FA2/12421582404562106/epubprivate/OEBPS/Images/figure_0132_0001.jpg?sign=1738917062-ImyZbppob5FyfxE8VoPnD3vq1Jyga16e-0-ec4466adeb1b3a0edd391c7d6a51756c)
其中μ称为临界值或分界点,由于这些可观察到已分组的变项是连结潜在连续变项跟次序变项间的关联性,因此一些统计学家也称这种次序回归模型为分组连续模型(grouped continuous model)。值得注意的是,当次序选项J=1时,临界值仅有一个μ0,代表可将潜在变量纳为二分类,此时的推论结果与第二节两分类资料的回归模型完全一致。
由于临界值都是未知参数,需借由潜在变项y∗回归结构的系数估算而来,所以下一步骤是提出y∗与自变项呈现的回归结构模式;由于y∗为一个假设性的连续型变量,两者间会呈现一般线性关系如下:
yi∗=xi′β+εi
与前面的模型一样,x是自变项的向量,β是回归系数的向量;为了估算y∗的回归式,两种最常见于次序变项回归误差项的分配假定,一是常态分配,另一是对数分配,前者估算方式便称之为OP模型,后者则是所谓的OL模型。
与一般类别资料的分析一样,次序资料的回归模型也着重在各类别对应自变量所产生的机率,一旦上述误差的形式确定后,便可据此计算不同观察值的机率。由于两种模型概念与计算过程相当类似,本节接着以OP模型为例,显示各个次序结果的机率:
![](https://epubservercos.yuewen.com/C22FA2/12421582404562106/epubprivate/OEBPS/Images/figure_0133_0001.jpg?sign=1738917062-mW6d5KfqV3NCOqqlz9pJ9hYoyagD1EXZ-0-26218b20bd927d1f0950bca1ad707ee6)
依此类推,Pr(yi=j| xi)=Ф(μj-x′iβ)-Ф(μj-1-xi′β)
最高类别J时,Pr(yi=J| xi)=1-Ф(μJ-1-xi′β)
各次序选项的机率算出后,接着便可用最大概似法对μ及β进行估算,其求取最大化的对数概似函数与一般名目类别资料模型一样,可以下列形式表示:
![](https://epubservercos.yuewen.com/C22FA2/12421582404562106/epubprivate/OEBPS/Images/figure_0133_0002.jpg?sign=1738917062-zI3FG4OcyjYWppsF6SyWKuCyZoitNOSt-0-1b5aa6872d581f3c6da9d0b8c4d68c3c)
其中dij是标示变项,当yi=j时为1,其他情况为0。
(二)参数的辨识与诠释问题
在实际使用这两种次序回归模型之前,需特别注意的一点是,两种模型在估算选项机率时会面临的辨识限制。之所以会产生这种模型参数无法辨认的问题,就在于临界值μ与系数β都是用来定位观察到的选项yi对应于潜在变项的位置,是以没有一个特殊的参数组合可以将模型的概似函数最大化。简单来说,以潜在变项归纳出的回归模型若没有先对一些参数进行条件限制,以最大概似法对
及
进行演算将无法得到特定的结果。
为了处理此一先天的限制并能顺利将概似函数最大化,次序变项回归模型最常使用的限制式,是假设一个临界值为固定常数。一般教科书在介绍相关模型或是统计软件的内建程序都是采此方式,而且除非另行说明,多半直接内定第一个临界值,也就是前述公式内的μ0为0。准此,只需将上述的前两个选项机率稍作调整,其余公式均不变动;以限制第一个临界值为0的OP模型为例,选项机率的公式可调整如下:
![](https://epubservercos.yuewen.com/C22FA2/12421582404562106/epubprivate/OEBPS/Images/figure_0134_0001.jpg?sign=1738917062-6Hq0qR9BvYpVYimJjBSIwsFt74TcHdkC-0-9d6b4ea79047ea0c9ae065f40d0bb727)
除了定位外,诠释次序回归模型的系数时也需特别留意。前述名目变项的模型系数虽不能呈现自变项与选项机率间的边际效果,但至少透过统计检定可以确定两者间具有正向或负向关系;然而在次序回归模型的分析,系数正负符号并不一定可以确知自变项的影响方向。继续以OP模型的式(3-16)为例,从顺序最低跟最高的两选项来看,选项机率对某变量的偏微分结果分别是:
![](https://epubservercos.yuewen.com/C22FA2/12421582404562106/epubprivate/OEBPS/Images/figure_0134_0002.jpg?sign=1738917062-iIRQZLcZ34QuVzk1LWZKqCkuRUzWhZZi-0-e24d20389b474feab4cc1a237be36f02)
由于机率密度函数ϕ(.)都是正数,当βk为正向时,选择最低选项的机率Pr(yi=0|xi)会降低,同时最高选项机率Pr(yi=J|xi)则产生与βk同样的正向作用。不过除了这两种选项外,位于当中的其他顺序选项则会有边际效果不确定的状况,从选项机率的偏微分的结果来看:
![](https://epubservercos.yuewen.com/C22FA2/12421582404562106/epubprivate/OEBPS/Images/figure_0134_0003.jpg?sign=1738917062-CcRKFR97s86UGhlQYXsd4RSVmVCtu92E-0-8a82c6b14d9db8242b4eb2f53cf2c7a5)
由于此时偏微分的改变取决于两个机率密度函数的差,即ϕ(μj-1-xi′β)-ϕ(μj-xi′β)的结果,所以即使βk为正向但边际效果仍可能是负值。简单来说,βk为正数时仅可确定减少最低选项跟增加最高选项的机率,却无法预估对中间选项机率的影响。由于此时模型的边际效果会由所有变量的值来共同决定,一般常见以变量的平均值来计算偏微分结果或是直接估算出选项预期机率,以图表方式呈现预期机率相对于不同自变项的变动。
(三)小结
OP与OL这两个模型的原始架构,分别由生物统计学家Aitchison与Silvey(1957)与Snell(1964)率先提出,不过不像OP模型惯用潜在变量的模式来推演,OL模型除了可采上述潜在变项的途径外,也可直接以累积机率的对数比来做分析,此一推算程序可参考McCullagh(1980)等。透过累积机率的对数比虽与本节的结果相同,但需注意此时学者习惯称之为比例差异模型或累积对数模型。
最后要强调的是,两种次序回归模型估算各个次序类别的机率,都可视为以两个临界值累积机率函数的差,并据此以最大概似法对参数进行估算;也由于常态分配与对数分配的分布状况相当类似,两种方式算出的系数虽无法直接比较,但累积机率的值会有相当类似的结果。至于实务上究竟应选用哪一种模型的时机,端看研究者的方便,除非有的研究资料特别强调误差项的分配,否则两者并无优劣之分。