二 二分类别的回归模型
依变项具有二分类别反应特性的资料,在社会科学领域的研究中相当普遍。例如,选举时民众参与投票与否、某一社会运动的成功或失败、民众就业与否、消费者是否购买某项产品,甚或国际间的战争发生与否等,均是常见的二分类变项研究案例。此时可观察结果属于二分类质性反应,一般会以0与1来编码这两种类别选项,而这种数据资料可能发生结果的机率分布特性,是属于统计学上的伯努力二项机率分布(Bernoulli probability distribution),而这种数据资料事件发生与否(假设发生的机率=P;没发生的机率=1-P)的机率分布函数为:
n代表事件的加总数目,其中包括事件发生(或称成功)的数目为h,以及事件未发生(或称失败)的数目n-h。由于式(3-1)中之类别依变项发生机率P的分布状态是介于0与1之间(0≤P≤1),因此当我们进行统计估算程序时,自变项与依变项之间的关系,无法如同一般的连续型资料般是具备有线性关系的基础。若此时使用线性机率回归模型(linear probability model, LPM),以最小平方法来进行统计参数值的估算,依变项预测值之值域会介于 -∞ 与 ∞之间,由于该机率估计值可能超出0至1的单位区间,将使得统计模型失去实证应用上的有效估算能力。
除了会形成没有意义的机率预测值外,二分类依变项使用LPM模型的问题还包括:
1.此时模型的残差项呈现二项式分配而非常态分配,虽然这并非最小平方法求出无偏误估计值的先决条件,但却会影响后续参数的假设检定。
2.在伯努力二项机率分布下,平均数是P、变异数是P×(1-P),由于在LPM模型下P是随不同样本状况产生的机率,所以此时变异数不是固定常数,会产生变异数异质性(heteroscedasticity)的问题。
3. LPM模型下由于预测机率与实际值在某些状况下会非常迥异,模型的判定系数R2通常会被低估,无法成为可信赖的模型吻合度测量值。
4.由于LPM模型使用线性函数的形式,每单位自变项变化对依变项预测机率所产生的影响为固定常数,这与一般认知自变项的影响会随预测机率接近0或1时递减显然有异。
由于LPM模型带来的诸多问题,当面对依变项是二分类的类别资料时,通常会改采非线性的途径来求取它与解释变量间的关系,其中最为常见的是胜算对数模型与机率单元模型,以下便介绍这两种回归模型的基本内涵。
(一)胜算对数模型
胜算对数模型(logit)早自1940年代Berkerson(1944)便开始提出,此后受到学界广泛的探索与应用。为解决LPM模型机率预测值会落在0与1以外的问题,胜算对数模型的基本内涵便在于透过机率的转换来移除这项限制,并让这项转换函数成为连续型变量,使之与自变项呈现线性关系。胜算对数模型达成这项目标的步骤有两点,第一,透过机率求取胜算比,假设行为者i决定去做某件事的机率为Pi,胜算比是Pi/1-Pi,由于当机率等于1时胜算比趋近于无限大,借此数值解除了原本机率值的上限(ceiling restriction);第二,将此胜算比采自然对数(logarithms)的形式,如此则可进一步排除原本机率的下限(floor restriction),这时ln(Pi/1-Pi)即称之为logit或log-odds,也就是我们惯称的胜算对数比。
ln(Pi/1-Pi)可说是胜算对数模型用来确保对依变项估计机率值落于0与1区间内的转换方式,同时也是连接不同变量间的链接函数。此时将相关自变项与系数向量(vector)xi′β纳入模型,经与链接函数的结合便可得到胜算对数模型的公式如下:
式(3-2)所代表的,是胜算对数模型的逆链接函数,呈现该模型所估算出的事件发生机率Pi。由此可以得知,即使xi′β趋近于无穷大,Pi都在0与1之间;也就是当xi′β趋近于∞,Pi趋近于1,当xi′β趋近于 -∞,Pi则趋近于0。
式(3-2)若用潜在变数(latent variable)的概念来阐述,所呈现的就是对数分配的累积机率分配函数。这种将离散选择视为一个隐藏、潜在连续变量的类别反应以潜在变量的形式来探讨类别资料回归模型者,Greene(2003)称之为指标函数模型,此时式(3-2)的胜算对数模型可视为:
Pr(yi=1 |xi)=Pr(εi≤xi′β| xi′)=Λ(xi′β)
其中 Λ(.)代表对数分配的累积机率分配函数,这显示胜算对数模型的特性,是透过累积机率将解释变量的实数值转换为机率值,以解决质性依变项在透过线性机率模型进行参数推估时,所产生依变项预测值落于区间外的问题。
在得知选项机率后,接着便是采用最大概似估计法对模型的概似函数(likelihood function)求取极值以校估出各自变项的参数估计值。值得注意的是,由于概似函数的对数会呈现单调递增(monotonically increasing)的形式,在计算上比原始的概似函数方便,一般是取对数概似函数(log likelihood function)来计算。胜算对数模型与下面讨论的机率单元模型一样,概似函数与对数概似函数分别是:
MLE估算原理主要是在已知各变量的条件下,透过二次微分或称牛顿法,找出一组β与σ参数估计值来满足概似函数的极大化。从统计理论来看,透过MLE求取极值过程所推估出来的参数值,具渐进有效性、一致性以及渐进常态分配等统计特性。关于各模型极大化概似函数的推演过程有兴趣的读者,可以参考其他进阶教材的讨论。
(二)机率单元模型
机率单元模型(probit)比胜算对数模型更早出现,两模型在概念上颇为相近,可将两者同样视为采累积机率函数来做设定,主要差异仅在于一个是假设常态分配函数,一个则是采对数分配函数的形态。在机率单元模型中,误差项的平均数与变异数之期望值分别是0跟1,呈现所谓的标准常态分布,机率密度函数与累积机率函数分别为:
其中t是标准常态变量,t~N(0, 1),此时机率单元模型的预期机率,透过累积机率函数可表示如下:
由式(3-3)可反推机率单元模型中,事件发生机率与自变项间的关系,其结果为:
Ф-1(Pi)=xi′β
Ф-1(.)代表累积标准常态机率分配的反函数,也就是统计学上所谓的常态等价离差。在机率单元模型中,主要便是透过常态等价离差作为回归方程式中变项转换的链接函数,这也是机率单元模型除Probit外,另一个英文名称Normit的由来。借由累积标准常态分配函数的转换及反函数的链接,机率单元模型便得以确保对依变项的估计机率值是落于0与1的区间之内,然后再对自变项做线性回归。由此也可看出,不论是胜算对数或机率单元模型都是透过类别反应的链接函数,使得与自变项间可以产生线性函数的关系,所以两者都属广义线性模型(GLM)的一种类型。
由机率单元模型的内涵来看,其实就是将(一)胜算的模型当中胜算对数模型的对数分配函数换成常态分配函数,显见两者非常相似。根据Hanushek与Jackson(1977)对两种模型分配所做的比较,常态分配近似于自由度无限大的t分配,而对数分配则趋近于自由度为7的t分配;换言之,这两种均属于对称型的分配形态极为类似,只是对数分配在末端会稍微平坦一点。至于实际运用时,机率单元模型与胜算对数模型没有孰优孰劣的问题,究竟哪一种模型较适合哪一类型研究也并无定论,研究者可依自己偏好跟使用的统计软件来做判断。
(三)模型的相关统计指标
在熟悉胜算对数模型与机率单元模型的内涵与特性后,研究者在实际使用这些模型时,接着要参酌一些统计指标来判断估算结果的好坏,并据以对模型内各项参数的影响效果作出适当的解读。由于后续所介绍的多分类别回归模型多半立基于本节模型的基本架构,因此在使用这些进阶模型时,这里介绍的相关统计指标也大多适用,后续便不再赘述。
1.模型适合度的检测指标
(1)概似比指标
关于类别依变项回归模型的适合度(goodness of fit)指标相当多,这主要是受线性回归判定系数普及的影响,学界相当致力于在类别资料模型中发展出类似的统计值,对此一般通称为PseudoR2(可译为类似判定系数)。在不同学者发展出的各种PseudoR2中,本节仅介绍McFadden(1973)所提的概似比指标(likelihood ratio index),这是一般较常见的指标,至于其他学者提出的各类指数,可参酌Windmeijer(1995)的整理与比较。
概似比指标与一般回归模型判定系数的概念颇为相近,其优点是可以应用到任何采MLE估算法的统计模型,以了解常数项以外其他解释变数的强弱,其计算方式如下:
其中是依所设定模型估算结果的完整对数概似函数,则是等占有率(equal share)模型,也就是假设模型中所有β系数均为0时的对数概似函数。由于会比来得大,因此据此计算出的概似比指标会介于0与1之间。不过概似比指标与线性模型的判定系数有着同样的问题,也就是当新变量加入时数值会随之增加,所以Ben-Akiva与Lerman(1985)建议如调整判定系数(adjustedR2)的方式一样,以系数参数的数目K对概似比指标进行一些调整。透过下列的调整公式,唯有新增的变数参数让增加超过1,概似比指标才会继续增加,此时的公式调整如下:
在诠释方面,无论是原始的概似比指标或调整后的概似比指标,当指标的值愈接近1时,代表所设定模型的解释能力愈高,也就是研究者所设定的模型架构可以适切地反应经验数据资料;反观,当指标愈接近于0代表模型的解释力愈差,此时模型架构的设定可能有所不足甚或错误,研究者必须回头设法改善。至于实务上指标究竟要多高尚无定见,不过根据McFadden(1973)自己的说法,指数若达0.2到0.4之间算是具有相当不错的解释能力,此时的统计模型已具参考价值。
(2)概似比检定
概似比检定(likelihood ratio test)主要是用来观察设定的统计模型中,所有自变项是否均未具显著影响效果,也就是检定模型中所有斜率系数均为零的虚无假设,与线性回归中的F检定作用相似。概似比统计检定量可表示为:
其中与分别代表受限跟非受限的对数概似函数;非受限意指设定模型估算结果的完整函数,也就是概似比指标中的;受限概似函数则是依虚无假设而定,当要检测所有斜率系数是否同时不具作用时,便等同于上述的。
进一步针对概似比统计量进行检定,须知其分布趋近于卡方(χ2)分配,自由度则为受限的参数数目。当检定统计量大于显著水准α%的卡方临界值时,便代表检测值是落于拒绝域内,此时我们便有(1-α)%的信心拒斥虚无假设,说明所估算的模型是较虚无假说的比较模式为佳;反观若检测值落在信赖区间内,代表研究者所设定的模型不能拒绝虚无假设的陈述,此时整体模型的架构会遭到质疑。
(3)成功预测率
成功预测率(overall percent correct)是另外一种可以判断类别资料模型适合度的指标,又可称之为countR2(可译为计数判定系数),简单来说就是计算观察值跟统计预测值一致的比例,是一种可以观察模型成功预测样本发生事件的指标。首先,先运用所谓的最大机率法则(maximum probability rule),将每个样本的数值代入回归模型中,如果得到大于或等于0.5的发生机率,那么便代表模型预期该事件发生,反之小于0.5则没发生。根据此一法则,在二分类别依变量模型中,便可推算出整体样本被统计模型成功预测的数目,如表3-2所示。
表3-2 二分类别依变量模型预测结果表
表中的n11与n22代表模型成功预期的样本数,n21与n12则是模型错误预期的样本数,所以成功预测率的公式为:
2.模型个别系数的检定
前述的指标主要是针对整个模型所做的检定,在模型通过检测后,接下来便是分别对各个系数做假设检定,以观察各自变项是否具显著影响效果。如前所述,MLE的参数值具有渐进常态分配的统计特性,随着样本数的增加,MLE的统计分配会愈趋近于常态分配;也因此,使用MLE的类别资料模型系数所采的检定方式,类似线性回归模型中的t检定,可称为准t检定(quasittest)或渐进t检定(asymptoticttest)方法。当要检定系数为0的无效假设时,统计检定量如下:
除了t检定外,另一个常用的检定系数方式是沃尔德检定(Wald test),在做单一系数检定时,沃尔德统计检测量就是t统计检定量的平方,分布是呈现卡方分配。以前面检定是否为0为例,沃尔德统计检定量为:
除了可以检定单一系数外,沃尔德检定相对于t检定的优势,是它可以应用在较复杂研究假设之上。例如,若要检测两个(或数个)自变项的作用时,假设这两个(或数个)回归系数同时为0,此时沃尔德统计检定量为:
另外一个常见的研究假设是两个(或数个)自变项的影响力相当,也就是想知道两个系数值是否相等时,此时的沃尔德统计检定量如下:
3.模型系数的意义
在对模型与系数进行过检定后,接着便是对系数值β进行诠释。但不论是胜算对数或是机率单元模型,类别反应的事件机率Pi与自变项间都是呈现非线性的关系,所以模型系数的诠释方式也与线性回归不同。简单来说,我们不能如同线性回归时般,说在其他条件不变的情况下,自变项增加(或减少)一单位,事件机率增加(或减少)β单位。由于在胜算对数与机率单位模型中,β分别代表的是胜算对数 [即ln(Pi/1-Pi)] 与常态等价离差 [即 Ф-1(Pi)] 的变动,因此两模型的β系数所代表的影响值在诠释上的意义都不大;若要观察自变项单位变动的边际效果,两个模型都需要改由事件机率对自变项做偏微分来取得。
如前所述,胜算对数跟机率单元模型的机率其实就是累积机率函数,其形式可以用一般化表示为:
其中F(.)在胜算对数模型中代表对数分配的累积机率函数 Λ(.),在机率单元模型则是常态分配的累积机率函数 Ф(.);若想知道事件预期机率相对于特定自变项xs的改变,便可将式(3-4)与之偏微分,其结果为:
其中f(.)代表机率密度函数,带入胜算对数模型可得:
式(3-5)换成机率单元模型则是:
从式(3-6)与式(3-7)的结果可以观察到事件机率偏微分后的两项特点,其一,特定xs对机率所造成的边际效果除了与本身系数βs有关外,由于牵涉机率密度函数,其他自变项的值与系数也都会受影响,所以自变项对机率产生的作用无法如线性回归般一目了然;其次,也是更重要的,胜算对数跟机率单元模型借此修正了LPM模型最为人诟病的问题,也就是让自变项对事件机率的影响非固定不变,而是当机率密度函数愈大时(也就是愈接近最大值0.5时),自变项影响的边际效果愈强。
(四)小结
本节主要是介绍分析二分类别依变项时,最常见的胜算对数跟机率单元两种模型;需要留意的是,由于它们专门用来处理名目资料是两分类的状况,为有别于其他多分类别时所采的模型,在原文上除了Logit/Probit外,也有人习惯称为Binary Logit/Probit或Binomial Logit/Probit,这些都跟本节所介绍的相同。另外,胜算对数跟机率单元两模型分别采用的对数分配及常态分配,均是呈现对称的分布形态,加上转换后的链接函数均与变项属性呈现线性关系,所以两者估算结果非常接近。但若要直接比较两者系数,需了解标准化下两种分配形式的变异数并不一致,除非纳入变异数差异否则系数无法直接比较。不过根据Amemiya(1981)的分析,Logit系数乘以0.625会趋近于Probit所估出的系数,也就是当以相同架构估算同组资料时,。
最后值得一提的是,除了上述这两种模型可以处理二分类别变量外,还有其他放宽对称分布形态的模型可供选择,像双对数模型(log log model或weibull model)、互补双对数模型(complementary log log model)等均属之。在双对数模型下的预期机率是:
Pr(yi=1)=exp [-exp(xi′β)]
而在互补双对数模型时则是:
Pr(yi=1)=1-exp [-exp(xi′β)]
不过这些统计模型在社会科学领域的实际运用较少,有兴趣读者可参考Agresti(2002)、McCullagh与Nelder(1989)等研究的说明。