第三章
类别依变项的回归模型
一 前言
统计回归模型的使用,在社会科学的研究当中相当重要,它是对行为者的行为与社会现象进行解释或预测的重要工具。一般常见的回归方式,主要是根据依变项属于计量性资料(metric data)或量性资料(quantitative data),以简单回归或多元回归模型来进行解释;由于这是本于自变项与依变项间具有线性关系为基础,以找出特定的线性函数模式,所以又可称为线性回归模型。诚如前面章节的介绍,研究者只要能确认线性回归模型中各变项资料的分布状态是符合线性几率分布的特性,并且估算的残差项吻合独立且具有相同分配(independently identical distributed, IID)的特性,便能借由一般最小平方法(ordinary least square, OLS)有效估算出回归程序各解释变量之影响参数值。此一参数估算的特性,即统计上所谓的最佳的线性不偏估计量(best linear unbiased estimator, BLUE)。
不过从社会科学实际研究的内容来看,依变项属于这种连续性的量化资料的并不常见,反倒是类别变项(categorical variable)较为普遍,其中包括名目及次序尺度的不连续变项都是时常出现的状况。就依变项是类别反应的回归模型而言,倘若研究者执意使用线性回归,不仅无法获得有效的参数估计值,更将产生违反统计法则的问题。从概念上来说,当依变项属于质性的类别资料时,由于各自变项发生几率的加总总和,并不能如前述的线性回归模型般,以对等式的方式将自变项与依变项之平均数连接起来;特别是各自变项类别发生结果的机率,最终的加权总和将可能发生大于1或是小于0的不合理机率。因此,当我们在处理依变项是类别形态时,除了必须先判断蕴含于这些类别资料发生结果的可能机率分布函数外,更必须找出适当的非线性转换函数,透过此一途径将原本介于0与1的机率分布,转换为理论上可介于正负无穷大的实数值,并且将转换后的机率与自变项间的加权总和,予以自然的连接。
源于间断样本空间之机率分布与非线性转换函数的回归模型,便是类别资料回归模型设计的基本精神所在,其中英国统计学家Nelder与Wedderburn(1972)提出的广义线性模型(generalized linear models, GLM)可说是建构这类回归模型的基础。透过此一架构,可将非线性函数关系的回归模型,转换为本质近似线性回归模型的方式来进行统计参数的估算。虽然GLM模式有效地提供了类别变项的转换方式,但值得注意的是,质性资料的类别反应属性,除包含名目尺度的二分反应及多分反应外,尚有顺序尺度的次序多分(ordered polytomous)以及计次变量(count variable)等不同的属性,这些不同的类别资料所适用的回归模型与统计假设均有所差异,因此研究者在使用时必须先仔细检视数据资料的特性并加以谨慎选择。表3-1根据依变项的资料形态,简单归纳了各种适用的回归模型。
表3-1 依资料形态归纳的回归模型
注:可处理多分类别的胜算对数模型有许多种形态,本表先暂时统称为多项胜算对数模型。
本章接下来的内容,将焦点放在处理依变项是类别反应时的几种回归模型上,俾助读者对这些统计模型的内涵与应用方式有进一步的了解。这几种类型的回归模型,除可统称为类别依变项回归模型来理解外,由于它们多半是由计量经济学者发展出来分析行为者的消费选择的,学界也常通称这类模型为离散(或不连续)选择模型(discrete choice models)。本章限于篇幅,仅选取名目及次序两种社会科学最常见的类别资料来做介绍,其中名目尺度的资料包括二分及多分两种形态,第二跟第三节便分别介绍这两种类型资料的基本模型;第四节则是提出多分类别模型经常受制的不相关选项独立性(IIA)假设以及对此因应的检定方式;第五节根据IIA的问题,继续整理几种不受此限制的多分类别回归模型;第六节是将焦点放在依变项是次序类别的状况,介绍两种分析次序资料的模型;最后在第七节的总结,介绍几种适合后续分析类别资料时的统计软件及其参考资料。