社会及行为科学研究法(3?资料分析)
上QQ阅读APP看书,第一时间看更新

五 因素转轴与命名

因素分析抽取出因素后,可利用一组因素负荷量来说明各因素的结构,也是因素命名的重要参考。然而,经由初步萃取得出的因素负荷量并不容易解释。若经过数学转换,使因素负荷量能具有最清楚区辨性,反映出因素间的意义与因素间的关系称为因素转轴。转轴的目的是在厘清因素与因素之间的关系,以确立因素间最简单的结构,也就是实现Thurstone(1947)所提出的简单结构原则。

(一)因素转轴的原理

转轴的进行,系使用三角函数的概念,将因素之间的相对关系,取某种最佳化形式计算出转轴矩阵,将原来抽离出来因素与测量变项的因素负荷量进行直角转换(直交转轴),使两因素维持直交关系但因素负荷数值在两轴上具有最大的区辨性 [如图1-4(b)],或非直角转换(斜交转轴)使两因素不受直交关系限制而使因素负荷数值在两轴上具有最大的区辨性 [如图1-4(c)],所形成新的因素负荷矩阵更能描述,两个因素的特征也更易于解释,协助研究者进行因素命名。

图1-4 转轴前与转轴后的因素负荷散布图

(二)直交转轴

直交转轴(orthogonal rotation)系指转轴过程当中,借由一组转换矩阵Λ中的转换权数,使两因素平面坐标的XY轴进行夹角为90度的旋转,可使观察变项在各轴的投射差异最大化,转轴后的主轴与变项间的关系由新的负荷量(Arotated)表示,此时透过转轴后的因素负荷量更能了解观察题目与因素之间的关系。公式如下:

转换矩阵系基于三角几何的原理,从原X轴进行特定角度(Ψ)的转换系数矩阵:

以自尊量表的六个题目为例,经过与原X轴Ψ=42.6度直交转轴后的新坐标下的因素负荷量计算如下:

经过转轴后的因素负荷量,在直交的两轴上的差异达到最大化,例如第6题原来的坐标是(0.781, -0.484),新的坐标则为(0.902, 0.171),如此一来将有利于研究者进行因素内容的判读。

直交转轴有几种不同的形式,最大变异法(varimax)使负荷量的变异数在因素内(测量变项间)最大,因素结构的简化程度最高;四方最大法(quartimax)使负荷量的变异数在测量变项内(因素间)最大,观察变项在各因素间有最清楚的结构;均等变异法(equimax rotation)综合前两者,使负荷量的变异数在因素内与测量变项内同时达到最大。不论采行何种直交转轴,因素结构与内在组成差异不大,各测量变项在各轴的相对位置不变。各因素维持正交关系,亦即因素之间的相关为0。

由表1-7可知,在未转轴前,各因素的内部组成非常复杂,若要凭借因素负荷量来进行因素的解释与命名十分困难;但是转轴后的因素负荷量,则扩大了各因素负荷量的差异性与结构性。例如因素一最重要的构成变项为第X6题,负荷量为0.902,该题对于第二因素的负荷量仅有0.171,其次是第X2题的0.668,与第X5题的0.381。这三个测量变项落在因素一的负荷量均高于因素二,也就是因素一为这三个测量变项的目标因素(target factor);相对的,第X1、X3、X4三个测量变项的目标因素则是因素二,负荷量分别为0.567、0.756、0.634,均高于对于因素一的负荷量0.242、0.289、0.112。如此一来,我们即可以区分出因素一与因素二的主要构成题项为何。换言之,转轴后的因素负荷量可以让研究者更清楚辨识因素与测量变项间的关系,有利于因素命名。

表1-7 原始因素负荷量与转轴后因素负荷之比较

由表1-7可知,经直交转轴后,两个因素可解释的总变异仍为2.979,可解释测量变项变异量维持在49.63%,但是各因素萃取的能力有所变动。在原始未转轴的因素结构中,因素一的解释变异量(38.45%)远大于因素二(11.18%)。但经过最大变异或四方最大直交转轴后,因素一与因素二的解释变异量则非常接近,分别为最大变异转轴后的26.00%与23.63%,与四方最大转轴后的26.14%与23.49%,显示直交转轴后的两个因素所能够解释测量变项的变异量的能力相当,尤其是最大变异直交转轴的调整更趋明显。由此可知,如果未经过转轴,我们对于因素的组成结构与萃取能力的判断会有所偏颇,直交转轴的功能替我们重新整理因素内的对应关系,使我们可以得到对于因素组成最清楚明确的资讯。

(三)斜交转轴

斜交转轴(oblique rotation)容许因素与因素之间具有相关关系。在转轴的过程当中,同时对于因素的关联情形进行估计称为斜交转轴。利用最小斜交法(oblimin rotation)或直接斜交法(direct oblimin)可使因素负荷量的交乘积(cross-products)最小化;最大斜交法(oblimax rotation)、四方最小法(quartimin)则可使形态矩阵中的负荷量平方的交乘积最小化。promax先进行直交转轴后的结果,再进行有因素负荷交乘积最小化的斜交转轴;orthoblique则使用quartimax算式将因素负荷量重新量尺化(rescaled)以产生直交的结果,因此最后的结果保有斜交的性质。表1-7中列出了以直接斜交法与promax两种斜交转轴法的结果。两个因素的相关系数分别是0.535与0.524。

斜交转轴针对因素负荷量进行三角函数数学转换,并估计因素负荷量的关系,因而会产生两种不同的因素负荷系数:因素形态系数(factor pattern coefficients)与因素结构系数(factor structure coefficients)。形态系数的性质与直交转轴得到因素负荷量性质相同,皆为回归系数的概念,为排除与其他因素之间相关之后的净相关系数来描述测量变项与因素间的关系。结构系数则为各测量变项与因素的积差相关系数,适合作为因素的命名与解释之用。如果是直交转轴,由于因素间没有相关,形态系数矩阵与结构系数矩阵相同,皆称为因素负荷系数。

以直交转轴转换得到的参数估计数,与因素间相互独立的简化原则相符。从数学原理来看,直交转轴将所有的测量变项在同一个因素或成分的负荷量平方的变异量达到最大,如此最能够达到简单因素结构的目的,且对于因素结构的解释较为容易,概念较为清晰。对于测验编制者,可以寻求明确的因素结构,以发展一套能够区别不同因素的量表,直交法是最佳的策略。但是,将因素之间进行最大的区隔,往往会扭曲了潜在特质在现实生活中的真实关系,容易造成偏误,因此一般进行实征研究的验证时,除非研究者有其特定的理论作为支持,或有强而有力的实证证据,否则为了精确的估计变项与因素关系,使用斜交转轴是较贴近真实的一种做法。

一旦转轴完成后即可进行因素命名。由前述数据得知,因素一关联最强的题目是X6“有时候我的确感到自己没有什么用处”,与另外两题都是负面看待自己的题目,因此可命名为“负向评价”。而因素二关联最强的题目是X3“我觉得自己有许多优点”,与另外两题都是正面看待自己的题目,因此可命名为“正向评价”,两者相关达0.535(以最小斜交法法估得),亦即自尊这一个构念具有两个中度相关的维度,根据因素分析结果得出六个测量题目背后的因素结构是一个二因素斜交模式。

(四)因素分数

一旦因素数目与因素结构决定与命名,研究者即可以计算因素分数,借以描述或估计受测者在各因素的强弱高低。由于因素分析的主要功能在于找出影响测量变项的潜在导因(构念),因此因素分数的计算可以说是执行因素分析的最终目的。当研究者决定以几个潜在变项来代表测量变项后,所计算得到的因素分数就可被拿来进行进一步的分析(例如作为预测某效标的解释变项)与运用(例如用来描述病患在某些心理特质上的高低强弱)。

因素分数的计算有几种方式,最简单的方式是采组合分数法(composite scores),其原理是依照各测量变项的因素负荷量在哪一个因素数值较大,而将该变项归属于该因素中(对该变项的影响最大的目标因素),然后将同一个因素的测量变项求得平均值,即可作为该因素的得分。此一方法的优点是简单明了,每一个因素各自拥有一组测量变项,求取各题平均数的因素分数,其数值的尺度可对应到原始的测量尺度(例如,1为非常不同意,5为非常同意),有利于分数强弱高低的比较与解释。但是其缺点是忽视了各题对应其因素各有权重高低的事实,对于潜在变项的估计不够精确。另一个缺点是未考虑测量误差的影响,在估计因素间的相关强弱时,会有低估的现象。

另一种策略为线性组合法,利用因素分析求出的因素分数系数,将所有测量变项进行线性整合(linear combination),得到各因素的最小平方估计数。其计算式是取因素负荷量与相关系数反矩阵的乘积,亦即B=R-1A,而因素分数即为各测量变项转换成Z分数后乘以因素分数系数而得,亦即F=ZB。且由于各测量变项先经过了标准化处理才进行线性整合,因此因素分数的性质也具有标准分数的特征,平均数(截距)为0。且由于各因素的尺度没有实质的单位的意义,因此因素分数仅适合作为比较与检定之用(例如以t检定来比较性别差异)。换言之,因素分数的数值没有实际量尺的意义,且因素相关会因转轴方式与萃取方式的不同而变化,在解释因素分数与因素相关时需要特别小心。

参考方块 1-2:因素命名的陷阱!反向题因素是人工添加物?

如果问卷上有两道题目:“我目前没有换工作的打算”和“如果现在有其他的工作机会,我会马上离开”。你会把这两题视为同一个因素吗?从句义来看,这两个题目是问同一个东西,都是在问一个员工的离职倾向(或留职意愿),只是在计分时,我们会把其中一道题倒过来计分(称为反向计分),以免两个题目加总后抵消了题目的效果。

当然,仅是把题目换方向计分来处理,不足以回答它们是否是同一个因素这个问题,此时,我们就可以利用因素分析来协助我们找到答案。不幸的是,执行完因素分析后,我们可能更无所适从。

因素分析丰富经验的研究者应该会遇到一个状况,如果一个量表有好几题反向题与好几个正向题(就像本章的自尊量表范例),执行因素分析会得到两种因素:“正向题因素”与“反向题因素”,这个时候,研究者就会很困惑,到底要如何命名?题目的正反向各自成为一个因素有道理吗?关于这个问题就是所谓的方法效应(method effect)问题。关于详情,建议读者阅读Marsh(1996)的一篇文章,就可以知道问题的严重性。那篇文章的标题虽然不是“统计是骗人的伎俩”,却也相差不远了!因为他说,反向题所形成的因素是人工添加物,不是纯天然的!

由于因素分数经常作为后续研究的预测变项,当各因素之间具有高相关时会出现多元共线性问题,然而研究者可以利用不同的转轴与因素分数估计法来获得不同的因素分数,控制因素间的相关,借以避免多元共线性问题。尤其是当因素分数是以直交转轴所获得的分数时,或是Anderson-Rubin法(Anderson & Rubin, 1956)来计算因素分数,将可确保直交转轴的因素分数为零相关。但如果采用斜交转轴,因素负荷量分离出形态矩阵与结构矩阵两种形式,因素之间即可能出现不同的相关强度估计数。如果研究者想要保留因素分数共变矩阵的特征,可采用主成分萃取模式的一般线性回归策略来计算因素分数。