社会及行为科学研究法(3?资料分析)
上QQ阅读APP看书,第一时间看更新

三 因素分析的统计原理

如果熟悉心理测验的读者,对于表1-3的题目应不陌生。这十题是Rosenberg(1965)所编写用来测量自尊(self-esteem)的题目。一个高自尊的人,会在这十个题目上得到高分(反向题需经反向编码来计分),反之,低自尊者会得低分。或许每个题目各有偏重,但是影响这些题目分数高低的共同原因,就是自尊这一个潜在构念。以下,我们将以这个量表的前六题为例,说明因素分析的统计原理与分析结果。

表1-3 Rosenberg的自尊量表

(一)因素分析的基本模型

Spearman最初提出因素分析的概念时,其主要目的是透过一组可具体观察的测量变项,利用其间的相关情形来估计出潜藏其后的抽象心理构念(潜在变项),各个测量题目之间共同的部分即可用来代表构念。后来Thurstone(1947)将Spearman的因素分析概念扩大到多元因素的复杂结构分析,使得因素分析获得心理学家广泛采用,用来解决棘手的心理测量的构念效度举证问题。

如果今天有一组测量变项(X),第i与第j个测量变项间所具有的相关(ρij)反映了两个变项的相关强度,如果这两个测量变项系受到同一个潜在变项的影响,那么ρij可被此一潜在变项与两个测量变项的关系(以系数λiλj表示其强度),来重制得出:

以三个测量变项(X1X2X3)为例,两两之间具有相关的情况下,可以计算出三个相关系数(ρ12ρ13ρ23),反映三个测量变项之间的关系强弱,如图1-1所示。

图1-1 三个测量变项的关系图示

如果这三个测量变项受到相同的潜在变项的影响,那么三者共同变异部分可被潜在变项(F)来解释,此时F与三个测量变项的关系可以用图1-2表示。以因素分析的术语来看,此一潜在变项即为决定测量变项关系的共同因素,λ则为因素负荷量,图1-2是一个具有单一因素的因素模型。在此一模型中,三个相关系数可利用λ1λ2λ3重制得出,关系如下:

图1-2 单一潜在变项的因素模型图示

在不同的数学算则与限定条件下,可以求得式(1-2)、(1-3)、(1-4)中重制ρ12、ρ13、ρ23λ1λ2λ3三个系数的最佳解。一旦因素模式确立,研究者即可将F这个影响测量变项变异的共同原因,解释成为潜藏在背后的抽象特质或心理构念。

(二)因素分析方程式

在图1-2中,ρij是可被观察的已知现象,因此λ系数可以透过统计算则进行求解,建立一组线性整合方程式来估计出潜在变项F

式(1-5)当中的权数b1,b2, …,b10称为因素分数系数,用以估计因素分数。以自尊量表当中X1X10十个题目为例,F表示“自尊”这一个共同因素,U反映了无法被十个题目估计到的独特性。一组测量变项背后的共同因素可能不止一个,因此对于个别测量变项,一个具有m个因素的因素模型可以重制得出测量变项的数值

式(1-6)中,反映测量变项与各因素关系的系数(λ)即为因素负荷量,得出的重制分数()可进一步计算测量变项间的重制相关(reproduced correlation)。将重制相关与原始相关进行比较,即可得到残差,用来衡量因素模型反映观察数据的能力。

各测量变项变异被各因素解释的部分称为共同性(communality),以h2表示,潜在变项无法解释测量变项的部分称为独特变异(unique variance),以u2表示。测量变项的变异数(σ2)、共同性、独特性三者具有σ2=h2+u2的关系。共同性是一种类似回归分析中的解释力(R2)的概念,亦即各测量变项能够被潜在变项解释的百分比,为各因素负荷量的平方和亦称为共同变异(common variance):

当萃取出来的各因素解释测量变项变异的能力愈强时,共同性愈高,独特性愈低,反之,当萃取出来的各因素能够解释测量变项变异的能力愈弱时,共同性愈低,独特性愈高。

值得注意的是,因素分析多以相关矩阵来进行分析,此时各测量变项系以标准分数的形式来进行分析,因此各测量变项的变异数为1。共同性h2与独特性u2均为介于0到1的正数,两者和为1,因此对其解释的方式才可以百分比的概念为之。但是因素分析是以共变矩阵进行分析时,各测量变项的变异数不一定为1,而是反映各测量变项在原始量尺下的变异强弱,换言之,测量变项的变异数大小会影响因素分析的结果,变异数大者在因素分析中的影响力大,变异数小者在因素分析中的影响力小,变异数成为测量变项影响力的加权系数。

由于因素分析主要应用在量表效度的检测,为了便于解释并避免各测量变项单位(量尺)差异的影响,因素分析均以相关系数作为分析矩阵,以确实掌握共同部分的内涵。如果研究者为了保持各测量变项的原始尺度,使因素或主成分的萃取能够保留原始单位的概念,可利用共变矩阵来分析。本文将以自尊量表的前六题来进行因素分析,各题的描述统计与相关系数矩阵列于表1-4。

表1-4 自尊量表前六题的描述统计量与相关矩阵(R)(N=1000)

注:对角线下方的数值为皮尔森相关系数。

(三)特征值与特征矩阵

因素分析最关键的运算步骤,是基于主成分分析技术,利用矩阵原理在特定的条件下对测量变项的相关矩阵(R)进行对角转换(diagonalized),使得测量变项的相关矩阵得以缩减成一组直交的对角线特征值矩阵(L)。L矩阵对角在线的每一个向量值称为特征值(eigenvalue),代表各测量变项的线性整合分数的变异量,特征值愈大者,表示该线性整合分数(或称为主轴,principal axis)具有较大的变异量,又称为萃取变异(extracted variance)或解释变异量(explained variance)。经对角转换后的特征值矩阵与测量变项间的转换关系由一组特征向量矩阵(V)表示,其转换关系如下:

传统上,以主成分分析技术进行对角转换(估计主轴)的过程,系利用各测量变项的变异数作加权,主轴的方向多由变异数大者的测量变项所主导,而解释力最大的主轴系最能解释测量变项总变异量的线性整合分数。研究者可以选择数个最能代表测量变项的几个主轴加以保留,用来代表原来的测量变项,所保留下来的主轴又称为主成分,因此整个分析的结果称为主成分分析。

相对的,Spearman的因素分析模式所着重的是测量变项间相关情形的解释与心理构念的推估,因此测量变项变异数解释量的多寡并非主轴萃取的主要焦点,测量变项变异数不是潜在变项估计的主要材料。所以,对角化过程应将相关矩阵(R)的对角线元素(1.00)改由估计的共同性或测量变项的多元相关平方(squared multiple correlation, SMC)所取代,称为缩减相关矩阵(reduced correlation matrix,以表示),令主轴的方向以测量变项的共同变异为估计基础,而非测量变项的变异数。当对角线元素改由共同性元素所取代后重新估计得到新的共同性值可以再次代回矩阵,进行迭代估计,当共同性不再变动时所达成的收敛解,是为最后的因素模式,此一方法称为主轴萃取法(principal axis method)。

在实际应用时,研究者必须了解以PCA(变异数解释最大化)或FA(共变项解释最大化)两种资料缩减策略所得到的分析结果的理论意义分别为何以及不同萃取方式所可能造成不同结论的原因。如果研究资料具有较严重的测量误差(例如心理测验分数),测量变项的变异数当中包含较大比例的误差变异,使用主成分萃取和主轴因素萃取估计得到会有较大的差异。

以前述六题自尊测量的相关矩阵R为例,六个测量变项所形成的相关系数观察矩阵为6 ×6矩阵,因此矩阵运算最多能够产生与测量变项个数相等数量的特征值(六个)。特征值的大小反映了线性整合后的变项变异量大小,因此,过小的特征值表示其能够解释各测量变项相关的能力太弱,没有存在的必要而加以忽略。表1-4的相关矩阵经SPSS软件执行主轴萃取法的结果如表1-5所示。

表1-5 解说总变异量(以SPSS软件分析所得报表)

萃取法:主轴因子萃取法。

从表1-5可以看出,以传统主成分技术针对相关系数矩阵R进行对角转换所可能得到六个特征值(列于初始特征值),前两个(2.742与1.126)能够解释较多的测量变项变异量之外,另外四个特征值太小则可加以忽略。但是如果以缩减相关矩阵进行因素萃取得到的前两大特征值,亦即最能解释测量变项共变数的前两个因素的特征值分别为2.307与0.671,两者的特征值数量均比主成分萃取得到的特征值为低,显示缩减相关矩阵扣除了共变以外的独特变异,使得估计得出的共同变项(因素)反映扣除测量误差(测量变项独特性)后的真实变异,作为构念的估计数。前述特征值的计算与测量变项关系的矩阵推导过程如下:

在因素分析的初始状况下,测量题目的总变异为各测量变项变异数的总和,各因素萃取得到的特征值占全体变异的百分比称为萃取比例。表1-4当中六个题目总变异为6(每题变异数为1),两个因素各解释2.307/6=38.45%与0.671/6=11.18%的变异量,合计为49.63%萃取变异量。

因素分析所追求的是以最少的特征值来解释最多的测量变项共变数,当萃取因素愈多,解释量愈大,但是因素模型的简效性愈低。研究者必须在因素数目与解释变异比例两者间找寻平衡点。因为如果研究者企图以精简的模式来解释测量数据,势必损失部分可解释变异来作为补偿,因而在FA中,研究者有相当部分的努力,是在决定因素数目与提高因素的解释变异。

(四)因素负荷量与共同性

因素萃取系由特征向量对于相关矩阵进行对角转换得出。因此,反映各萃取因素(潜在变项)与测量变项之间关系的因素负荷量矩阵(factor loading matrix,以A表示)可由矩阵转换原理从特征向量矩阵求得,亦即

以六个自尊测量的主轴萃取结果为例,因素负荷量矩阵如下:

因素负荷量的性质类似于回归系数,其数值反映了各潜在变项对于测量变项的影响力,例如本范例中的两个因素对第一个题目的负荷量分别为0.562与0.255,表示第一个因素对第一题的解释力较强。同样的,各因素对于第二题的进行解释的负荷量分别为0.674与-0.253,表示第一个因素对第二题的解释力较强之外,第二个因素对第二题的解释力为负值,表示影响方向相反,亦即当第二个因素强度愈强时,第二题的得分愈低。

如果把负荷量平方后相加,可得到解释变异量。对各题来说,两个因素对于各题解释变异量的总和,反映了萃取因素对于各题的总解释力,或是各测量变项对于整体因素结构所能够贡献的变异量的总和(亦即共同性)。此外,各因素在六个题目的解释变异量的总和,则反映了各因素从六个测量变项的矩阵所萃取的变异量总和,即为先前提到的解释变异量。计算的过程如表1-6所示。

表1-6 因素负荷量、共同性与解释变异量的关系