![Python大数据分析算法与实例](https://wfqqreader-1252317822.image.myqcloud.com/cover/229/44510229/b_44510229.jpg)
上QQ阅读APP看书,第一时间看更新
2.4.2 数据主成分分析的几何解释
假设有n个样品,每个样品有两个变量,即在二维空间中讨论主成分的几何意义。设n个样品在二维空间中的分布大致为一个椭圆,如图2.2所示。
![](https://epubservercos.yuewen.com/A5FE11/23721622801011806/epubprivate/OEBPS/Images/Figure-P40_3359.jpg?sign=1739272729-mw4DgCr4LFNfTSMlGmhszOntNj0Vave9-0-bd62aa096225ac097f02d42ee94fec30)
图2.2 主成分几何解释图
将坐标系正交旋转一个角度θ,使其在椭圆长轴方向取坐标y1,在椭圆短轴方向取坐标y2,旋转公式为:
![](https://epubservercos.yuewen.com/A5FE11/23721622801011806/epubprivate/OEBPS/Images/Figure-P41_48883.jpg?sign=1739272729-Gr8BY4i44oK9SssDfM4m9Qlp7FfGSWYW-0-d9687d8116afa0056514c89183870d83)
写成矩阵形式为:
![](https://epubservercos.yuewen.com/A5FE11/23721622801011806/epubprivate/OEBPS/Images/Figure-P41_48884.jpg?sign=1739272729-TPUgNc2PScRqvHlo6bF3Hn63u5AlInYD-0-906b7c73828a0b436ccd0f53dfd70904)
其中,U为坐标旋转变换矩阵,它是正交矩阵,即有U'=U-1,UU'=I,即满足sin2θ+cos2θ=1。
经过旋转变换后,得到图2.3所示的新坐标。
![](https://epubservercos.yuewen.com/A5FE11/23721622801011806/epubprivate/OEBPS/Images/Figure-P41_7610.jpg?sign=1739272729-1erzd4KCuwbJN3iBzkDwFxYg30jhVNqu-0-241f3c21df65da98d9ad804f8c5ff353)
图2.3 新坐标
新坐标y1–y2有如下性质:
(1)n个点的坐标y1和y2的相关几乎为零。
(2)二维平面上的n个点的方差大部分都归结为y1轴上,而y2轴上的方差较小。
y1和y1称为原始变量x1和x2的综合变量。由于n个点在y1轴上的方差最大,因此将二维空间的点用在y1轴上的一维综合变量来代替所损失的信息量最小,由此称y1轴为第一主成分,y2轴与y1轴正交,有较小的方差,称它为第二主成分。