Python大数据分析算法与实例

2.4.3 数据主成分的导出

根据主成分分析的数学模型的定义,要进行主成分分析,就需要根据原始数据以及模型的3个条件的要求,求出主成分系数,以便得到主成分模型。这就是导出主成分所要解决的问题。

(1)根据2.4.1节中主成分数学模型的条件①要求主成分之间互不相关,主成分之间的协差阵应该是一个对角阵。即,对于主成分:

其协差阵应为:

Var(F)=Var(AX)=(AX)·(AX)'=AXXA

(2)设原始数据的协方差阵为V,若原始数据进行了标准化处理,则协方差阵等于相关矩阵,即有:

(3)再由2.4.1节中主成分数学模型条件③和正交矩阵的性质,若能够满足条件③,则最好要求A为正交矩阵,即满足:

于是,将原始数据的协方差代入主成分的协差阵公式得:

Var(F)=AXXA'=ARA'=Λ

展开上式得:

展开等式两边,根据矩阵相等的性质,这里只根据第一列得出的方程为:

为了得到该齐次方程的解,要求其系数矩阵行列式为0,即:

显然,λ1是相关系数矩阵的特征值,是相应的特征向量。根据第二列、第三列等可以得到类似的方程,于是λi是特征方程的特征根,aj是其特征向量的分量。