PCA
主成分分析简述
主成分分析法通过研究少数几个主成分来解释多个变量之间的内部结构,即从原始变量中导出少数几个主分量,使它们尽可能的保留原始变量的信息,且彼此之间互不相关。
主成分分析的目的:数据的压缩和数据的解释。
基本思想
主成分分析法就是设法将原来众多的具有一定相关性的变量(如P变量),重新组合成一组新的相互无关的变量。
在数学上,就是将原来p个变量作线性组合作为新的综合变量。
最经典的方法就是用方差来衡量。设我们选取的数据集为 $F_{1}$, $var(F_{1})$ 越大,说明 $F_{1}$ 所包含的信息越多。因此在所有的线性组合中选取的 $F_{1}$ 应该是方差最大的,称为第一主成分。
如果第一主成分不足以代表原来p个变量的信息,再考虑选取 $F_{2}$ 为第二主成分。
为了有效反应原来的关系,我们一般要求 $F_{1},F_{2}$ 不含重复信息。
在实际中,如果各主成分的累计方差贡献率>80%或特征根>1,则满足建模要求。
数学模型
我们假定有n个地理样本,每个样本有p个变量,构成一个n*p的矩阵
$$
X_{i}=\begin{bmatrix}
x_{11}&x_{12} &\ldots&x_{1p} \\
x_{21}&x_{22} &\ldots&x_{2p} \\
\ldots& & &\ldots \\
x_{n1}&x_{n2} &\ldots&x_{np}
\end{bmatrix}
$$
当p比较大时,我们需要进行降维处理,用较少的综合变量代替原来较多的变量。并尽可能反映原始变量的特征。
一种比较简单的方法是作线性变换,使新的综合变量变为原变量的线性组合
$$\begin{cases}
F_{1}=a_{11}x_{1}+\ldots+a_{p1}x_{p}\\
F_{2}=a_{12}x_{1}+\ldots+a_{p2}x_{p}\\
\ldots \\
F_{p}=a_{1p}x_{1}+\ldots+a_{pp}x_{p}
\end{cases}$$
对于任意常数,我们要求 $var(cF_{i})=c^{2}var(F_{i})$
为了使方差可以比较,我们要求线性组合的系数满足 $\sum_{i=1}^{p}a_{ki}^{2}=1$
各变量之间互不相关,协方差为0.
在建模前,需要进行数据处理,即标准化处理。变量之间的协方差即为相关系数。
这里直接给出结论:
通过推导可知, $X_{i}$ 的主成分就是以协方差阵 $\sum$ 的特征向量为系数的线性组合,其方差为协方差阵的特征根。
主成分的名次使按特征值取值的大小的顺序排列的。
下面定义贡献率和累计贡献率:
贡献率
$$\frac{\lambda_{1}}{\sum_{i=1}^{p}\lambda_{i}} 称为第一主成分的贡献率。
$$var(F_{1})=\lambda_{1}$$
因此第一主成分的贡献率越大,表明其综合各成分的能力越强。
各成分的贡献率的加和就为累计贡献率。
检验方法
- KMO检验
- Bartlett’s检验