相关分析
相关分析主要分成两个步骤:1.计算样本的相关系数;2.对显著线性关系进行检验。检验的原假设是两个变量之间无显著线性相关性。拒绝原假设则认为两总体对应的变量间存在线性关系。
对对不同类型的变量应采用不同的相关系数进行测度。对于连续变量,有序变量以及分类变量都有不同的相关指标。
Pearson相关系数
Pearson 简单相关系数度量连续变量之间的线性相关关系。定义\((X_1,Y_1),...,(X_n,Y_n)\)是\((X,Y)\)的一组样本,则样本相关系数为:
\[ r _ { X Y } = \frac { \sum _ { i } \left( x _ { i } - \bar { x } \right) \left( y _ { i } - \bar { y } \right) } { \sqrt { \sum _ { i } \left( x _ { i } - \bar { x } \right) ^ { 2 } } \sqrt { \sum _ { i } \left( y _ { i } - \bar { y } \right) ^ { 2 } } } \]
对应的统计量为:
\[ \mathbf { t } = \frac { r \sqrt { n - 2 } } { \sqrt { 1 - r ^ { 2 } } } \sim t ( n - 2 ) \]
其中\(n\)为样本容量,\(r\)为简单相关系数。原假设为\(r=0\)。
Pearson相关系数的特点如下:
- Pearson相关系数适用于线性相关的情形;若是复杂的非线性相关,Pearson相关系数的大小不能代表相关性的强弱。
- 样本中的极端值对pearson相关系数的影响极大,必要时要剔除。
- 可以利用散点图中观测线性关系存在的可能性。
- 一般要求就Pearson相关分析对应的两个变量服从双变量正态分布
Spearman相关系数
秩相关分析,利用变量的秩进行线性相关分析,是一种非参数的统计方法。相比于Pearson适用面更广,但是统计效能比Pearson相关系数要低,大多数情况下,等级相关系数的绝对值都小于Pearson相关系数。Spearman相关系数的公式为:
\[ r = 1 - \frac { 6 \sum _ { i = 1 } ^ { n } D _ { i } ^ { 2 } } { n \left( n ^ { 2 } - 1 \right) } \]
其中\(n\)为样本容量。\(\sum _ { i = 1 } ^ { n } D _ { i } ^ { 2 } = \sum _ { i = 1 } ^ { n } \left( U _ { i } - V _ { i } \right) ^ { 2 }\),\((U_i,V_i)\)分别为两个变量的秩。对应的统计量和检验与Pearson相关系数一致。
Kendall相关系数
Kendall \(\tau\) 相关系数用非参数检验方法度量定序变量间的线性相关关系。利用是变量的秩,计算一致对数目(U)和非一致对数目(V)数目构建统计量,进行检验。
偏相关分析
所谓偏相关分析,是指在诸多相关的变量中,剔除了其中的一个或若干变量的影响后,两个变量之间的相关关系。在剔除变量\(z\)的影响后,两个变量\(x,y\)的偏相关系数为:
\[ r _ { x y , z } = \frac { r _ { x y } - r _ { x z } r _ { y z } } { \sqrt { 1 - r _ { x z } ^ { 2 } } \sqrt { 1 - r _ { y z } ^ { 2 } } } \]
对应的统计量为:
\[ t = \frac { r \sqrt { n - k - 2 } } { \sqrt { 1 - r ^ { 2 } } } \sim t ( n - k - 2 ) \]
其中\(n\)为样本容量,\(k\)为剔除了的变量数,\(r\)为偏相关系数。
总结
相关分析用于探讨两个变量之间是否存在某种具有统计意义的关联,这种关联很多情况下是针对线性关系的探讨。相关分析会给出关系是否具有显著意义的结论,同时相关系数表明了这种关联的强弱。一般情况下,当分析模型中的两个变量无法分出主次的情况下,我们采用相关分析进行探讨。但进一步,如果能够明确自变量和因变量,则更合适的方法是回归分析。回归分析是建立在相关性显著的基础上的。