SPSS-卡方检验 – SayuriBlog

单样本非参数检验

在数据分析过程中，由于多种原因，人们往往无法对总体分布形态作简单假设，但却希望能从样本数据中获得尽可能多的信息。这种情况下，在总体分布未知或知之甚少的情况下，非参数检验可以利用样本数据对总体分布形态进行推断。其中，单样本非参数检验正是对单个总体的分布形态进行推断的方法。

卡方检验-适合度检验可以检测某类别变量\(X\)的实际观察次数分布与某理论次数分布是否相符。若检验统计量未达到显著差异，则样本在该变量上的分布与理论假设的总体分布无差异，反之，样本在该测量值上的分布与理论分布不同。其原假设\(H_0\)为样本分布与理论分布一致。

从分析-非参数检验-旧对话框-卡方可以进行卡方检验。在期望值一栏中，预设的理论分布为所有类别分布相等，可以选择值选项，然后自定义类别数量以及比例。

执行检验后可以输出统计量表格，可以通过检查Sig值来判断是否否定原假设。若Sig值大于0.05，通常认为原假设是正确的，即样本分布与理论分布一致。

卡方统计量可以写为:

\[ \chi ^ { 2 } = \sum _ { i = 1 } ^ { k } \frac { \left( f _ { i } ^ { o } - f _ { i } ^ { e } \right) ^ { 2 } } { f _ { i } ^ { 0 } } \]

其中\(i\)为某个类别，\(k\)为类别总数，\(f _ { i } ^ { o }\)为当前类别的观察频数，\(f _ { i } ^ { e }\)为当前类别的期望频数。若\(\chi^{2}\)较大，说明观察频数分布与期望频数分布差距较大，反之，则说明观测频数分布与期望频数分布较为接近。

卡方检验-独立性检验

卡方检验-独立性检验用来同时检测两个类别变量\(X,Y\)之间的关系。其通过判断两个随机变量是否相互独立来判断相关性。在一定的显著水平上，如果能判断两个随机变量相互独立，则表明两个变量之间不相关。

可以通过分析-描述统计-交叉表来进行独立性检验。要进行卡方独立性检验，交叉表需要接收两个类别变量，通过比较指标变量在两个类别上的分布来判断相关性。

令\(p_i\)为变量\(X\)属于区间\(i\)的概率，\(p_j\)为变量\(Y\)属于区间\(j\)的概率。则卡方检验通过判断实际在变量\(X\)中落入区间\(i\)且在变量\(Y\)中落入区间\(j\)的例子占总数的比率\(n_{ij}\)与两变量独立前提下估计比率\(e_{ij} = p_i * p_j\)之间的差距来判断独立性。具体而言，卡方统计量为：

\[ \chi ^ { 2 } = \sum _ { i = 1 } ^ { k } \sum _ { j = 1 } ^ { s } \frac { \left( n _ { i j } - e _ { i j } \right) ^ { 2 } } { e _ { i j } } \]

其中\(k\)为变量\(X\)所有可能的类的数量，\(s\)为变量\(Y\)所有可能的类的数量。

若统计得出的Sig值大于0.05，则接收原假设，即两个变量不相关。

注意事项

运行卡方检验时，单元格的期望次数（理论次数）不能太小。单元格期望此时小于5时可能会造成统计检验值高估的偏差。若单元格的期望次数低于10但是高于5，可以采用连续校正的检验值作为判断依据；如果单元格期望次数低于5，或者样本总数低于20，则采用Fisher的精确检验进行校正。