单样本非参数检验
在数据分析过程中,由于多种原因,人们往往无法对总体分布形态作简单假设,但却希望能从样本数据中获得尽可能多的信息。这种情况下,在总体分布未知或知之甚少的情况下,非参数检验可以利用样本数据对总体分布形态进行推断。其中,单样本非参数检验正是对单个总体的分布形态进行推断的方法。
卡方检验-适合度检验可以检测某类别变量\(X\)的实际观察次数分布与某理论次数分布是否相符。若检验统计量未达到显著差异,则样本在该变量上的分布与理论假设的总体分布无差异,反之,样本在该测量值上的分布与理论分布不同。其原假设\(H_0\)为样本分布与理论分布一致。
从分析-非参数检验-旧对话框-卡方
可以进行卡方检验。在期望值一栏中,预设的理论分布为所有类别分布相等,可以选择值选项,然后自定义类别数量以及比例。
执行检验后可以输出统计量表格,可以通过检查Sig值来判断是否否定原假设。若Sig值大于0.05,通常认为原假设是正确的,即样本分布与理论分布一致。
卡方统计量可以写为:
\[ \chi ^ { 2 } = \sum _ { i = 1 } ^ { k } \frac { \left( f _ { i } ^ { o } - f _ { i } ^ { e } \right) ^ { 2 } } { f _ { i } ^ { 0 } } \]
其中\(i\)为某个类别,\(k\)为类别总数,\(f _ { i } ^ { o }\)为当前类别的观察频数,\(f _ { i } ^ { e }\)为当前类别的期望频数。若\(\chi^{2}\)较大,说明观察频数分布与期望频数分布差距较大,反之,则说明观测频数分布与期望频数分布较为接近。
卡方检验-独立性检验
卡方检验-独立性检验用来同时检测两个类别变量\(X,Y\)之间的关系。其通过判断两个随机变量是否相互独立来判断相关性。在一定的显著水平上,如果能判断两个随机变量相互独立,则表明两个变量之间不相关。
可以通过分析-描述统计-交叉表
来进行独立性检验。要进行卡方独立性检验,交叉表需要接收两个类别变量,通过比较指标变量在两个类别上的分布来判断相关性。
令\(p_i\)为变量\(X\)属于区间\(i\)的概率,\(p_j\)为变量\(Y\)属于区间\(j\)的概率。则卡方检验通过判断实际在变量\(X\)中落入区间\(i\)且在变量\(Y\)中落入区间\(j\)的例子占总数的比率\(n_{ij}\)与两变量独立前提下估计比率\(e_{ij} = p_i * p_j\)之间的差距来判断独立性。具体而言,卡方统计量为:
\[ \chi ^ { 2 } = \sum _ { i = 1 } ^ { k } \sum _ { j = 1 } ^ { s } \frac { \left( n _ { i j } - e _ { i j } \right) ^ { 2 } } { e _ { i j } } \]
其中\(k\)为变量\(X\)所有可能的类的数量,\(s\)为变量\(Y\)所有可能的类的数量。
若统计得出的Sig值大于0.05,则接收原假设,即两个变量不相关。
注意事项
运行卡方检验时,单元格的期望次数(理论次数)不能太小。单元格期望此时小于5时可能会造成统计检验值高估的偏差。若单元格的期望次数低于10但是高于5,可以采用连续校正的检验值作为判断依据;如果单元格期望次数低于5,或者样本总数低于20,则采用Fisher的精确检验进行校正。