SPSS-数据的获得与前处理

Friday, March 19, 2021

数据的测量尺度

  • 名义尺度(名字,身份证号)
  • 顺序尺度(小中大,低中高)
  • 间隔尺度(包含顺序尺度的特征+有固定单位)
  • 比率尺度(包含间隔尺度的特征+能有意义的乘除)

数据的获得方法

  • 非随机抽样:从总体中有意识的选择具有代表性的典型个体进行细致调查

  • 随机抽样

    • 简单随机抽样

    按照“总体中每个个体被抽到的机会均等”的原则,从总体中抽取部分个体。

    • 分层抽样

    按照总体中个体的某个特征,把总体中的个体分为若干个群组。并对群组中的个体进行简单随机抽样。

    分层抽样要求层之间的差异大于层内部的差异。(等数分配法:每层抽取同样数量的个体;等比分配法:抽样比例一致)

    • 整群抽样

    整群抽样往往按照自然空间分布分成不重复的部分,其特点是自然存在的群组,而非特别属性划分的集合,强调内在的不一致性。

样本的效度

  • 外部效度:样本是否具有代表性
  • 统计效度:如果样本具有代表性,得出的结论是否可靠

可以通过以下方式大概确定样本量:

\[ n = \frac{Z^2S^2}{d^2} \]

其中\(n\)为所需样本量,\(S\)为总体标准差,\(d\)为实际应用中允许的调查误差。

多选项的处理

针对多选项,通常有两种处理方式。第一种为二分法,其会为每个选项生成虚拟变量,并用0、1两个值分别代表是否已选。第二种为分类法,其可以估计多选项问题最多可能出现的答案数,然后为每个答案定义一个变量,变量的取值为备选答案。通常用于按照某种顺序进行多选的操作中。SPSS中通常使用多重响应分析来处理多选项的信息。一般来说,先定义多选项包含的变量集,可以使用分析-多重响应-定义变量集来进行操作。二分法通常只需要定义一个变量集,可以在选项二分法中定义计数值。分类法通常需要根据定义的变量个数定义变量集,并根据取值的不同定义不同的计数值。定义好变量集后,可以使用分析-多重响应-频率进行频率分析,并在分析-多重响应-交叉表中分析因为其他变量而导致多选项取值的不同。

重复值处理

可以使用数据-标识重复的个案来根据某(几)个值的取值寻找重复值。

逻辑性核查

通常可以使用分析-表-设定表来查看问卷内各项选项是否存在矛盾。

遗漏值处理

删除处理通常在各项分析内完成,可选完全删除(处理时任何一个变量出现一楼,就将与该受测者有关的数据全部删除)以及配对删除(分析时牵涉的变量有遗漏时才删除,是否删除根据分析命令而定)。

遗漏值置换可以使用转换-替换缺失值来完成。可以使用序列均值,临近点均值,临近点中位数,线性差值(基于缺失值前后两点数据的线性组合填补,是一种加权平均),以及线性趋势(使用回归模型拟合结果填补)几种填补方法。

偏离值与极端值处理

可以使用分析-描述统计-探索来观测变量的取值范围以及离群值和极端值的情况。

其他数据处理操作

使用转换-计算变量可以根据当前某个变量计算新变量。使用转换-可视离散化可以根据当前某个连续变量的值将其分为几类,形成分类变量。可以通过指定值和标签进行范围的选择和名称标定。

SPSS

SPSS-点估计与区间估计

github使用ssh登录