SPSS-数据的获得与前处理

数据的测量尺度

名义尺度（名字，身份证号）
顺序尺度（小中大，低中高）
间隔尺度（包含顺序尺度的特征+有固定单位）
比率尺度（包含间隔尺度的特征+能有意义的乘除）

数据的获得方法

非随机抽样：从总体中有意识的选择具有代表性的典型个体进行细致调查
随机抽样
- 简单随机抽样
按照“总体中每个个体被抽到的机会均等”的原则，从总体中抽取部分个体。
- 分层抽样
按照总体中个体的某个特征，把总体中的个体分为若干个群组。并对群组中的个体进行简单随机抽样。

分层抽样要求层之间的差异大于层内部的差异。（等数分配法：每层抽取同样数量的个体；等比分配法：抽样比例一致）
- 整群抽样
整群抽样往往按照自然空间分布分成不重复的部分，其特点是自然存在的群组，而非特别属性划分的集合，强调内在的不一致性。

样本的效度

外部效度：样本是否具有代表性
统计效度：如果样本具有代表性，得出的结论是否可靠

可以通过以下方式大概确定样本量：

\[ n = \frac{Z^2S^2}{d^2} \]

其中\(n\)为所需样本量，\(S\)为总体标准差，\(d\)为实际应用中允许的调查误差。

多选项的处理

针对多选项，通常有两种处理方式。第一种为二分法，其会为每个选项生成虚拟变量，并用0、1两个值分别代表是否已选。第二种为分类法，其可以估计多选项问题最多可能出现的答案数，然后为每个答案定义一个变量，变量的取值为备选答案。通常用于按照某种顺序进行多选的操作中。SPSS中通常使用多重响应分析来处理多选项的信息。一般来说，先定义多选项包含的变量集，可以使用分析-多重响应-定义变量集来进行操作。二分法通常只需要定义一个变量集，可以在选项二分法中定义计数值。分类法通常需要根据定义的变量个数定义变量集，并根据取值的不同定义不同的计数值。定义好变量集后，可以使用分析-多重响应-频率进行频率分析，并在分析-多重响应-交叉表中分析因为其他变量而导致多选项取值的不同。

重复值处理

可以使用数据-标识重复的个案来根据某（几）个值的取值寻找重复值。

逻辑性核查

通常可以使用分析-表-设定表来查看问卷内各项选项是否存在矛盾。

遗漏值处理

删除处理通常在各项分析内完成，可选完全删除（处理时任何一个变量出现一楼，就将与该受测者有关的数据全部删除）以及配对删除（分析时牵涉的变量有遗漏时才删除，是否删除根据分析命令而定）。

遗漏值置换可以使用转换-替换缺失值来完成。可以使用序列均值，临近点均值，临近点中位数，线性差值（基于缺失值前后两点数据的线性组合填补，是一种加权平均），以及线性趋势（使用回归模型拟合结果填补）几种填补方法。

偏离值与极端值处理

可以使用分析-描述统计-探索来观测变量的取值范围以及离群值和极端值的情况。

其他数据处理操作

使用转换-计算变量可以根据当前某个变量计算新变量。使用转换-可视离散化可以根据当前某个连续变量的值将其分为几类，形成分类变量。可以通过指定值和标签进行范围的选择和名称标定。