数据的测量尺度
- 名义尺度(名字,身份证号)
- 顺序尺度(小中大,低中高)
- 间隔尺度(包含顺序尺度的特征+有固定单位)
- 比率尺度(包含间隔尺度的特征+能有意义的乘除)
数据的获得方法
非随机抽样:从总体中有意识的选择具有代表性的典型个体进行细致调查
随机抽样
- 简单随机抽样
按照“总体中每个个体被抽到的机会均等”的原则,从总体中抽取部分个体。
- 分层抽样
按照总体中个体的某个特征,把总体中的个体分为若干个群组。并对群组中的个体进行简单随机抽样。
分层抽样要求层之间的差异大于层内部的差异。(等数分配法:每层抽取同样数量的个体;等比分配法:抽样比例一致)
- 整群抽样
整群抽样往往按照自然空间分布分成不重复的部分,其特点是自然存在的群组,而非特别属性划分的集合,强调内在的不一致性。
样本的效度
- 外部效度:样本是否具有代表性
- 统计效度:如果样本具有代表性,得出的结论是否可靠
可以通过以下方式大概确定样本量:
\[ n = \frac{Z^2S^2}{d^2} \]
其中\(n\)为所需样本量,\(S\)为总体标准差,\(d\)为实际应用中允许的调查误差。
多选项的处理
针对多选项,通常有两种处理方式。第一种为二分法,其会为每个选项生成虚拟变量,并用0、1两个值分别代表是否已选。第二种为分类法,其可以估计多选项问题最多可能出现的答案数,然后为每个答案定义一个变量,变量的取值为备选答案。通常用于按照某种顺序进行多选的操作中。SPSS中通常使用多重响应分析来处理多选项的信息。一般来说,先定义多选项包含的变量集,可以使用分析-多重响应-定义变量集
来进行操作。二分法通常只需要定义一个变量集,可以在选项二分法
中定义计数值。分类法通常需要根据定义的变量个数定义变量集,并根据取值的不同定义不同的计数值。定义好变量集后,可以使用分析-多重响应-频率
进行频率分析,并在分析-多重响应-交叉表
中分析因为其他变量而导致多选项取值的不同。
重复值处理
可以使用数据-标识重复的个案
来根据某(几)个值的取值寻找重复值。
逻辑性核查
通常可以使用分析-表-设定表
来查看问卷内各项选项是否存在矛盾。
遗漏值处理
删除处理通常在各项分析内完成,可选完全删除(处理时任何一个变量出现一楼,就将与该受测者有关的数据全部删除)以及配对删除(分析时牵涉的变量有遗漏时才删除,是否删除根据分析命令而定)。
遗漏值置换可以使用转换-替换缺失值
来完成。可以使用序列均值,临近点均值,临近点中位数,线性差值(基于缺失值前后两点数据的线性组合填补,是一种加权平均),以及线性趋势(使用回归模型拟合结果填补)几种填补方法。
偏离值与极端值处理
可以使用分析-描述统计-探索
来观测变量的取值范围以及离群值和极端值的情况。
其他数据处理操作
使用转换-计算变量
可以根据当前某个变量计算新变量。使用转换-可视离散化
可以根据当前某个连续变量的值将其分为几类,形成分类变量。可以通过指定值和标签进行范围的选择和名称标定。