虚拟变量
在一个多元回归模型中,因变量和自变量通常都是定量的;但实际研究中,往往存在定性的因素(比如性别,方位,类型等等)。
如果需要将定性的变量引入回归模型,我们可以将定性的变量的各个分类分别当作一个独立的变量提取出来(比如将性别提取为是否男性与是否女性)。提取后的变量只有0与1两个取值,在统计计量学中,定性的二值变量(binary variable)通常被称为虚拟变量/哑变量(dummy variable)。
通过将定性变量转化为数个哑变量,我们可以具体研究定性变量各个水平对因变量产生的影响。
使用虚拟变量参与回归分析
若一个定性变量具有\(n\)个可能的取值,这个变量就能生成\(n\)个虚拟变量。但是,我们不能同时将这\(n\)个变量引入模型。由于这\(n\)个变量的取值存在着互斥的关系,同时将所有虚拟变量引入模型会产生完全共线性问题。因此,我们通常只引入\(n-1\)个虚拟变量,剩下的1个虚拟变量就被称为参照组。
当我们将\(n-1\)个虚拟变量引入回归模型中,它们在回归模型中的系数就能够反映他们相对于参照组的差异。举个例子,如果我们将性别/婚姻状况分为四个虚拟变量,分别为\(marrmale, marrfemale, singfemale, singmale\)。
我们将\(singmale\)作为参照组,使用剩下的三个虚拟变量构建模型如下:
\[ \begin{aligned} \ln (wage) &= 0.321+ 0.213marrmale - 0.198marrfemale - 0.110singfemale\\ & + 0.079 educ + 0.027exper - 0.029tenure \end{aligned} \]
根据模型我们可以得出,保持\(educ,exper,tenure\)不变的情况下,已婚男性比单身男性收入高21.3%;另外,在其他变量相同的情况下,预计一个已婚女性比一个男性单身汉收入低19.8%。三个虚拟变量的系数的意义均是与单身男性相比,工资的比例的差异。
上述处理过程对于所有定性变量,包括分类变量以及序次变量都是成立的。
在SPSS中生成虚拟变量
在SPSS中,可以使用转换-重新编码为不同变量
生成虚拟变量。
如图,将左侧的分类变量添加到右侧数字变量-输出变量
中。在右侧蓝框中定义生成的虚拟变量的名称与标签,然后点击旧值和新值
根据原分类变量的值设置虚拟变量的值,此处不再赘述。设置完成后返回原界面点击确定即可生成一列虚拟变量。
注意,在生成第二列及以后的虚拟变量时,需要将数字变量-输出变量
中的对应关系删除(点击旁边往左的按钮)才能继续使用分类变量生成其他虚拟变量。