SPSS-逻辑回归 – SayuriBlog

逻辑回归

Logistic 回归为概率型非线性回归模型，是研究分类观察结果(Y)与一些影响因素(X)之间关系的一种多变量分析方法。

在实际工作中，经常需要研究某分类变量与一组自变量之间的关系。此时，若对分类变量直接拟合回归模型，则实质上拟合的是因变量某个类别的发生概率，参照线性回归模型的架构，有如下形式：

\[ \hat { P } = \alpha + \beta _ { 1 } x _ { 1 } + \ldots + \beta _ { m } x _ { m } \]

其中，\(\hat { P }\)是因变量发生概率。该模型可以描述当各个自变量变化时，因变量的发生概率会怎样变化，因而可满足分析的基本需要。

但是单纯的线性回归无法将因变量的值限制在0-1的范围内。因此，1970年，Cox引入了用于人口学领域的logit变换，通过对因变量进行转换解决了问题。Logit 变换，就是发生比的对数，即：

\[ Ln ( \Omega ) = L n ( odds ) = Ln \left( \frac { P } { 1 - P } \right) \]

通过转换后，logit P的取值范围扩展为以0为对称点的整个实数区，从而使得在任何自变量取值下，对P值的预测均有实际意义。

大量实践证明，logit P往往和自变量呈线性关系。换言之，概率值P与自变量之间的非线性关系符合logit 函数关系。从而可以通过该变换将曲线直线化。因此，只需要以 Logit P为因变量，建立包含n个自变量的Logistic回归模型即可：

\[ \operatorname { logit } \mathrm { P } = \alpha + \beta _ { 1 } x _ { 1 } + \ldots + \beta _ { n } x _ { n } \]

由上述模型可以逆推事件发生的概率P:

\[ p = \frac { e ^ { \alpha + \beta _ { 1 } x _ { 1 } + \ldots + \beta _ { n } x _ { n } } } { 1 + e ^ { \alpha + \beta _ { 1 } x _ { 1 } + \ldots + \beta _ { n } x _ { n } } } \]

二项Logistic回归方程的检验

回归方程的显著性检验

检验自变量全体与Logit P的线性关系是否显著。其原假设为各回归系数同时为0，自变量全体与Logit P的线性关系不显著。使用的检验统计量为似然比卡方（Chi-square）。

回归系数的显著性检验

逐个检验方程中各自变量是否与Logit P 有显著的线性关系，对因变量的Logit P是否有重要贡献。原假设为当前自变量的系数为0。其使用Wald统计量进行检验，该统计量符合卡方分布。

回归方程的拟合优度检验

与一般线性回归不同，逻辑回归中拟合优度的检验可以从以下两个方面进行考察：

回归方程能够解释因变量变差的程度。类似于一般线性回归分析。
回归方程的预测值与实际值之间吻合的程度。即需要检验方程的总体错判率；错判率低表明拟合优度高。

主要指标有三个：

Cox & Snell \(R^2\)统计量，类似于一般线性回归方程的R2指标。
Nagelkerke \(R^2\)，修正了的Cox & Snell R2，范围在(0,1)之间。接近1，拟合效果越好；接近0，拟合效果差。
Hosmer-Lemeshow检验：Hosmer-Lemeshow统计量越小，拟合效果越好，反之拟合效果差。检验若p<显著度水平，则拟合效果差，拒绝H0；否则接受H0，认为预测与实际情况吻合度较好。

除此之外，也可以使用混淆矩阵来判断模型的拟合效果。

上述检验可以汇总如下。