Logistics回归 | 临床科研与统计
2024-05-02 20:42:23 10 举报
AI智能生成
Logistics回归是一种统计分析方法,广泛应用于概率分类问题。与线性回归不同,Logistics回归使用逻辑函数来估计概率,因此它可以处理离散的数据,如二进制分类问题。在Logistics回归中,我们使用逻辑回归函数将预测变量与响应变量关联起来,并使用最大似然估计来找到最佳拟合参数。这种方法在许多领域都有广泛的应用,如市场营销、风险评估、医疗诊断等。
作者其他创作
大纲/内容
基本概念
适用于反应变量为二分类(或多分类)的资料
Logit (P) = Ln [ p / (1-p) ] = β0+β1X1+....βnXn
卡方检验只能用于因变量和自变量都是分类变量的资料;
而Logistic回归可以用于自变量为连续变量的资料;
而Logistic回归可以用于自变量为连续变量的资料;
参考URL:https://www.bilibili.com/video/BV13G4y1t7ty/
以下仅为非配对Logistics的归纳,配对部分看URL
分类
根据反应变量类型
二分类反应变量Logistic
多分类有序反应变量Logistic
多分类无序反应变量Logistics
根据研究设计类型
非条件Logistic(研究对象未经匹配)
1:1条件Logistics(研究对象1:1匹配)
1:m或m:n条件Logistics(1:m或m:n匹配)
适用条件
反应变量为二分类变量或某事件的发生率
自变量与Logit (P)之间为线性关系
残差合计为0,且服从二项分布
各观测间相互独立
logistics回归模型应该用最大似然法进行参数估计和检验,不能使用最小二乘法
结果基本解读
各变量的偏回归系数β值及标准误
Wald 卡方值、自由度、P值
OR值(即exp(B))
即自变量改变1个单位,OR值改变量
(如女性与男性之间(0→1),改变了3.882,
即代表男性患病风险比女性大3.882倍)
(如女性与男性之间(0→1),改变了3.882,
即代表男性患病风险比女性大3.882倍)
哑变量的设置
当X为多分类变量时,不适合仅拟合一个回归系数解释多个类别间的差异;
因此,需要引入哑变量(因为不同X分类之间Y的平均变化量不一定等距);
其基本思路是引入(X-1)个哑变量对X个自变量进行解释
因此,需要引入哑变量(因为不同X分类之间Y的平均变化量不一定等距);
其基本思路是引入(X-1)个哑变量对X个自变量进行解释
哑变量注意问题
参照水平最好有实际意义,不推荐使用其它作为参照组
参照水平组要有一定频数作为保证,不应少于30或50例,选尽可能多频数的组
对有序自变量
从专业出发确定
分别哑变量和连续性变量引入模型进行比较
自变量的筛选方法与逐步回归(SPSS为例)
进入(全部纳入)
Forward(逐个变量加)
Conditional(最可靠)
LR
Wald(应慎用)
Backward(全变量再逐个丢)
Conditional(最可靠)
LR
Wald(应慎用)
模型拟合效果与拟合优度检验
模型拟合效果
对数似然值与伪决定系数
-2倍对数似然值(-2log likelihood)越接近0,模型拟合效果越好
但是,当自变量存在缺失值时,spss计算时会予以剔除,不参与统计分析,此时无法进行不同模型的拟合效果对比
因此,纳入数据尽量把自变量都收集完整 OR 进行数据插补
模型预测正确率
Classification Table可看逐步回归后的不同模型正确率
ROC曲线
ROC曲线下面积(AUC 95%CI)尽量越大越好
先勾选“保存”-概率,算出每个观测的患病概率Logit(P)
再通过“分析”-“ROC曲线”,检验变量为新增的预测概率,状态变量为预测变量,输入状态变量的值(患病值为1)
得曲线后再根据最靠近左上方点的敏感度,第一步的患病概率大于该点敏感度则可以判断为患病(患病值为1)
拟合优度检验
考察当前模型是否可以更进一步改善,检验当前模型与饱和模型的预测效果差是否有统计学意义
常用方法
Pearson和Deviance拟合优度检验
当自变量很多,或含连续性自变量时,不可用这两种方法
似然比检验
主要用于考察饱和模型是否可以更进一步简化
Hosmer-Lemeshow检验
通常用于自变量很多,或含连续性自变量的情况
模型的诊断与修正
多重共线性的识别
自变量之间的交互作用项(需排除)
目前SPSS Logistics过程无关于共线性诊断结果输出
代替方法:线性模型的共线性诊断
收藏
0 条评论
下一页