传统评分卡模型建模流程
2024-09-07 17:17:43 0 举报
AI智能生成
传统评分卡模型是一种广泛应用于信用风险评估、欺诈检测等领域的统计方法。这种模型通常包括两个主要步骤:首先,通过逻辑回归等方法从大量历史数据中提取出一组特征,这些特征通常包括客户的基本信息、信用记录、消费行为等;然后,根据这些特征建立一个评分卡,用于对新客户的信用风险进行评估。评分卡的表现形式通常是一系列加减分规则,得分越高,表示客户的信用风险越低。这种模型的优点是简单易懂,易于实施,但由于其基于历史数据,可能无法准确预测未来的风险变化。
作者其他创作
大纲/内容
学习目标
定义逾期
定义方法:滚动率分析(roll rate analysis)
样本选取
定义观察期
建模样本横跨的历史区间
方法:通过账龄分析(vintage analysis)
定义表现期
模型预测的时间长度
方法:通过账龄分析(vintage analysis)
变量分箱
连续型数据
处理方法
离散化:根据数据情况,划分为不同的区间
离散目的
提升模型稳定性
方便观察不同变量与逾期率的关系
离散型数据
不额外处理
合并成更紧密的区间
缺失值单独一个区间
变量筛选(入模筛选)
可以理解为N个变量与Y之间的趋势图
可以理解为N个变量与Y之间的趋势图
传统评分卡模型的变量数限制
10-15个变量
筛选原则
稳定性
通过群体稳定性指标PSI(Population Stability Index)筛选
PSI<0.1
稳定性高
0.1<PSI<0.25
稳定性一般
子主题0.25<PSI
稳定性差
信息值
IV(Information Value)
IV<0.02
无预测能力
0.02<IV<0.1
预测能力一般
0.3<IV
预测能力强
相关性
单变量间的相关性
皮尔逊相关系数
区间[-1,1]
绝对值越大,相关性越强
多变量间的共线性
方差膨胀系数VIF(Variance Inflation Factor)
VIF越大,共线性越严重
可以理解为:
VIF描述:变量间存在共线性时的方差/不存在共线性时的方差
VIF描述:变量间存在共线性时的方差/不存在共线性时的方差
VIF>10,具有强共线性
可解释性
每个变量入模前,需要变量具有解释性
需要每个变量的WOE分布具有单调性
即:逾期率在这个区间递增或递减
若不满足单调性,合并区间后单调性依旧难以保证,则需要剔除这个变量
建模
模型选择
传统评分卡模型趋向于使用逻辑回归模型—LR模型
逻辑回归模型实际上是一个线性模型
使用极大似然轨迹求解参数
模型评估
混淆矩阵
TP真阳
FP家养
TN真阴
FN假阴
ROC曲线
假阳性为横轴,真阳性为纵轴
AUC值
实际为ROC曲线下方的面积
越接近100%越好
稳定性好,不受到正负样本不均衡的影响
模型应用
逻辑回归输出的[0,1]间的概率
需要进一步映射
Score+PDO = A+Bln(Odds)
Score为最终输出分数,Odds为分数对应的好坏比
PDO表示分数间隔固定值
PDO表示分数间隔固定值
需要求解A、B
Score和PDO通常根据业务和业务人员经验设定
0 条评论
下一页