金融智能风控
2022-03-19 19:01:30 0 举报
AI智能生成
111
作者其他创作
大纲/内容
0.信用管理基础
信用
指先买后付,即使用信用值来预支金钱以购买相应服务
管理
指通过策略对用户信用度进行评估并进行决策
策略:风控建模
风控术语
基础指标:年化百分率,账龄,逾期天数...
风险指标: 延滞率,不良率,负债比,...
目标:指运用技术手段,对信息风险进行规避,利用模型输出未来事件的期望轨迹
数据采集
资质类数据
比较典型的有年龄,性别,家庭状况,此外还有收入,资产信息
借贷类数据
包括多头和征信,分别指在其他平台可能有负债严重的倾向和征信机构分析出的分数
授权信息
用户授权后由贷款平台或第三方数据源采集的数据,包括指纹,通讯商,电商,出行数据等
平台表现
包括用户在借款平台的行为评分卡,催收评分卡,历史还款表现等
埋点数据
贷款平台在APP中抓取的贷款行为
架构
信贷风控架构
2.机器学习模型
基本概念
定义
通过构建任务形式通过机器迭代经验风险来降低结构风险来达到学习的策略
模型学习
模型,策略,算法
模型分类
生成方法
给定输入X产生输出Y的生成关系
判别方法
由数据直接学习决策函数或者条件概率分布
算法选择
结果是否离散
分类
回归
是否有标签
监督学习
半监督学习
无监督学习
策略
极大似然估计,矩估计等
模型评价
误差值=偏差+方差+噪声
偏差:度量了模型的期望预测与真实结果的偏离程度
方差:度量了同样大小的训练集变大导致的学习能力的变化
噪声:刻画问题本身的难度
训练程度与误差值
算法分类
分类
KNN,LR,SVM,DT,RF,XGboost,lightGBM....
回归
GLM(广义线性回归),LASSO回归,knn回归,RFR...
聚类
kmeans,DBscan,均值偏移,EM算法,GMM...
特征工程
特征清洗
清洗异常
业务专家识别
统计推断
采样,权重
过采样,欠采样
权重平衡
预处理
单个特征
归一化,离散化,哑变量处理,one-hot,数据变换
多个特征
降维
PCA降维,LDA降维
特征选择
Filter
方差选择
相关系数
卡方检验
互信息法
Wrapper
递归特征消除
Embedded
基于惩罚项的特征选择
基于树模型的特征选择
衍生变量
数据加工,生成特征
特征监控
特征重要性,权重
度量
性能度量
混淆矩阵,P-R曲线,ROC曲线,KS曲线,R方值,MSE...
业务评价
稳定性,有效性,负样本抓获能力,排序能力...
4.用户分群
定义
按照特定维度将样本空间划分为多个子空间
原因
不同子群往往差异很大,性质相差很远,得到的结果泛化性不强
辛普森悖论:整体性质可能与子群性质完全相反
方法
经验分群
依照客群身份分别建模:教师模型,学生模型,工作族模型
依场景建模:小额现金贷模型,大额分期模型
是否有房建模,消费是否活跃建模...
技术分群
监督分群
决策树分群
knn分群
无监督分群
K均值聚类
混合高斯模型(GMM)
均值偏移
DBScan
结果
游戏达人
网购达人
理财专家
说明
用户分群是非必要建模流程,一般用在机器学习模型效果较差情况下
6.模型校准与决策
意义
使得判断样本属于目标类的概率,确实有该概率的样本属于目标类
校准方法
通用校准
使用分箱处理和WOE编码形式的评分卡模型
多模型校准
不同模型加权需要对分数,权重进行标准化
将多个模型合并结果作为自变量,标签为因变量,建立LR模型
错误分配
产生原因
采样引起的样本分布变化导致的模型偏移
权重还原
采样概率校准
决策与应用
最优评分切分
选择最大KS值作为切分点
交换集分析
分析新旧模型是否替换,主要从信贷通过率,坏账率角度分析
人工干预
考虑模型以外的因素,政策性规则,模型误差,数据风险,白户风险
1.评分卡模型
目的:通过统计手段实现贷款人群额度的风险刻画
使用分类
- 申请评分卡: 用于贷前客户的进件审批
- 行为评分卡:用于贷中客户的升降
- 催收评分卡:用于贷后管理,使用催收记录进行建模
- 流失预警评分模型:预测平台现有存量用户在某时间节点流失概率
- 营销评分模型:目标客群收到营销后申请金融服务的概率
- 欺诈评分模型:预测用户的借款目的不正当程度的评分模型
...
建模流程
模型设计
业务问题转化
一般将目标抽象为二分类问题
因变量设计:数据建模,转化为近似可解问题
账龄分析,时间窗口设计
表现窗口:表现期
过小则风险暴露不充分, 过长则风险暴露,损失发生
观察窗口:观察期
过小变量效果显著下滑,过长则变量信息丰富,周期长观察成本高
一般通过账龄来分析账户成熟期,给出表现期,观察期合理划分
数据集切分
- 观察样本(develop)
- 验证样本(valuation)
- 时间外样本(out of time)
样本选择
代表性:必须充分代表总体,不能用不同客群作为样本来建模
充分性:样本集数据量满足一定条件,若过小,无法满足统计的显著性
时效性:样本的观察期与实际应用节点越接近越好
排除性:某些用户不应作为样本,如无还款用户,欺诈用户不应作为行为评分样本集
采样与加权
通常正样本较少
随机过采样:对小群体进行复制,达到平衡效果
分层抽样:保证开发样本,验证样本,时间外样本正负样本比例相同
算法抽样:使用聚类算法,使用簇平均值代替,或使用分类算法欠采样
采样后要对新样本进行加权
模型开发
特征构造,特征变换,特征筛选,模型评估
模型上线
持续追踪,模型迭代,重构更新
3.特征工程
意义:数据和特征决定了机器学习的上限,而模型和算法只是尽可能逼近这个上限而已
数据探索
数据质量分析
缺失值分析,异常值分析,一致性分析
数据特征分析
分布分析,对比分析,统计量分析,周期性分析,贡献度分析,相关性分析
特征处理
一般类型:值填充,归一化,编码,分箱,值转化,哑变量处理,多项式组合
文本型:词袋模型,TF-IDF,word2vec
特征筛选
初步筛选
缺失率
非业务默认缺失下,一般缺失较多特征的表示该特征没有携带充分的信息
信息量
特征对标签的可能性与不可能性影响程度表明其携带信息量
相关性
皮尔逊相关系数
斯皮尔曼相关系数
肯德尔相关系数
逐步回归
F检验
回归策略:前向选择,后向消除,双向消除
检验标准
AIC(赤池信息准则)
BIC(贝叶斯信息准则)
5.拒绝推断
原因
风险分析的本质是使用样本样本来估计总体分布,但局部样本无法充分表征总体的分布,会产生幸存者偏差
作用
一种对拒绝用户进行推理归纳,从而得到该部分群体标签分布的方法
常见方法
数据验证
对打分低于通过阈值的客群,抽取部分拒绝样本进行放款试验
缺点周期长,可能有收益损失
标签分裂
同生表现
利用其他机构或者平台其他产品线的标记结果进行分析
多规则交叉
使用多条规则综合判断阈值,而不是常规的一条规则筛选拒绝用户
数据推断
硬截断法
用已知标签的样本训练,对未知标签的拒绝样本进行预测,并按照一定比例标为正样本,其余是灰度样本
模糊展开法
将拒绝样本依照概率复制两条样本进行全量训练
重新加权法
利用样本分布特点,调整已知好坏标签样本的权重
外推法
基于数据分析修正模型偏差,引入人工修正,设置经验风险因子
迭代再分类法
通过多次迭代的形式,直到某个指标收敛,最终获取拒绝样本的逾期概率
7.上线部署与监控
追踪
模型上线后,每个月月初对全量客户打分,持续跟进模型表现
前端监控
当月新增客户分数等级分布
当月新增客户决策变量PSI
当月新申请客户分数PSI
...
后端监控
最新已有表现月份逾期客户占比
最新已有表现模型KS值
最新已有表现月份前5%,10%低分段客群坏客户命中率
...
上线部署
模型更新
模型训练好的参数文件部署到线上,实时获取最新标签数据,在线训练,实时更新参数
0 条评论
下一页