金融智能风控
2022-03-19 19:01:30 0 举报
AI智能生成
111
作者其他创作
大纲/内容
指先买后付,即使用信用值来预支金钱以购买相应服务
信用
指通过策略对用户信用度进行评估并进行决策
管理
基础指标:年化百分率,账龄,逾期天数...
目标:指运用技术手段,对信息风险进行规避,利用模型输出未来事件的期望轨迹
比较典型的有年龄,性别,家庭状况,此外还有收入,资产信息
资质类数据
包括多头和征信,分别指在其他平台可能有负债严重的倾向和征信机构分析出的分数
借贷类数据
用户授权后由贷款平台或第三方数据源采集的数据,包括指纹,通讯商,电商,出行数据等
授权信息
包括用户在借款平台的行为评分卡,催收评分卡,历史还款表现等
平台表现
贷款平台在APP中抓取的贷款行为
埋点数据
数据采集
风控术语
策略:风控建模
信贷风控架构
架构
0.信用管理基础
通过构建任务形式通过机器迭代经验风险来降低结构风险来达到学习的策略
定义
给定输入X产生输出Y的生成关系
生成方法
由数据直接学习决策函数或者条件概率分布
判别方法
模型分类
分类
回归
结果是否离散
监督学习
半监督学习
无监督学习
是否有标签
算法选择
极大似然估计,矩估计等
策略
模型,策略,算法
模型学习
偏差:度量了模型的期望预测与真实结果的偏离程度
方差:度量了同样大小的训练集变大导致的学习能力的变化
噪声:刻画问题本身的难度
误差值=偏差+方差+噪声
训练程度与误差值
模型评价
基本概念
GLM(广义线性回归),LASSO回归,knn回归,RFR...
聚类
算法分类
业务专家识别
统计推断
清洗异常
过采样,欠采样
权重平衡
采样,权重
特征清洗
归一化,离散化,哑变量处理,one-hot,数据变换
单个特征
PCA降维,LDA降维
降维
方差选择
相关系数
卡方检验
互信息法
Filter
递归特征消除
Wrapper
基于惩罚项的特征选择
基于树模型的特征选择
Embedded
特征选择
多个特征
数据加工,生成特征
衍生变量
预处理
特征工程
特征重要性,权重
特征监控
混淆矩阵,P-R曲线,ROC曲线,KS曲线,R方值,MSE...
性能度量
稳定性,有效性,负样本抓获能力,排序能力...
业务评价
度量
2.机器学习模型
按照特定维度将样本空间划分为多个子空间
不同子群往往差异很大,性质相差很远,得到的结果泛化性不强
辛普森悖论:整体性质可能与子群性质完全相反
原因
依照客群身份分别建模:教师模型,学生模型,工作族模型
依场景建模:小额现金贷模型,大额分期模型
是否有房建模,消费是否活跃建模...
经验分群
决策树分群
knn分群
监督分群
K均值聚类
混合高斯模型(GMM)
均值偏移
DBScan
无监督分群
技术分群
方法
游戏达人
网购达人
理财专家
结果
用户分群是非必要建模流程,一般用在机器学习模型效果较差情况下
说明
4.用户分群
使得判断样本属于目标类的概率,确实有该概率的样本属于目标类
意义
使用分箱处理和WOE编码形式的评分卡模型
通用校准
不同模型加权需要对分数,权重进行标准化
将多个模型合并结果作为自变量,标签为因变量,建立LR模型
多模型校准
采样引起的样本分布变化导致的模型偏移
产生原因
错误分配
采样概率校准
权重还原
校准方法
选择最大KS值作为切分点
最优评分切分
分析新旧模型是否替换,主要从信贷通过率,坏账率角度分析
交换集分析
考虑模型以外的因素,政策性规则,模型误差,数据风险,白户风险
人工干预
决策与应用
6.模型校准与决策
目的:通过统计手段实现贷款人群额度的风险刻画
申请评分卡: 用于贷前客户的进件审批
行为评分卡:用于贷中客户的升降
催收评分卡:用于贷后管理,使用催收记录进行建模
流失预警评分模型:预测平台现有存量用户在某时间节点流失概率
营销评分模型:目标客群收到营销后申请金融服务的概率
欺诈评分模型:预测用户的借款目的不正当程度的评分模型
...
使用分类
一般将目标抽象为二分类问题
因变量设计:数据建模,转化为近似可解问题
业务问题转化
span style=\"font-size: inherit;\
表现窗口:表现期
过小变量效果显著下滑,过长则变量信息丰富,周期长观察成本高
观察窗口:观察期
一般通过账龄来分析账户成熟期,给出表现期,观察期合理划分
账龄分析,时间窗口设计
观察样本(develop)
验证样本(valuation)
时间外样本(out of time)
数据集切分
代表性:必须充分代表总体,不能用不同客群作为样本来建模
充分性:样本集数据量满足一定条件,若过小,无法满足统计的显著性
时效性:样本的观察期与实际应用节点越接近越好
排除性:某些用户不应作为样本,如无还款用户,欺诈用户不应作为行为评分样本集
样本选择
随机过采样:对小群体进行复制,达到平衡效果
分层抽样:保证开发样本,验证样本,时间外样本正负样本比例相同
算法抽样:使用聚类算法,使用簇平均值代替,或使用分类算法欠采样
采样后要对新样本进行加权
通常正样本较少
采样与加权
模型设计
特征构造,特征变换,特征筛选,模型评估
模型开发
持续追踪,模型迭代,重构更新
模型上线
建模流程
1.评分卡模型
意义:数据和特征决定了机器学习的上限,而模型和算法只是尽可能逼近这个上限而已
缺失值分析,异常值分析,一致性分析
数据质量分析
分布分析,对比分析,统计量分析,周期性分析,贡献度分析,相关性分析
数据特征分析
数据探索
一般类型:值填充,归一化,编码,分箱,值转化,哑变量处理,多项式组合
特征处理
非业务默认缺失下,一般缺失较多特征的表示该特征没有携带充分的信息
缺失率
特征对标签的可能性与不可能性影响程度表明其携带信息量
信息量
皮尔逊相关系数
斯皮尔曼相关系数
肯德尔相关系数
相关性
初步筛选
F检验
回归策略:前向选择,后向消除,双向消除
AIC(赤池信息准则)
BIC(贝叶斯信息准则)
检验标准
逐步回归
特征筛选
3.特征工程
风险分析的本质是使用样本样本来估计总体分布,但局部样本无法充分表征总体的分布,会产生幸存者偏差
一种对拒绝用户进行推理归纳,从而得到该部分群体标签分布的方法
作用
缺点周期长,可能有收益损失
对打分低于通过阈值的客群,抽取部分拒绝样本进行放款试验
数据验证
利用其他机构或者平台其他产品线的标记结果进行分析
同生表现
使用多条规则综合判断阈值,而不是常规的一条规则筛选拒绝用户
多规则交叉
标签分裂
用已知标签的样本训练,对未知标签的拒绝样本进行预测,并按照一定比例标为正样本,其余是灰度样本
硬截断法
将拒绝样本依照概率复制两条样本进行全量训练
模糊展开法
利用样本分布特点,调整已知好坏标签样本的权重
重新加权法
基于数据分析修正模型偏差,引入人工修正,设置经验风险因子
外推法
通过多次迭代的形式,直到某个指标收敛,最终获取拒绝样本的逾期概率
迭代再分类法
数据推断
常见方法
5.拒绝推断
当月新增客户分数等级分布
当月新增客户决策变量PSI
当月新申请客户分数PSI
前端监控
最新已有表现月份逾期客户占比
最新已有表现模型KS值
后端监控
模型上线后,每个月月初对全量客户打分,持续跟进模型表现
追踪
上线部署
模型训练好的参数文件部署到线上,实时获取最新标签数据,在线训练,实时更新参数
模型更新
7.上线部署与监控
金融智能风控
0 条评论
下一页
为你推荐
查看更多