机器学习分享SESSION1
2023-07-25 10:21:01 0 举报
AI智能生成
机器学习分享SESSION1(内部)
作者其他创作
大纲/内容
业务场景
风控
业务流程
评分卡(Application Card、Behavior Card、Collection Card)
静态评分卡
动态评分卡
信用模型的特征类型
个人基本信息
金融信息
多头信息
历史平台表现
埋点数据
外部征信数据
模型类型
A卡:解决首次贷款的用户信用评估问题
B卡:根据贷款期间产生的数据动态调整用户的额度,主要目的是预测客户的动态风险
C卡:用于贷后管理
EKYC
证件识别/人证比对:从客户证件图片上提取文本信息、人脸等关键信息,在系统中做比对
人脸识别:识别是否是本人操作及是否为黑名单人员
机器人/自动驾驶
业务流程
模块
感知
模型
检测
物体检测
异常检测
分割/边缘检测
可行驶区域识别
车道线识别
分类
场景识别
物体分类
Corner Case识别
数据闭环
数据驱动模型
云平台和大数据
智能标注
交互式标注
预标注
模型测试和验证(Benchmark)
其他:定位、预测、决策规划、控制、模拟仿真
AI所使用场景:推荐、广告、风控、NLP、CV
基础
机器学习与深度学习
范围: ML>DL
复杂度:DL >> ML
推理: ML >DL
感知:DL > ML
一些对齐的概念
特征与模型:工业界两种主流建模思路是复杂特征+简单算法和简单特征+复杂算法,整体来看两者没有优劣之分,但是算法越简单,可解释性越强。深度学本身就觉有自动提取特征的能力,建立一个优秀的模型并不一定要求大量的业务经验支撑,对新手更友好,但复杂算法对数据量和计算资源的要求也更高。
MLOps: 从业务的视角,从研发、运营到持续升级去关注AI平台工具的建设,是AI标准化、流程化的最佳实践。 是一种机器学习工程文化和做法,统一机器学习系统开发(Dev)和机器学习系统运营(Ops)。实施MLOps意味着在机器学习系统构建流程的所有步骤(包括特征处理、训练、集成、测试、发布、部署、监控)中实现自动化和智能化。
训练过程
模型训练原理
损失函数
分类
回归
评价函数
分类
类别均衡:Recall、Precision、F1
类别不均衡:AUC、KS
回归
模型生命周期
模型的设计与开发
模型生命周期
Refit:在原有模型基础上,对变量重新进行系数拟合或者变量调整(特征不变)
Rebuild:当前模型性能明显下降,且无法通过拟合系数或调整变量来提高模型性能,需开发新模型(需重复之前的建模流程,周期较长)
模型设计
因变量设计
账龄(VIntage)分析
分析变化规律
确定账户成熟期
分析影响因素:策略变化、客群变化、市场环境、政策变化
时间窗口:分为表现窗口和观测窗口。如果表现窗口设计过小,则用户的风险暴露不充分,但观察期够长,有更丰富的变量信息用于建模;表现窗口过大,观察窗口过小,变量的效果下降。
数据集切分
数据集划分:Train、Val、Test(Out of Time, OOT)
关注重点:预测模型的本质是使用历史数据对未来的数据做预测,在实际应用中,应该更关注模型对未来样本的预测能力,以及模型的跨时间稳定性
激进模式:为了获取较新的样本,也可以使用早期的时间切片数据作为测试集合。模型上线前,需要将三份数据集合并重新训练
样本选择
代表性
充分性
时效性
排除性
采样
欠采样
随机
分层
过采样
SMOTE(插值过采样)
GAN(对抗学习)
模型组件设计
模型开发(SESSION 3)
数据(SESSION 2)
训练
分布式训练
K8S
调度
批调度:Kubernetes默认开启的资源调度策略是LeastRequestedPriority,消耗的资源最少的节点会优先被调度,使得整体集群的资源使用在所有节点之间分配地相对均匀。但是这种调度策略往往也会在单个节点上产生较多资源碎片。
Gang Scheduling::pod都需要调度起来。观察Job下的Pod已调度数量是否满足了最小运行数量,当Job的最小运行数量得到满足时,为Job下的所有Pod执行调度动作,否则,不执行。避免Pod的任意调度导致集群资源的浪费甚至死锁。
调度策略
Binpack:使用Binpack调度策略可以优先将节点资源填满,在给各个可以投递的节点打分,假如放在当前节点后,谁更满,谁的分数就高。因为这样可以尽量将应用负载靠拢至部分节点,非常有利于K8S集群节点的自动扩缩容功能,可以有效解决资源碎片的问题。
存储
分布式策略
数据并行:不同GPU有模型的多个副本,每个GPU分配不同的数据,将所有GPU计算结果按照某种方式合并
PS
Ring Allreduce
模型并行:不同GPU负责网络模型的不同部分。例如,不同网络层被分配到不同的GPU,或者同一层不同参数被分配到不同GPU
网络
TCP/IP 架构瓶颈
RDMA TCP/IP 对比
RDMA三种实现
Infiniband(IB):专为 RDMA 设计的网络,从硬件层面保证可靠传输,同时由于这是一种新的网络技术,需要支持该技术的 NIC 和交换机。
RoCE(RDMA over Converged Ethernet):RoCE 是一种允许通过以太网进行 RDMA 的网络协议。RoCE 有 2 个版本:RoCE v1 和 RoCE v2。RoCE v1 是一种链路层协议,允许在同一个广播域下的任意两台主机直接访问;RoCE v2 基于 UDP 层协议,实现了路由功能,RoCE v2 针对 RoCE v1 进行了一些改进,如引入 IP 解决扩展性问题,可以跨二层组网等。
iWARP(internet Wide Area RDMA Protocol:允许在 TCP 上执行 RDMA 的网络协议。在大型组网的情况下,iWARP 的大量 TCP 连接会占用大量的额外内存资源,对系统规格要求较高。
优化/搜索
管道优化搜索
超参数搜索
Grid Search
Bayesian optimiazation
NAS(神经网络架构搜索)
部署与上线
部署场景
云端
边缘端
模型一致性
基础数据表一致:与离线建模使用的数据定义一致
入模型变量一致:离线建模特征工程逻辑与线上复现逻辑一致。优化:把transformer模块打包到pipeline中进行部署
模型预测结果一致:比对线上模型和离线模型预测结果
模型监控
前端监控
PSI
分数分布
后端监控
Free Topic
收藏
收藏
0 条评论
下一页