Ai产品养成(4) 模型评估指标的 基础概念
2023-04-26 19:09:34 2 举报
AI智能生成
模型评估指标是衡量AI产品性能的重要工具,它可以帮助开发者了解模型的准确性、稳定性和效率。常见的评估指标包括准确率、召回率、F1分数等。准确率是指模型预测正确的样本数占总样本数的比例;召回率是指模型正确预测为正例的样本数占所有实际为正例的样本数的比例;F1分数则是准确率和召回率的调和平均数,用于综合评价模型的性能。此外,还有AUC-ROC曲线、均方误差等指标,它们分别用于评估二分类问题和回归问题的模型性能。通过这些指标,我们可以对模型进行细致的分析和优化,从而提高AI产品的质量和用户体验。
作者其他创作
大纲/内容
模型评估
指标体系
指标体系
在线评估
模型部署上线后,
使用线上真实数据对模型进行的评估。
这个时候,产品经理或者
运营同学大多采用 ABTest
的方式去判断业务的表现。
使用线上真实数据对模型进行的评估。
这个时候,产品经理或者
运营同学大多采用 ABTest
的方式去判断业务的表现。
在线评估关注的是业务相关指标,
比如新用户的转化率、优惠券的核销率、
信贷审核的通过率等
比如新用户的转化率、优惠券的核销率、
信贷审核的通过率等
离线评估
特征评估
评估模型中重要性比较高的特征
特征自身的稳定性
PSI来判断,PSI是指评估某个特征的数据
随着时间推移
发生变化而不再稳定的指标
随着时间推移
发生变化而不再稳定的指标
特征来源的
稳定性
稳定性
主要看特征是
从哪里接入的
从哪里接入的
内部数据
第三方数据
特征获取的成本进行
模型带来的增益是
否可以覆盖掉它们的成本,
以及能否通过数据缓存
来减少模型对它们的调用
否可以覆盖掉它们的成本,
以及能否通过数据缓存
来减少模型对它们的调用
模型评估
统计性
覆盖度、
模型覆盖度为例,它表示模型可以覆盖人群的百分比,
模型的覆盖度 = 模型可以打分的人数 / 需要模型打分的人数。
覆盖度越高,代表模型可以打分的人数越多,
也就是说模型可以评估更多人。
如果模型覆盖度过低,即使它的性能表现很好,
在某些业务场景下模型也不可用。
也就是说模型可以评估更多人。
如果模型覆盖度过低,即使它的性能表现很好,
在某些业务场景下模型也不可用。
值域
模型最大值和最小值设置
得是不是合理
得是不是合理
模型输出的分数范围太窄,
就会导致一个分数点集中很多人,
人群没有得到很好的区分
就会导致一个分数点集中很多人,
人群没有得到很好的区分
分布
模型对人打分后,分数和人群的分布形态
评估标准:应该符合常识
模型性能
评估模型
效果
的指标,
它和模型
要解决的
问题相关
效果
的指标,
它和模型
要解决的
问题相关
分类问题
二分类模型
二分类模型在实际业务中使用比较多,
比如,它经常用于判断用户的性别、
用户的购买偏好、支付宝的芝麻分、
京东的小白信用、微信的支付分等问题
比如,它经常用于判断用户的性别、
用户的购买偏好、支付宝的芝麻分、
京东的小白信用、微信的支付分等问题
多分类模型
回归问题
MAE(平均绝对误差)
预测值与真实值之间差距的绝对值的平均值。
MAE值越小,说明模型预测的结果与真实值越接近。
MAE值越小,说明模型预测的结果与真实值越接近。
MSE(均方误差)、
预测值与真实值之间的差距的平方和的平均值。
MSE值越小,说明模型预测的结果与真实值越接近
MSE值越小,说明模型预测的结果与真实值越接近
RMSE(均方根误差)
它是均方误差(MSE)的平方根。
均方误差是模型预测结果与真实结果之差的平方和的平均值,
而RMSE是MSE的平方根,
用于表示模型预测结果与真实结果之间的平均偏差。
均方误差是模型预测结果与真实结果之差的平方和的平均值,
而RMSE是MSE的平方根,
用于表示模型预测结果与真实结果之间的平均偏差。
决定系数
(Coefficient of Determination,R²)
(Coefficient of Determination,R²)
决定系数用于衡量模型对总方差的解释能力,
它表示模型预测结果的方差占总方差的比例。
R²值越接近1,说明模型对数据的拟合效果越好
它表示模型预测结果的方差占总方差的比例。
R²值越接近1,说明模型对数据的拟合效果越好
模型稳定性
判断模型输出结果,是否会随着时间推移,
而发生较大变化不再稳定的指标,
模型的稳定性会直接影响模型的结果
而发生较大变化不再稳定的指标,
模型的稳定性会直接影响模型的结果
什么是
混淆矩阵?
混淆矩阵?
概念
混淆矩阵是机器学习中用于衡量分类模型性能的一种可视化工具。
混淆矩阵将分类器预测结果和真实结果的交叉情况以矩阵的形式呈现出来,
可以更直观地分析模型的分类效果
混淆矩阵将分类器预测结果和真实结果的交叉情况以矩阵的形式呈现出来,
可以更直观地分析模型的分类效果
它有两个定义,分别是Positive和Negative概念,
一般教材上会说明Positive为正例,Negative为负例。
在混淆矩阵中,T和F代表模型判断的对和错,P和N代表模型预测结果的好和坏
一般教材上会说明Positive为正例,Negative为负例。
在混淆矩阵中,T和F代表模型判断的对和错,P和N代表模型预测结果的好和坏
混淆矩阵
四个元素
举例说明
四个元素
举例说明
真正例(True Positive, TP)
模型预测为正例,现实也是正例
TP 是指模型预测这个人是好人,
实际上这个人是好人,模型预测正确
实际上这个人是好人,模型预测正确
假正例(False Positive, FP
模型预测为正例,实际为反例
FP指模型预测这个人是好人,
实际上这个人是坏人,模型预测错误
实际上这个人是坏人,模型预测错误
真反例(True Negative, TN)
模型预测为反例,现实也是反例
TN 是指模型预测这个人是坏人,
实际上这个人是坏人,模型预测正确。
实际上这个人是坏人,模型预测正确。
假反例(False Negative, FN)
模型预测为反例,实际为正例
FN 是指模型预测这个人是坏人,
实际上这个人是好人,模型预测错误
实际上这个人是好人,模型预测错误
混淆矩阵的指标:
准确率、
精确率、
召回率
准确率、
精确率、
召回率
准确率:
预测正确的样本数量占总样本数量的比例
公式为(TP+TN)/(TP+TN+FP+FN)
精确率
预测为正例的样本数占预测为正例的样本数的比例
公式为 TP/(TP+FP)
召回率:
正确预测为正例的样本数占真实为正例的样本数的比例
公式为 :TP/(TP+FN)
FI值:F1值是精确率和召回率的调和平均数
TPR|FRP
ROC曲线|
KS值|AUC
ROC曲线|
KS值|AUC
TPR和FPR是ROC曲线中的两个重要指标,
而ROC AUC和KS则是基于这两个指标计算得出的模型性能评价指标。
而ROC AUC和KS则是基于这两个指标计算得出的模型性能评价指标。
回归算法
常用的
评估指标
常用的
评估指标
回归算法的评估和分类算法的评估在底层逻辑上是一致的,
都是为了找到真实标签和预测值之间的差异。
只是对于分类算法来说,我们关注的是预测分类和实际分类是否相同,
而对于回归算法来说,我们关注的是模型是否预测到了正确的数值。
都是为了找到真实标签和预测值之间的差异。
只是对于分类算法来说,我们关注的是预测分类和实际分类是否相同,
而对于回归算法来说,我们关注的是模型是否预测到了正确的数值。
MSE 均方误差
(Mean Squared Error)
(Mean Squared Error)
它测量模型预测值和真实值之间的均方差,
即预测值与真实值之差的平方和再求平均值。
即预测值与真实值之差的平方和再求平均值。
均方误差 MSE,它的应用最广泛,用来判断预测值和实际值之间误差的指标。
它的范围是 0 到正无穷,数值越小代表模型性能越好。
它的范围是 0 到正无穷,数值越小代表模型性能越好。
RMSE 均方根误差
(Root-mean-squared Error)
(Root-mean-squared Error)
它是均方误差(MSE)的平方根。
均方误差是模型预测结果与真实结果之差的平方和的平均值,
而RMSE是MSE的平方根,
用于表示模型预测结果与真实结果之间的平均偏差。
均方误差是模型预测结果与真实结果之差的平方和的平均值,
而RMSE是MSE的平方根,
用于表示模型预测结果与真实结果之间的平均偏差。
它是由 MSE 开根号得到的,也是用来判断预测值和实际值之间误差的指标。
它的范围也是 0 到正无穷,数值越小代表模型性能越好
它的范围也是 0 到正无穷,数值越小代表模型性能越好
MAE (平均绝对误差)
(Mean Absolute Error )
(Mean Absolute Error )
预测值与真实值之间差距的绝对值的平均值。
MAE值越小,说明模型预测的结果与真实值越接近。
MAE值越小,说明模型预测的结果与真实值越接近。
R2(R Squared 决定系数)。
决定系数用于衡量模型对总方差的解释能力,
它表示模型预测结果的方差占总方差的比例。
R²值越接近1,说明模型对数据的拟合效果越好
它表示模型预测结果的方差占总方差的比例。
R²值越接近1,说明模型对数据的拟合效果越好
稳定性指标:
PSI值
PSI值
群体稳定性指数(Population Stability Index),
通过 PSI 指标,我们可以得到不同样本(不同时间段给到模型的样本)下,
模型在各分数段分布的稳定性。
通过 PSI 指标,我们可以得到不同样本(不同时间段给到模型的样本)下,
模型在各分数段分布的稳定性。
计算模型的稳定性,我们需要先有一个参照物。
在评分模型中,为了进行对比,我们至少需要两个分布结果,
一个是预期分布结果一个是实际分布结果
在评分模型中,为了进行对比,我们至少需要两个分布结果,
一个是预期分布结果一个是实际分布结果
产品验收阶段,我会使用模型上线时的 OOT 样本作为预期样本,
非 OOT 时段的近期抽样样本作为实际样本
非 OOT 时段的近期抽样样本作为实际样本
PSI值计算流程
将数据按照某个关键变量(例如时间戳、群体分类变量)进行排序,
并将排序后的数据划分为若干组。
并将排序后的数据划分为若干组。
对于每一组数据,计算该组在新旧数据中的占比。
计算各组占比之差的加权平均值,得到PSI值。
根据PSI值进行评估,PSI值在0.1-0.25 都是可接受
如果PSI值小于0.1,
则表示两个数据集之间的分布稳定性比较好;
如果PSI值大于0.25,
则表示两个数据集之间的分布差异比较明显。
如果PSI值小于0.1,
则表示两个数据集之间的分布稳定性比较好;
如果PSI值大于0.25,
则表示两个数据集之间的分布差异比较明显。
注意事项
模型上线前、后都要关注PSI
影响PSI的变化因素很多,如客群变化等等,我们要重点关注
上线后建议根据业务要求,对模型PSI进行按日、按月或者按季度监控
学习来源: 刘海丰《成为AI产品经理》京东高级架构师 +Chatgpt学习查询
0 条评论
下一页