AI产品养成(2) 如何转AI产品? AI模型设计、 训练、部署
2023-04-26 19:03:53 1 举报
AI智能生成
AI产品养成(2) 如何转AI产品? AI模型设计、 训练、部署
作者其他创作
大纲/内容
AI产品经理
转行+
学习渠道
转行+
学习渠道
内部转岗
目前这种情况并不多见,
但随着越来越多的公司认识到 AI 的重要性,
并且建立了算法团队,
这种情况就会变得很普遍
但随着越来越多的公司认识到 AI 的重要性,
并且建立了算法团队,
这种情况就会变得很普遍
外部求职
对 AI 行业有全局的认识,
持续了解 AI 发展
持续了解 AI 发展
行业专有名词、基本术语
行业的整体规模,未来的发展空间
整个行业的生命周期,当前处于哪个阶段
行业的产业链,上下游供应商情况
行业中不同企业的商业模式
行业整体的人才结构分布情况
当前行业中头尾部企业
给自己定方向
基础层
技术层
应用层
补足技术
总结、输出、实践。
学习渠道
公号
爱分析 、AI 前线、成为 AI 产品经理
机器之心、大数据文摘
机器之心、大数据文摘
行业报告
艾瑞、发现报告
新闻网站
36氪、虎嗅
课程
平台 :腾讯云 网易 极客时间
课程 :李宏毅的《Machine Learning》
吴恩达的《机器学习》课程
吴恩达的《机器学习》课程
BOOK
李航的《统计学习方法》
周志华的《机器学习》
AI 产品经理
工作流程
工作流程
产品需求定义
技术预研
数据准备
模型构建
模型验收
研发上线
迭代改进
如何进行
AI 模型的
构建
AI 模型的
构建
模型设计
确定业务问题和目标
需要明确业务问题,
并确定模型应解决的问题
并确定模型应解决的问题
比如:进行用户流失预测,
预测用户什么时间节点流失
然后进行对应的挽回
预测用户什么时间节点流失
然后进行对应的挽回
不同的目标变量,
决定了这个模型应用的场景,
以及能达到的业务预期。
决定了这个模型应用的场景,
以及能达到的业务预期。
数据收集样本选取
需要可靠而且数量足够的数据,
确保数据质量和数据安全性,
并进行数据清洗和预处理。
确保数据质量和数据安全性,
并进行数据清洗和预处理。
特性工程
从样本数据中提取可以很好描述数据的特征,
再利用它们建立出对未知数据有优秀预测能力的模型
再利用它们建立出对未知数据有优秀预测能力的模型
原始数据并不直接适用于机器学习算法,
因为原始数据存在噪声、缺失值等问题,
这会影响算法的性能和准确度。
因此,特征工程的目的是通过对原始数据的加工处理,
使数据更适合机器学习算法的使用。
因为原始数据存在噪声、缺失值等问题,
这会影响算法的性能和准确度。
因此,特征工程的目的是通过对原始数据的加工处理,
使数据更适合机器学习算法的使用。
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
建立
特征工程的
流程
特征工程的
流程
数据清洗
处理缺失值、异常值、重复值等问题。
特征
提取
提取
从原始数据中抽取出有用的特征。
例如,从文本数据中提取出关键词或短语,
从图像数据中提取出颜色、形状等特征。
例如,从文本数据中提取出关键词或短语,
从图像数据中提取出颜色、形状等特征。
4 类
常见
特征
常见
特征
数值型特征
直接从数仓中获取,为更多地提取特征,
先提取主体特征,再提取其他维度特征
先提取主体特征,再提取其他维度特征
标签数据
把标签转化为特征,用0、1来表示每个特征值
描述型数据
对文本数据做清洗和挖掘,
挖掘出在一定程度上反映用户属性的特征。
挖掘出在一定程度上反映用户属性的特征。
网络关系数据
利用通讯录、收货地址、LBS位置信息、
商品的分享和助力活动等等的数据,
挖掘出一个社交关系网络,
把这个网络中的信息作为我们特征提取的参考
商品的分享和助力活动等等的数据,
挖掘出一个社交关系网络,
把这个网络中的信息作为我们特征提取的参考
特征转换选择
对提取出的特征进行转换,
以使其更适合机器学习算法的使用。
例如,对非数值型的特征进行数值化处理,
进行归一化或标准化等操作。
以使其更适合机器学习算法的使用。
例如,对非数值型的特征进行数值化处理,
进行归一化或标准化等操作。
选择对模型训练有用的特征,
以减少无用特征对模型的影响。
以减少无用特征对模型的影响。
训练/测试集
把数据分成训练集和测试集,
使用训练集来进行模型训练,
使用测试集验证模型效果
使用训练集来进行模型训练,
使用测试集验证模型效果
举例:
一个人的年龄、学历、工资、信用卡个数等等一系列特征,
来表示这个人的信用状况,
这就是建立了这个人信用状况的特征工程
一个人的年龄、学历、工资、信用卡个数等等一系列特征,
来表示这个人的信用状况,
这就是建立了这个人信用状况的特征工程
模型训练
模型训练是通过不断训练、验证和调优,让模型达到最优的一个过程
模型
训练
流程
训练
流程
准备数据
将数据集划分为训练集和测试集,
并将数据转换为模型接受的格式
并将数据转换为模型接受的格式
定义模型结构
设计模型的结构,包括模型的输入、
输出、网络结构、激活函数、损失函数等。
输出、网络结构、激活函数、损失函数等。
训练模型
将训练数据集输入模型中进行训练,采用梯度下降等优化算法
来更新模型参数,以找到能够最佳参数组合。
来更新模型参数,以找到能够最佳参数组合。
模型评估
使用测试数据集来评估训练出的模型的性能表现。
常常使用如准确率、精确率、召回率、F1值等指标来评估模型的性能表现
常常使用如准确率、精确率、召回率、F1值等指标来评估模型的性能表现
调参优化
调整模型的超参数,如正则化系数、学习率等,以优化模型的表现。
可以使用交叉验证等方法来选择最佳的超参数组合。
可以使用交叉验证等方法来选择最佳的超参数组合。
模型融合
将多个不同的模型组合起来,
以获得更好的预测性能或准确度。:
以获得更好的预测性能或准确度。:
模型融合类型
简单平均法(Simple Average):
将多个模型的预测结果进行简单平均,得到最终的预测结果。
适用于多个模型预测结果差异较小的情况
将多个模型的预测结果进行简单平均,得到最终的预测结果。
适用于多个模型预测结果差异较小的情况
权重平均法(Weighted Average):
将多个模型的预测结果进行加权平均,
得到最终的预测结果。
适用于不同模型预测结果差异较大的情况。
将多个模型的预测结果进行加权平均,
得到最终的预测结果。
适用于不同模型预测结果差异较大的情况。
投票法(Voting):
将多个模型的预测结果进行投票,
以得到最终的预测结果,
适用于多个模型的预测结果差异不大的情况。
将多个模型的预测结果进行投票,
以得到最终的预测结果,
适用于多个模型的预测结果差异不大的情况。
堆叠法(Stacking):
将多个模型的预测结果作为输入训练一个元模型,
从而得到最终的预测结果,
适用于多个模型的预测结果差异较大的情况。
将多个模型的预测结果作为输入训练一个元模型,
从而得到最终的预测结果,
适用于多个模型的预测结果差异较大的情况。
装袋法(Bagging):
通过将训练数据随机分成多个子集进行训练,
从而得到多个模型,最后将多个模型组合得到最终预测结果,
常用的装袋法包括随机森林
通过将训练数据随机分成多个子集进行训练,
从而得到多个模型,最后将多个模型组合得到最终预测结果,
常用的装袋法包括随机森林
模型部署
模型训练完成并通过评估后,
算法工程师就要考虑怎么把它部署到线上,并应用到业务场景中
算法工程师就要考虑怎么把它部署到线上,并应用到业务场景中
部署方式
API部署
常用的部署方式
还有其他部署方式
比如:容器化部署
云端部署、本地部署
常用的部署方式
还有其他部署方式
比如:容器化部署
云端部署、本地部署
将机器学习模型包装成可调用的Web API,
通过HTTP协议提供服务。
客户端可以通过HTTP请求将数据发送到API,
并获得模型的预测结果。
通过HTTP协议提供服务。
客户端可以通过HTTP请求将数据发送到API,
并获得模型的预测结果。
简单的机器学习模型一般通过 Flask 来实现模型的部署,
深度学习模型一般会选 TensorFlow Serving 来实现模型部署。
深度学习模型一般会选 TensorFlow Serving 来实现模型部署。
Flask是一个轻量级的Python Web框架,
适用于快速开发Web应用程序和API。
Flask可以用来部署机器学习模型,
实现基于HTTP请求和响应的模型预测服务。
适用于快速开发Web应用程序和API。
Flask可以用来部署机器学习模型,
实现基于HTTP请求和响应的模型预测服务。
TensorFlow是一个由Google开发的开源机器学习框架,
它能够自动地构建和训练各种机器学习模型,
并提供了丰富的API接口和工具,
使得机器学习应用变得更加简单和高效。
它能够自动地构建和训练各种机器学习模型,
并提供了丰富的API接口和工具,
使得机器学习应用变得更加简单和高效。
学习来源: 刘海丰《成为AI产品经理》京东高级架构师 +Chatgpt学习查询
0 条评论
下一页