AI产品经理要知道的 3种大模型优化方式
2024-04-08 13:18:30 0 举报
AI智能生成
AI产品经理要知道的3种大模型优化方式
作者其他创作
大纲/内容
模型的分类
通用大模型
面向广泛场景,提供基础智能服务的模型。
如【GPT】【Claude】【 文心一言】 【通义千问】【云雀】
如【GPT】【Claude】【 文心一言】 【通义千问】【云雀】
行业/领域
大模型
大模型
针对特定行业需求,定制化开发的模型,这一层次的模型相比通用大模型,
具有更专业的行业/领域知识,能够更好地处理领域内的特定问题。
如:子曰大模型,网易推出的“场景为先”的教育垂类大模型
具有更专业的行业/领域知识,能够更好地处理领域内的特定问题。
如:子曰大模型,网易推出的“场景为先”的教育垂类大模型
企业大模型
在通用大模型或行业大模型的基础上,针对特定企业的独特需求、数据、
业务流程进行定制化开发和训练。
如:Salesforce Einstein:是一个集成在Salesforce平台上的AI助手,专门为销售预测、客户意向分析等CRM(客户关系管理)相关任务定制。
业务流程进行定制化开发和训练。
如:Salesforce Einstein:是一个集成在Salesforce平台上的AI助手,专门为销售预测、客户意向分析等CRM(客户关系管理)相关任务定制。
大模型优化
3种方法
3种方法
为什么要进行
大模型优化
大模型优化
类似于GPT、文心 等这样的通用的预训练大模型,
通常基于广泛的公开文献和网络信息训练,缺乏许多专业知识和行业数据的积累,在行业针对性和精准度方面存在不足在数据安全和隐私保护上都有不足
通常基于广泛的公开文献和网络信息训练,缺乏许多专业知识和行业数据的积累,在行业针对性和精准度方面存在不足在数据安全和隐私保护上都有不足
特别是遇到在生产环境中部署使用时,需要不断迭代和改进 LLM 应用的性能,
许多问题就暴露出来了,包括:使用成本较高、垂直能力不足,性能表现不稳定、难以优化。
许多问题就暴露出来了,包括:使用成本较高、垂直能力不足,性能表现不稳定、难以优化。
优化大模型
的方法
的方法
提示工程:调提示词
【prompt engineering】
通过输入文本指令让
模型按照要求输出期望结果
【prompt engineering】
通过输入文本指令让
模型按照要求输出期望结果
Prompt 工程:网上有很多教程,最直接去看官网,
OpenAI 官方提示工程文档,Claude 官方提示工程文档
OpenAI 官方提示工程文档,Claude 官方提示工程文档
提示工程核心原则:
编写清晰的指令,将复杂任务分解为简单任务,
给 LLM 一定的时间空间思考,系统的测试性能变化
编写清晰的指令,将复杂任务分解为简单任务,
给 LLM 一定的时间空间思考,系统的测试性能变化
Prompt 工程是上手难度最低的,
优化大模型可以可以先从 prompt 开始 ,
若 prompt 工程无法满足实际需求,
再分析性能瓶颈原因,采取进一步策略。
优化大模型可以可以先从 prompt 开始 ,
若 prompt 工程无法满足实际需求,
再分析性能瓶颈原因,采取进一步策略。
无法满足需求原因可能是
1:缺少特定上下文数据,将缺失的数据提供给模型即可,可用【RAG】 补充
2:在垂直领域的表不足,则可选择【微调】
1:缺少特定上下文数据,将缺失的数据提供给模型即可,可用【RAG】 补充
2:在垂直领域的表不足,则可选择【微调】
检索+生成 【RAG
(Retrieval-Augmented Generation)
基于检索增强的生成
可以理解为 RAG是一个图书管理员,
帮你在图书馆找到答案,
然后用这些答案来帮你写作业。
(Retrieval-Augmented Generation)
基于检索增强的生成
可以理解为 RAG是一个图书管理员,
帮你在图书馆找到答案,
然后用这些答案来帮你写作业。
选择【RAG与 微调】之间,可以从以下维度
来评估项目具体需求后进行选择
1 需要外部知识吗 ? 需要 RAG
2 需要模型适配吗? 不需要 RAG
3 减少幻觉至关重要? 重要 RAG
4 有大量数据可使用吗? 没有,RAG
5 数据的静态/动态程度如何? 动态 RAG
6 项目是否有多透明/可解释? 需要 RAG
除以上外还需要综合考虑的其他方面:
可扩展性,延迟和实时要求,维护与支持、
稳健性和可靠性、道德和隐私问题、与现有系统集成
用户体验、成本、复杂,在某些情况下,
同时利用 Prompt RAG 和微调的混合方法可能是最佳选择。
来评估项目具体需求后进行选择
1 需要外部知识吗 ? 需要 RAG
2 需要模型适配吗? 不需要 RAG
3 减少幻觉至关重要? 重要 RAG
4 有大量数据可使用吗? 没有,RAG
5 数据的静态/动态程度如何? 动态 RAG
6 项目是否有多透明/可解释? 需要 RAG
除以上外还需要综合考虑的其他方面:
可扩展性,延迟和实时要求,维护与支持、
稳健性和可靠性、道德和隐私问题、与现有系统集成
用户体验、成本、复杂,在某些情况下,
同时利用 Prompt RAG 和微调的混合方法可能是最佳选择。
微调:fine-tuning 微调
是指在已经训练好的模型基础上,
进一步调整,让你模型的输出
能够更符合你的预期。
是指在已经训练好的模型基础上,
进一步调整,让你模型的输出
能够更符合你的预期。
微调
全量微调FFT(Full Fine Tuning):对全量的模型参数,进行全量的训练。
PEFT (Parameter-Efficient Fine Tuning):只对部分模型参数进行训练 。
从成本和效果的角度综合考虑,PEFT是目前业界比较流行的微调方案。
策略上还是建议先从提示词工程 -> 微调开始
缺失知识可以考虑用 RAG,准确度不足或模式遵循度不足可以考虑微调
LLM 应用性能优化的推荐路径
prompt 工程 -> 进阶 prompt 工程 -> 简单 RAG
-> 微调模型 -> 进阶 RAG -> 带着 RAG 样本微调模型
缺失知识可以考虑用 RAG,准确度不足或模式遵循度不足可以考虑微调
LLM 应用性能优化的推荐路径
prompt 工程 -> 进阶 prompt 工程 -> 简单 RAG
-> 微调模型 -> 进阶 RAG -> 带着 RAG 样本微调模型
在OpenAI和 百度千帆大模型等官网上,
都有介绍对应模型微调方法和流程。
大致流程为:
1 需求分析 2 数据准备 3 选择基础模型
4 模型微调 5 性能评估 6 迭代优化:
7 模型部署 8 监控与维护 9 用户反馈循环:
都有介绍对应模型微调方法和流程。
大致流程为:
1 需求分析 2 数据准备 3 选择基础模型
4 模型微调 5 性能评估 6 迭代优化:
7 模型部署 8 监控与维护 9 用户反馈循环:
模型优化评估
外包人工注释:成本高、速度慢,而且难以确保质量的一致性。
内部人工审核:可确保质量,但速度较慢,且需要大量资源
基于模型的评估:使用另一个 LLM (通常是更好的模型,如 GPT-4)
来评估系统的性能。有了强大的通用模型,这种方法变得越来越有效
来评估系统的性能。有了强大的通用模型,这种方法变得越来越有效
基于代码的评估:编写一套评估自定义的规则,以评估模型输出的特定方面。
数据指标评估:准确率,精度、召回率、F1分数、AUC-ROC曲线
终端用户反馈和 A/B 测试:用户的直接反应以及表明用户偏好的隐式操作
RAG 评估
模型角度(generation)
回答真实性:模型结果真实性多高(少一些模型幻觉)
回答相关度:结果和问题有多相关,不能南辕北辙
回答真实性:模型结果真实性多高(少一些模型幻觉)
回答相关度:结果和问题有多相关,不能南辕北辙
检索角度(retrieval)
召回率(recall):相关信息有多少包含在返回的检索内容里,越全越好
准确率(precision):返回的检索内容中有用信息占比多少,越多越好
召回率(recall):相关信息有多少包含在返回的检索内容里,越全越好
准确率(precision):返回的检索内容中有用信息占比多少,越多越好
学习资料
《如何让 LLM 应用性能登峰造极》作者:云中江树
《浅谈大模型私有化+精调:面向垂直行业与特定场景之需》
作者:AI产品经理研究与实践
《大模型优化:RAG还是微调?》作者:omer
《浅谈大模型私有化+精调:面向垂直行业与特定场景之需》
作者:AI产品经理研究与实践
《大模型优化:RAG还是微调?》作者:omer
0 条评论
下一页