大模型_AI_RAG_流程图
2024-06-21 17:15:44 3 举报
大模型_AI_RAG_流程图是一种直观的工具,用于理解和指导人工智能(AI)项目中的循环自动生成(RAG)过程。它通过一系列有序的步骤和决策点,展现了RAG在文本生成、图像生成和语言翻译等任务中的应用。流程图的核心内容包括数据收集、数据处理、模型训练和模型评估等关键环节,涵盖了从数据准备到最终输出的全过程。通过RAG流程图,开发者可以更清晰地掌握AI项目的结构和流程,从而更有效地管理和优化项目。
作者其他创作
大纲/内容
Retrieval
关键词提取/关系抽取
类别判断
nl2sql召回
输入
prompt工程
向量库Milvus
SelfQueryRetrieverEmbeddingsFilter自查询+过滤
提取的关键词列表
query向量化
数据解析处理
ElasticSearch
RAG召回
基座大模型
jieba
检索
向量库(按语义做名词召回)
问题改写向量化
企业法人关系召回
对于memory的查询处理总共设计了两种方案:默认方案为:1. 原始流程走到多路召回,返回content;2. query + content + history 通过prompt工程喂入模型,模型返回答案;在用户不认可答案的情况下走第二种方案:1. 在原始流程走到问题改写之前;2. 基于原始query + history喂入模型,生成new_query;3. 基于生成的new_query接着问题改写继续往下走。对于memory上下文长度的控制第一版是基于langchain的ConversationTokenBufferMemory通过 Token 数控制上下文长度(截取的方式);二版时准备优化为将 Memory 存储在向量数据库中,根据用户输入检索回最相关的部分
知识图谱neo4j
微调(nl2sql)大模型
数据采集
结构化数据构建
Mysql
进行中
离线处理
ContextualCompressionRetriever压缩
基于模型抽取
倒排索引构建
query
微调(分类)大模型
文档向量化操作:1. 读取招标公告文件;2. 将文档通过Langchain做parent chunks;3. 基于parent chunks再做child chunks;4. 最终将child chunks存入vector store;5. 查询时,会按照child chunks进行查询;6. 最终返回时,会返回parent chunks,可以尽量保证数据的不丢失。
数据向量化
意图识别
API搜索
1. 读取招标公告文件;2. 将读取到的内容放入prompt中;3. 将以上内容喂入模型(讯飞65B模型),提取数据(招标):来源网站,项目分类,项目标题,发布时间,招标人,招标人联系人,招标金额等;4. 金额转换为数字,时间转换为日期格式5. 将提取到的结构化数据入mysql库
重排序
关键词召回
数据索引构建
关键词列表+query
问题改写
多路召回
0 条评论
下一页