content sync
2024-06-06 10:06:04 4 举报
AI智能生成
content sync
作者其他创作
大纲/内容
表结构调整
T_Bot_ChatbotGenerativeAnswersContent
T_Bot_ChatbotGenerativeAnswersFile
T_Bot_ChatbotGenerativeAnswersWebPage
SourceId
T_Bot_ChatbotGenerativeAnswersSource
T_Bot_ChatbotGenerativeAnswersVideo
T_Bot_ChatbotGenerativeAnswersKBArticle
IntegratedKBArticleId
T_Integration_IntegratedKBArticle
SourceId
T_Bot_ChatbotGenerativeAnswersKBSource
新增表
T_Bot_ChatbotGenerativeAnswersKBSource
T_Bot_ChatbotGenerativeAnswersFile
T_Bot_ChatbotGenerativeAnswersWebPage
T_Bot_ChatbotGenerativeAnswersVideo
T_Bot_ChatbotGenerativeAnswersKBArticle
爬虫爬取数据后同步ContentSync服务
Content & Web Page批量操作
BuildSyncJob 读取buildinput的 datasources逻辑调整
之前是从content表取,现在需要1.关联多张子表取数 2.Kbsource 需要额外读取
Content File Process Job
Content 结构调整
定时任务Job
BuildSyncJob
轮训SyncTaskQueue
轮训SyncTaskQueue
Content与Source的状态表更后触发SyncTaskQueue的enqueue:
1.文件删除与批量删除 & 重新上传
2.source & content IsEnable 开关
3.视频Sync
KB数据清洗
爬虫结束后数据Sync 到content sync 服务后 append to SyncTaskQueue 的enqueue
1.现有content修改为从多张子表读取。2.增加一种KBsource
CrawlSyncJob
1.当同时执行爬虫任务的数量小于50时,拿出状态为Created的TBotChatbotGenerativeAnswerSource, 启动爬虫任务
更新Source数据库,更新Source缓存
2.检查状态为Pending & Processing & Canceling 的TBotChatbotGenerativeAnswerSource在爬虫服务中的状态
更新Source数据库,更新Source缓存
CrawlSyncRestart7DaysJob
遍历TBotChatbotGenerativeAnswerSource表中已过时7天的状态为FINISHED或者 Error状态且重试次数小于3的项,将其Status 更改为Create, 这样的数据会在CrawlSyncJob的1中执行
CrawPushJob
取出Source缓存中状态为CRAWLFINISHED的项,遍历触发CrawlService推数据给 Content Sync服务,并批量插入数据库
0 条评论
下一页