content sync
2024-06-06 10:06:04 1 举报
AI智能生成
登录查看完整内容
content sync
作者其他创作
大纲/内容
T_Bot_ChatbotGenerativeAnswersFile
T_Bot_ChatbotGenerativeAnswersSource
SourceId
T_Bot_ChatbotGenerativeAnswersWebPage
T_Bot_ChatbotGenerativeAnswersVideo
T_Integration_IntegratedKBArticle
IntegratedKBArticleId
T_Bot_ChatbotGenerativeAnswersKBSource
T_Bot_ChatbotGenerativeAnswersKBArticle
T_Bot_ChatbotGenerativeAnswersContent
表结构调整
新增表
Content & Web Page批量操作
爬虫爬取数据后同步ContentSync服务
之前是从content表取,现在需要1.关联多张子表取数 2.Kbsource 需要额外读取
BuildSyncJob 读取buildinput的 datasources逻辑调整
Content 结构调整
Content File Process Job
1.文件删除与批量删除 & 重新上传
2.source & content IsEnable 开关
3.视频Sync
KB数据清洗
Content与Source的状态表更后触发SyncTaskQueue的enqueue:
爬虫结束后数据Sync 到content sync 服务后 append to SyncTaskQueue 的enqueue
1.现有content修改为从多张子表读取。2.增加一种KBsource
BuildSyncJob轮训SyncTaskQueue
更新Source数据库,更新Source缓存
2.检查状态为Pending & Processing & Canceling 的TBotChatbotGenerativeAnswerSource在爬虫服务中的状态
CrawlSyncJob
CrawlSyncRestart7DaysJob
取出Source缓存中状态为CRAWLFINISHED的项,遍历触发CrawlService推数据给 Content Sync服务,并批量插入数据库
CrawPushJob
定时任务Job
content sync
0 条评论
回复 删除
下一页