五垂媒
2021-11-10 12:56:03 26 举报
五垂媒
作者其他创作
大纲/内容
data base
comment...
article...
keywords
概述:将所有站点汇总,按照数据结构划分脚本。类似文章视频数据,基本上文章,评论都是统一数据结构。可将脚本细粒化,通过配置及调度满足业务需求。在横向扩展同类型业务时,只需要专注列表页的解析即可,甚至也可以将同类型列表页抽象出统一脚本
list...
crawler list...
更新历史库(文章是否删除等。。。)
history data
video...
seeds
reale time data
1.实时采集(准实时):采集列表数据放入实时队列,采集文章,评论等数据,并同步到历史库中2.历史数据追溯:根据具体的业务时间从历史库中抽取符合要求的数据进行采集
0 条评论
回复 删除
下一页