知道数据抓取架构图
2018-02-26 10:16:44 3 举报
知道数据抓取
作者其他创作
大纲/内容
app下载器
J
知道全量数据抽取(zhidaospider)架构图
解析器&&回写库
ADSL快速通道
网页点击日志
ADSL慢速通道
调度器
结构化抽取
乱序校验数据库
网页展现日志
乱序校验并回写状态
快速下载器
慢速下载器
chrome 下载器
页面变化预测
基于点击、展现、时效性、内容变化概率给定url优先级
提供快速更新、慢速更新两种channel
下载器
新链发现
知道数据库
提供内容更新和死链检测两种调度机制
搜索快照下载器
每次调度需要选取部分校验数据来进行乱序检测,乱序比高于阈值停止调度并报警人工处理。
链接状态库
浏览器回传数据
pyspider异步下载器
收藏
收藏
0 条评论
下一页