分布式采集框架流程图
2021-03-05 10:28:32 0 举报
分布式采集框架流程图
作者其他创作
大纲/内容
job center
1.根据seed组装crawler对象2.请求网页3.解析网页4.输出(输出类型是link,还是content)
scheduler
kafka
hbase 全量数据
1.start2.stop3.restart
crawler对象
舆情系统
web爬虫管理配置系统
存储配置规则
worker
es
mysql
生成seed
master
redis
周期扫描
1.爬虫类型是什么(关键词爬虫,link,content)2.入口url是什么3.list 抽取规则器 (各个字段的表达式)4.配置输出(topic)5.采集周期
link task
etl
查询
重放数据
run()
生成task
0 条评论
回复 删除
下一页