爬虫逻辑架构设计
2022-03-12 16:06:56 7 举报
爬虫逻辑架构图
作者其他创作
大纲/内容
Data Center
History(Pulsar)
Proxy
Mysql
Public Service
Mongo
Renderer
MessageQueue
Monitor
第三方 | 各种付费数据服务商....
代理配置
Media
Auto Check
Data Message
Data ETL
搜索引擎 | 百度、搜狗、Google....
数据源配置
政府网站 | 一行三会、各级政府....
模板测试
调度配置
Hive
Filter
Statistics
解析规则配置
新闻门户 | 微浪、腾讯、搜狐、网易....
Check
ELK
数据源
Download Engine(GET&POST&JS)
User-Agent
Spider Core
Report
Clean
......
Errinfo
任务/数据统计
默认值配置
Template Engine
抓取方式配置
新闻资讯数据源管理平台
Other
Text Extract
Collect
Schedule Engine
Parse Engine(HTML&JSON)
Verification code
地方网站 | 新闻发布站....
Hbase
RealTime(Pulsar)
0 条评论
下一页