爬虫系统架构图
2018-02-06 11:51:13 176 举报
爬虫系统架构
作者其他创作
大纲/内容
其他
调度系统Redis Clusters
ETL系统
接口接入
新浪微博,微信公众号,百度贴吧,天涯论坛,优酷视频,网易新闻,新浪新闻,百度搜索引擎,360搜索引擎
android
ElasticSearch Cluster
外部数据源
ios
增量爬取(论坛,微信公众号)
批量爬取(搜索引擎,微博,视频,新闻)
Mysql 数据库
web
Python 大数据提取,去重,索引,权重计算,分词
数据存储层
Python ES Pipeline
爬虫系统
Python Mysql Pipeline
数据展示层
0 条评论
下一页