抓取系统
2020-11-03 18:46:41 1 举报
系统架构图
作者其他创作
大纲/内容
稿件处理
KAFKA
微博抓取
图片识别
编辑网页
url图片
稿件过滤
抓取服务并智能分析
添加微信号
MYSQL
过滤完成的稿件写入kafka统一的topic
平台数据支撑
微信抓取源
微信biz抓取
抓取稿件管理
微博抓取源
抓取链接详情
抓取队列
数据存储
图文和视频稿件抓取
数据输出
采集调度器
微信昵称抓取
队列循环抓取
图片去重
查询稿件详情
抓取源管理
S3
抓取稿件链接
网页抓取源
网页抓取
base64图片
刷新抓取队列
维护wxid抓取队列
推送稿件
稿件详情页面
编辑微博号
维护微博号抓取队列
信息流和头条文章抓取
微博昵称抓取
编辑微信号
稿件入库
智能头图
视频存储
业务唯一
编辑稿件
微信抓取
网页抓取队列维护
稿件编辑
抓取监控服务
消息队列
可视化管理
查询稿件列表
添加网页
HADOOP
wxid抓取
标题链接去重
微博抓取表
抓取系统
数据处理
资源存储
微博主页url抓取
微信抓取表
抓取稿件列表
垃圾图片过滤
冷数据转存
获取biz
添加微博号
接口实现
网页抓取表
REDIS
0 条评论
回复 删除
下一页