分布式爬虫框架
2018-01-24 11:55:42 0 举报
AI智能生成
爬虫
作者其他创作
大纲/内容
模块拆分
master模块
负责分发task
task
task持久化处理
状态恢复
统计task
task状态转化
初始化
种子任务
task子任务
成功
失败
失败重试
task处理失败
proxy模块
定时拉取可用代理
对可用代理打分
提供可用代理message
提供更新代理message
持久化模块
sqlite
定时flush
超过条数flush
base64加密处理
其他方式
work模块
请求响应
okhttp
客户端模拟
浏览器模拟
其他模拟
monitor模块
监控系统参数
告警
超时报警
异常报警
对work的可伸缩
空闲增加work
繁忙减少work
work监控
work重启
work处理压力统计
log
日志收集
日志处理
cient模块
通用爬虫
加载用户逻辑
验证
逻辑处理
回调用户代码
特殊爬虫
连续ID
未知ID范围
给定ID范围
链接扩散
给定正则
简单验证规则
测试环境
测试环境搭建
高性能
稳定好
模拟网页
压力测试
支持并发
task设计
抽象范围
请求相应
URL层次
连续ID等层次
浏览器
打开一个页面
滑动一个页面
点击一个页面
独立
重新请求
超过请求次数返回错误
底层调研
okhttp
压力测试
并发量
单节点压力
性能问题
CPU
网络
内存
selenium
性能问题
内存
单个进程启动使用内存
网络
CPU
稳定性
运行时测试
并发测试
驱动多个浏览器测试
浏览器稳定性测试
功能性
获取底层请求
能获取到底层渲染的js请求
获取加载的图片视频等信息
对请求能过滤
图片过滤
css过滤
js过滤
0 条评论
下一页