URL Spider
2016-02-17 15:35:22 0 举报
URL Spider是一个强大的网络爬虫工具,它能够自动访问指定的网页,并从中提取出所需的信息。这个工具的主要功能是抓取网页上的链接,然后跟踪这些链接,找到更多的相关网页。URL Spider可以处理大量的网页数据,无论是静态的还是动态的网页,都能够轻松应对。此外,它还支持多种数据导出格式,如CSV、JSON等,方便用户进行后续的数据处理和分析。URL Spider的使用非常简单,用户只需要输入起始URL,然后设置好相关的参数,就可以开始爬取数据了。总的来说,URL Spider是一个非常实用的网络爬虫工具,无论是对于学术研究,还是对于商业数据分析,都能够提供极大的帮助。
作者其他创作
大纲/内容
传入url公参
网络IO异常
启动定时任务
到达定时时间点
异步
定时周期根据本地存储的探测周期设定,默认值30分钟
OpenAPI
JavaUrlSpider
是
成功获取
通知关闭超时
探测策略
是google链接
否。则一直等待解析超时
SuperAdsSDK
更新本地offerlist&定时周期
超时。终止条件:解析超时
是http(s)://或market://协议
JS/HTML Engine
等待超时
只负责解析HTML/JS
启动
统计上报
解析到超链url
统计&上报
否
开启解析超时定时器
location为空
是。传入待探url
返回
200
完成。终止条件:shouldOverrideUrlLoading
异常信息汇总
重置定时周期
URL Spider
开始探测
重置超时等待5秒
从服务器获取待探测offer列表
默认3秒超时
http(s)访问
没有正在进行中的探测任务
内部调用
获取&解析response的header&body
UrlSpider子模块
注意:1.要处理location的值为相对路径的情况2.header里的referer要带上
URLSpider(模块)
有网络 && 合法url
等待下次定时计划任务
Offer探测模块
依赖
302
这样是为了处理intent://lazada://等莫名其妙的协议
offer探测(模块)
body不为空
0 条评论
下一页