pholcus_cloudminds流程图
2016-03-28 14:57:40 0 举报
Pholcus_Cloudminds是一个基于PHP语言编写的网络爬虫框架,其流程图主要包括以下几个步骤:首先,通过配置文件定义爬虫的任务目标和规则;然后,根据这些规则,程序开始爬取网页内容;接着,对爬取的内容进行解析和处理,提取出需要的信息;最后,将提取的信息存储到指定的数据库或文件中。在这个过程中,Pholcus_Cloudminds还提供了丰富的功能,如自动识别翻页、自动登录、反爬虫策略等,大大提高了爬虫的效率和稳定性。
作者其他创作
大纲/内容
从爬虫队列中,拿取新的任务,
worker
pholcus_cloudminds
根据爬虫规则,重新编译新的worker
若是新任务,加如爬取任务队列。
根据配置信息配置请求,生成新的队列到数据库,并解析结构化数据到数据库
启动运行
mongo
读取用户的配置,生成解析任务
pholcus_master_controller
用户编写好爬虫规则,并设定选项
生成结构化数据
若是历史记录,或者成功记录,则任务不需要查重,直接返回
pholcus_master_web
proxy
用户
长期获取有效代理
jenkins
根据新增任务去历史库查重
0 条评论
下一页