爬虫爬取并处理网页的流程图
2016-09-23 18:34:27 48 举报
phpspider爬虫爬取并处理网页的流程图
作者其他创作
大纲/内容
on_extract_page
对方是否设置反爬虫
从待爬队列中取一个URL进行处理
field包含图片
爬虫开始运行
on_scan_page
抽取到一个field
on_attached_download_page
抽取fields
on_status_code
on_content_page
URL属于内容页content_urls
on_handle_img
on_extract_field
从网页中提取链接插入待爬URL队列中(如果 on_XXX_page 函数返回值为false,则跳过此步)
on_download_page
URL属于入口页scan_urls
is_anti_spider
下载URL对应的网页
URL属于列表页list_urls
on_start
on_list_page
收藏
0 条评论
下一页