渠道内容爬虫
2021-02-01 09:44:16 11 举报
scrapy,请求及解析流程
作者其他创作
大纲/内容
parse
从redis读取需求信息
flase:生成日记本请求数据
解析数据处理
getRedisData
完成数据整理
StartInfo
解析响应
搜索接口信息
返回存储数据或页面链接
if '.com/diary_book_v2/'
更美日记(解析)
解析需求信息
日记本接口信息
返回标准化存储数据
diary_book_list
true:返回空数据
数据是否为空
json
返回数据
make_request_from_data
flase:返回下一页请求数据
返回解析数据
判定渠道
生成渠道请求链接等信息
ParseService:spider
parse_service.spider()
响应接口
返回日记本请求数据列表
if \"diaries/?q=\"
存储
Soyoung/Igengmei.requestInfo
search_diary_list
完成响应
存储/继续请求
ParseService:rule
规则存储数据格式话
flase:生成日记存储数据或单篇日记解析链接
igengmei.spiderId0()
yield 下次请求
if '.com/topic'
单篇日记html解析
0 条评论
下一页