WebProfile - Website Crawl Workflow v0.2 @ 2017-03-19
2017-03-18 11:02:38 0 举报
登录查看完整内容
WebProfile是一个用于网站爬取的工作流程,版本为v0.2,创建于XXXX年X月X日。该工作流程旨在自动化地收集和分析网站的相关信息,包括网页内容、链接结构、元数据等。它通过使用爬虫技术来访问网站并提取所需的数据,然后对这些数据进行处理和存储,以便后续分析和报告生成。WebProfile提供了一个灵活而强大的框架,可以根据具体需求进行定制和扩展。它可以应用于各种领域,如市场调研、竞争情报、网站优化等。通过使用WebProfile,用户可以更好地了解其目标网站的特点和趋势,从而做出更明智的决策。
作者其他创作
大纲/内容
Yes
offshoot direction
spider.start
prepare_spiders
spider.has_job?
{predefined_action}
End
all pages fetched?
each spider.start
n
start/end
assign pages to spiders
pending_page * n
No
example for diagrams and lines
assign_spiders
spider.crawl
diagram example
action in parallel mode
indirect direction
dismiss_spiders
n = website.config[:concurrency]
get_pending_pages(n)
spider.queue
check_jobs_status
action
spider.start - check_status - check_job - [sleep | queue | dismiss] - spider.end
{decision?}
spider.check_status
Start
direct direction
spider.sleep
spider.check_job
{data}
next step
spawn_spiders(n)
spider.end
spider.dismiss
has spiders?
Website Crawl Workflow
website.finished?
Single Spider Workflow
Start - prepare_spiders - spawn_spiders - assign_spiders - - dismiss_spiders - End
website.stopped?
0 条评论
回复 删除
下一页