爬虫系统逻辑视图
2017-01-15 15:38:01 0 举报
爬虫系统逻辑视图主要包括以下几个部分:首先,爬虫通过URL管理器获取待爬取的网页URL;其次,网页下载器根据URL获取网页内容,并将其传递给网页解析器;接着,网页解析器从网页内容中提取出所需的数据,如标题、链接等;然后,数据存储器将提取到的数据存储到数据库或文件中;最后,调度器负责协调各个组件的工作,实现整个爬虫系统的自动化运行。在这个过程中,爬虫系统还需要处理各种异常情况,如网络连接失败、网页解析错误等,以确保系统的稳定运行。