豆瓣读书爬虫流程图
2017-03-30 22:17:35 0 举报
豆瓣读书爬虫流程图主要包括以下几个步骤:首先,通过输入目标书籍名称或ISBN号,向豆瓣网站发送搜索请求;然后,解析返回的HTML页面,提取书籍信息,如书名、作者、出版社、出版日期等;接着,根据书籍信息在豆瓣读书页面中查找对应的评论页面URL;之后,爬取评论页面内容,提取评论者昵称、评论时间、评论内容等信息;最后,将提取到的书籍信息和评论信息存储到数据库中。在整个流程中,需要注意处理异常情况,如网络连接失败、页面解析错误等。