网站爬虫方案
2024-02-28 17:52:18 2 举报
网站爬虫方案
作者其他创作
大纲/内容
点击'维护'->'LTE北向接口3.001'
实时小区模块-基础配置模块
指令执行
日志解析配置
统一Resful接口
获取内容
安装插件->进入界面->勾选网元
发起请求:通过HTTP库向目标站点发起请求,即发送一个Reuest(post或者get请求),请求可以包含额外的headers等信息
解析内容:得到的内容可能是HTML,就可以用正则表达式/网页解析库进行解析。可能是Json,可以直接转为json对象解析,可能是二进制,可以做保存或者进一步的处理
订阅网元->配置信息->确认操作
打开页面时需要判断系统版本是否存在升级,如果升级则退出并通知。
其中存在修改与确认操作需要进行异常处理:1、如何判断操作成功;2、如何判断操作失败;
外部请求
保存数据:保存形式多样,可以是文本,也可以是图片或者视频或者其他特定的格式。
接口层
指令指标配置
任务执行
获取响应内容:如果服务器能正常响应,会得到一个Response,Response的内容便是所需要获取的页面内容,类型可能有HTML,Json字符串,二进制数据(如图片视频)等类型
调用爬虫模块
数据库配置
保存数据
日志解析
任务创建
调用实时小区模块
难点:1、操作涉及到多种情况,并且每种情况出现时间不可控,调试难度高,例如:要调试华为的升级维护情况,那么你必须要等到出现这种情况的时候才能进行调试2、存在安装插件的过程,插件是否可以预先安装?每次都需要安装吗?3、数据是否存在唯一性校验,如果不存在,唯一性,容易误操作,例如:要选一个时间过滤数据后进行操作,万一没有将时间点填入或者填入错误,此时是不是会将其他数据进行操作了?
版本与安全检验
异常处理与回滚检查
解析内容
华为
登录->获取Token
爬虫模块
执行器
实时小区模块-MR频点模块
1.登录验证可能存在:图片验证、Token、账号密码、session、随机因子等。2.请求方式存在不同、验证条件不同;3.下载数据可能是流stream的方式,注意流数据特性;4.返回数据加密方式验证,服务器编码格式不同;5.需要单独进行日志记录,方便错误查找及时查找错误原因;
请求URI
0 条评论
下一页