m.toutiao.com
2017-11-27 12:21:10 1 举报
头条采集简单流程
作者其他创作
大纲/内容
得到最终的内容 返回结果
底层代码对html内容进行格式化操作 如清除样式 清除style属性 清除空行 br标签等
文本
根据域名从数据库获取规则
var json = { \"bodyGetter\": { \"name\": \"httpRequest\
进入到地址后bodyGetter提供手机端的UA 避免重定向到头条的PC端页面
获取采集地址
https://m.toutiao.com/i6415752977138582017/?tt_from=android_share&iid=9990664213&app=news_article&utm_medium=toutiao_android&utm_campaign=client_share
首先进入urltranslator 判断是否要跳转到新地址进行采集
contentTextProcess为定制对已采集到内容进行文本操作,此时的data.body为String对象
收藏
0 条评论
下一页