1.0_Python_采集应用场景
2022-02-23 10:37:18 18 举报
AI智能生成
日常常见应用
作者其他创作
大纲/内容
按照一定的规则,自动抓取互联网信息
https://baijiahao.baidu.com/s?id=1648687748931251848&wfr=spider&for=pc
网页蜘蛛、网络机器人
从前
大数据和人工智能的火爆,逐渐被大家熟知
当下
数据资产保护,安全性,操作规范化,法律法规问题
未来
起源发展趋势
配置很简单,采集的时候无效数据会比较多
搜索引擎类
可以做舆情监控
标题,作者,发布时间,摘要,内容,视频链接,图片等
新闻类网站
内容,发帖人,发帖时间,发帖数,发帖人关注数,回复等
论坛类网站
付费可看的不能采集
招聘类网站
全国工商信息系统
企业信息类
存在反爬风险
电商类网站
如OTA酒店类网站,医疗网站类,短视频网站等
垂直领域类
可采集数据
姓名,年龄,地址,身份证,手机号,工作单位等
个人身份隐私信息
信用卡,电子消费卡,网银账密,网上交易信息等
个人信用财产信息
IP地址,浏览痕迹,活动内容
个人网络活动轨迹
商业数据机密数据等
受法律保护的特定类型数据或信息
不可采数据
大批量多维度收集存储
数据的广度深度快速积累
数据可视化,算法模型训练等
为数据分析提供支持
优点
当请求访问量过载,服务器压力较大-DDoS
干扰网站正常运营
大量隐私泄露及地下黑产
技术被滥用-数据贩卖
缺点
优缺点对比
Spider数据采集场景
收藏
收藏
0 条评论
回复 删除
下一页