turing
2021-06-24 15:42:33 262 举报
turing爬虫文档
作者其他创作
大纲/内容
任务配置
kabana
parse
Ipool
爬虫器
文件同步器
RDB
配置
人工2
离线计算
schedule
监控预警
lancer + hive
turing
公网云
失败检查
ipoll
补偿机制
创作平台手势视频下载
文件导BOSS
monitor
解析系统
失败url
app模拟器
加工数据
解析层
西瓜
人工
主动拉取待更新(万粉)uid
模拟登录
首发独家签约
西瓜视频地址
调度平台
turing api
xgorgon
登录态cookie
拉取任务
spider
hive
任务url推送到消息队列
线下模拟器同步用户id至线上
网络隔离
rocketMq
解析parse节点
公网
网络
downlaod
socks请求
滑块验证
lancer
任务2管理单元
补偿 topic
爬虫节点1
西瓜uper列表
Hive
调度中心
文件导入数据库
抖音
Container
topic西瓜稿件
BOSS
turing schedule
夜神模拟器
topic小红书稿件
反爬破解
grafana
补偿Job
下载器
发起url
Parser
拉取url
视频文件
Turing spider
session登录态
消息中间件
反爬策略
redis
uat
字段提取
Pipeline
mitmproxy
爬虫系统
平台
Process
西瓜up主
快手
公司uat环境
downloader
稿件主 topic
http请求
uat 数据库
爬虫节点2
每日定时任务
解析器
url提取
mysql
Xpath解析
turingspider
数据校验
代理监控
发送任务
中间页解析
数仓
competition service
rocketMq消息中心
prod 数据库
文件
任务1管理单元
配置中心
RocketMq
定时任务
公司线上环境
长期爬虫
pipeline
短信验证
turing spider
代理服务
西瓜稿件
人工1
接入层
实时解析节点
topic抖音稿件
爬虫数据
调度节点
MQ
topic B(待解析数据)
topic C(解析数据)
url推送MQ
解析数据
同步全量url
topic C
拉取抓取任务
一次性爬虫
抓取层
Turing schedule
url正则匹配
download
拉取url任务
topic小红书uper
图片验证
topic西瓜uper
mysql视频索引表
离线统计
service将任务地址推送到任务队列
私有云
阿里云OSS
竞品平台
定时爬虫
DNS
topic B
视频数据
解析节点调度
promethues
失败重试
MySql
databus
爬虫节点调度
数据存储系统
缓存平台
小红书
依赖层
一次性任务
破解算法
miku
西瓜uper主
微视
存储系统
稿件topic
页面解析
uperId 同步至线上
周定时任务
爬虫节点x
登录器
消息层
topic抖音uper
代理接入
A站
ip代理池
平台依赖
process
turing schedule
数据看板
topic A
持久化数据
prod
结果
华为云
0 条评论
下一页