Data Spec MI
2021-11-25 03:22:59 0 举报
Spec
作者其他创作
大纲/内容
Elastic Search
MIT - 入文 - Autocat
主要限制:需输入主贴url
主要限制:数据流量限制在3000w-4000w/每日
能力指标:数据覆盖率 50%; 准确率:0.91
适用范围:全媒体能力指标:主要限制:
Data Lake数据过滤
WiseManage - 期刊新闻处理流程管理
DC数据采集
IOS -数据人工清洗
数据存储:AutoCat/Folder进文规则
MC - 原转载
IOS -数据打标
MC - 词云处理
适用范围:在大库中查询
适用范围:NA能力指标:NA主要限制:NA
能力指标:数据采集覆盖率-90%
输出: 1- datalake.doc 实时流数据2- datalake.filter_doc 被过滤数据表3- hbase 数据共享(MC&BDP)
WiseManage - Webmon 数据清洗
适用范围:XG全媒体回溯
AutoData - 数据更新 - 原转载属性
数据来源
WiseManage - 南京报告中心配置管理
MC
IOS -数据自动清洗
WiseManage - 新闻 Slot 信息管理
MongoDB
MIT - Folder AI情感
MIT - 互动量更新
MC - HK客户标记
适用范围:微博,微信
输入:Kafka
HK Oracle
WiseManage - 广告打标
能力指标: 采集覆盖率-90%;成功率-90%;采集完整率-95%
WiseManage - 媒体信息管理
主要限制:1. 不同平台的成功率和处理速度不一致 2. 会受反爬影响
WiseManage - 用户自助批量数据处理管理
WiseManage - 电子文档拆板上传
数据处理
适用范围:1000+主要媒体
MIT - 去重标记
适用范围:从2021/08起XG原始数据全接入,原帖/评论/转发 ;
主要限制:网站和APP依赖来源字段
数据存储:DMA/Folder/Task等配置信息
数据可视化
WiseManage - 负面新闻处理流程管理
主要限制:需要输入符合规则的URL或docid
WiseManage - 新闻翻译流程管理
数据来源 : 回溯流程
WiseManage - 用户Worklog 管理
适用范围:NA主要限制:NA
IOS - 入文 - Autocat
XG实时接口
WiseManage - 手工建文
适用范围:定制媒体范围
过滤规则:6条规则,见备注#2
MC - 党央/金融媒体标记
适用范围:基于规则对数据进行处理能力指标:NA主要限制:NA
Data Lake
数据储存:文章详情
适用范围:300+媒体
IOS
适用范围:基于规则针对 DIY Folder 判断是否计算Quota能力指标:NA主要限制:NA
能力指标: 暂无
MC - 主体/提及
数据存储
AutoData - 数据更新 - 评论
MC - Quota计算
适用范围:Sentiment KD V0.1.5能力指标:能力指标:准确率 - 83.05%;正面-90.33%; 中性-70.61%;负面-78.09% 主要限制:1.不适用于英文基于主体的细颗粒度情感分析 2.速度比Sentiment 1.0慢,和Sentiment-DL接近
IOS -数据新闻分文
Data Lake数据接入
MIT
MySQL
Wise Manage
能力指标: 采集覆盖率-90%;成功率-90%;采集完整率-95%
AutoData - 相似新闻查询下载
主要限制:受限XG实时媒体名单+专题配置上限
适用范围:基于规则对数据去重能力指标:60s/每万篇主要限制:支持6种规则
数据存储:文章信息
能力指标: 时效性-1~3小时,最大延迟8小时
处理引擎:HanLP + IPOC规则能力指标:万条数据15秒 召回率-0.9; 精准率-0.9;主要限制:1-只支持 AND OR NOT;2-只支持IPOC规则3-需要词库支持保证分词准确
Hbase
适用范围:爬虫支持的全媒体
数据采集
主要限制:1. 受限XG回溯支持媒体名单+回溯总量上限 2. 回溯接口和实时接口规范不一致,见备注#1
XG回溯接口
AutoData - 数据更新 - 互动量
MIT - 计算Quota
MC - 广告价值
XG定制实时接口
能力指标:数据采集覆盖率-100%
数据推送
Autodata Flow Maker
数据来源:实时流程
收藏
0 条评论
回复 删除
下一页