整体数据特性
2016-02-17 15:42:14 0 举报
整体数据特性是指一个数据集或数据集中的数据所共有的属性和特点。这些特性可能包括数据的分布、平均值、中位数、方差、标准差、偏度和峰度等统计量。此外,整体数据特性还可能包括数据的相关性、异常值、缺失值和重复值等。了解数据的整体特性对于进行有效的数据分析和建模至关重要,因为它可以帮助我们更好地理解数据的结构,并为我们选择合适的分析方法和模型提供依据。例如,如果我们知道数据存在严重的偏斜,那么我们可能会选择使用对数变换来纠正这种偏斜;如果我们知道数据中存在大量的缺失值,那么我们可能需要采取适当的措施来处理这些缺失值。总之,了解数据的整体特性是进行有效数据分析和建模的重要基础。
作者其他创作
大纲/内容
训练平台(hive\\spark)
backup
数据分发
加载解析
数据仓库
数据集市
规则模型
CTR预估规则引擎活动竞价
tair
数据转化
开放平台
标签选取
业务接入
标签发布
收藏
性能管理
redis
下单
权限管理
标签管理
mafka/storm/flink
监控平台(cat\\DQC\\日志中心)
效果管理
离线
精准人群服务
精准引擎
实时
统计/规则模型
画像服务(基因系统)
挖掘模型定样本-特征工程-模型训练
USER-TAG 整体架构
统计模型
MQ
实时服务(storm\\mfaka)
跨屏触达
限流 熔断降级 监控
加工的主题数据和汇聚数据
接入申请接入审核接入管理
mysql
数据报表
基础服务
标签质量
es
标签树管理
第三方服务(搜索\\UPS)
各业务最底层的结构化数据、明晰化数据
标签下线
到综业务数据仓库
id-mapping
人群管理
ABTest
GBDT/LR/XGboost
文案引擎
库存管理
数据压缩
人群透视
用户冷却
hive
特征组装
标签分发(阿米巴)
标签注册
人群选取
pigeon
标签审核
场景管理
人群速算
浏览
集团UTVS用户基本标签
智能触达
数据流向中间聚合,向上层发散
特征处理
存储引擎(hdfs\\tair\\mysql\\elastic search\\arts)
点击
任务调度
第三方对接
偏好/时间窗口
标签生成
从数据到业务
报表展示数据
0 条评论
回复 删除
下一页