离线数仓概率篇 (2)
2022-12-14 16:01:37 0 举报
离线数仓概率篇 (2)
作者其他创作
大纲/内容
就是截至过去某个时间点的所有数据,主要对过去某个时间点的数据状态进行记录即:快照表主要存储的是历史状态的表,每个快照的数据单独存储在一个分区中。
同比环比
数据量脏数据
行为归因分析
用户访问次数
判断最终结构
With cube
商品分析
作用
经验审核法
O=R++:升级二进制键/值对组成的 flat 文件 ORC 大小最多减少 75%,数据处理速度大大提高。ORC:hive兼容性好;(二进制文件小,后续还可压缩Snappy)P:兼容性,多平台
压缩技术能够有效减少存储系统的读写字节数,提高网络带宽和磁盘空间的效率。
数据分析
基本属性画像
商品收藏分析
用户画像分析
维度基数
记录数检查法
商品信息分析
拉链表
与上一个统计周期比较,例如2011年4月份与2011年3月份相比较,称为环比。
压缩
ODS
计算机程序审核无法确认、量化,或有些审核虽设定数量界限,但界限较宽不好判定的情况,需要增加人工经验审核。
首次触点归因:待归因事件中,最早发生的事,被认为是导致业务结果的唯一因素末次触点归因:待归因事件中,最近发生的事,被认为是导致业务结果的唯一因素线性归因:待归因事件中,每一个事件都被认为对业务结果产生了影响,影响力平均分摊位置归因:定义一个规则 比如最早、最晚事件占40%影响力,中间事件平摊影响力时间衰减归因:越晚发生的待归因事件,对业务结果的影响力越大
使用
记录更新周期内的新增数据,即在原表中数据的基础上新增本周期内产生的新数据没变化的数据不会被记录;
计算后一天(滚动计算)n-1有值,+n未登录: 值/2n-1有值,+n登录:值/2+2^29n-1没有值+n登录: 2^29
转化漏斗分析
质量监控方法
质量监控小结
行为域分析
用于分析一个多步骤过程中每一步的转化与流失情况。
IP数
多维cube表
流量主题分析
同比
跳出次数
表分类
值域判断法
Cube膨胀
对于表的每一个修改都会记录,可以用于反映实际记录的变更(日志的添加或修改)
1.查询时*比较多,还是指定列查询比较多 如果*查询比较多,行式存储 如果指定列查询比较多,列式存储⒉行式存储∶如果数据人也能看懂,采用文本,如果数据不考虑人可以读懂,只考虑机器,采用 Sequence File、Map File、Avro File3.列式存储∶都是采用二进制,Hive 平台自己用推荐ORC File,如果多平台用推荐Parquet File如果写出的数据只是作为存储,那就要看这个数据属于热数据还是冷数据,如果热数据,不压缩,一般使用Hadoop和Hive自己用Sequence File,如果多平台使用Avro File如果冷数据,压缩处理
关键指标总量验证法
购物车信息分析
流水表
PV数
通过历史数据观察数据变化规律,从而验证数据质量。历史数据对比法包括同比和环比两种方式。
切片表
2. 用户画像有什么用1. 用于人群属性统计分析2. 用于人群划分,精准营销(针对不同的人群实施不同的营销策略、行为)3. 用于个性化推荐4. 用于精准广告推送
5. 用户画像的数据如何提供给“别人”使用,显示看统计分析报表,直接在“可视化平台上”对接结果数据进行展现即可在线分析,直接在“可视化平台上”对接presto引擎进行即时计算即可个性化推荐、精准营销、精准广告推送,画像标签结果数据导出到 hbase或elastic search,提供给相应的功能系统对接读取即可!
行为习惯画像
ADS
Input :数据来源(数据输入)Transformation :中间计算(Map-->reduce)Output :最后的输出(数据输出)
Bzip 压缩70% ,可切分Snappy 压缩不能被切分,压缩率高,压缩解压缩快Lzo lz4可切片
记录更新周期内的全量数据,无论数据是否有变化都需要记录;
3. 用户画像的逻辑流程从用户的行为明细日志,以及用户的各类业务表数据,按照用户分组,进行各类标签聚合统计即可最后得到: 用户id,标签名,标签值,计算时间这个表是一个“纵表”,可以支撑未来的任意标签设计变化(增加标签,修改标签)
用户行为的等级分布
增量导入
Group sets
同比环比人工核实
核心度量
1. 用户画像是干什么以用户为单位,计算出用户的各种标签值(比如,月消费额,月消费次数,月访问次数,行为性别,年龄……)这些标签在逻辑上可以划分主题:活跃属性标签,消费属性标签,会员属性标签,……
对每天全量数据进行拍快照保存到天分区中
对于关键指标,对比数据总量是否一致不同维度统计的汇总逻辑的检查。(总利润)
数据量数据质量
ETL
主要用于分析用户在使用产品时的路径分布情况。
消费习惯画像
环比
数据采集
(只访问一个页面就退出的会话)
行为间隔分析
DWS
增量表
2.5 用户标签有多少个1000多
分类
提高查询效率行存储适合查整条列存储适合查单列字段数据
优惠券信息分析
与相关部门提供或发布的有关数据进行对比验证。上市公司的净资产收益率,总资产负债率。
切片表根据基础表,往往只反映某一个维度的相应数据。
维度基数:一个维度(可以有多个字段)所有的取值可能的个数.低基维:省市区,几百个信息.(省市区三个字段)高基维:像用户id,手机号等等,千万甚至上亿, 超高基维:+++
行为路径分析
订单信息分析
全量表
数据源
特点: span style=\"font-size: inherit;\
与历史同时期比较,例如2011年3月份与2010年3月份相比,叫同比。
DWD
不精准不能精确几个用户
多维度cube表
Hive压缩和存储
行为分布分析
转化时长的分布情况,间隔分析即是解决这类问题和需求的。
期间
4. 用户画像的技术实现直接在hive数仓中,通过计算sql任务即可实现,算完后的结果依然存在hive中
匹配判断法
是一种维护历史状态,以及最新状态数据的一种表,记录数据从开始一直到当前状态 所有变化的信息。
快照表
业务域分析
分区全量快照表
数据转化率数据量
bitMap方案
代码核实检查同比环比
存储
表结构相关
历史数据对比法
Whit rollup
同比环比值域判断
UV数
0 条评论
下一页