离线数仓概率篇 (1)
2022-12-14 14:19:08 0 举报
离线数仓概率篇 (1)
作者其他创作
大纲/内容
多个「待归因事件」对同一个「目标转化事件」作出贡献时首次触点模型:认为第一个「待归因事件」功劳为 100%末次触点归因:认为最后一个「待归因事件」功劳为 100%线性归因:认为每个「待归因事件」平均分配此次功劳位置归因:认为第一个和最后一个「待归因事件」各占 40% 功劳,其余「待归因事件」平分剩余的 20% 功劳时间衰减归因:认为越靠近「目标转化事件」做出的贡献越大
事务型事实表以每个事务或事件为 单位,例如一个销售订单记录,一笔支付记录等,作为事实表里的 一行数据。周期型快照 事实表(定时跟新)周期型快照事实表中不会保留所有数据,只保留 固定时间间隔 的数据,以具有规律性的、可预见的时间间隔记录事实。累积型快照事实表覆盖过程的整个生命周期,通常具有 多个日期字段来记录关键时间点。
ADS层
粒度
数仓数据 元数据管理 维护集群环境 集群监控服务
SqoopDataX
行为等级类似金额
面向应用读/写数十条记录简单的事务100MMB-GB
SuperSet
MaxWellCanal
DIM
1.列不可以再分 家庭住址[省 市 县]2.每一行都有一个唯一的主键 来确定这一行数据,3.如果有部分列依赖于非主键列,新建一张表,通过外键关联到一起1-1 1-N N-N
行为习惯画像
流程设计
数据发送到日志服务器
业务域分析
消费情况充值情况会员等级分布活跃分布退换货分布商品评价分析统计
拆分
查询频率 较OLTP系统更 低但通常会涉及到 非常复杂 的 聚合计算
三个模型可以并行存在的
null
用户
订单表为事实表进行举例可以已统计订单价格分层显示,用户位置统计显示,哪个月份购买越多进行建立维度
过滤无用的数据(空值)统一粒度(单位的统一)
行为域数据采集
月登陆次数月下单次数月收藏次数月点赞次数月分享次数分享最多品类浏览最多品类
一些概念
面向主题读上百万条记录复杂的查询100GB-TB
退化
优点:规范性较好,冗余小,数据集成和数据一致性方面得到重视缺点:需要全面了解企业业务、数据和关系;实施周期非常长,成本昂贵;对建模人员的能力要求也非常高,容易烂尾。
日志服务器
活跃
数据应用层:(数据的展示)数据量小-->mySQL(展示数据块)
维度表:以分析计算数据为出发点,构建数据与数据之间的关系在维度建模中,将度量称为“事实”将环境描述为“维度”,维度是用于分析事实所需要的多样环境。
维度设计(高级)
多步骤过程中每一步的转化与流失情况类似支付
实时采集数据发生概念马上获取
HDfs
行为数日志的数据
用户画像分析
前端埋点
一组事实表(Fact Table)和一组维表一张维度表可以和多张事实表相连,维度表也可以和维度表相连,形式星座
数据采集
原始的数据层
Hive
处理方式
业务数据库
选择业务过程以及事物类型-->选择建模相关的业务过程-->声明粒度-->确定维度-->确定事实-->冗余维度(连接)
HDFS
交易金额分析
1.数据每次变化都可以采集到
广告运营位分析
FineBI
Flume采集
数据仓库能为数据挖掘、多维分析、决策支持、报表等系统和应用提供一致的、准确的、易用的数据。
DWS
集群分析
OLAP
拉新注册分析
消费习惯画像
复购率分析
HBase
优点
埋点数据
转化漏斗
数据的明细层(存有效的数据)(业务数据建模)(行为数据:数据的清洗和过滤)
性别地域注册时间手机号手机类型收入级别年龄阶段
曝光率点击率转化率
定义
维度设计方法
web页面上展示数据表、折线图、饼状图或柱状图等
特点
整合
1,维度表的 范围很宽(具有多个属性、列比较多)2,跟事实表相比,行数较少,(通常小于10万条)3,内容相对固定
Flume
ETL
Lambda架构
离线数仓(开发一个综合性的数据采集平台、数据分析平台、可视化展示平台以及数据治理平台)
规范中间表:mid_table_name_[0~9|dim]临时表; :tmp_xxx维度表: dim_xxx
数据仓库
即席查询
业务域数据采集
流程
HIVE
作用
各复购率购买频次分析(1次,2-3次,3-4次,4-5次)订单量订单用户趋势分析
T 数据清洗: ( 有不完整的数据、错误的数据、重复的数据 )T 转换: 主要进行不一致的数据转换、数据粒度的转换,以及一些商务规则的计算。
行为分布
维度建模
数据
优点:技术要求不高,快速上手,敏捷迭代,快速交付;更快速完成分析需求,较好的大规模复杂查询的响应性能缺点:维度表的 冗余会较多 ,视野狭窄(关注一部分视角)
ElasticSearch
1全量采集2.增量采集采集的是某个时间点的结果
数仓部分
ODS
流失
优惠卷团购其他优惠活动
sqoop:传输数据的工具将关系型数据库的数据导入到Hadoop的HDFS可以将HDFS的数据导出到关系型数据库中。转化为MapReduce程序sqoop分为导入 (import) 和导出 (export)模式分为增量和全量.
数据从哪来,怎么来,到哪去
行为归因
批量采集每晚2点的时候定时采集
服务治理
营销分析
Datax采集
关键事件(如收藏,分享,转发,加购等) 可以为其他业务的关键行为-->用户画像
用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。
看后续天数是否活跃
ETL工具(采集)
ER模式CRUD(三范式)实体关系
Kafka
数据分析
业务数控数据库的数据
归因模型(目标转化事件)(待归因事件)类似于广告
Kappa架构
管理数据的数据:数据的关系血缘关系
Trino
1.点击一次收一次2.收集N次,发送一次
定时调度
留存(粘性)
用空间换时间大量的预处理来提升应用系统的用户体验,存在大量的冗余数据;增强扩展性不分层的话,业务规则发生变化将会影响整个数据清洗过程,工作量巨大分层管理把原来的一步工作分到了多个步骤去完成当数据发生错误时,往往我们只需要局部调整某个步骤即可。
DataX
L 加载将数据加载到DW层
高并发但是每次处理的 数据量少CRUD的时候要注意通过索引快速定位数据
原因
渠道分析转化率
雪花模型
数据处理方式---事实表
ADS
一个事实表(Fact Table)和一组维表有的维度表通过其他维表连接到事实表上时,其图解就像多个雪花连接在一起
数据类型
月消费金额周消费金额月优惠券使用金额月积分抵扣金额月消费最多品类月消费最多品牌
行为域基础分析
购物车分析
Tableau
SmartBl
实时掌握集群资源和运行状态信息
设计原则
一个事实表(Fact Table)和一组维表维度表和一张事实表相连
数据预处理
实时
活跃留存
FulmeFileBeatLogstashELK
SparkETL
设计方法
Impala
DWD
分类
可视化展示
OLTP
1.选择或者创建维度 是否存在? 选择 :创建2.选择主维度表图书管理系统 学生维度 区划信息 院系维度男女生借书的量院系借书的量哪个省份的学生更爱借书3.确定相关维度4.确定维度属性a.从主维度表中选择属性 b.从相关维度表中选择属性
数据库集群
会员分析
分析用户在使用产品时的路径分布情况。(用于后续的跟新,和对用户对应的广告投放)
业务数据,行为数据
垂直拆分定义维度是维度建模的基础和灵魂,维度属性的丰富程度直接决定了数据仓库的能力。在进行维度设计时,依据维度设计的原则,尽可能丰富维度属性,同时进行反规范化处理(逆范式)。设计出于扩展性、产出时间、易用性等方面的考虑,设计主从维度。主维表存放稳定、产出时间早、热度高的属性;从维表存放变化较快、产出时间晚、热度低的属性。
日志采集集群
业务数据
BI展示
事实表
整体流量概况
清晰数据结构:每一个数据分层都有它的作用域,能更方便地定位和理解。方便数据血缘追踪:快速定位到问题的数据。减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算。把复杂问题简单化:业务数据,行为数据将一个复杂的任务分解成多个步骤来完成,每一层只处理单一的步骤,比较简单和容易理解。屏蔽原始数据的异常:屏蔽业务的影响,不必改一次业务就需要重新接入数据
离线
事件转化
星型模型
数据CRUD
简单的展示
框架
进阶分析
星座模型
项目组成
Kylin
GMV总额: 商品交易总额订单支付总额下单人数客单价分析取消订单数取消订单用户数退货次数退货用户数GMV,订单量,下单人数,客单价,笔单价)GMV各端贡献情况 (平台类型,各店铺商品销量占比(店铺,购买、购买人数,销售额)
数据仓库的能力直接与维度属性的质量和深度成正比
数据组织类型
Nginx集群
数据的聚合(为后面计算任务服务)(重复利用)存放聚合表
QuickBI
概念
现在公司有多少员工?每个月工资要发多少钱?每天的员工的出勤率?汇总计算--对已有的数据进行计算
设计
优缺点
行为路径分析
数据处理方式---维度表
可加
基本属性画像
用户获取
计算
0 条评论
下一页