《精益业务数据分析》读书笔记
2023-03-28 16:02:06 2 举报
AI智能生成
CDA level1级教材《精益业务数据分析》一书的知识归类总结。
作者其他创作
大纲/内容
数据分析概念
定义:用适当的分析方法和挖掘方法对收集来的数据进行研究总结,提取有用信息,形成结论并支持决策的过程
分类
业务描述性分析
业务理解
数据获取
数据处理
数据分析
结果展现
数据挖掘
业务理解
数据理解
数据准备
建模
模型评估
模型发布
EDIT数字化模型:企业引入数据分析的落地模板
探索(Exploration):确认企业各项运营状态、指标及业务具体数据
诊断(Diagnosis):通过定性和定量项结合的方式,从中、微观层面定位和分析存在问题
指导(Instruction):确定业务目标后,通过引入数字化指导优化业务策略
工具(Tool):数据工具和算法工具
数据分析师职业道德及行为准则
确定主题(业务理解)
收集数据
表格结构数据与表结构数据
结构化数据:数据结构规范、完整的数据
表格结构数据:应用在电子表格工具上的数据
特征
基本单位为单元格,单元格的集合叫作单元格区域,单元格区域的集合叫作工作表,工作表的集合叫工作簿(电子表格文件)
不同单元格可设置不同的数据类型
数值型
文本型
逻辑型
一个单元格同时具有数据类型的属性及单元格格式的属性
获取方式
系统数据库获取
前端平台获取
企业外部渠道获取
引用方法
单元格:=A1
区域:=A:A、=A1:B4、=1:3
查询方法
搜索功能
查询函数
计算方法
直接计算
函数计算
子主题
子主题
表结构数据
组成
字段:整列数
记录:整行数
维度:业务角度
度量:业务行为结果
维度字段:文本型
度量字段:数值型
维度表:只包含维度信息的表
事实表:既包含维度信息又包含度量信息的表
特征
数据的基本引用、操作、计算单位是字段或记录行
表中所有字段的记录行数相同
几乎所有数据表中都存在且只存在一个主键
获取
应用:复制表数据,修改后不影响原数据
引用:创建与数据表间的连接,修改后会影响原数据
数据库
日常生活所说“数据库”一般是指关系数据库管理系统(RDBMS),而标准意义的数据库(DB)属于其管理子对象
关系数据库管理系统是联机事务处理系统(On-Line Transaction Processing,OLTP)的一个重要环节,承担数据存储与读取的任务
商业智能分析(BI)
ETL(Extract-Transform-Load)功能:将分析时使用的数据从数据源端经过抽取、清洗转换之后加载到数据仓库的过程
数据仓库(DW)功能:存储经过ETL处理后的数据
联机分析处理(On-Line Analytic Processing,OLAP)功能:将相互独立的数据仓库中数据进行连接
数据可视化功能
表结构数据的合并
横向合并:right join/left join/inner join
两表合并结果由主表公共字段记录内容决定
内连接没有主附之分,结果只包含两表能够相互匹配到值得记录行
纵向合并:union/union all,union为去重合并,union all为全合并
非结构化数据:数据结构不规范、不完整、格式多样、难以理解、难以进行标准化处理的数据,如图片、附件等
收集方法
直接来源:调查与试验
间接来源:二手数据
处理数据
数据库应用
分类
关系型数据库
DB2
Oracle
MySQL
SQL Server
非关系型数据库
MongoDB
HBase
数据库数据处理流程
业务理解
数据理解
数据清洗
信息/数据输出
SQL
数据定义语言(DDL):用于创建、修改、删除数据库中各种对象(数据库、表、视图、索引等)
数据库
创建数据库:create database 数据库名
查看数据库:show databases
选择数据库:use 数据库名
删除数据库:drop database 数据库名
数据表
新建表:create table 表名(各个字段名及数据类型)
修改表:alter table 原表名 rename 新表名
修改字段名:alter table 表名 change 原字段名 新字段名 新数据类型
添加新字段:alter table 表名 add 字段名 数据类型 [约束条件][first|after 参照字段名]
修改字段排列位置:alter table 表名 modify 字段名 数据类型 first|after 参照字段名
删除字段:alter table 表名 drop 字段名
删除表:drop table [if exists] 表名[,表名1,表名2]
数据类型
数值型
字符串型
日期时间型
约束条件
主键约束(PRIMARY KEY)
唯一约束(UNIQUE)
自动增长约束(AUTO_INCRERENT)
非空约束(NOT NULL)
默认约束(DEFAULT)
数据操作语言(DML):用于操作数据库表中的记录,常用有insert、update、delete
添加数据:insert into 表名 [字段1,字段2,字段n] values (值1,值2,值n)
查询结果添加到表中
更新数据:update 表名 set 字段1=值1[,字段2=值2,字段n=值n]
删除数据:delete from 表名 where 删除条件
数据查询语言(DQL):用于查询数据库表中的记录,select * from * where *
单表查询
多表查询
纵向合并查询:select union[all] select
横向连接查询
左连接
右连接
内连接
全外连接
交叉连接:无需连接条件,直接将两表每行都进行两两连接,得出MxN条记录
创建视图:create view 视图名 as 查询语句
数据控制语言(DCL):用于定义数据库访问权限和安全级别,grant、revoke
分析数据
统计学中的基本概念
总体和样本
总体:所研究的所有元素的合集
样本:从总体中抽取的一部分个体的集合
参数和统计量
参数:指总体的某个特征(特征:如比例、均值、方差等)
统计量:指样本的某个特征
变量和数据
变量:描述个体或总体某个属性特征,如年龄
数据:不同变量的具体取值
按表达形式划分
定性数据:不可计算
分类数据:只是事物的分类
顺序数据:可排序
定量数据(数值型)
定距数据:主要考察数据之间的距离,如温度30℃、年份
定比数据:描述大小
按照收集方式划分
调查数据
实验数据
按照与时间关系不同划分
横截面数据:相同或相近时间点观测的不同对象的数据
时间序列数据:同一对象在不同时间上相继观测收集到的数据
混合横截面数据:既有横截面数据特点,又有时间序列数据的特点
面板数据:不同对象在同一序列时间上收集到的数据
统计学中的数据分析方法
基础数据分析方法
描述性统计分析方法:对实际问题进行数据分布特征描述
描述类别
集中趋势描述:数据向其中心值靠拢的趋势
众数(M。):一组数据中出现次数最多的数
分位数:将一组数据排序后将数据进行等分分割
二分位数(中位数):数据排序后处于正中间位置上的数Me
中位数位置公式
性质
不受极端值影响
一组数据中所有数据与其中位数的离差绝对值之和是最小的
四分位数
上四分位数Ql:处于1/4位置上的数
下四分位数Qu:处于3/4位置上的数
位置公式
平均数:一组数据的均值
算术平均数
简单算术平均数
子主题
加权算术平均数:数据被分组,若分组为区间则使用组中值
子主题
子主题
性质
最常用,没特殊规定默认使用
容易受极端值影响
各数据与算术平均数的离差之和等于零,将其看作是一组数据的重心点
各数据与算术平均数的离差平方和是最小的
调和平均数(H):数据倒数的算术平均数的倒数
简单调和平均数
子主题
加权调和平均数
子主题
例子
子主题
性质
常用于效率问题研究
容易受极端值的影响
几何平均数(G):数据乘积的个数方根
简单几何平均数
子主题
加权几何平均数
子主题
例子
子主题
性质
常用于比率问题研究,如研究平均增长速度等
受到极端值影响,但影响微弱
平方平均数(Q):数据平方的算术平均数的算术平方根
简单平方平均数
子主题
加权平方平均数
子主题
例子
子主题
性质
常用于长度、距离问题研究
容易受极端值影响
四者之间的关系
子主题
离散程度描述:数据偏离其中心值的程度
异众比率:一组数据中非众数的频数占总数据个数的比重
性质
不受极端值的影响
一组数据异众比率越大,众数的代表性越差
极差:也称范围,一组数据最大值与最小值之差
性质
是离散程度最简单的测量方法,但极其容易受极端值影响,实际中较少使用
极差越大说明数据范围越大,数据越分散
四分位差:一组数据上四分位数与下四分位数之差
性质
不受极端值影响
属于一个局部指标,衡量处于中间50%数据的离散程度,越大说明中间50%数据越分散
平均差:数据与其算术平均数离差的绝对值的算术平均数
简单平均差
子主题
加权平均差
子主题
性质
能全面测量数据离散程度,平均差越大数据越分散
容易受极端值影响
在绝对值损失函数中用到的就是平均差
平均差计算需要用到绝对值,导致其数学性质较差,从而在实际中较少使用
方差、标准差:数据与其算术平均数离差的平方的算术平均数,标准差为方差的根
简单总体方差、标准差
子主题
子主题
加权总体方差、标准差
子主题
子主题
简单样本方差、标准差
子主题
子主题
加权样本方差、标准差
子主题
子主题
性质
方差、标准差越大数据越分散
也会受极端值的影响
在平方损失函数中用到的就是方差
离散系数:也叫变异系数,由标准差除以算术平均数
子主题
性质
测量数据的相对离散程度,常用于不同组数据离散程度的比较
可以消除数据水平不同和数据计量单位不同对数据离散程度的影响
分布形态描述
偏态:数据分布的偏斜程度,衡量数据的对称性情况,用符号SK表示
计算方法
方法一
方法二
性质
SK=0时对称分布;SK>0时正偏(右偏)分布;SK<0时负偏(左偏)分布
使用时根据偏态系数的大小判断偏态的程度:0<|SK|<0.5为低度偏态;0.5<|SK|<=1为中等偏态;|SK|>1为高度偏态
峰态:数据分布的尖峰扁平程度,衡量数据相对于正态分布的尖峰扁平情况,用符号K表示
计算方法
子主题
性质
K=0时尖峰扁平适中(与标准正态分布近似);K>0时尖峰分布;K<0时扁平分布;
在峰态系数的计算过程中,若不减3,则计算结果与3比较。
统计图表
频数分布表,用于对数据进行分组整理并计算相关指标,从中初步看出数据分布情况
统计图
饼图,常用于结构分析
条形图,常用于对比分析
直方图,常用于观察数据的分布形态
箱线图,常用于观察数据分布特征
线图,常用于描述变量的变化情况
散点图,常用于描述变量间的相关关系
推断性统计分析方法
方法分类
参数估计:总体信息未知,通过抽取样本估计总体信息,一般针对已发生情况
假设检验:知晓总体某个信息,但无法确认是否正确,通过抽取样本进行验证
预测:部分人认为可归为参数估计,一般针对未发生情况
常用数据分布
两点分布与二项分布
两点分布:只有两个结果的随机事件服从的分布,如抛硬币、满意情况
表示
期望
方差
二项分布(伯努利分布):将两点分布试验独立重复进行多次,其结果服从二项分布
概率
子主题
子主题
期望
方差
正态分布与标准正态分布
正态分布(常态分布、高斯分布)
标准正态分布
X²分布(卡方分布)
t分布
F分布
复杂数据分析方法:以基础数据分析方法为基础,结合某类具体问题、特殊数据或对象等而得到的统计分析方法
相关分析:常用于分析变量之间的关系
关系类型划分
按强弱分
函数关系
相关关系
没有关系
按形式分
线性关系
非线性关系
按变量数量分
简单关系
多重关系
简单线性相关关系
度量系数
Pearson相关系数,用于数值数据
计算方法
相关系数r性质
取值范围[-1,1],负数为负相关,正数为正相关
|r|=1表示x与y完全相关,其中-1为完全负相关,1为完全正相关
|r|约趋于1表示相关关系越密切,一般|r|>=0.8可认为存在强的线性相关关系,0.5=<|r|<0.8可认为相关关系一般,|r|<0.5可认为相关关系较弱
r=0表示不存在线性相关关系,但不代表不存在相关关系
Spearman等级相关系数,可用于非数值数据
计算方法
例子
多维数据透视分析
多维数据模型:多个不同业务角度数据通过连接构成一个数据集合
创建方式
公共字段
筛选器
单向筛选器:箭头来源表提供筛选维度字段,箭头方向表提供度量字段
双向筛选器:两表互相进行筛选
对应关系:一对多、多对一(不符合业务需求)、一对一(无统计分析意义)、多对多(容易造成重复统计)
多表连接模型
星型模型:一个事实表和多个维度表相连接构成,用于为事实表丰富维度信息
雪花模型:维度表和其他维度表连接再与事实表连接后构成,用于在某些特定维度信息上进行更多维度信息拓展
星座模型:多个事实表与某些维度表连接后构成,通过共用的维度表将多个不同事实表连接为一个整体,避免产生多对多关系
5W2H思维模型
业务分析方法
业务指标分析
通用指标:适用于绝大多数业务场景
求和类指标,如销量、销售额等
常规求和计算方法:计算维度项下所有度量值的合计值
累计求和计算方法:计算到当前维度项为止的所有度量值的合计值
计数类指标,如次数、个数等
常规计数方法:统计维度项下度量值的总个数
非重复计数方法:统计维度项下不重复的度量值的总个数
比较类指标,如同环比、均比等
均比计算方法:不同维度项下汇总值与所有维度维度项的总平均值进行对比,用于比较各个维度项水平与整体水平之间的差异,可使用均比差异值或百分比
基准比计算方法:各个不同维度项下的汇总值与某个基准值进行对比,用于比较各个维度项水平与基准水平间的差异,可使用基准比差异值或百分比
基准值需要是一个被广泛认可的数值
标准比计算方法:各个不同维度项下的汇总值与作为标准值的某个维度项汇总值进行对比,用于比较各个维度项水平与标准水平间的差异,可使用标准比差异值或百分比
作为标准值的维度项应具有稳定的特征
目标比计算方法:各个不同维度项下的汇总值与各自的目标值之间进行对比,用于判断各维度项结果离目标的差距及好坏,可以使用目标比差异值、目标完成率或目标比差异百分比
同环比计算方法:各个维度项当期的汇总值与各自以往同期或上期的汇总值之间的对比,用于判断当期水平与过去水平之间的差异,可使用同环比差异值或同环比增长率
适用于长周期业务
应注意所处环境是否有显著变化
应注意是否有显著短周期变化特征
场景指标:只能在特定业务场景使用
客户分析类指标
客户生命周期
新增
判断数量
新增注册会员数:单位时间内新增加注册会员数量的合计值
新增访客数,其中访客数(UV)指单位时间内访问线上店铺页面不重复的用户数,新增访客数指新注册的访客数量
新增到店数:单位时间内新增加的到店客户数
新增下载用户数
判断质量
新增活跃用户数与新增活跃用户数占比
新增注册用户数与新增注册用户数占比
新增付费用户数与新增付费用户数占比
留存
单位时间留存人数
单位时间留存率
活跃用户数
日活数(DAU)
周活数(WAU)
月活数(MAU)
沉默用户数
流失
单位时间流失人数
单位时间流失率
单位时间流失召回人数
单位时间流失召回率
客户行为
浏览量(PV):单位时间内用户对店铺页面总的浏览数量,即浏览行为发生的总次数
访问数(Visits):统计会话数,从用户到达店铺或平台页面开始到用户离开店铺或平台页面的全过程称为一次访问(会话)
平均访问深度:浏览量/访问数
跳失次数:用户打开平台页面无任何操作直接关闭即为跳失
跳失率:跳失次数/访问数
客户价值
客户收入
客单价
用户生命周期价值(Life Time Value,LTV)
用户平均收入(Average Revenue Per User,ARPU):总收入/总用户数
客户成本
用户获取成本(CAC)
线上引流广告支付核算方式
CPM:按广告每千次曝光收费
CPS:按实际成功购买行为收费
CPC:按点击次数收费
客户运营成本
产品分析类指标
进
进货额
进货量
订单平均进货量
订单平均进货额
缺货量
缺货率
到货平均时长
准时交货率
销
售前
产品曝光人数
产品曝光次数
产品搜索次数
产品点击次数
售中
产品销量、销售额
售罄率
产品毛利额
产品毛利率
产品浏览付费转化率
产品询价购买率
售后
发货数量
退货数量
存
库存数量与库存金额
计算方法一,一般用于计算业务库存类指标值,如库销比:单位时间内库存总数量或库存总金额/单位时间天数
计算方法二,一般用于计算财务库存类指标值,如存货周转率:(期初库存数量或金额+期末库存数量或金额)/2
存货周转率(库存周转率)
SKU(最小存货单位)
SPU(商品品类细分)
描述存货运营效率的好坏程度
存货周转率=主营业务收入或成本/存货平均余额
存货平均余额=(期初存货金额+期末存货金额)/2
存货周转天数(库存周转天数)
存货周转天数=单位时间天数/存货周转次数
单位时间天数一般以365天为一周期
库销比(存销比)
单位时间内,平均库存金额或期末库存金额/总销售金额
业务行为分析类指标
客户拜访次数
接通率
回访次数
引导客户注册人数
效果分析类指标
资产周转率
投入产出比
坪效
销售额/营业面积
绩效评分
客户满意度
指标体系
搭建指标体系
明确服务对象
明确使用目的
电商黄金公式(GMV):流量X转化率X客单价
明确所处的维度环境
收集指标数据
计算指标值
分析指标值
业务模型分析
分类模型
客户分类模型
用户贡献价值模型
RFM模型
子主题
子主题
用户忠诚度模型
子主题
成本有限情况下可从低价值用户入手提升收入
产品分类模型
波士顿矩阵
子主题
漏斗模型
主要观测点
粗细:漏斗的容量
斜率:连接相邻两个阶段接点切线与垂直线间构成的角度
体形:漏斗的体形应尽量保持均匀
流速:需要加入时间轴才能体现,每阶段转化所需时间越短流速越快
电商常用模型:AARRR模型
Acquisition(用户获取)
Activation(用户激活)
Retention(用户留存)
Revenue(用户获益)
Refer(推荐传播)
量化效果指标:K因子
K=每个用户向外发出邀请的数量X接收邀请的人转化为新用户的转化率
K>1表示传播增长效果越来越好,K=1表示增长效果处于平衡稳定状态
业务分析方法论
帕累托分析法(二八分析方法)
A/B测试分析方法
同期群分析方法
同期群是指相同时间段内具有相同特征属性的客户群组
因果分析方法
结果展示(解释数据)
可视化业务分析图表
比较类图表:用于实际值与目标值、不同对象或不同区域之间进行对比分析
百分比进度图
柱形图或条形图
词云图
树状图
散点图
雷达图
序列类图表:用于对某些对象行为结果的时间变化趋向特征进行描述,或某个事项的开展过程进行描述
折线图
面积图
柱形图或条形图
漏斗图
构成类图表:用于对部分在整体中的占比大小进行描述,或对行为结果中不同行为阶段的影响程度进行描述
饼图、环形图
瀑布图
描述类图表:用于对数值分布情况及数值变量间的关联关系进行描述
直方图
箱线图
散点图
业务分析报表
分类
静态报表,不可交互变化
商业智能报表(BI报表)
创建过程
业务理解
数据收集
数据加工
数据分析
报表展示
业务分析报告:文字信息作为主体内容,数字信息作为辅助论证或说明
0 条评论
下一页