数据分析图谱
2023-09-12 16:58:47 0 举报
AI智能生成
数据分析图谱
作者其他创作
大纲/内容
业务需求
业务需求层次
业务理解、数据抽取、数据清洗。。。
数据分析,建模
分析结果汇报
方案落地
产生价值
目标制定
基本原则
把业务需求作为数据分析的七点,分析过程中关注业务环境和逻辑
如何理解业务
确定分析目标,如分析产品功能、原因诊断等
确定业务核心需求,将取数需求转化为分析需求
确定核心指标,通过目标找到核心的分析指标
根据核心指标进行拆解,如常用的公式法
业务注意的要点
一般人
取数→业务→取数
数据分析师
为什么要分析人数?这个目的是否有价值?需要什么指标
分析目标确定的步骤
吃透业务的分析需求,系统性地引导业务分析
建立分析体系,不完整的地方有业务帮忙补充
了解业务逻辑和模式,补充业务知识
分析结论和成果要有明确的业务指向
场景梳理
常见的业务场景
经营类数据分析
定义:指收入、销量等与企业经营活动相关分析,监控企业的运行情况
目标:发现企业运营中的问题
关注点:销量/销售额总体的时序变化、地区分布、变化原因
用户数据分析
定义:指购买额、购买频次、购买偏好等相关分析
目标:深入理解客户
关注点:用户画像分层、RFM模型衡量用户价值分层
销售数据分析
定义:指销售收入、销售额、单价等与销售情况直接相关的分析
目标:完成销售任务,监控销售量低的原因,提出解决方法
关注点:时序进度、落后原因、销售单产情况
营销/市场分析
定义:指企业营销/市场活动的都放、反馈、效果相关分析
目标:了解活动结果、优化活动计划、提升活动效率
关注点:主要集中在ROI相关指标
业务知识来源
业务模式
ToB、ToC
产品
设计前、设计中、设计后
渠道
接触、展示、叙述、促进
用户
企业用户、个人用户
运营
拉新、促活
部门
支持部门、赋能部门、无关部门
KPI
对什么数据关心、对什么结果关心
架构
有需要找谁、有问题找谁、要资源找谁
业务指标体系建立
指标的构成
先明确要分析的需求是什么。比如留存、转化、曝光、盈余等;要将指标限制在某个场景、某个功能、某种条件、某种属性下;指标的限定时间,有时候可以神略,但为了表达清晰建议不省略
量化指标方法
确定目标:澄清目标到底是什么
衡量目标:考虑如何量化这个目标
是否有说服力:量化后的数据能否增加我们对目标的了解
如何拆解指标
理解业务、理解目标
确定核心指标
按照维度拆解
指标体系建立方法
OMTM法
确定指标类型
单一指标
复合指标
正向指标
负向指标
行为指标
成本指标
营收指标
确定OMTM
唯一关键指标,聚焦在最关键的事情上
分析关键因素
虚荣指标是表面指标,他们往往比较大而泛,可以给人留下影响
杜邦拆解最小可优化的单元
基本思想是将核心指标逐级分解为多项指标,直至最小可优化单元
构建指标体系
指标体系由指标+维度构成,时间、参数、属性配置完成侯,形成相应指标体系,可针对唯一关键指标OMTM按多个维度多个时间进行多维细分分析
流程法
梳理流程环节
业务流:指某人通过某些流程步骤达到特定的目标
管理流:在业务流程的具体步骤中,每个节点会做哪些事情,具体做到什么程度
数据流:在每个管理过程中,我们记录事件,对管理过程的事件进行量化
业务对象确定
收集系列指标
数据获取
目标确定
数据分类
数据库:不同的数据库数据源不同,如MySQL、Orcale、SQL Server等
数据场景:不同业务场景具有不同的数据指标,如字段类型、约束条件等
清洗后的数据:脏乱差的原始数据经过加工清洗之后的数据
数据抽取方法
时间戳方式:基于快照变化的数据捕获方式,再源表上增加时间戳列
日志表方式:通过分析数据库自身的在线日志判断变化数据
全表比对方式:全表比对方式要事先为抽取的表建立结构类似的临时表
触发器方式:在源数据表上建立insert、update和delete等触发器
数据清洗类型
脏数据(缺失数据、错误数据)的排除
重复数据检索
无效数据(空值)检索
不一致数据(数据源内部和数据源)的 检测
数据存放来源
纸质数据:最原始的数据存储方式,保密性强,不好存储、不好查取、不好删改
Excel:一般在非常小型的创业公司里,没有OA、ERP系统,也没有数据库
爬虫:从网络上直接获取的数据一般价值不大,而且安全性很差
软件系统:将原始数据存储于数据库里,再通过ERP由数据岗位导出分析
数据库:又称关系型数据库,比如MySQL、Orcale、SQL Server等
SQL 与sqlserver 的关系
数据库是存放数据的库
SQL是结构化查询语言,是一种数据库查询和程序涉及语言,用于存取数据及查询、更新和管理关系数据库系统
DBMS是数据库关系系统,包括MySQL、Oracle、SqlServer、Hadoop等,用来创建和操纵数据库
数据库的分类
关系型数据库模型:把复杂的数据结构归结为简单的二元关系,MySQL和Oracle数据库,而互联网场景最常用的是MySQL数据,它通过SQL结构化查询语言来存取、管理关系型数据库的数据
非关系型数据库:NOSQL数据库为了灵活及高性能、高并发而生,忽略影响高性能、高并发的功能,最典型产品为Redis(持续化缓存)、Mongodb、Memcached(纯内存)等,NOSQL数据库没有标准的查询语言(SQL),通常使用REST式的数据接口或者查询API
SQL技术
简单语句
表的查询
表的排序
表的过滤
简单过滤
连接符过滤
通配符过滤
正则式过滤
复杂SQL
文本函数
处理文本串
处理时间数值
计算数值
计算和返回单个的函数
分组
返回分组数据
处理数据
Excel数据处理
Excel学习路径
VBA、宏
函数、透视表等进阶能力
数据整合、清洗等功能
清洗功能
数组
分列
数据分析库
数据透视表
函数功能
计算函数
逻辑函数
查找函数
字符函数
统计学
描述型统计
集中趋势:平均数、中位数、众数、分位数
离散趋势
分布
推理性统计
连续性分布与离散型分布
概率分布
假设检验
数据分析
数据分析模型
数据建模方式
业务分析模型的构成
回归模型
回归模型的原理——相关假设
回归分析方法
回归分析的判定
聚类模型
原理
方法
贝叶斯模型
帕累托模型
二八原则
长尾理论模型
波士顿模型
用户事件模型
RFM模型
CLV模型
漏斗模型
5W2H模型
PEST模型
SWOT模型
4P4C模型
BI工具应用
传统BI
自助式BI
数据可视化
分析结果汇报
好的可视化标准
可视化图标选择
可视化排版原则
方案落地-产生价值
图表选型
比较类图表
多系列柱状图
堆积柱状图
对比柱状图
分区柱状图
漏斗图
占比类图标
玫瑰饼图
仪表板图
矩阵树图
雷达图
相关类图表
散点图
甘特图
树状图
趋势类图表
线图
面积图
瀑布图
地图类图标
热力地图
点地图
0 条评论
下一页