《精益业务数据分析》读书笔记思维导图模板

数据分析概念

定义：用适当的分析方法和挖掘方法对收集来的数据进行研究总结，提取有用信息，形成结论并支持决策的过程

分类

业务描述性分析

业务理解

数据获取

数据处理

数据分析

结果展现

数据挖掘

业务理解

数据理解

数据准备

建模

模型评估

模型发布

EDIT数字化模型：企业引入数据分析的落地模板

探索（Exploration）：确认企业各项运营状态、指标及业务具体数据

诊断（Diagnosis）：通过定性和定量项结合的方式，从中、微观层面定位和分析存在问题

指导（Instruction）：确定业务目标后，通过引入数字化指导优化业务策略

工具（Tool）：数据工具和算法工具

数据分析师职业道德及行为准则

确定主题（业务理解）

收集数据

表格结构数据与表结构数据

结构化数据：数据结构规范、完整的数据

表格结构数据：应用在电子表格工具上的数据

特征

基本单位为单元格，单元格的集合叫作单元格区域，单元格区域的集合叫作工作表，工作表的集合叫工作簿（电子表格文件）

不同单元格可设置不同的数据类型

数值型

文本型

逻辑型

一个单元格同时具有数据类型的属性及单元格格式的属性

获取方式

系统数据库获取

前端平台获取

企业外部渠道获取

引用方法

单元格：=A1

区域：=A:A、=A1:B4、=1:3

查询方法

搜索功能

查询函数

计算方法

直接计算

函数计算

子主题

表结构数据

组成

字段：整列数

记录：整行数

维度：业务角度

度量：业务行为结果

维度字段：文本型

度量字段：数值型

维度表：只包含维度信息的表

事实表：既包含维度信息又包含度量信息的表

特征

数据的基本引用、操作、计算单位是字段或记录行

表中所有字段的记录行数相同

几乎所有数据表中都存在且只存在一个主键

获取

应用：复制表数据，修改后不影响原数据

引用：创建与数据表间的连接，修改后会影响原数据

数据库

日常生活所说“数据库”一般是指关系数据库管理系统（RDBMS），而标准意义的数据库（DB）属于其管理子对象

关系数据库管理系统是联机事务处理系统（On-Line Transaction Processing,OLTP）的一个重要环节，承担数据存储与读取的任务

商业智能分析（BI）

ETL（Extract-Transform-Load）功能：将分析时使用的数据从数据源端经过抽取、清洗转换之后加载到数据仓库的过程

数据仓库（DW）功能：存储经过ETL处理后的数据

联机分析处理（On-Line Analytic Processing，OLAP）功能：将相互独立的数据仓库中数据进行连接

数据可视化功能

表结构数据的合并

横向合并：right join/left join/inner join

两表合并结果由主表公共字段记录内容决定

内连接没有主附之分，结果只包含两表能够相互匹配到值得记录行

纵向合并：union/union all，union为去重合并，union all为全合并

非结构化数据：数据结构不规范、不完整、格式多样、难以理解、难以进行标准化处理的数据，如图片、附件等

收集方法

直接来源：调查与试验

间接来源：二手数据

处理数据

数据库应用

分类

关系型数据库

DB2

Oracle

MySQL

SQL Server

非关系型数据库

MongoDB

HBase

数据库数据处理流程

业务理解

数据理解

数据清洗

信息/数据输出

SQL

数据定义语言（DDL）：用于创建、修改、删除数据库中各种对象（数据库、表、视图、索引等）

数据库

创建数据库：create database 数据库名

查看数据库：show databases

选择数据库：use 数据库名

删除数据库：drop database 数据库名

数据表

新建表：create table 表名(各个字段名及数据类型)

修改表：alter table 原表名 rename 新表名

修改字段名：alter table 表名 change 原字段名新字段名新数据类型

添加新字段：alter table 表名 add 字段名数据类型 [约束条件][first|after 参照字段名]

修改字段排列位置：alter table 表名 modify 字段名数据类型 first|after 参照字段名

删除字段：alter table 表名 drop 字段名

删除表：drop table [if exists] 表名[,表名1,表名2]

数据类型

数值型

字符串型

日期时间型

约束条件

主键约束（PRIMARY KEY）

唯一约束（UNIQUE）

自动增长约束（AUTO_INCRERENT）

非空约束（NOT NULL）

默认约束（DEFAULT）

数据操作语言（DML）：用于操作数据库表中的记录，常用有insert、update、delete

添加数据：insert into 表名 [字段1,字段2,字段n] values (值1,值2,值n)

查询结果添加到表中

更新数据：update 表名 set 字段1=值1[,字段2=值2,字段n=值n]

删除数据：delete from 表名 where 删除条件

数据查询语言（DQL）：用于查询数据库表中的记录，select * from * where *

单表查询

多表查询

纵向合并查询：select union[all] select

横向连接查询

左连接

右连接

内连接

全外连接

交叉连接：无需连接条件，直接将两表每行都进行两两连接，得出MxN条记录

创建视图：create view 视图名 as 查询语句

数据控制语言（DCL）：用于定义数据库访问权限和安全级别,grant、revoke

分析数据

统计学中的基本概念

总体和样本

总体：所研究的所有元素的合集

样本：从总体中抽取的一部分个体的集合

参数和统计量

参数：指总体的某个特征（特征：如比例、均值、方差等）

统计量：指样本的某个特征

变量和数据

变量：描述个体或总体某个属性特征，如年龄

数据：不同变量的具体取值

按表达形式划分

定性数据：不可计算

分类数据：只是事物的分类

顺序数据：可排序

定量数据（数值型）

定距数据：主要考察数据之间的距离，如温度30℃、年份

定比数据：描述大小

按照收集方式划分

调查数据

实验数据

按照与时间关系不同划分

横截面数据：相同或相近时间点观测的不同对象的数据

时间序列数据：同一对象在不同时间上相继观测收集到的数据

混合横截面数据：既有横截面数据特点，又有时间序列数据的特点

面板数据：不同对象在同一序列时间上收集到的数据

统计学中的数据分析方法

基础数据分析方法

描述性统计分析方法：对实际问题进行数据分布特征描述

描述类别

集中趋势描述：数据向其中心值靠拢的趋势

众数（M。）：一组数据中出现次数最多的数

分位数：将一组数据排序后将数据进行等分分割

二分位数（中位数）：数据排序后处于正中间位置上的数Me

中位数位置公式

性质

不受极端值影响

一组数据中所有数据与其中位数的离差绝对值之和是最小的

四分位数

上四分位数Ql：处于1/4位置上的数

下四分位数Qu：处于3/4位置上的数

位置公式

平均数：一组数据的均值

算术平均数

简单算术平均数

子主题

加权算术平均数：数据被分组，若分组为区间则使用组中值

子主题

性质

最常用，没特殊规定默认使用

容易受极端值影响

各数据与算术平均数的离差之和等于零，将其看作是一组数据的重心点

各数据与算术平均数的离差平方和是最小的

调和平均数（H）：数据倒数的算术平均数的倒数

简单调和平均数

子主题

加权调和平均数

子主题

例子

子主题

性质

常用于效率问题研究

容易受极端值的影响

几何平均数（G）：数据乘积的个数方根

简单几何平均数

子主题

加权几何平均数

子主题

例子

子主题

性质

常用于比率问题研究，如研究平均增长速度等

受到极端值影响，但影响微弱

平方平均数（Q）：数据平方的算术平均数的算术平方根

简单平方平均数

子主题

加权平方平均数

子主题

例子

子主题

性质

常用于长度、距离问题研究

容易受极端值影响

四者之间的关系

子主题

离散程度描述：数据偏离其中心值的程度

异众比率：一组数据中非众数的频数占总数据个数的比重

性质

不受极端值的影响

一组数据异众比率越大，众数的代表性越差

极差：也称范围，一组数据最大值与最小值之差

性质

是离散程度最简单的测量方法，但极其容易受极端值影响，实际中较少使用

极差越大说明数据范围越大，数据越分散

四分位差：一组数据上四分位数与下四分位数之差

性质

不受极端值影响

属于一个局部指标，衡量处于中间50%数据的离散程度，越大说明中间50%数据越分散

平均差：数据与其算术平均数离差的绝对值的算术平均数

简单平均差

子主题

加权平均差

子主题

性质

能全面测量数据离散程度，平均差越大数据越分散

容易受极端值影响

在绝对值损失函数中用到的就是平均差

平均差计算需要用到绝对值，导致其数学性质较差，从而在实际中较少使用

方差、标准差：数据与其算术平均数离差的平方的算术平均数，标准差为方差的根

简单总体方差、标准差

子主题

加权总体方差、标准差

子主题

简单样本方差、标准差

子主题

加权样本方差、标准差

子主题

性质

方差、标准差越大数据越分散

也会受极端值的影响

在平方损失函数中用到的就是方差

离散系数：也叫变异系数，由标准差除以算术平均数

子主题

性质

测量数据的相对离散程度，常用于不同组数据离散程度的比较

可以消除数据水平不同和数据计量单位不同对数据离散程度的影响

分布形态描述

偏态：数据分布的偏斜程度，衡量数据的对称性情况，用符号SK表示

计算方法

方法一

方法二

性质

SK=0时对称分布；SK>0时正偏（右偏）分布；SK<0时负偏（左偏）分布

使用时根据偏态系数的大小判断偏态的程度：0<|SK|<0.5为低度偏态；0.5<|SK|<=1为中等偏态；|SK|>1为高度偏态

峰态：数据分布的尖峰扁平程度，衡量数据相对于正态分布的尖峰扁平情况，用符号K表示

计算方法

子主题

性质

K=0时尖峰扁平适中（与标准正态分布近似）；K>0时尖峰分布；K<0时扁平分布；

在峰态系数的计算过程中，若不减3，则计算结果与3比较。

统计图表

频数分布表，用于对数据进行分组整理并计算相关指标，从中初步看出数据分布情况

统计图

饼图，常用于结构分析

条形图，常用于对比分析

直方图，常用于观察数据的分布形态

箱线图，常用于观察数据分布特征

线图，常用于描述变量的变化情况

散点图，常用于描述变量间的相关关系

推断性统计分析方法

方法分类

参数估计：总体信息未知，通过抽取样本估计总体信息，一般针对已发生情况

假设检验：知晓总体某个信息，但无法确认是否正确，通过抽取样本进行验证

预测：部分人认为可归为参数估计，一般针对未发生情况

常用数据分布

两点分布与二项分布

两点分布：只有两个结果的随机事件服从的分布，如抛硬币、满意情况

表示

期望

方差

二项分布（伯努利分布）：将两点分布试验独立重复进行多次，其结果服从二项分布

概率

子主题

期望

方差

正态分布与标准正态分布

正态分布（常态分布、高斯分布）

标准正态分布

X²分布（卡方分布）

t分布

F分布

复杂数据分析方法：以基础数据分析方法为基础，结合某类具体问题、特殊数据或对象等而得到的统计分析方法

相关分析：常用于分析变量之间的关系

关系类型划分

按强弱分

函数关系