数据分析知识框架
2020-09-09 11:11:03 0 举报
AI智能生成
数据分析知识框架
作者其他创作
大纲/内容
数据分析概念及统计学基础
数据分析概念、方法论、流程
数据分析的目标及意义
数据分析:数据分析是以数据为分析对象,以探索数据内的信息为主要途径,以解决业务问题为最终目的
数据挖掘:计算机科学的一个分支,应用人工智能、机器学习、数据库的交叉方法等相对较大型的数据集中发现模式的计算过程
数据分析过程
业务理解-数据收集-数据清洗-数据探索-数据可视化-数据建模-模型结果可视化-分析结果的业务应用
数据分析的八个层次:常用报表、即席查询、多维分析、预警、统计分析、预报、预测型模型、优化
数据挖掘方法论:CRISP-DM、SEMMA方法论
CRISP-DM:将数据挖掘项目生命周期分为6个步骤:业务理解、数据理解、数据准备、建模、模型评估、模型发布
SEMMA是在CRISP-DM基础上,对数据准备和建模环节进行了拓展
描述性统计分析
分类、顺序、数值型数据之间的区别与联系
分类变量:频次/频数,百分比、累计频次与累计百分比
顺序变量:众数、频次、百分比、累计频数、累计百分比、四分位差
连续变量:中心水平、离散集中趋势、偏度、峰度
集中趋势:众数平均数、中位数、四分位数
离散趋势:异众比率、四分位差、方差、标准差、极差
经验法则:当一组数据对称分布时①约有68%的数据在平均数±1个标准差的范围内
②约有95%的数据在平均数±2个标准差范围内
③约有99%的数据在平均数±3个标准差范围内
②约有95%的数据在平均数±2个标准差范围内
③约有99%的数据在平均数±3个标准差范围内
切比雪夫不等式:经发法则适合于对称数据,如果一组数据不对称,其中k是大于1的任意值,但不一定是整数。对于k=2、3、4该不等式的含义:
①至少有75%的数据在平均数±2个标准差范围内
②至少有89%的数据在平均数±3个标准差范围内
③至少有94%的数据在平均数±4个标准差范围内
①至少有75%的数据在平均数±2个标准差范围内
②至少有89%的数据在平均数±3个标准差范围内
③至少有94%的数据在平均数±4个标准差范围内
集中和离散是数据分布的两个特征,偏态和峰态就是对分布形状的测度
若偏态系数大于1或小于—1,则为高度偏态分布;若偏态在0.5-1之间为为中等偏态;偏态系数接近0偏斜程度就越小
峰态:如果当一组数据服从正态分布,则峰态系数等于0,当k>0为峰尖分布数据分布更集中,当<0时,为扁平分布
截面、时序、面板数据之间的区别与联系
衡量数据集中、离散趋势数据分布的常用指标及计算方法
统计图形的类型、元素、绘制、可视化效果
明确统计图形对统计指标表达上的对应关系
推断性统计分析
抽样估计
随机事件概率
随机试验符合的三个特点:在相同的条件下重复进行
每次试验的结果可能不止一个,但能事前明确所有可能结果
进行一次试验之前不能确定哪个结果会出现
每次试验的结果可能不止一个,但能事前明确所有可能结果
进行一次试验之前不能确定哪个结果会出现
随机事件:一个被赋予机率的事物集合,某个特定结果可能出现也可能不出现,但我们通过多次抽样能发现内在的规律,就是随机事件
概率分布
二项分布
泊松分布:是用来描述在一指定时间范围内或在指定的面积或体积之内某一事件出现的次数的分布
中心极限定理:设从均值为μ,方差为α²的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值 ̄X的抽样分布近似服从均值为μ,方差为α²/n的正态分布
点估计与区间估计方法的特点与优缺点
区间估计:90%的样本μ﹢1.65σ,95%的样本μ+1.96σ,99%的样本μ+2.58σ
置信水平:置信区间中包含的真值的次数所占比例成为置信水平
例:在多次抽样中有95%的样本得到的区间包含全班学生平均考试成绩的真值
无偏性:估计量抽样分布的数学期望值等于被估计的总体参数。
有效性:与总体参数离散程度较小
一致性:随着样本量增大,估计量的值越来越接近被估计总体的参数
有效性:与总体参数离散程度较小
一致性:随着样本量增大,估计量的值越来越接近被估计总体的参数
全体总体与样本总体
参数与统计量
Z分布:正态总体,方差已知/非正态总体,大样本
t分布:正态总体,方差未知,小样本
重复抽样与不重复抽样
抽样误差的概念对总体平均数、总体成数和总体方差的区间估计方法
必要样本容量的影响因素
假设检验
检验统计量、显著性水平及对应临界值的基本定义
t:总体正态、小样本、方差未知
Z:非正态、方差未知、大样本
X²单个总体的方差检验
F:用于两个总体方差检验
P值的含义及计算
在单侧检验中,p>0.05不能拒绝原假设,p<0.05则拒绝原假设
p值越小,拒绝P的原假设理由越充分
如何利用P值进行检验
统计学四大统计量
方差分析
单因素方差分析的基本步骤
方差分析的基本假设:每个总体服从正态分布
每个总体方差必须相同
观察值是独立的
每个总体方差必须相同
观察值是独立的
单因素方差的基本步骤:提出假设,各个水平均值相等,即自变量对因变量没有显著影响
构造检验统计量(F统计量)
统计决策(根据P值)
构造检验统计量(F统计量)
统计决策(根据P值)
总离差平方和SST的含义及计算
SST=SSA+SSE
组间离差平方和SSA的含义及计算
组内离差平方和SSE的含义及计算
单因素方差的原假设
检验因素的k个水平(总体)的均值是否相等:原假设 自变量对因变量没有显著 影响
被择假设 自变量对因变量有显著性影响
被择假设 自变量对因变量有显著性影响
F>Fα 拒绝原假设,P<α+0.05 拒绝原假设
一元线性回归分析
相关关系的概念与特点
用于衡量两类现象在发展的方向和大小方面存在一定的关联(不包括因果和共变关系)
相关关系与函数关系的区别与联系
函数关系是一一对应的确定关系
变量之间存在不确定的数量关系成为相关关系
相关关系的种类
正相关
负相关
完全正相关
完全负相关
非线性相关
不相关
相关系数的意义以及利用相关系数的具体数值对现象相关等级的划分
根据样本数据计算的度量两个变量之间线性关系强度的统计量
r的取值范围[-1,1]
回归分析的概念
回归分析侧重考察变量之间的数量关系,通过数学关系式将这种关系描述出来,进而确定一个或几个自变量的变化度因变量
的影响程度
的影响程度
回归分析的主要内容和特点
回归分析解决的问题:探索影响因变量的可能因素,哪些因素的影响是显著的,哪些事不显著的
并确定变量之间数学关系式,通过关系式根据一个或几个变量的取值去估计或预测另一个特定变量的取值,并给出这种预测的可靠程度
并确定变量之间数学关系式,通过关系式根据一个或几个变量的取值去估计或预测另一个特定变量的取值,并给出这种预测的可靠程度
对于两个具有线性关系的变量,可以用一个线性方程来表示之间的关系,描述因变量y是如何依赖x的和误差ε的方程称为回归模型
建立一元线性回归方程条件
建立回归模型有以下几个假设:
1、因变量与自变量具有线性相关关系
2、在重复抽样中x的取值是固定的,即x为非随机
3、误差项ε期望值为0的随机变量
4、对于所有的x值,ε的方差σ²都相等
5、误差项ε是一个服从正态分布的随机变量且独立
1、因变量与自变量具有线性相关关系
2、在重复抽样中x的取值是固定的,即x为非随机
3、误差项ε期望值为0的随机变量
4、对于所有的x值,ε的方差σ²都相等
5、误差项ε是一个服从正态分布的随机变量且独立
一元线性回归系数的最小二乘法估计
y^=β^+β^1x
应用回归分析应注意的问题
回归分析的判定系数:R²取值范围[0,1]越接近1拟合程度越好
R²=SSR/SST
SST=SSE+SSR
估计标准误差的意义及计算
排除x对Y的影响外,y随机波动大小的一个估计量
检验统计量F,若F>F0,则拒绝原假设,表明两个变量之间关系是显著的,若F<F0,则不拒绝原假设,没有证据证明两个变量之间的关系是显著的
机器学习的基本概念
机器学习中有监督学习与无监督学习的概念与特点
有监督的学习:根据数据的若干特征和标签之间的关联性进行建模的过程;
无监督学习:不带任何标签的数据特征进行建模,包括聚类、降维
常见的有监督学习算法:knn算法、决策树、朴素贝叶斯
常用的无监督的学习算法
聚类算法、降维算法
SQL数据库基础
SQL及关系型数据库基本概念
主键
主键又称主码,是表中一列或多列的组合
主键约束:要求主键列的数据唯一、并且不允许为空。主键分单字段和多字段类型
外键
外键:在两个表间的数据建立联系,一个表可以有一个或多个外键
外键的作用是保证数据引用的完整性,在定义外键后不允许删除在另一个表中具有关联的行,外键保证数据的一致性、完整性
E-R图
矩形:表示实体;椭圆:表示属性;菱形:表示联系
SQL数据类型、运算符、函数
逻辑运算符
在SQL中所有的逻辑运算符求得的结果均为:TRUE、FALSE或NULL;在MySQL中,1(TRUE)、0(FALSE)或NULL
NOT或者!:逻辑非
AND或者&&:逻辑与
OR或||:逻辑或
XOR:逻辑异或
比较运算符
=:等于
LIKE通配符匹配
LIKE通配符匹配
算术运算符
通配符
通配符是用来匹配值的一部分的特殊字符
常用的通配符 % ;eg where s name Like '易烊%' 或 where s name Like 'a%f'
SQL查询语句
SQL连接语句
SQL其他语句
数据采集与处理
数据采集方法
一手数据采集中概率抽样与非概率抽样的区别与优缺点
概率抽样方法
明确每种抽样的优缺点
根据给定条件选择最可行的抽样方法
计算简单随机抽样所需的样本量
市场调研
市场调研的基本步骤
单选题及多选题的设置
数据编码与录入
数据探索与可视化
数据可视化与数据预处理之间的关系
数据探索常用的数据描述方法:集中、离散趋势,数据分布关系
图分析数据探索常用数理统计方法:假设检验、方差检验、相关分析、回归分析、因子分析
数据预处理方法
数据预处理的基本步骤
数据建模分析法
主成分分析、因子分析
适用于主成分分析的变量度量类型
适用于因子分析的变量度量类型
因子旋转
回归分析
多元线性回归
明确线性回归的6个假设
独立同分布概念
明确违反上述假设后出现的问题
模型是否违反经典假设的检验方法与模型纠正的方法
变量筛选方法
离群值、指标计算方法
明晰横截面和时间序列数据在回归建模上的差异
逻辑回归
分类变量是否存在相关关系的描述方法和检验方法,涉及到列联表分析、卡方检验、似然比与Logit转换
二分类逻辑回归模型构建与变量筛选
模型评估方法,混淆矩阵、ROC曲线
聚类分析
聚类方法的基本逻辑
距离的计算
系统分类
基本算法
优缺点
K-Meana聚类
基本算法
优缺点
聚类分析变量标准化的原因和计算方法
变量需要进行主成分分析的原因
变量进行函数转化的原因和计算方法
时间序列
趋势分解法
乘法模型
加法模型
ARIMA方法的具体步骤
时间序列回归的方法
收藏
收藏
0 条评论
下一页
为你推荐
查看更多