数据分析师Level 1 Part 1
2020-12-01 14:47:15 1 举报
AI智能生成
数据分析师 Level 1 Part1
作者其他创作
大纲/内容
数据分析师Level 1
描述性统计分析
名义测量
次序测量
间距测量
比率测量
数据描述
分类变量
顺序变量
连续变量
连续变量——中心水平
众数
中位数
四分位数
这里的Q1称为下四分位数,Q3称为上四分位数,Q2就是中位数
连续变量——中心水平(算数平均数)
样本平均数
总体平均数
说明
连续变量——中心水平(加权平均数)
样本加权平均
总体加权平均
连续变量——中心水平(几何平均数)
适用于计算比率数据的平均,主要用于计算平均增长率
连续变量——离散程度
异众比率
标准差
当我们用样本方差去估计总体方差的时候,我们说是总体方差的无偏估计量
极差
四分位差
连续变量——偏度
偏度
连续变量——峰度
峰度
统计图形
条形图
盒须图
玫瑰图
假设检验
基本概念
假设检验的基本步骤(以两个总体均值的假设检验为例)
假设检验的两类错误
假设检验的基本思想
统计量的函数形式
z统计量的函数形式
一个总体,总体均值的假设检验,总体正态,总体方差已知,
一个总体,总体均值的假设检验,总体为非正态分布,总体方差未知,大样本
t统计量的函数形式
一个总体,总体均值的假设检验,总体正态,总体方差未知,小样本(通常指小于30)
F统计量的函数形式
F检验统计量用于两个总体方差的检验
卡方 统计量的函数形式
检验统计量用于单总体的方差检验
利用P值进行检验
左侧检验的P值为检验统计量X小于样本统计值C得概率
P值的计算
单侧检验
(以右侧检验为例)P值为样本统计值X(将样本值代入检验统计量中的计算结果)右侧的面积(概率)
双侧检验
P值为样本统计值得绝对值右侧的面积的两倍
应用
两个独立样本t检验(小样本)
Levene检验
一元线性回归
相关关系
正线性相关
负线性相关
完全线性相关
非线性相关
估计标准误差与相关系数的关系
相关系数
如果相关系数是根据变量的样本数据计算的,即为了推断总体,那么则称为样本相关系数
t 检验
原假设
检验统计量
适用条件
散点图的特征
一元线性回归方程回归分析的概念和特点
最小二乘法
线性回归的基本过程
最小二乘法公式
评价与检验
第一步:总平方和分解
第二步:计算判定系数 R^2
第三步:残差标准误
第四步:线性关系检验
提出假设
计算检验的统计量
决策
线性回归模型的假设
数据分析概述
数据分析和数据挖掘的概念
数据分析
数据挖掘
数据科学的八个层次
大数据对传统小数据的扩展及其区别和联系
数据上:小数据重抽样,大数据重全体
方法上:小数据重实证,大数据重优化
目标上:小数据重解释,大数据重预测
数据分析目标的意义、过程及其本质
潜在客户-->响应客户-->既得客户-->流失客户
数据挖掘方法论
CRISP-DM 方法论
业务理解、数据理解、数据准备、建模、模型评估和模型发布
SEMMA 方法论
数据挖掘过程的细化
探索、修改、建模、评估、抽样
数据分析中不同人员的角色与职责
抽样分布及参数估计
随机的基本概念
随机实验
随机事件
随机变量
设随机试验的样本空间 是定义在样本空间S上的单值实值函数,称X为随机变量
概率分布
正态分布的图像形式
抽样分布
中心极限定理
参数估计
点估计
区间估计
方差分析
方差分析的基本原理
方差分析的基本假设
单因素方差分析
单因素反差分析的基本步骤
计算F统计量
第一步:变异分解
计算均方
计算检验统计量F
统计决策
机器学习概念
什么是机器学习
模型构建流程
第一步:获取数据
第二步:获取一个任务
第三步:根据数据和算法进行学习
数据清洗
数据预处理
特征工程
第四步:模型评估
模型效果
运算速度
可解释性
服务于业务
交叉验证
训练误差与测试误差
泛化能力
交叉验证的常用方法
k折交叉验证
模型评估
混淆矩阵
模型整体效果:准确率
捕捉少数类的艺术:精确度,召回率和 F 1 score
机器学习的分类
有监督学习
无监督学习
半监督学习
强化学习
常用有监督学习算法
KNN算法
KNN——算法原理描述
决策树算法
决策树——算法原理概述
常用无监督学习算法
聚类算法
0 条评论
回复 删除
下一页