统计&数据分析基础知识
2024-03-18 15:00:52 1 举报
AI智能生成
数据分析师需要的统计基础知识总结
作者其他创作
大纲/内容
贝叶斯统计概述
贝叶斯统计思想
贝叶斯定理
条件概率
全概率公式
贝叶斯公式
三门问题
问题阐述
证明、模拟实验
假设检验
原假设与备选假设
通常将自己关心的问题设为备选假设
基本思想
通过证明在原假设成立的前提下,检验统计量出现当前值或者更为极端的值的概率属于“小概率”事件,以此推翻原假设,接受备选假设
两种错误
第一类错误
在原假设成立的情况下错误的拒绝了原假设
第二类错误
在原假设不成立的情况下选择接受了原假设
常用概念
p-value
在原假设成立的前提下,检验统计量出现当前值或者更为极端的值的概率
显著性水平
在假设检验中,犯第一类错误的上限
检验效能
规避犯第二类错误的概率,用POWER表示
置信度
1-显著性水平表示检验的置信度
基于正态分布的检验
z检验
利用中心极限定理构造检验统计量
t检验
当方差未知时,以样本的方差作为分布的方差替代来构造检验统计量
随机变量
定义
随机变量
随机试验
样本
分类
离散型
伯努利分布
实验结果只有两种,0或者1
二项分布
N个重复独立的伯努利分布称为二项分布
泊松分布
描述在单位时间内随机事件发生的次数
连续型
概率密度函数
累积分布函数
常见分布
均匀分布
正态分布
指数分布
描述泊松分布事件之间时间的概率分布
常见特征
概述
期望
用来表示随机变量的平均水平
方差&标准差
用来表示随机变量的波动大小。方差越大,结果的未知性越大
分位数
协方差
相关系数
用来描述X和Y之间是否存在线性关系
常见问题
期望与中位数的关系
常见分布的期望,方差
独立与不相关的关系
若X、Y独立,独立则E(XY)=E(X)*E(Y),反之若E(XY)=E(X)(E(Y),则只能推出不相关,不能推出独立
不相关就是指两者没有线性关系,但是不排除其他关系的存在,独立是指两者互不相关,没有关联
中心极限定理
正态分布
特征
3σ方法
68%
95%
99%
大数定律
辛钦大数定律
伯努利大数定律
切比雪夫大数定律
核心
假设有来自同一个随机试验的一组样本,随着样本数量的增加,X的均值会愈发趋近于E(X)
中心极限定理
核心
假设有来自同一个随机试验的一组样本,随着样本数量的增加,X的均值的分布愈发趋近于正态分布
0 条评论
下一页