常见的概率分布
2020-03-20 10:26:11 1 举报
AI智能生成
概率分布
作者其他创作
大纲/内容
概率分布
概率
意义
某事件发生的概率
某件被观察的对对象发生的概率,无法反应其整体的影响
每次独立事件,在已知概率下。每次发生的实际值与实际概率的差异
利用概率预测长期结果
eg:每次赌博赢的概率被确认。在赌博N次中赢的钱和输掉的钱之间的关系以及如何导致
变量
离散性
独立性
计算
维恩图
概率树
条件概率
独立
互斥
相关
全概率
贝叶斯
期望
期望指示预期结果(可接受的结果)
将所有x变量概率相加:E(X) = p(X=x1)+p(X=x2)...+p(X=xn)
p(X=x1) = Σx1/n
E(X) = ΣxP(X=xn)
换句话说:是总体概率的平均值
存在线性关系:E(aX+b)=aE(X)+b
独立观察值x1与x2概率分布相同,那么期望可以相加
方差
指示结果的分散性
每个观察值与均值(期望)之间的距离
每次观察值概率之间的波动
Var(X) = E(X-μ)²
E(X-μ)² = Σ(x-μ)P(X=x)
标准差:σ = Var(X)的开方
Var(aX+b) = a²Var(X)
独立观察值x1与x2概率分布相同,那么2Var(X)
非连续分布
几何分布
计算为了取得第一次成功所需要进行试验的次数
条件
1:独立试验
2:每次都有成功的可能性或失败,成功的概率相同
3:关注第一次成功需要多少次试验
几何分布:X ~ Geo(p)
概率公式:P(X=r) = q(r-1)*p
1:X表示试验次数
2:r表示第r次获取成功
3:q失败的概率
r = 1,成功的概率最大;随着r次数的变多,成功概率变小;
任何几何分布中,众数永远都是1
得出概率分布表
期望模式:
随着r的变大,大于5的时候,概率再次变小
E(X) = 1/p
方差:Var(X) = q/p²
应用:
二项分布
表示存在多种组合
进行固定次数的独立试验时可以使用二次分布,感兴趣的是成功或失败的次数
1:一系列的独立试验(很重要)
2:每次都存在成功失败的。每次成功的概率相同
3:试验次数(n)有限
几何分布:B ~ (n,p)
并非所有的二分类变量都服从
概率公式:P(X=r) = n!/r!(n-r)! * pr次方 * q(n-r)次方
1:n代表试验次数
2:取得r次成功
3:p越接近0.5,越对称;n = 20次
p小于0.5正偏态,大于0.5负偏态
期望:E(X) =np
方差:Var=npq
应用
二项分布在心理与教育研究中,主要用于解决含有机遇性质的问题。
选择题目的回答,划对划错,可能完全由猜测造成
猜测而造成的结果与真实的结果之间的界限,就要应用二项分布来解决
变种
近似泊松分布
1:当q接近1且n很大,np与npq近似相等
2:当n大于50且p小于1,为典型近似
X ~ Po(np)代替 X~B(n,p)
泊松分布
泊松分布适合于描述单位时间(或空间)内随机事件发生的平均次数(有限的)
1:单独时间给定区间内(时间or空间),独立发生
X ~ Po(λ)
注意这里的X是指,在下一个区间所发生的X的概率
概率公式:
观察事物在一定的区间内平均发生m次的条件下,实际发生x次的概率P(x);e = 2.718
期望与方差 = λ
1:电话交换台收到的呼叫、
2:来到某公共汽车站的乘客
3:某放射性物质发射出的粒子
4:显微镜下某区域中的白血球等等
泊松分布在管理科学、运筹学以及自然科学的某些问题中都占有重要的地位。
连续分布
一个连续数值范围内(正比)
f(x) 就是概率密度函数
概率密度
事件发生的可能程度
概率侧面反映出该事件出现的频繁程度
概率=面积={0,1}
计算特定值范围的概率
概率密度函数 f(x) = 1/范围
eg:20分钟这个连续数值,那么 f(x) = 0.05,某个单位时刻x的概率;这样才能保证概率面积 = 1
那么:5-20分钟之间的概率? P(X>5)= (20 - 5) x 0.05 = 0.75
概率密度曲线
每个数值的概率是无穷无尽的
连续概率函数形成的曲线面积
正态分布
大量的连续数据
对称
中央区间的概率密度最大
连续数据的”理想“模型
表达式
1:连续随机变量X符合均值μ、标准差为σ的正态分布
2:X ~ N(μ,σ²)
计算过程
1:确认分布于范围
2:使其标准化U分布
3:查找概率表
转化为 Z ~N(0,1)
计算z = X - μ / σ
Z标准正态分布概率表查出: P(Z<-1.56) = 0.0594
P(Z > -1.56) = 1 - P(Z< -1.56)
解读:表示比164cm高的男性约会概率为0.9406
eg:X~N(71,20.25)
如果原始数据不是正态分布,需要平方根或对数转换;如果还是不是正态,那么用百分位剔除异常
正态分布可以进行计算(加,减)
连续随机变量 X1+X2+X3+.....+Xn ~ N(nμ , nσ²)
正态分布也可以进行线性变换
可以近似替代二项分布(n = 20 ,p=0.5) 或 np和npq都大于5
当λ很小或者很大(>15)可以近似替代泊松分布
统计抽样
总体指的是所有对象(研究)
样本
总体的一部分
样本存在误差
评估整体
方法
1:确定目标总体
特征
2:确定抽样的单位
统一单位
3:确定抽样空间
所有满足1,2条件的对象列表
偏倚
1:抽样空间中不齐全,未包含目标总体中所有特征的个体
2:抽样单位不准确
3:抽样个体在总体中不存在
4:调查问卷设计不当,设计问题要中性
5:样本缺乏随机性
产生
1:简单随机抽样
重复抽样
不重复抽样
抽签
随机编号生成器
2:分层抽样
1:类似特性
2:每层进行简单随机抽样
3:需要看每层的总体占比,相应的比例从每层中抽取单位
3:整群抽样
4:系统抽样
1:列出总体名称
2:每K个单位进行一次调查
估计
预测总体
点估计量
样本均值计算给予总体良好的估计
应用1:用样本估算总体
应用2:已知总体某对象的比例,求样本比例范围的概率
应用3:已知总体均值和方差,求样本某个均值出现的概率
置信区间
点估计量,存在小小的误差,毕竟是总体的一部分
点估计量很接近总体真实值,但是有多接近呢?
与其给予精准的值,不如给予一个区间
该区间包含总体点估计量的几率是%?
如何确定区间?
1:选择总体统计量
μ
比例
2:求出其抽样分布
均值抽样分布:E(X(bar))=μ, Var(X(bar))=σ²/n,求取μ的置信区间
3:决定置信水平
1:带入σ 和n
2:σ²真正的值需要根据样本估计(点估计)
总体的σ²不知道,但是用它的点估计量σ(bar)² 或 s²
E(X(ba))=μ, Var(X(bar))=s²/n
已知总体方差的点估计量s² = 25
Var(X(bar))=25/100 = 0.25
为了求出μ的置信区间,需要知道X(bar)的分布
如果总体X符合正态分布,那么X(bar)也符合
决定置信区间如果置信区间95%,表示总体均值处于置信区间的概率为0.95
4:求出置信上下限
1:μ位于我们求得a与b之间的概率必须是0.95
2:X(bar)符合正态分布,X(bar)~N(μ,0.25)
3:p(X(bar)<a) = 0.025; p(X(bar)>b) = 0.025
4:算出标准分,查询标准正态分布表
5:Z = X(bar) - μ/√0.25,其中Z~N(0,1)
6:求出Za 和 Zb, 其中p(za < Z < zb)=0.95,其中p(Z<za)0.025 且 p(Z>zb)0.025
7:利用概率表查出 za 和 zb 的值(-1.96,1.96)
8:X(bar) - 0.96 < μ < X(bar)+ 0.96
9:使用样本均值,可以求出,总体均值μ在这个区间的概率为0.95
T~t(v)
举例
什么时候用?
1:不知道总体方差,可以根据点估计量s²得出
2:样本太小估计的误差很大
3:s²误差较大,无法足够精准求出样本均值的概率,就无法得出精确的置信区间
v = n - 1
v 自由度
n 为样本大小
自由度越大,越正态;反之越扁平
1:t分布的标准差 = X(bar) - μ / s/√n
2:μ是总体均值,需要求取的总体均值的置信区间
3:需要知道样本均值X(bar)、s/√n、和n
4:v = n - 1
5:查出t分布标准分的概率表
验证假设
1:原假设H0
2:备选假设H1
3:各自概率
1:H0:p = 0.9
2: H1:p<0.9
4:确定拒绝领域
解释:足够的证据证明H0不成立,那么需要什么程度才能够证明?或者证据的有力程度
拒绝域的分界点:”c“临界值
如何选择临界值
1:如果否定原假设H0,在我们的备选假设H1:p<0.9区间内
2:如果H0:p=0.9,且当前≥0.9这个范围,我们无力反驳H0
3:确定显著水平a
解释:检验手段的显著水平所度量的是一种意愿;或者说又X%的可能性
在证据不充分,不充分程度达到多大时候,是可以拒绝H0
eg:例如a = 5%,我们希望在H0的条件中,样本观察的结果发生在5%内,可以拒绝H0且不成立的
a越小,样本不成立的程度就越高
单尾检测
1:如果备选假设 <,那么使用左尾
2:如果备选假设 >,那么使用右尾
双尾检测
1:如果备选假设H1 含有 不等,则需要双尾检测
2:左右两侧 都是 a/2
5:使用公式
1:独立观察
2:如果符合二项分布
1:P(X<成功数) = 5%
2:通过X ~ B(15,0.9),可以计算出 P(X≤11)=0.0555
3:对比是否≤5%,显然不成立
3:做出决策
0 条评论
回复 删除
下一页