首页  思维导图  详情

常见的概率分布

2020-03-20 10:26:11   1  举报





AI智能生成

概率分布

概率

统计学基础

SPSS

数据挖掘

学习笔记

作者其他创作

大纲/内容

概率

意义

某事件发生的概率

某件被观察的对对象发生的概率，无法反应其整体的影响

每次独立事件，在已知概率下。每次发生的实际值与实际概率的差异

利用概率预测长期结果

eg：每次赌博赢的概率被确认。在赌博N次中赢的钱和输掉的钱之间的关系以及如何导致

变量

离散性

独立性

计算

维恩图

概率树

条件概率

独立

互斥

相关

全概率

贝叶斯

期望

期望指示预期结果(可接受的结果)

将所有x变量概率相加：E(X) = p(X=x1)+p(X=x2)...+p(X=xn)

p(X=x1) = Σx1/n

E(X) = ΣxP(X=xn)

换句话说：是总体概率的平均值

存在线性关系：E(aX+b)=aE(X)+b

独立观察值x1与x2概率分布相同，那么期望可以相加

方差

指示结果的分散性

每个观察值与均值(期望)之间的距离

每次观察值概率之间的波动

Var(X) = E（X-μ）²

E(X-μ)² = Σ(x-μ)P(X=x)

标准差：σ = Var(X)的开方

Var(aX+b) = a²Var(X)

独立观察值x1与x2概率分布相同，那么2Var(X)

非连续分布

几何分布

计算为了取得第一次成功所需要进行试验的次数

条件

1：独立试验

2：每次都有成功的可能性或失败，成功的概率相同

3：关注第一次成功需要多少次试验

几何分布：X ~ Geo(p)

概率公式：P(X=r) = q(r-1)*p

1：X表示试验次数

2：r表示第r次获取成功

3：q失败的概率

r = 1，成功的概率最大；随着r次数的变多，成功概率变小；

任何几何分布中，众数永远都是1

得出概率分布表

期望模式：

随着r的变大，大于5的时候，概率再次变小

E(X) = 1/p

方差：Var(X) = q/p²

应用：

二项分布

进行固定次数的独立试验时可以使用二次分布，感兴趣的是成功或失败的次数

条件

1：一系列的独立试验(很重要)

2：每次都存在成功失败的。每次成功的概率相同

3：试验次数(n)有限

几何分布：B ~ (n，p)

并非所有的二分类变量都服从

概率公式：P(X=r) = n!/r!(n-r)! * pr次方 * q(n-r)次方

1：n代表试验次数

2：取得r次成功

3：p越接近0.5，越对称；n = 20次

p小于0.5正偏态，大于0.5负偏态

期望：E(X) =np

方差：Var=npq

应用

二项分布在心理与教育研究中，主要用于解决含有机遇性质的问题。

选择题目的回答，划对划错，可能完全由猜测造成

猜测而造成的结果与真实的结果之间的界限，就要应用二项分布来解决

变种

近似泊松分布

1：当q接近1且n很大，np与npq近似相等

2：当n大于50且p小于1，为典型近似

X ~ Po(np)代替 X~B(n，p)

泊松分布

泊松分布适合于描述单位时间（或空间）内随机事件发生的平均次数(有限的)

条件

1：单独时间给定区间内(时间or空间)，独立发生

2：区间内时间事件平均发生的次数(发生率),且为有限值λ

X ~ Po（λ）

注意这里的X是指，在下一个区间所发生的X的概率

概率公式：

观察事物在一定的区间内平均发生m次的条件下，实际发生x次的概率P（x）；e = 2.718

期望与方差 = λ

应用

1：电话交换台收到的呼叫、

2：来到某公共汽车站的乘客

3：某放射性物质发射出的粒子

4：显微镜下某区域中的白血球等等

泊松分布在管理科学、运筹学以及自然科学的某些问题中都占有重要的地位。

连续分布

概率密度

事件发生的可能程度

概率侧面反映出该事件出现的频繁程度

概率=面积={0，1}

计算特定值范围的概率

概率密度函数 f(x) = 1/范围

eg：20分钟这个连续数值，那么 f(x) = 0.05，某个单位时刻x的概率；这样才能保证概率面积 = 1

那么：5-20分钟之间的概率？ P（X>5）= (20 - 5) x 0.05 = 0.75

概率密度曲线

每个数值的概率是无穷无尽的

连续概率函数形成的曲线面积

正态分布

大量的连续数据

对称

中央区间的概率密度最大

连续数据的”理想“模型

表达式

1：连续随机变量X符合均值μ、标准差为σ的正态分布

2：X ~ N(μ，σ²)

计算

1：确认分布于范围

2：使其标准化U分布

3：查找概率表

转化为 Z ~N（0，1）

计算z = X - μ / σ

Z标准正态分布概率表查出： P(Z<-1.56) = 0.0594

P(Z > -1.56) = 1 - P(Z< -1.56）

解读：表示比164cm高的男性约会概率为0.9406

eg：X~N(71，20.25)

如果原始数据不是正态分布，需要平方根或对数转换；如果还是不是正态，那么用百分位剔除异常

应用

正态分布可以进行计算（加，减）

连续随机变量 X1+X2+X3+.....+Xn ~ N(nμ ， nσ²)

正态分布也可以进行线性变换

可以近似替代二项分布(n = 20 ，p=0.5) 或 np和npq都大于5

当λ很小或者很大(>15)可以近似替代泊松分布

统计抽样

总体指的是所有对象（研究）

样本

总体的一部分

样本存在误差

评估整体

方法

1：确定目标总体

特征

2：确定抽样的单位

统一单位

3：确定抽样空间

所有满足1，2条件的对象列表

偏倚

1：抽样空间中不齐全，未包含目标总体中所有特征的个体

2：抽样单位不准确

3：抽样个体在总体中不存在

4：调查问卷设计不当，设计问题要中性

5：样本缺乏随机性

产生

1：简单随机抽样

重复抽样

不重复抽样

抽签

随机编号生成器

2：分层抽样

1：类似特性

2：每层进行简单随机抽样

3：需要看每层的总体占比，相应的比例从每层中抽取单位

3：整群抽样

4：系统抽样

1：列出总体名称

2：每K个单位进行一次调查

估计

预测总体

点估计量

样本均值计算给予总体良好的估计

应用1：用样本估算总体

应用2：已知总体某对象的比例，求样本比例范围的概率

应用3：已知总体均值和方差，求样本某个均值出现的概率

置信区间

点估计量，存在小小的误差，毕竟是总体的一部分

点估计量很接近总体真实值，但是有多接近呢？

与其给予精准的值，不如给予一个区间

该区间包含总体点估计量的几率是%？

如何确定区间？

1：选择总体统计量

比例

2：求出其抽样分布

均值抽样分布：E(X(bar))=μ， Var(X(bar))=σ²/n，求取μ的置信区间

3：决定置信水平

1：带入σ 和n

2：σ²真正的值需要根据样本估计（点估计）

总体的σ²不知道，但是用它的点估计量σ(bar)² 或 s²

E(X(ba))=μ， Var(X(bar))=s²/n

已知总体方差的点估计量s² = 25

Var(X(bar))=25/100 = 0.25

为了求出μ的置信区间，需要知道X(bar)的分布

如果总体X符合正态分布，那么X(bar)也符合

决定置信区间如果置信区间95%，表示总体均值处于置信区间的概率为0.95

4：求出置信上下限

1：μ位于我们求得a与b之间的概率必须是0.95

2：X(bar)符合正态分布，X(bar)~N(μ，0.25)

3：p(X(bar)<a) = 0.025; p(X(bar)>b) = 0.025

4：算出标准分，查询标准正态分布表

5：Z = X(bar) - μ/√0.25，其中Z~N（0，1）

6：求出Za 和 Zb，其中p(za < Z < zb)=0.95，其中p(Z<za)0.025 且 p(Z>zb)0.025

7：利用概率表查出 za 和 zb 的值(-1.96，1.96)

8：X(bar) - 0.96 < μ < X(bar)+ 0.96

9：使用样本均值，可以求出，总体均值μ在这个区间的概率为0.95

T~t(v)

什么时候用？

1：不知道总体方差，可以根据点估计量s²得出

2：样本太小估计的误差很大

3：s²误差较大，无法足够精准求出样本均值的概率，就无法得出精确的置信区间

v = n - 1

v 自由度

n 为样本大小

自由度越大，越正态；反之越扁平

计算

1：t分布的标准差 = X(bar) - μ / s/√n

2：μ是总体均值，需要求取的总体均值的置信区间

3：需要知道样本均值X(bar)、s/√n、和n

4：v = n - 1

5：查出t分布标准分的概率表

验证假设

1：原假设H0

2：备选假设H1

3：各自概率

1：H0:p = 0.9

2: H1:p<0.9

4：确定拒绝领域

解释：足够的证据证明H0不成立，那么需要什么程度才能够证明？或者证据的有力程度

拒绝域的分界点：”c“临界值

如何选择临界值

1：如果否定原假设H0，在我们的备选假设H1:p<0.9区间内

2：如果H0:p=0.9，且当前≥0.9这个范围，我们无力反驳H0

3：确定显著水平a

解释：检验手段的显著水平所度量的是一种意愿；或者说又X%的可能性

在证据不充分，不充分程度达到多大时候，是可以拒绝H0

eg：例如a = 5%，我们希望在H0的条件中，样本观察的结果发生在5%内，可以拒绝H0且不成立的

a越小，样本不成立的程度就越高

拒绝域公式：P(X< c) < a , a = 5%

单尾检测

1：如果备选假设 <，那么使用左尾

2：如果备选假设 >，那么使用右尾

双尾检测

1：如果备选假设H1 含有不等，则需要双尾检测

2：左右两侧都是 a/2

5：使用公式

1：独立观察

2：如果符合二项分布

1：P(X<成功数) = 5%

2：通过X ~ B（15，0.9），可以计算出 P(X≤11)=0.0555

3：对比是否≤5%，显然不成立

3：做出决策

 收藏

立即使用

黑客增长实战

 收藏

立即使用

游戏运营指标

 收藏

立即使用

精益产品开发

 收藏

立即使用

精益产品开发体系

Jojo

职业：产品经理

去主页





0 条评论

下一页

为你推荐

查看更多

