概率论和数理统计
2017-08-28 11:47:03 0 举报
AI智能生成
概率论和数理统计
作者其他创作
大纲/内容
概率论和数理统计
基础-概率论
基本概念
随机现象
基本条件虽然相同,但却存在很多偶然因素,它们中的每一个对试验或观测的结果影响很小,当综合影响却使观测结果产生差异
大量同类随机现象会呈现固有的统计性规律,概率论就是研究统计新规律的学科
基本事件
随机试验中必然发生且只发生一个的最简单事件称为试验的基本事件
基本事件的组合称为复合事件
样本空间
全体基本事件的样本点的集合称为样本空间,其中基本事件只包含一个样本点
随机变量
实质
对样本空间的基本事件的样本点的实数域映射,以便进行数值研究,其中基本事件只包含一个样本点
分类
离散
随机
分布律(离散)
概率密度(连续)
分布函数
随机事件及其概率
事件的概率
概率的公理化定义
定义
设随机试验E的样本空间为Ω,若对于E的每一事件A都对应一个实数P(A),其对应规则满足以下三条,则称P(A)是事件A的概率
非负性:对于任意事件A,有0<=P(A)<=1
规范性:P(Ω)=1
可列可加性:对E的互不相容事件列A1,A2,A3......An,有P(A1∪A2∪...∪An)=P(A1)+P(A2)+...+P(An)
性质
P(A-B)=P(A)-P(AB)
P(A-B)=P(A∪B)-P(B)
P(A∪B)=P(A)+P(B)-P(AB)
古典概率是公理化定义的特例,即古典概率的基本事件发生概率相等,P(A)=A所含基本事件个数/基本事件总数
古典方法、频率方法与主观方法
古典概率的定义:仅有有限个基本实验,每个基本事件发生的可能性相等
古典概率计算:P(A)=A所含基本事件个数/基本事件总数
排列与组合摘要
事件之间的独立性
独立
含义
两个事件所依赖的基本事件不在同个样本空间,则互相之间没有联系
具体情况
同个事件不同试验的独立性
n重贝努里试验
其它
不同事件之间的独立性
两个事件的独立性
多个事件的独立性
不独立
事件的包含
事件的相等
事件的互不兼容
特殊情况:事件互斥
事件集合相交
两个事件所依赖的基本事件在同个样本空间,则互相之间有某种联系
条件概率
在事件A发生的基础上,事件B发生的概率
重要推论
全概率公式
某个事件的概率不好计算,则通过有限划分将该事件划分为容易计算的概率和
有限划分Bi可以视为导致事件A发生的各个原因。P(A|Bi)表示在Bi发生的基础上,A发生的概率。P(Bi)表示Bi发生的概率
贝叶斯公式
已知结果发生,计算是某原因的概率大小
P(Bi)P(A|Bi) / [P(B1)P(A|B1)+P(B2)P(A|B2)+P(B3)P(A|B3)+...+P(Bn)P(A|Bn)]
随机变量及其概率分布(为了能从总体趋势上更深入的研究随机现象而引入)
单维随机变量
离散型
常见分布
二项分布
介绍
适合n次重复独立伯努利试验
在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布。
E(X)=np,D(X)=np(1-p)
泊松分布
泊松分布适合于描述单位时间内随机事件发生的次数
λ=np
可加性:已知X~P(α1)且Y~P(α2),且X,Y相互独立,则(X+Y)~P(α1+α2)
E(X)=D(X)=λ
泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生率。
例子:单位事件内,某电话交换台接到电话呼叫的次数; 莫服务台的到达客户数;放射性物质射出的粒子到达计数器的个数;某自动控制系统中损坏的元件个数等等
超几何分布
连续型
正态分布
独立同分布中心极限定理意味着,如果某个随机变量X首受到非常非常多的独立的因素(f_i)影响,这每个因素是独立的,且是同分布的。即每个因素影响又不是占优的(也就是没有一个因素起着决定性影响,每个因素的影响大小都是差不多的),而且这些因素影响线性相加影响X的,那么随机变量X就是服从正态分布。如果这些因素是乘积的关系,那么ln(X)就是服从正态分布的。
X~N(μ,σ^2),则Y=aX+b也符合正态分布,Y~N(aμ+b,(aσ)^2)
X~N(μ1,σ1^2),Y~N(μ2,σ2^2),且X与Y相互独立,则(X +/- Y)~N(μ1 +/- μ2,σ1^2+σ2^2)
对于一个一般的连续的随机变量,可以先画图,看看是不是大体符合正态分布,然后用一些检验分布的方法检验其是否符合正态分布,或者取了对数之后可能符合正态分布,常用的方法在这里:Normality test - Wikipedia
多维正态随机变量
指数分布
E(X)=1/λ
D(X)=1/(λ^2)
均匀分布
伽马分布
贝塔分布
多维随机变量
在实际问题中往往需要同时考虑两个货两个以上的随机变量。例如,为研究某一地区雪龄儿童的身体发育情况,我们需要考虑抽查对象的身高和体重等身体指标。又如,当一个确定的正弦信号经过信道随机干扰后,输出信号的振幅、相位和角频率都是随机变量
类型
离散形
连续形
重要属性
联合分布函数
联合分布律/联合概率密度
数学期望
方差
标准差
常见分布(类似单维的分布)
二维正态分布
二维均匀分布
......
随机变量的重要属性
特征数
随机变量的分布函数完整地描述了随机变量的统计特性,但是对于更一般的随机变量,要确定其分布函数却不容易,而且对于许多实际问题,并不需要确定随机变量的分布函数,只要知道它的某些特征就足够了。这些特征可以用数字表示
单维特征数
随机变量X的数学期望
所有X的取值乘以相应概率然后相加
随机变量X的函数的数学期望
设Y是随机变量X的函数Y=g(X),E(Y)=Y的每个值yi乘以yi=g(xi)的xi对应的概率,然后相加。即可以直接借用X的分布性质
重要性质
E(C)=C
E(CX)=CE(X)
E(X+Y)=E(X)+E(Y)
公式
D(X)=E([X-E(X)]^2)
D(X)=E(X^2)-[E(X)]^2
D(C)=0
D(CX)=C^2*D(X)
D(X)=0的充要条件为P{X=E(X)}=1
标准化随机变量
E(X*)=0
D(X*)=1
矩(本质为数)
k阶(绝对)原点矩
k阶(绝对)中心矩
多维随机变量的特有数字特征(多维随机变量的统计特性不仅与每个分量的个别性质有关,还与分量之间的联系有关)
协方差
两个变量在变化过程中总体上是同方向变化?还是反方向变化?同向或反向程度如何?
但是由于协方差的计算过程中会受到变化幅度的影响,通常情况下只能通过计算结果的正负值来判断总体上是同向变化还是反向变化。受到变化幅度的干扰,协方差的大小主要体现的是X与Y之间变化相同程度的大小,若要观察变化相关程度的大小,应该通过标准化去除变化幅度的干扰,即引如相关系数
相关系数
pXY是两个随机变量X与Y线性相关程度的衡量指标
相关系数pXY反应的是X与Y之间变化趋势的相似程度,但是要pXY=1只有当X与Y之间线性相关的时候才可以,所以经常会用pXY来衡量线性相关性,但并不是说只能衡量线性相关性
单个随机向量自身
X的自协方差阵
随机向量与随机向量之间
X 与 Y之间的协差阵
其它特征数
变异系数
中位数、分位数、众数
偏度、峰度
分布律
连续
概率密度函数
由分布函数的定义可知,分布函数的导数等于概率密度
随机变量之间的独立性
随机变量及其函数的独立性
充分必要条件
若n维随机变量(X1,X2......Xn-1,Xn)相互独立,则
其中任意m个随机变量Xk也相互独立
若随机变量X,Y相互独立,则X^2,Y^2也相互独立
最大值与最小值的分布
卷积公式
随机变量的条件概率
条件分布函数
条件概率密度和条件分布律
随机变量的函数及其分布(多维随机变量的情况得提前知道联合概率密度或者联合分布函数,在此基础上如果多维变量之间相互独立,则计算更方便)
有用性质
分布函数的导数等于概率密度
应用:X的概率密度->Y=g(X)的分布函数->Y的分布函数求导得到Y的概率密度
若Y=g(X)是单调函数,X为单维随机变量,则可直接根据g的反函数h和X的概率密度函数求得Y的概率密度
已知X的概率密度,求Y=g(X)的概率密度 fY(y)=fX[h(y)]|h'(y)|,x=h(y)与y=g(x)互为反函数
几种简单的随机变量的函数的分布
极值分布
和的分布
商的分布
可能情况
X为n维随机变量,f(X)变成n或者其它维度
解决实际问题-数理统计
研究内容
一方面研究如何用有效的方式收集带有随机误差的数据,即抽样理论和试验设计
另一方面研究如何有效地使用随机数据对所关心的问题做出合理的、尽可能精确和可靠的结论,即统计推断
实际与理论的桥梁
大数定律
切比晓夫不等式
切比晓夫大数定律
独立同分布大数定律
辛钦大数据定律
相互独立+同分布的随机变量序列X1,X2,X3......Xn,其数学期望都为E(Xi)=u,则当n趋于无穷时,随机变量序列的算数平均数=(1/n)(X1+X2+...+Xn)收敛于E(Xi)=u
伯努利大数定律
阐明了当试验次数无穷大时,频率收敛于概率
独立同分布中心极限定理
含义:大量的相互独立、同分布的随机变量之和符合正态分布,根据该定理可对现实概率问题进行近似求解
统计量及其分布
总体与样本
总体:我们把研究对象的全体称为总体,而把组成总体的每个基本元素称为个体
样本:按照一定地规律从总体中抽出的一部分个体,样本也是一个随机变量
一定的规定:是指保证总体中的每一个个体有同等的被抽出的机会而采取的一些措施
抽样:取得样本的过程,抽样应该尽可能保证样本与总体的同分布,以及样本之间的独立,以便运用独立同分布定理
简单随机样本(有放回地抽样或者样本容量n相对于总体来说很小)
代表性:与总体同分布
独立性:相互独立的随机变量
统计量与抽样分布
统计量
介绍:随机样本是对总体进行统计分析与推断的依据,当我们获取样本后,往往不是直接利用样本进行推断,而是要对样本进行“加工”、“整理”,以把它们所提供的关于总体X的信息集中起来。而且选择一个待估计参数的优良估计会有助于减轻区间精度和可行度的矛盾。为此我们引入统计量的定义
常见统计量
单元随机变量
样本均值
总体均值的无偏估计
总体均值的极大似然估计
样本方差,注意公式中的无偏校准系数[1/(n-1)]
总体方差的无偏估计
[(n-1)/n]S^2是总体方差的极大似然估计
样本标准差
样本k阶原点矩
样本矩
多元随机变量
样本协方差矩阵S=[1/(n-1)]V,其中V为样本离差矩阵
总体协方差矩阵的无偏估计
[(n-1)/n]S是总体协方差矩阵的极大似然估计
次序统计量及其分布
极差
子主题
抽样分布
定义:统计量是样本的函数,它是一个随机变量。统计量的分布称为抽样分布。
抽样分布定理
介绍:对于一般总体,即使总体分布已知,但是统计量的分布,即抽样分布的计算往往很复杂,有时甚至不能求出。这里我们只考虑正态总体的抽样分布。原因有二
一.正态总体的抽样分布较容易求出
二.正态分布可以作为很多统计问题中总体分布的近似分布
作用
样本与总体之间的桥梁,利用抽样分布定理可利用样本值进行参数估计和假设检验
具体
三个重要的分布
卡方分布
t分布
F分布
参数估计
参数的点估计(找出一个优良的估计量)
样本完全时候参数的点估计量
矩法估计
思想
用样本矩作为相应的总体矩的估计。令样本矩等于总体矩,可得到未知参数与样本矩的关系,而样本矩为样本随机变量的函数,因而得到未知参数与样本随机变量的关系。
条件
总体矩存在
注意
样本随机变量的K阶矩的定义
极大似然估计
按照最大可能性准则进行推断。根据小概率事件原理,若某事件已经发生,应该认为它有最大概率。即使得似然函数L最大
若似然函数L的导数存在,则通过ln(L)或者L的导数为0求得估计量
若L导数不存在,则估计
求极大似然估计的方法
A
总体矩
B
中心矩
原点矩
样本不完全时参数的区间估计(次序统计量估计)
场景
某些特殊试验只能得出部分试验值或由于偶然发生的意外可能丢失数据等
常用
极值、中位数、极差
估计量的优良性准则(判断哪个估计量更好的标准)
无偏性
θ*是未知参数θ的一个估计量,如果对θ的所有取值均有E(θ*)=θ) 则θ*为θ的无偏估计量。这种现象称为无系统误差;
无偏估计的意义是:在多次重复下,它们的平均数接近所估计的参数真值。无偏估计常被应用于测验分数统计中
例子
样本的k阶原点矩是总体k阶原点矩的无偏估计
样本方差是总体方差的无偏估计,注意样本方差系数的修正
有效性(最难满足)
方差最小的无偏估计量具有有效性
样本均值和样本方差是总体均值u和总体方差d^2的最小方差无偏估计
相合性
已知θ的估计量θ*,当n-无穷时,θ*以概率收敛于θ,则θ*具有相合性或一致性
充分性
一致性
渐进正态性
不变原则
参数的区间估计(给出一个估计量在要求的可信度下的区间)
介绍:参数的点估计是根据样本观测值求出参数估计值的方法,结果虽然直观,但是点估计的方法无法告诉我们估计值的可靠程度是多少。区间估计是给出一个范围,并在要求的可信程度下保证这个范围包含未知参数,弥补了点估计的不足
核心技巧
选用良好的估计量可以减小精度和可信度的矛盾
枢轴变量法构造置信区间
枢轴变量包含抽样和被估计参数,同时服从特定分布
步骤
样本完全时候参数的区间估计
小样本区间估计(样本来自正态总体)
单侧置信区间(问题实质是被估计参数至少或至多是多少)
双侧置信区间
一个正态总体参数的置信区间
总体均值的置信区间
总体方差已知
总体方差未知
总体方差的置信区间
两个正态总体参数的置信区间
均值差
方差比
大样本区间估计(样本不来正态总体,依赖n趋于无穷是分布可近似为正态分布)
原理依据
根据中心极限定理,随机变量相互独立且同分布,故足够多个抽样之和近似视为正态分布
泊松分布参数的估计
许多实践表明,n>=30,近似程度还是可以接受的
样本不完全时参数的区间估计(次序统计量区间估计)
最新数学成果显示,根据正态分布总体的顺序统计量中的两个即可进行参数的区间估计
假设检验
核心思想
小概率事件
现实生活中的小概率事件视为不可能事件
概率性质的反证法思想
用有限的样本去证明一个命题是正确的,显然是不充分的,但是根据有限的样本推翻一个假设确实有充足理由的
把严重错误或者想要推翻的假设放在H0
接收域和拒绝域的选定
遵循有利原则,将将检验统计量对H0有利的取值区域确定为接受域,对有利的取值区域确定为接受域,对H1成立有利的区域作为拒绝域
可能犯的错误(不可能同时使得两种错误概率尽量低)
弃真:H0为真,误判为假
纳伪:H0为假,误判为真
方差分析和回归分析
回归分析
用途
着重寻求变量之间近似的函数关系
X变量被认为是确定变量,把随机性归为随机误差
一元线性回归分析
估计量的统计性质
一元线性回归分析的显著性检验
F检验法
重要概念
残差平方和QE
反映了试验误差等随机因素对Y的观测值所造成的离散程度
回归离差平方和QR
反映了y的估计值y*因自变量x取值变化而具有的离散程度
假设检验H0
检验统计量
相关系数检验法
用相关系数pXY的矩估计量样本相关系数R进行检验
多元线性回归分析
非线性回归问题的线性化处理
用变量替换将非线性回归问题线性化
涉及y的替换的函数关系不可线性化,因为随机误差被改变,可能不再服从正态分布
本质可线性化
对数函数(x前没有未知系数,y=a+blnx)
本质不可线性化
双曲线函数、幂函数、对数函数、指数函数、倒数指数函数、S形曲线(x前均有一个待定系数,y=ax^b)
一元多项式回归
应用
预测
已知经验回归函数,给出一个x0,我们可以得出y0在置信度(1-α)下的置信区间
控制
方差分析于试验设计
方差分析就是根据试验的结果进行分析,鉴别个因素效应显著性的一种有效的统计方法
将观测数据的总的差异分为条件误差和随机误差,条件误差于随机误差的比值能反映因素对观察指标影响的程度
对观测值施以线性变换,将所有的样本观测值都减去同一个常数C,不会改变各离差平方和的值
条件误差 和 随机误差
不同因素引起的差异称为条件误差,一个过程中的随机因素引起的差异称为随机误差
关系
如果条件误差和随机误差差不多,说明条件变化(即改变因素状态)对考察指标的影响不明显
如果条件误差比随机误差大得多,则有理由认为条件变化(即改变因素状态)对考察指标有显著影响
试验指标
我们所考察的指标称为试验指标
因素
影响试验指标的条件称为因素
水平
因素所处的状态称为因素的水平
例如研究火药和外形对炮弹射程的影响,这里炮弹射程称为试验指标,火药和外形称为因素,火药的不同组合称为该因素的不同状态,即不同水平。
方差齐次性
假设不同水平对应的总体方差相同,则称符合方差齐次性
方差分析的基础
无重复试验
只进行一次的试验
等重复试验
假定对每一种不同的水平组合方式,都进行相同次数的重复试验,这就是等重复试验
单因素方差分析
单个因素对观察指标的影响,其它因素固定在特定水平
多因素方差分析
多个因素联合起来对观察指标的联合影响
这种关系包括单个因素各自的影响,更重要的是包括和多因素的联合影响
无重复试验的两因素方差分析
多个因素的联合影响比较小或者没有,此时被归入随机误差,我们之研究多个因素单独对试验指标的影响
等重复的两因素方差分析
多个因素的联合影响不可忽略,此时各因素水平搭配只进行一次的无重复试验无法对交互作用进行分析,需要进行重复试验
不等重复试验方差分析
实际上,影响试验指标的因素可能有若干个,当我们考察其中某一个因素的影响时,将其它因素固定在适当的水平上,多因素分析同样适用。即单因素是指研究单个因素的影响,而不是关系里面只有单个因素,知识此时其它因素水平固定
方差分析得出的显著性结果,是根据不同的因素水平下测得的观测值分析得到的。所以不显著或者显著,其实跟不同水平之间是否接近也有关。要关注因素水平的划分
重读试验比无重复试验分析精度更高
正交试验设计
正交表重要性质
1.每列中不同数码出现的次数是相同的
2.任一两列中,将同一行的两个数字看成有序数对时,每种数对出现的次数是相等的
现实问题
人们在长期的实践中发现,要得到理想的结果,并不需要进行全面试验,我们应当在不影响试验效果的前提下,尽可能减少试验次数
正交表解决的问题
能用有限的局部试验代替全体试验: 正交表的数码搭配均匀,因此按照正交表安排试验方案,各因素水平的组合比较均匀,从而使全面试验中挑选出来的一部分试验,能达到兼顾各方、代表全体的目的
不考虑交互作用的正交试验设计
考虑交互作用的正交试验设计
1.按照正交表对应的交互作用表安排正交试验设计的表头设计,形式上将交互作用当作一个因素。
2.完成表头设计后,试验方案由“真正的”因素(即不含交互作用)所处列的数码确定
3.按这些组合水平进行试验,得到试验结果
4.对所有\"真正的\"、\"形式的\"因素按照前面不考虑交互作用时的分析、试验方法,校验各个因素对考察指标的影响是否显著
正交表+直观分析法
做不多的试验,得到较好的方案
例子:应用正交试验设计改进机械加工工艺
正交表+直观法
找出主因素、次因素等
方差分析法
找出最佳方案
例:用方差分析法确定最佳培训方案(特定因素水平下的最佳方案)
0 条评论
回复 删除
下一页