统计学知识点梳理思维导图模板_ProcessOn思维导图、流程图

7. 参数估计

参数估计的基本原理

估计量与估计值

估计量：用来估计总体参数的统计量。样本均值、样本比例、样本方差都可以称为估计量

估计值：根据一个具体样本计算出来的估计量的数值。

点估计与区间估计

常见点估计方法：矩估计、最小二乘估计、极大似然估计、贝叶斯估计

区间估计：利用已知的抽样分布、利用区间估计与假设检验的联系、利用大样本理论

区间估计示意图

置信水平：也称为置信度和置信系数。

假设打靶100次，每次打靶前都预估一个置信区间（即可能打多少环），构造100个置信区间，这100个中有95个包含了真值，那么置信水平就是95%

当样本量给定时，置信区间的宽度随置信系数的增大而增大；当置信水平固定时，置信区间宽度随样本量的增大而减小

评价估计量的标准

无偏性

有效性

一致性

参数估计例题汇总

一个总体参数的区间估计

总体均值的区间估计

判断是大样本（n30）还是小样本（n<30）

正态总体、方差已知或非正态总体，大样本

采用z分布

正态总体、方差未知、小样本

采用t分布

例题解析

总体比例的区间估计

z分布

例题解析

总体方差的区间估计

卡方分布

例题解析

两个总体参数的区间估计

两个总体均值之差的区间估计

两个总体均值之差的估计：独立样本

大样本的估计

不论方差是否已知，统一用z分布

例题解析

小样本的估计

方差已知，用z分布

方差未知但相等，用t分布

例题解析

题目

解析

两个总体均值之差的估计：匹配样本

t分布

匹配样本：一个样本中每个数据值与另一个样本的对应数据值相匹配的样本

例题解析

题目

解析

两个总体比例之差的区间估计

独立大样本，用z分布

例题解析

两个总体方差比的区间估计

F分布

例题解析

样本量的确定

估计总体均值时样本量的确定

计算公式

例题解析

估计总体比例时样本量的确定

计算公式

例题解析

计算公式总结

一个总体参数的区间估计

两个总体参数的区间估计

两个总体参数的估计及使用的分布

8. 假设检验

假设检验的基本问题

假设问题的提出

假设检验的定义

假设检验是先对总体参数提出一个假设值，然后利用样本信息判断这一假设是否成立

假设的定义及表达式

假设检验中，原假设与备择假设只有一个成立且必有一个成立

注意：等于号一般放在原假设中

两类错误

弃真错误（第一类错误）

又称显著性水平

纳伪错误（第二类错误）

假设检验步骤

拒绝域

若H0是等于号，则为双侧检验；若H0是大于等于或者小于等于号，则为单侧检验

根据统计量判断结果，若求出的统计量大于统计量，则拒绝原假设，否则不拒绝原假设

双侧检验

单侧检验

左单侧检验

右单侧检验

一个总体参数的检验

检验统计量的确定

总体均值的检验

样本量大

例题解析

样本量小，总体标准差已知

例题解析

样本量小，总体标准差未知

例题解析

总体比例的检验

例题解析

总体方差的检验

例题解析

两个总体参数的检验

检验统计量的确定

两个总体均值之差的检验

两方差都已知

例题解析

两方差未知n较小

例题解析

两个总体比例之差的检验

检验两总体比例相等的例题

检验两个总体比例之差不为零的例题

两个总体方差比的检验

例题解析

检验中的匹配样本

例题解析

网上例题汇总

9. 分类数据分析

分类数据与卡方检验

分类数据

卡方检验

卡方统计量

拟合优度检验

列联分析：独立性检验

拟合优度检验适用于一个分类变量，列联分析是检验两个或以上的分类变量之间是否有相关关系

列联表

是由两个或以上的变量进行交叉分类的频数分布表

各变量都有两个或以上的类别

独立性检验

检验步骤（以患肺癌和吸烟的关系为例）

第一步　提出假设H0：患肺癌与吸烟没有关系。（目标结论H1“患肺癌与吸烟有关系”的反面）

第二步　计算独立性检验的标准，即统计量k2=n(ad-bc)^2/{(a+b)(c+d)(a+c)(b+d)}的值。（它越小，原假设H0成立的可能性越大；它越大，目标结论H1成立的可能性越大。）

第三步　由独立性检验的临界值表得出结论及其可信度（即在多大程度上适用）。

例题解析

列联表中的相关测量

φ相关系数

φ=0，相互独立；φ=1，完全相关

取值范围[0,1]，值越大，相关程度越大

适用2*2列联表

c相关系数

当列联表R*C中的行数R或列数C大于2时,此时φ系数会随着R或C增大而增大，且没有上限，所以用 φ系数测定两个系统的相关程度就不够清晰可采用c相关系数

主要用于大于2*2的列联表

c=0，表示两个变量相互独立，φ=1，完全相关

V相关系数（Gramerx相关系数）

鉴于φ相关系数无上限，c相关系数小于1，可采用v相关系数

取值范围[0,1]，值越大，相关程度越大

当列联表中有一维为2，则v值=φ值

列联分析中应注意的问题

条件百分表的方向

一般来说，列联表中变量的位置是任意的，如果X与Y存在因果关系，则令X为自变量（原因），放在列的位置，令Y为因变量，放在行。

卡方分布的期望值准则

该表共6个单元，只有1个单元的期望频数小于5，可以用卡方检验

该表共7个单元，有3个单元的期望频数小于5，超过20%，不能用卡方检验

10. 方差分析（ANOVA）

方差分析导论

名词解释

因子或因素，水平或处理

因素：方差分析的研究变量；例如，研究裁判打分的差异，裁判就被称为因素

水平：因素中的内容称为水平；例如，总共有3个裁判打分，则裁判因素的水平就是3

例题

适用场景：在研究一个（或多个）分类自变量与一个数值型因变量之间的关系时。方差分析的实质是比较3个总体及以上均值是否相等

方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响

方差分析的基本思路和原理

误差分解（总误差SST）

组内误差（SSE）

根据上述案例，同一行业的不同企业之间被投诉的次数也不同，由于企业是随机抽取，它们之间的差异可能是由随机因素的差异导致的，或者说是由抽样的随机性导致的随机误差，因此这类来自水平内部的数据误差被称为组内误差，且组内误差只含有随机误差

图形描述：图中折线是由均值连接而成，从散点图看，不同行业被投诉的次数是有明显差异的

组间误差（SSA）

不同行业之间的观测值也不相同，来自不同水平之间的数据误差被称为组间误差，此类差异可能是随机性的，也可能是由行业本身的系统性因素造成的系统误差，所以组间误差是随机误差和系统误差的总和

SST=SSE+SSA

方差分析中的基本假定

1.每个总体都应服从正态分布

2.各总体的方差必须相同

3.观测值需要是独立的

问题的一般提法

单因素方差分析

分析步骤

提出假设

构造检验的统计量

计算个样本的均值

计算全部观测值的总均值

计算各误差平方和

统计决策

将统计量的值F与给定的显著性水平的临界值进行比较，从而作出对原假设的决策

若,则拒绝原假设，即所检验的因素对观测值有显著影响

若,则不拒绝原假设，即所检验的因素对观测值没有显著影响

方差分析表

关系强度的测量

只要组间平方和（组间SSA）不等于零，就表明两个变量之间有关系（只是是否显著的问题）。

当组间平方和比组内平方和大，且大到一定程度时，就以为这两个变量之间的关系显著。大得越多，表明他们之间的关系就越强。

反之，当组间平方和比组内平方和小时，就意味着两个变量之间的关系不显著，小得越多，表明他们之间的关系就越弱。

关系强度的表示

方差分析中的多重比较

双因素方差分析

无交互作用的双因素方差分析

有交互作用的双因素方差分析

11. 相关分析与一元线性回归

相关与回归分析主要研究数值型自变量与数值型因变量之间的关系

变量间的关系

研究是否有线性关系

函数关系

一一对应的确定关系

如：某种商品的销售额y与销售量x之间的关系可表示为y = px（p为单价）

如：圆的面积S与半径R之间的关系可表示为