统计学知识点梳理
2022-07-08 18:31:16 2 举报
AI智能生成
系统的梳理统计学第七版知识点,包含公式和题目,非常适合机器学习初学者复习统计学的知识点
作者其他创作
大纲/内容
7. 参数估计
参数估计的基本原理
估计量与估计值
估计量:用来估计总体参数的统计量。样本均值、样本比例、样本方差都可以称为估计量
估计值:根据一个具体样本计算出来的估计量的数值。
点估计与区间估计
常见点估计方法:矩估计、最小二乘估计、极大似然估计、贝叶斯估计
区间估计:利用已知的抽样分布、利用区间估计与假设检验的联系、利用大样本理论
区间估计示意图
置信水平:也称为置信度和置信系数。
假设打靶100次,每次打靶前都预估一个置信区间(即可能打多少环),构造100个置信区间,这100个中有95个包含了真值,那么置信水平就是95%
当样本量给定时,置信区间的宽度随置信系数的增大而增大;当置信水平固定时,置信区间宽度随样本量的增大而减小
评价估计量的标准
无偏性
有效性
一致性
参数估计例题汇总
一个总体参数的区间估计
总体均值的区间估计
判断是大样本(n30)还是小样本(n<30)
正态总体、方差已知或非正态总体,大样本
采用z分布
正态总体、方差未知、小样本
采用t分布
例题解析
总体比例的区间估计
z分布
例题解析
总体方差的区间估计
卡方分布
例题解析
两个总体参数的区间估计
两个总体均值之差的区间估计
两个总体均值之差的估计:独立样本
大样本的估计
不论方差是否已知,统一用z分布
例题解析
小样本的估计
方差已知,用z分布
方差未知但相等,用t分布
例题解析
题目
解析
两个总体均值之差的估计:匹配样本
t分布
匹配样本:一个样本中每个数据值与另一个样本的对应数据值相匹配的样本
例题解析
题目
解析
两个总体比例之差的区间估计
独立大样本,用z分布
例题解析
两个总体方差比的区间估计
F分布
例题解析
样本量的确定
估计总体均值时样本量的确定
计算公式
例题解析
估计总体比例时样本量的确定
计算公式
例题解析
计算公式总结
一个总体参数的区间估计
两个总体参数的区间估计
两个总体参数的估计及使用的分布
8. 假设检验
假设检验的基本问题
假设问题的提出
假设检验的定义
假设检验是先对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立
假设的定义及表达式
假设检验中,原假设与备择假设只有一个成立且必有一个成立
注意:等于号一般放在原假设中
两类错误
弃真错误(第一类错误)
又称显著性水平
纳伪错误(第二类错误)
假设检验步骤
拒绝域
若H0是等于号,则为双侧检验;若H0是大于等于或者小于等于号,则为单侧检验
根据统计量判断结果,若求出的统计量大于统计量,则拒绝原假设,否则不拒绝原假设
双侧检验
单侧检验
左单侧检验
右单侧检验
一个总体参数的检验
检验统计量的确定
总体均值的检验
样本量大
例题解析
样本量小,总体标准差已知
例题解析
样本量小,总体标准差未知
例题解析
总体比例的检验
例题解析
总体方差的检验
例题解析
两个总体参数的检验
检验统计量的确定
两个总体均值之差的检验
两方差都已知
例题解析
两方差未知n较小
例题解析
两个总体比例之差的检验
检验两总体比例相等的例题
检验两个总体比例之差不为零的例题
两个总体方差比的检验
例题解析
检验中的匹配样本
例题解析
网上例题汇总
9. 分类数据分析
分类数据与卡方检验
分类数据
卡方检验
卡方统计量
拟合优度检验
列联分析:独立性检验
拟合优度检验适用于一个分类变量,列联分析是检验两个或以上的分类变量之间是否有相关关系
列联表
是由两个或以上的变量进行交叉分类的频数分布表
各变量都有两个或以上的类别
独立性检验
检验步骤(以患肺癌和吸烟的关系为例)
第一步 提出假设H0:患肺癌与吸烟没有关系。(目标结论H1“患肺癌与吸烟有关系”的反面)
第二步 计算独立性检验的标准,即统计量k2=n(ad-bc)^2/{(a+b)(c+d)(a+c)(b+d)}的值。(它越小,原假设H0成立的可能性越大;它越大,目标结论H1成立的可能性越大。)
第三步 由独立性检验的临界值表得出结论及其可信度(即在多大程度上适用)。
例题解析
列联表中的相关测量
φ相关系数
φ=0,相互独立;φ=1,完全相关
取值范围[0,1],值越大,相关程度越大
适用2*2列联表
c相关系数
当列联表R*C中的行数R或列数C大于2时,此时φ系数会随着R或C增大而增大,且没有上限,所以用 φ系数测定两个系统的相关程度就不够清晰可采用c相关系数
主要用于大于2*2的列联表
c=0,表示两个变量相互独立,φ=1,完全相关
V相关系数(Gramerx相关系数)
鉴于φ相关系数无上限,c相关系数小于1,可采用v相关系数
取值范围[0,1],值越大,相关程度越大
当列联表中有一维为2,则v值=φ值
列联分析中应注意的问题
条件百分表的方向
一般来说,列联表中变量的位置是任意的,如果X与Y存在因果关系,则令X为自变量(原因),放在列的位置,令Y为因变量,放在行。
卡方分布的期望值准则
该表共6个单元,只有1个单元的期望频数小于5,可以用卡方检验
该表共7个单元,有3个单元的期望频数小于5,超过20%,不能用卡方检验
10. 方差分析(ANOVA)
方差分析导论
名词解释
因子或因素,水平或处理
因素:方差分析的研究变量;例如,研究裁判打分的差异,裁判就被称为因素
水平:因素中的内容称为水平;例如,总共有3个裁判打分,则裁判因素的水平就是3
例题
适用场景:在研究一个(或多个)分类自变量与一个数值型因变量之间的关系时。方差分析的实质是比较3个总体及以上均值是否相等
方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响
方差分析的基本思路和原理
误差分解(总误差SST)
组内误差(SSE)
根据上述案例,同一行业的不同企业之间被投诉的次数也不同,由于企业是随机抽取,它们之间的差异可能是由随机因素的差异导致的,或者说是由抽样的随机性导致的随机误差,因此这类来自水平内部的数据误差被称为组内误差,且组内误差只含有随机误差
图形描述:图中折线是由均值连接而成,从散点图看,不同行业被投诉的次数是有明显差异的
组间误差(SSA)
不同行业之间的观测值也不相同,来自不同水平之间的数据误差被称为组间误差,此类差异可能是随机性的,也可能是由行业本身的系统性因素造成的系统误差,所以组间误差是随机误差和系统误差的总和
SST=SSE+SSA
方差分析中的基本假定
1.每个总体都应服从正态分布
2.各总体的方差必须相同
3.观测值需要是独立的
问题的一般提法
单因素方差分析
分析步骤
提出假设
构造检验的统计量
计算个样本的均值
计算全部观测值的总均值
计算各误差平方和
统计决策
将统计量的值F与给定的显著性水平的临界值进行比较,从而作出对原假设的决策
若,则拒绝原假设,即所检验的因素对观测值有显著影响
若,则不拒绝原假设,即所检验的因素对观测值没有显著影响
方差分析表
关系强度的测量
只要组间平方和(组间SSA)不等于零,就表明两个变量之间有关系(只是是否显著的问题)。
当组间平方和比组内平方和大,且大到一定程度时,就以为这两个变量之间的关系显著。大得越多,表明他们之间的关系就越强。
反之,当组间平方和比组内平方和小时,就意味着两个变量之间的关系不显著,小得越多,表明他们之间的关系就越弱。
关系强度的表示
方差分析中的多重比较
双因素方差分析
无交互作用的双因素方差分析
有交互作用的双因素方差分析
11. 相关分析与一元线性回归
相关与回归分析主要研究数值型自变量与数值型因变量之间的关系
变量间的关系
研究是否有线性关系
函数关系
一一对应的确定关系
如:某种商品的销售额y与销售量x之间的关系可表示为y = px(p为单价)
如:圆的面积S与半径R之间的关系可表示为
相关关系
变量之间不确定的数量关系称为相关关系
相关关系的类别
按程度分类
按方向分类
按形式分类
按变量数目分类
特点:一个变量的取值不能由另一个变量唯一确定,当变量x取某个值时,变量y的取值可能有几个
相关关系的描述与测度
是否存在关系
存在什么关系
存在什么关系
散点图
大体上能看出变量之间的关系形态和关系强度
线性相关系数,又称为pearson相关系数
r的取值范围
范围在[-1,1],r的绝对值越大,关系强度越大,绝对值越接近于0,关系强度越小
r有对称性
r的数值大小与xy的原点及尺度无关
r仅描述线性关系强弱,不描述非线性关系
r可以判断两个变量之间的线性关系不一定意味着xy有因果关系
相关系数计算公式
样本所反映的关系能否代表总体变量之间的关系
考察样本相关系数的可靠性(显著性检验)
提出假设
构建t统计量
双侧检验
例题解析
一元回归分析
用数学表达式通过最小二乘法处理样本数据得出必要参数,进行总体回归方程的拟合,最后用一个数学表达式表示两变量之间的关系
最终目的是根据所建立的估计方程用自变量x来估计或预测因变量y的取值。
最终目的是根据所建立的估计方程用自变量x来估计或预测因变量y的取值。
建立模型
一元线性回归模型的基本形式
通过两参数最小二乘估计表达式
计算得到两参数和β
计算得到两参数和β
得出估计的回归方程
最小二乘法
计算公式
考察回归直线的拟合优度
计算判定系数进行度量
估计的标准误差
排除x对y的线性影响之后,y随机波动大小的度量
实际意义:反映了用估计的回归方程预测因变量y时预测误差的大小
显著性检验
线性关系的检验——F检验
方程线性关系的显著程度
回归系数的检验——t检验
检测自变量对因变量的影响是否显著
一元回归中t检验可与F检验相等
回归分析结果的评价
(1)所估计的回归系数的符号是否与理论或者事先预期相一致
(2)如果理论上认为y与x之间的关系不仅是整的,而且统计上显著,那么所建立的回归方程也应如此
(3)能够解释因变量y取值的差异
(4)需要考察误差项的正态性假设是否成立
利用回归方程进行预测
回归模型经过检验并符合要求之后就可以进行预测,用方程来预测因变量
点估计
例题解析
区间估计
y的平均值的置信区间估计
例题解析
y的个别值的预测区间估计
例题解析
残差分析
进行残差分析的必要性,来源于建立回归模型时,预先假定ε是期望值为0、方差相等且服从正态分布的一个随机变量
但如果假定不成立,那么所做的检验与预测可能站不住脚,而确定ε是否成立的方法之一就是进行残差分析
但如果假定不成立,那么所做的检验与预测可能站不住脚,而确定ε是否成立的方法之一就是进行残差分析
残差与残差图
残差反映了用估计的回归方程去预测而引起的误差
残差图中的所有点都应落在一条水平带中间
标准化残差
是残差除以它的标准差后得到的数值,也称为Pearson残差或半学生化残差
如果误差项服从正态分布,那标准化残差的分布也应服从正态分布,因此,大约有95%的标准化残差在-2~2之间
12. 多元线性回归
多元线性回归模型
一个因变量与两个及两个以上自变量的回归
描述因变量y如何依赖自变量x1,x2…xk和误差项ε的方程,成为多元回归方程
估计的多元回归方程
用样本统计量,,…去顾及方程相对应的未知参数时得到的估计的多元回归方程
参数的最小二乘估计
回归方程的拟合优度
多重判定系数
因变量比离差平方和:SST=SSR+SSE
SST为因变量离差总平方和,SSR为回归平方和,SSE为残差平方和
多重判定系数是多元回归中的回归平方和占总平方和的比例
可以用它来度量多元回归方程的拟合程度,反映了在因变量y的变差中被估计的回归方程所解释的比例
调整的多重判定系数
注意:自变量个数的增加会影响隐变量中被估计的回归方程所揭示的变差数量
当增加自变量时,会使预测误差变得较小,从而减少残差平方和SSE
当模型中增加一个不显著的自变量,会变大,为避免增加自变量而高估,采用样本量n和自变量个数k调整
计算公式
多元线性回归的拟合优度一般以调整R方为主
估计标准误差
显著性检验
线性关系检验
提出假设
计算统计量
作出决策
若,拒绝原假设
若,接受原假设
回归系数检验和推断
提出假设
计算统计量
作出决策
多重共线性
定义:当回归模型中两个或两个以上的自变量彼此相关时,称回归模型中存在多重共线性
产生原因
1.数据不足。在某些情况下,收集更多数据可以解决共线性问题。
2.错误地使用虚拟变量。(比如,同时将男、女两个虚拟变量都放入模型,此时必定出现共线性,称为完全共线性)
多重共线性的判别
(1)如果模型中各对自变量之间显著相关
(2)当模型的线性关系检验(F检验)显著时,几乎所有回归系数的t检验却不显著
(3)回归系数的正负号与预期的相反
(4)容忍度与方差扩大因子(VIF)容忍度为1-,容忍度越小多重共线性越严重,通常容忍度小于0.1,存在严重多重共线性
多重共线性问题的处理
将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关
如果要在模型中保留所有自变量
避免根据t统计量对单个参数进行检验
对因变量y值的推断(估计和预测)限定在自变量样本值的范围内
利用回归方程进行预测
变量选择
变量选择过程
若新变量引入模型后以前的某个变量的t统计量不显著,这个变量就会被从模型中剔除
如果增加一个自变量使残差平方和(SSE)显著减少,则说明有必要将这个自变量引入回归模型
变量选择方法
向前选择
变量由少变多
通过F值筛选变量,直至F值不再变大
向后剔除
变量由多变少
通过F值筛选变量,直至F值通过检验
逐步回归
逐步回归的思想是有进有出
具体做法是将变量一个一个引入,每引入一个变量,要对已选入的变量进行检验,当原引入的变量由于后引入的变量变得不再显著时,要剔除变量
逐步回归是每次只引入或剔除一个变量,所以对n<p的情形也可进行回归子集的选择
最优子集
13. 时间序列分析和预测
时间序列及其分解
定义:时间序列是同一现象在不同时间上的相继观察值排列而成的系列
时间序列中的时间可以是年份、季度、月份或者其他任何时间形式
时间序列类型
平稳序列
基本上不存在趋势的序列
非平稳序列
包含趋势、季节性或周期性的序列,可能只含有其中一种成分或几种成分
趋势(T)
时间序列在长时期内呈现出来的某种持续上升或者持续下降的变动,也称为长期趋势
有趋势的序列
时间序列中的趋势可以是线性的也可以是非线性的
季节性(S)
又称为季节变动,是时间序列在一年内重复出现的周期性波动
周期性(C)
是时间序列中呈现出来的围绕长期趋势的一种波浪形或震荡式变动,周期性是涨落相间的交替波动
循环波动无固定规律,变动周期多在一年以上,且周期长短不一
随机性(I)
也称不规则波动,是时间序列中除去趋势、周期性和季节性之后的偶然性波动,
时间序列可分为加法模型、乘法模型等多种模型
时间序列的描述性分析
图形描述
在对时间序列进行分析时,最好先做一个图形,通过图形观察数据随时变化的模式及趋势
增长率分析
增长率是对现象在不同时间的变化状况所做的描述
对比的基期不同,增长率会有不同的计算方法
增长率
环比增长率
指报告期观察值与前一时期观察值之比减1
定基增长率
指报告期观察值与某一固定时期观察值之比减1
计算公式
时间序列预测的程序
确定时间序列的成分
确定趋势成分
方法1:从时序图入手,观察是否存在趋势,以及所存在的趋势是线性还是非线性
方法2:利用回归分析拟合一条趋势线,对回归系数进行显著性检验,若回归系数显著,则可以证明线性趋势显著
确定季节成分
注意点:至少需要两年的数据,而且数据需要按照季度、月份、周或者天等来记录
可以使用年度折叠时间序列图,将每年的数据分开画在图上,横轴只有一年的长度,每年数据分别对应纵轴
如果序列只存在季节成分,那图中折线将会有交叉;如果既有季节成分又有趋势,那折线将不会有交叉
如果趋势上升,则后面年度的折线将会高于前面年度的折线,,如果趋势下降,则相反
还可以使用自相关分析,观察一个时期的数值是否与前一时期的数值存在相关性
选择预测方法
预测方法的评估
平均误差(ME)
ME表示所有预测误差()的平均值
平均绝对误差(MAE)
MAE是将预测误差取绝对值后计算的平均误差
均方误差(MSE)
MSE是通过平方消去误差的正负号后计算的平均误差
平均百分比误差和平均绝对百分比误差(MPE和MAPE)
它们消除了时间序列数据的水平和计量单位的影响,是反映误差大小的相对值
MPE表示平均绝对误差
MAPE表示平均绝对百分比误差
平稳序列的预测
简单平均法
移动平均法
指数平滑法
趋势型序列的预测
线性趋势预测
指现象随着时间的推移而呈现出稳定增长或下降的线性变化规律
计算公式
趋势预测的误差可用线性回归中的估计标准误差来衡量
非线性趋势预测
指数曲线
用于描述以几何级数递增或递减的现象,即时间序列的观察值Yt按指数规律变化,或者说时间序列的逐期观察值按一定的增长率增长或衰减
一般的自然增长及大多数经济序列都有指数变化趋势
指数曲线的趋势方程
多阶曲线
有些现象的变化形态比较复杂,它们不是按照某种固定的形态变化,而是有升有降,在变化过程中可能有几个拐点,需要拟合多项式函数
只有一个拐点,拟合二阶曲线;有两个拐点,拟合三阶曲线,有k-1个拐点,需要拟合k阶曲线
方程式
复合型序列的分解预测
指含有趋势、季节、周期和随即成分的序列
通常是将时间序列的各个因素依次分解出来,然后进行预测
方法1:季节性多元回归模型
方法2:季节自回归模型
确定并分离季节成分
计算季节指数
分离季节成分
建立预测模型并进行预测
14. 指数
基本问题
指数概念
指数分类
按照考察对象的范围不同,可分为个体指数和总指数
按照所反映指标的性质不同,可分为数量指标指数和质量指标指数
按照计算形式的不同,可分为简单指数和加权指数
指数编制中的问题
选择项目
确定权数
计算方法
总指数编制方法
简单指数
简单综合指数
简单平均指数
加权指数
加权综合指数
加权平均指数
指数体系
总量指数体系分析
平均数变动因素分解
几种典型的指数
居民消费价格指数
股票价格指数
消费者满意度指数
综合评价指数
综合评价与综合评价指数
综合评价指数的构建方法
1. 导论
统计及其应用领域
统计学
收集、处理、分析、解释数据并从数据中得出结论的科学(结合大量数学以及其他学科的专业知识)
统计研究的是数据
收集:取得统计数据
处理:将数据用图表等形式展现出来
分析:选择适当的统计方法研究数据,并从数据中提取有用的信息进而得出结论
分析的目的是从数据中找出规律,寻找启发,而非寻找支持
数据分析所用方法
描述统计
是用直观图形(如条形图,饼图等),汇总的表格和概括性的数字(如平均数)表示数据的分布、形状等特征,并为进一步的统计推断提供依据
推断统计
是根据样本信息对总体进行 估计、假设检验、预测或其他推断的统计方法
统计数据的类型
按计量尺度
定性数据/分类数据
特点:用文字或数字代码表现事物品质特征或属性特征
定类数据/名义 (类别)
定序数据/有序 (有顺序的类别:好,中,差)
定量数据(数值型数据)
特点:用数值来表现事物数量特征的数据
定距数据(可以进行加、减运算,例如:温度),没有绝对零点(绝对零点是指0代表无)
定比数据(可以进行加、减、乘、除运算。如长度、高度、利润),有绝对零点
按被描述现象与时间的关系
截面数据(静态数据,是同一时间对同一总体内不同单位观察的数据,例如:某固定年份各地区的生产总值)
时间序列数据(不同时间对同一总体的数量表现观察的数据))
按表现形式
绝对数:现象的规模,水平
相对数:由两个互相联系的绝对数对比求得
平均数:反应现象总体的一般水平或分布的集中趋势
按收集方法
观测数据
实验数据
几个基本概念
总体与样本
总体
所研究事物的全体,如一批灯泡
个体(总体单位)
组成总体的各个个体,如某个灯泡
样本
从总体中抽取的一部分元素的集合
样本量
构成样本的元素的数目
参数和统计量
参数
描述总体特征的概括性数字度量,是未知的常数
统计量
描述样本特征的概括性数字度量,是样本的函数,不含未知参数,用来推断总体参数
标志、变异和变量
标志
是说明总体单位属性和数量特征的名称,包含标志名称+标志表现
种类(根据标志表现不同)
品质标志(标明总体单位的属性特征):性别 男
数量标志(标明总体单位的数量特征):年龄 15
变异
标志表现在总体单位之间的差异
属性上的差异:性别,文化程度
数量上的差异:年龄,身高
变量
说明现象某种特征的概念,具体取值就是变量值
分类
按计量尺度分:分类变量,顺序变量,数值型变量
按变量的取值确定与否分:随机变量,非随机变量
按变量值连续出现与否分:连续型变量,离散型变量
指标和指标体系
指标
是反映总体的数量特征的概念,包含指标特征+指标数值
指标只能说明数量特征
指标体系
一系列相互联系的统计指标组成的有机整体
2. 数据的搜集
数据的来源
间接来源
源于别人调查或实验的二手数据
直接来源
实验数据
实验组和对照组
调查数据
调查方法
全面调查
普查
非全面调查
概率抽样/随机抽样(样本按随机原则抽取,排除主观因素影响)
简单随机抽样:从总体N个单位的抽样框中随机地,一个个地抽取n个单位作为样本,每个单位入样概率相同
分层抽样:将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本
整群抽样:先将总体分为若干群,抽样时直接抽取群,对群中所有单位全部调查
系统抽样:将总体中的所有单位按一定顺序排列,在规定的范围内随机抽取一个单位为初始单位,再按事先制定的规则确定其他样本单位
多阶段抽样:根据实际情况将整个抽样程序分为若干个阶段,一个阶段一个阶段地进行抽样
非概率抽样
方便抽样:依据方便的原则,自行确定作为样本的单位
判断抽样:根据经验、判断和对研究对象的了解有目的的选择一些单位作为样本
重点调查
典型调查
代表抽样
自愿样本
滚雪球抽样
配额抽样:将总体中的所有单位按一定标志(变量)分为若干类,在每个类中采用方便抽样或判断抽样的方式选择样本单位
搜集数据的方法
自填式
面访式
电话式
数据的误差
抽样误差
是由于抽样的随机性所带来的误差,只存在于概率抽样中
相关因素
样本量的大小(最重要)
总体的变异性
抽样方法
类别
抽样实际误差,由于总体参数未知,无法计算
抽样平均误差:标准误差,即样本均值的标准差
抽样极限误差:给定的样本统计量与总体参数误差范围不能超过的数值
非抽样误差
抽样框误差
回答误差
无回答误差
调查员误差
测量误差
3. 数据的图表展示(描述统计)
数据预处理
数据审核
完整性:检查应调查的单位或个体是否有遗漏,所有的调查项目是否齐全
准确性:检查数据是否有逻辑错误和计算错误,是否有异常值
适用性:检查数据来源、口径及相关背景资料是否符合分析研究的需要
时效性:所取数据过于滞后可能会失去研究意义
数据筛选
1. 剔除某些不符合要求的数据或有明显错误的数据
2. 将符合某种特定条件的数据筛选出来
数据排序
按一定顺序将数据排列,有助于检查纠错,也有助于找到明显的特征或趋势
数据透视表
可对数据表的重要信息按使用者的习惯或分析要求进行汇总和作图,形成符合需要的交叉表(列联表)
数据的整理与展示
品质数据的整理与展示
分类数据的整理与图示
列出所分类别,计算每一类别的频数,频率或比例,比率,形成频数分布表
分类数据的图示
条形图
用宽度相同的条形的高度或长短来表示数据多少的图形,可横置或纵置
帕累托图
按各类别数据出现的频数多少排序后绘制的条形图
容易看出哪类数据出现的多,哪类数据出现的少
饼图
用圆形及圆内扇形的角度来表示数值大小的图形
主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例
环形图
饼图叠在一起,挖去中间部分
可显示多个样本各部分所占的相应比例
顺序数据的整理与图示
分类数据的整理与图示方法均适用
累积频数和累积频率
将各有序类别或组的频数或百分比逐级累加起来得到的频数或频率
向上累计:从类别顺序的开始一方 向 类别顺序的最后一方累计(数值型分组数据则是从变量值小的一方 向变量值大的一方累计)
向下累计:从类别顺序的最后一方向类别顺序的开始一方累计(数值型分组数据则是从变量值大的一方向变量值小的一方累计)
顺序数据的图示
累计频数分布图
折线图
数值型数据的整理与图示
分类与顺序数据的整理与图示方法均适用
数据分组整理
分组原则
穷尽原则(不漏)
互斥原则(不重)
分组方法
单变量值分组:每个自变量自成一组,适用于变动范围不大的离散型变量
组距分组
按组限是否重叠分 (组限是相邻两组的数量界限,分上限(最大值)和下限(最小值))
连续型组距式分组
组限相连(或重叠)
遵循“上组限不在内”原则,即恰好等于本组上组限的变量值不在本组内
间断型组距式分组
相邻两组组限不重叠
按组距是否相等分 (组距=本组上限-本组下限)
等距分组
异距分组
组中值
(上限值+下限值)/2
一般作为改组数据的代表值,组内均匀分布时代表性高
数值型数据的图示
分组数据:直方图
横轴代表数据分组,纵轴表示频数/频率
适用于大批量数据
未分组数据
茎叶图
保留了原始数据信息
适用于小批量数据
箱线图
组成特征值
最大值
最小值
中位数
上下四分位数
离群点 :超过四分位差1.5倍距离
极端值:超过四分位差3倍距离
时间序列数据:线图
反映现象随时间变化的特征,时间再横轴,观测值再纵轴
多变量数据的图示
散点图
用二维坐标展示两个变量之间关系的图形
气泡图
用于展示三个变量之间的关系
雷达图/蜘蛛图
显示多个变量
在显示或对比数值总和时十分有用,可研究多个样本之间的相似程度
合理使用图表
好的图形所具体的特征
显示数据
让读者把注意力集中在图形的内容上,而非制作图形的程序上
避免歪曲
强调数据之间的比较
服务于一个明确的目的
有对图形的统计描述和文字说明
鉴别图形优劣的准则
应当精心设计,有助于洞察问题的实质
应当使复杂的观点得到简明、确切、高效的阐述
应当能在最短的时间内以最少的笔墨给读者提供大量的信息
应当是多维的
应当表述数据的真实情况
4. 数据的概括性度量(简单描述统计)
集中趋势的度量
分类数据:众数()
一组数据中出现频数最多的变量值
主要用于分类型数据,也可用于顺序型和数值型
是位置代表值,不受极端值影响
最高峰点所对应数值即为众数
顺序数据
中位数()
一组数据排序后处于中间位置上的变量值
奇数:
偶数:
主要用于顺序型数据,也适用于数值型
是位置代表值,不受极端值影响
四分位数
一组数据排序后处于25%和75%位置上的变量值:和
主要反映处于中间50%数据的分布情况
适用于顺序型数据和数值型数据
是位置代表值,不受极端值影响
数值型数据:平均数
是进行统计分析和统计推断的基础,极易受极端值影响
算术平均数
未分组:简单平均数
有分组:加权平均数
几何平均数
实际应用于计算现象的平均发展速度,也适用于对某些具有环比性质的比率求平均,当数据中出现零值和负值时不宜计算几何平均数
简单几何平均:
加权几何平均:
举例求平均增长率
众数、中位数和平均数的比较
三者关系
数据对称分布:
数据左偏分布:
数据右偏分布:
特点,应用场合
众数具有不唯一性,只有在数据量较多时才有意义,适合作为分类数据的集中趋势测度值
当数据分布偏斜程度较大时,适合使用中位数,且中位数适合作为顺序数据的集中趋势测度值
数据均匀分布时,应选平均数作为集中趋势代表值,但对于偏态数据代表性较差
离散程度的度量(变异指标)
分类数据:异众比率:
非众数组的频数占总频数的比率
主要用于衡量众数对一组数据的代表程度
异众比率越大,众数的代表性越差,反之,越好
顺序数据:四分位差(内距/四分间距):
上四分位数与下四分位数之差,反映了中间50%数据的离散程度
主要用于衡量中位数对一组数据的代表程度
不受极端值的影响,其数值越小,说明中间的数据越集中,反之,越分散
数值型数据:方差和标准差
极差:
计算简单,但易受极端值影响,不能反映中间数据的分散状况,不能准确描述出数据的分散程度
平均差(平均绝对离差)
各变量值与其平均数离差绝对值的平均值
以平均数为中心,反映了每个数据与平均数的平均差异程度
平均差越大说明数据的离散程度就越大,平均数代表性越大
计算公式
未分组:
有分组:
方差和标准差
各变量值与其均值的离差平方和的平均数为方差,方差的平方根为标准差
能较好地反映出数据的离散程度,是应用最广泛的离散程度的测度值
标准差有量纲,与变量值的计量单位相同,其实际意义比方差更清楚
计算公式
未分组:
有分组:
相对位置的度量
标准分数(标准化值或z分数):
变量值与其平均数的离差除以标准差后的值
测度每个数据在该组数据的相对位置,可用来判断离群值
对多个不同量纲的变量进行处理时,常需要对各变量进行标准化处理
经验法则
约有68%的数据在平均数+/-1个标准差的范围之内
约有95%的数据在平均数+/-2个标准差的范围之内
约有99%的数据在平均数+/-3个标准差的范围之内
在+/-3个标准差之外的数据为离群点
只适合对称分布的数据
切比雪夫不等式
对任何分布形态的数据都适用
至少有的数据落在+/-k个标准差之内
至少有75%的数据在平均数+/-2个标准差的范围之内
至少有89%的数据在平均数+/-3个标准差的范围之内
至少有94%的数据在平均数+/-4个标准差的范围之内
相对离散程度:离散系数(变异系数):
一组数据的标准差与其相应的平均数之比
为了消除变量值水平高低和计量单位不同对离散程度测度值的影响(比较不同样本数据的离散程度)
偏态与峰态的度量(分布形状)
偏态系数(三次中心距)
计算公式
未分组:
有分组:
表现
正数,正偏/右偏
负数,负偏/左偏
0.5~1,-0.5~-1,中等偏态
>1,<-1,高度偏态
越接近0,偏斜程度越低
峰态系数(四次中心距)
3,服从正态分布
>3,尖峰分布,分布更集中
<3,扁平分布,分布越分散
5. 概率与概率分布
随机事件及其概率
随机事件的几个基本概念
随机事件
在同一组条件下,每次试验可能出现也可能不出现的事件
必然事件
在同一组条件下,每次试验一定出现的事件
不可能事件
在同一组条件下,每次试验一定不出现的概率
事件的概率的定义
概率的古典定义
结果有限
即基本空间中只含有限个元素,如掷硬币只有“正面朝上”和“反面朝上”两种结果
各个结果出现的可能性被认为是相同的
P(A)=事件A所包含的基本事件个数/样本空间所包含的基本事件个数=m/n
概率的统计定义
古典概率局限性:随机试验只有有限个可能结果的范围,使其应用受限,引出概率的统计定义
在相同条件下随机试验n次,某事件A出现m次(),则比值m/n称为事件A 发生的频率
随着n的增大,该频率围绕某一常数p上下波动,且波动的幅度逐渐减小,趋于稳定,这个频率的稳定值即为该事件的概率
主观概率定义
指对一些无法重复的试验,只能根据以往的经验,人为确定这个事件的概率。是一个决策者根据本人掌握的信息对某个事件发生可能性做出的判断。
是工商活动中决策者常用的一种判断方法
概率的性质与运算法则
概率的基本性质
非负性:
规范性:对于必然事件Ω,必有P(Ω)=1
对于随机事件,只要它们两两互不相容,则有
概率的计算公式
概率的加法法则
任意两个事件和(并)的概率
P(A+B)=P(A)+P(B)-P(AB)
两个不相容事件和(并)的概率
P(A+B)=P(A)+P(B)
条件概率和乘法公式
条件概率:在“事件B已发生”的条件下,事件A 发生的概率,记作P(A|B)
乘法公式: P(A|B)=P(AB)/P(B) --> P(AB)=P(B)P(A|B)=P(A)P(B|A)
全概率公式
贝叶斯公式
事件的独立性
事件B的发生并不影响事件A发生的概率称事件A与B之间统计独立
P(A|B)=P(A) --> P(AB)=P(B)P(A|B)=P(A)P(B)
随机变量及其分布
随机变量的概念
随机变量就是其取值带有随机性的变量,是基于随机事件的一个概念。
种类
离散型随机变量
随机变量X的所有取值都可以逐个列举出来,例如:在一批产品中取到次品的个数,单位时间内某交换台收到的呼叫次数
连续型随机变量
随机变量X的所有取值无法逐个列举出来,而是取数轴上某一区间内的任一点,例如:一批电子元件的寿命,实际工作中常遇到的测量误差
概率分布的概念
随机变量的一切可能值的集合(值域),及其相应的概率
随机变量的统计性质可由他的概率分布来表征
离散型随机变量及其分布
定义
离散型随机变量X的每一个可能的取值和随机变量取该值的概率p()之间所确立的对应关系,称作这个离散型随机变量的分布。P()=p()
p()(i=1,2,3...)称作随机变量X的概率分布或概率函数
性质
p()
数字特征
数学期望
方差与标准差
, 标准差
离散系数
用来比较不同期望值的总体之间的离中趋势
常用分布
两点分布
随机变量X只取0和1两个值,取1的概率是p,取0的概率是1-p,则X服从两点分布或0-1分布
例如:新生婴儿的性别,产品质量是否合格,某种试验是否成功
数字特征:E(X)=p, D(X)=p(1-p)
二项分布
性质(缺一不可)
试验由条件完全相同的n个贝努里试验组成
每次试验只有“成功”和“失败”两种对立的结局
各次试验“成功”的概率相同(都为p),“失败”的概率也相同(都为1-p),
各次试验相互独立
概率函数
x代表成功的次数
p代表一次试验中成功的概率
n代表试验的次数
f(x)代表n次试验中有x次成功的概率
例如:已知100件产品中有5件次品,从中任取1件,有放回的取3次,X为所取的3件产品中的次品数,X~B(3,0.05)
数字特征:E(X)=np, D(X)=np(1-p)
泊松分布
定义
用来描述在一指定时间范围内或在指定的面积或体积之内某一事件出现的次数的分布
性质
在任意两个长度相等的区间上,事件发生的概率是相等的
事件在任一区间上是否发生与事件在其他区间上是否发生是独立的
概率函数
f(x)代表事件在一个区间上发生x次的概率
代表事件在一个区间上发生次数的数学期望或均值
e=2.71828
例如:某企业每月发生事故的次数,某种仪器每月出现故障的次数
数字特征:E(X)=D(X)=
在n重贝努里试验中,当成功的概率很小(p->0),试验次数很大时,二项分布近似等于泊松分布(方便计算)
超几何分布
定义
如果有限总体单位数目为N,其中具有某种特征的单位数目为M,对这个总体进行n次不重复简单随机抽样,用随机变量X表示样本中具有某种特征的单位的数目,则X服从参数为(N,M,n)的超几何分布
与二项分布的区别
在超几何概率分布中,各次试验是不独立的
各次试验中成功的概率不等
概率函数
(x=0,1,...min{n,M})
例如:已知100件产品中有5件次品,从中任取1件,不放回的取3次,X为所取的3件产品中的次品数
数字特征:E(X)=np, D(X)=np(1-p),其中p=M/N
连续型随机变量及其分布
定义
随机变量X 的一系列取值区间(可以是由与实数轴上的任意点所构成的一系列区间)和随机变量在该区间取值的概率之间确立的对应关系,称作这个连续型随机变量的分布。
连续型随机变量的分布可以用密度函数来描述,记作f(x),密度函数不是概率
连续型随机变量的概率也可以用分布函数F(x)来表示,分布函数定义为:,概率密度是其分布函数的导数,即
连续型随机变量X在某一数值区间内[a,b]取值的概率等于竖立在该区间上的,以密度曲线为上底的曲边梯形的面积,写作,连续型随机变量在某一特定值上的概率为0
数字特征
数学期望
方差
常用分布
均匀分布
均匀分布也叫矩形分布,它是对称概率分布,在相同长度间隔的分布概率是等可能的。 均匀分布由两个参数a和b定义,它们是数轴上的最小值和最大值,通常缩写为U(a,b)
概率密度函数
分布函数
数学期望和方差
正态分布
描述连续型随机变量最重要的概率分布,又叫高斯分布
特征
,即整个概率密度曲线都在x轴的上方
曲线f(x)相对于x=u对称,并在x=u处达到最大值,
曲线的陡缓程度由决定,σ越大,曲线越平缓,反之,曲线越陡峭
当x趋于无穷时,曲线以x轴为其渐近线
正态分布曲线下的总面积是1
正态曲线
概率密度函数
常用区间内取值百分比
标准正态分布
随机变量服从均值为0,标准差为1的正态分布
概率密度函数及分布函数
标准正态曲线
线性变换
任何一个一般的正态分布都可通过线性变换转化为标准正态分布。设X~N(),则有
概率计算
1.先通过线性变换转为标准正态分布
2.通过查表获得概率值。对于负值,可以通过1减去x绝对值查表所得的概率值获得
6. 统计量及其抽样分布
统计量
统计量的概念
是由样本构造的函数,它不依赖于任何未知参数
常用统计量
样本均值:
样本的均值,反映出总体X数学期望的信息
样本方差:
反映的是总体X方差的信息
样本变异系数:
反映出总体变异系数C的信息,此统计量消除了均值不同对总体的离散程度的影响,用于刻画均值不同时不同总体的离散程度
样本k阶矩:
反映出总体k阶矩的信息
通常把数学期望及方差等概念用“矩”来描述,常用的样本各阶矩及其函数都是实际应用中的具体统计量。一阶矩就是均值
样本k阶中心矩:
反映总体k阶中心矩信息,就是样本方差
样本偏度
反映总体偏度信息,偏度反映了随机变量密度函数曲线在众数两边的偏斜性。如果X~N(),则偏度为0
样本峰度
反映总体峰度信息,峰度反映了随机变量密度函数曲线在众数附近的“峰”的尖峭程度。如果X~N(),则峰度为0
抽样分布
概念:在总体X的分布类型已知时,若对任一自然数n都能导出统计量T的分布的数学表达式,这种分布称为精确的抽样分布,它对样本量n较小的统计推断问题非常有用。
由正态分布导出的三大重要分布
卡方分布
设随机变量相互独立,且服从标准正态分布N(0,1),则他们的平方和服从自由度为n的分布
自由度
独立变量的个数
二次型的秩
性质
期望n
方差2n
可加性
n趋向正无穷时,卡方分布的极限分布是正态分布
t分布
设随机变量X~N(0,1),Y~,且X与Y独立,则t=,称为t(n)
t分布的诞生促进了小样本理论
性质
当
当
自由度为1的分布称为柯西分布,随着n增加,t分布越接近标准正态分布()
F分布
设随机变量Y与Z相互独立,且Y 和Z 分别服从自由度为m和n的卡方分布,随机变量X=(Y/m)/(Z/n)=(nY)/(mZ)。称X服从F(m,n)
性质
当
当
F分布的两个自由度位置不可互换,若随机变量X服从t(n)分布,则X^2服从F(1,n)分布
样本均值的分布与中心极限定理
当总体分布为正态分布时
抽样分布仍为正态分布,
当总体分布不为正态分布时
中心极限定理
设从均值为,方差为(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时(),样本均值的抽样分布近似服从均值为,方差为的正态分布
关于n充分大的解释
总体偏离正态越远,要求n越大
实际应用中,总体分布未知,通常要求
小样本:在样本量固定的条件下所进行的统计推断,问题分析都为小样本问题
大样本:在样本量条件下所进行的统计推断,问题分析都为大样本问题
为大样本,n<30为小样本只是经验说法
0 条评论
下一页