《统计学》第七版
2022-06-30 23:23:05 0 举报
AI智能生成
贾俊平《统计学》第七版知识点整理
作者其他创作
大纲/内容
导论
统计及其利用领域
统计学
收集、处理、分析、解释数据并从数据中得出结论的科学
描述统计
研究数据收集、处理、汇总、图表描述、概括与分析等统计方法
推断统计
参数估计
假设检验
统计数据的类型
按计量尺度
分类数据
只能归于某一类别的非数字型数据
对事物进行分类的结果,数据表现为类别,用文字描述
例如,人口按性别分为男、女两类
顺序数据
只能归于某一有序类别的非数字型数据
对事物类别顺序的测度,数据表现为类别,用文字来描述
例如,产品分为一等品、二等品、三等品、次品
数值型数据
按数字尺度测量的观察值
结果表现为具体的数值,对事物的精确测度
例如:身高175cm、168cm、183cm
按搜集方法
观测数据
通过调查或观测而收集到的数据
在没有对事物人为控制条件下而得到的
有关社会经济现象的统计数据几乎都是观测数据
实验数据
在实验中控制实验对象而收集到的数据
比如,对一种新药疗效的实验,对一种新的农作物品种的实验
自然科学领域的数据大多数都为实验数据
按时间状况
截面数据
在相近或近似相同的时间点上收集的数据
描述现象在某一时刻的变化情况
比如,2005年我国各地区的国内生产总值数据
时间序列数据
在不同时间上收集到的数据
描述现象随时间变化的情况
比如,2000年至2005年国内生产总值数据
统计中的几个基本概念
总体
所研究的全部个体(数据)的集合,其中的每一个个体也称为元素
分为有限总体和无限总体
有限总体的范围能够明确确定,且元素的数目是有限的
无限总体所包括的元素是无限的,不可数的
样本
从总体中抽取的一部分元素的集合
构成样本的元素的数目称为样本容量或样本量
参数
描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值
所关心的参数主要有总体均值、标准差、总体比例等
总体参数通常用希腊字母表示:μ,σ,Π
统计量
用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数
所关心的样本统计量有样本均值、标准差、样本比例等
样本统计量通常用小写英文字母来表示
变量
分类变量
说明事物类别的名称
顺序变量
说明事物有序类别的名称
数值型变量
说明事物数字特征的名称
离散变量
取有限个值
连续变量
可以取无穷多个值
其他1
随机变量
非随机变量
其他2
经验变量
理论变量
由统计学家用数学方法所构造出来的一些变量,如z统计量
数据的搜集
数据的来源
数据的直接来源
调查数据
通过调查方法获得的数据
通常是对社会现象而言
通常取自有限总体
实验数据
通过实验方法得到的数据
通常是对自然现象而言
被广泛运用到社会科学中
数据的间接来源
二手数据
举例
特点
搜集容易,采集成本低
作用广泛
搜集二手资料是研究者优先考虑并采用的
评估
数据是谁搜集的
为什么目的而搜集
数据是怎样搜集的
什么时候搜集的
调查方法
概率抽样与非概率抽样
概率抽样
简单随机抽样
分层抽样
整群抽样
系统抽样
多阶段抽样
非概率抽样
方便抽样
判断抽样
自愿样本
滚雪球抽样
配额抽样
搜集数据的基本方法
调查的数据
自填式
面访式
电话式
实验方法
实验组和对照组
实验中的若干问题
实验中的统计
实验法案例
数据的误差
抽样误差
由于抽样的随机性所带来的误差
存在于概率抽样中
所有样本可能的结果与总体真值之间的平均性差异
影响抽样误差的大小的因素
样本量的大小
总体的变异性
非抽样误差
抽样框误差
回答误差
无回答误差
调查员误差
误差的控制
抽样误差可以计算和控制
非抽样误差的控制
数据的图表展示
数据的预处理
数据审核
原始数据
完整性审核
准确性审核
二手数据
适用性审核
时效性审核
确认是否有必要做进一步的加工整理
数据筛选
数据排序
数据透视表
品质数据的整理与显示
分类数据的整理与图示
频数与频数分布
列出各类别
计算各类别的频数
制作频数分布表
用图形显示数据
条形图
帕累托图
饼图
环形图
比例
百分比
比率
顺序数据的整理与图示
累积频率
累积频数
累积频数分布图或频率图
数值型数据的整理与显示
数据分组
单变量值分组
组距分组
确定组数
5<=k<=15
确定各组组距
根据分组编制频数分布表
概念
上限
下限
组距
组中值
数值型数据的图示
分组数据
直方图
直方图与条形图的区别
折线图
未分组数据
茎叶图
箱线图
时间序列数据
线图
多变量数据
散点图
气泡图
雷达图
合理使用图表
鉴别图形优劣的准则
统计表的设计
统计表的结构
统计表的设计
合理安排统计表的结构
总标题内容应满足3w要求
时间、地点、内容
数据计量单位相同时,可放在表的右上角标明,
不同时应放在每个变量后或单列出一列标明
不同时应放在每个变量后或单列出一列标明
表中的上下两条横线一般用粗线,其他线用细线
通常情况下,统计表的左右两边不封口
表中的数据一般是右对齐,有小数点时应以小数点对齐,
而且小数点的位数应统一
而且小数点的位数应统一
对于没有数字的表格单元,一般用“—”表示
必要时可在表的下方加上注释
数据的概括性度量
集中趋势的度量
分类数据:众数
不受数据中极端值的影响
顺序数据:中位数和分位数
中位数
收入分配
四分位数
数值型数据:平均数
简单平均数
加权平均数
几何平均数
平均比率
众数、中位数和平均数的比较
众数、中位数和平均数的关系
众数、中位数和平均数的特点与应用场合
离散程度的度量
分类数据:异众比率
非众数组的频数占总频数的比例
顺序数据:四分位差
上四分位数与下四分位数之差
数值型数据:方差和标准差
极差
全距
平均差
分组数据
未分组数据
方差和标准差
分组数据
未分组数据
相对位置的度量
标准分数
变量值与其平均数的离差除以标准差后的值
经验法则
切比雪夫不等式
相对离散程度:离散系数
一组数据的标准差与其相应的平均数之比
偏态和峰态的度量
偏态及其测度
峰态及其测度
分组数据
未分组数据
概率与概率分布
统计量及抽样分布
统计量
统计量的概念
定义
统计量是样本的一个函数
常用统计量
由正态分布导出的几个重要分布
抽样分布
卡方分布
t分布
F分布
样本均值的分布与中心极限定理
参数估计
参数估计的基本原理
估计量与估计值
估计量
用于估计总体参数的随机变量
估计值
估计参数时计算出来的统计量的具体值
点估计与区间估计
点估计
用样本的估计量的某个取值直接作为总体参数的估计值
无法给出估计值接近总体参数程度的信息
区间估计
在点估计的基础上,给出总体参数估计的一个区间范围,
该区间由样本统计量加减估计误差而得到
该区间由样本统计量加减估计误差而得到
根据样本统计量的抽样分布能够对样本统计量
与总体参数的接近程度给出一个概率度量
与总体参数的接近程度给出一个概率度量
概念
置信区间
样本统计量所构造的总体参数的估计区间
置信水平
如果将构造置信区间的步骤重复多次,
置信区间中包含总体参数真值的次数
所占的比例
置信区间中包含总体参数真值的次数
所占的比例
评价估计量的标准
无偏性
估计量抽样分布的数学期望等于被估计的总体参数
有效性
对同一总体参数的两个无偏估计量,
有更小标准差的估计量更有效
有更小标准差的估计量更有效
一致性
随着样本量的增大,估计量的值越来越接近被估计总体的参数
一个总体参数的区间估计
总体均值的区间估计
总体比例的区间估计
总体方差的区间估计
卡方分布
两个总体参数的区间估计
样本量的确定
假设检验
与参数估计对比
相同点
推断统计的组成部分
都是利用样本对总体进行某种推断
不同点
推断的角度不同
参数估计讨论的是用样本统计量估计总体参数的方法,
总体参数μ在估计前是未知的
总体参数μ在估计前是未知的
假设检验中是先对μ的值提出一个假设,然后利用
样本信息去检验这个假设是否成立
样本信息去检验这个假设是否成立
假设检验的基本问题
假设问题的提出
假设的表达式
原假设
备择假设
两类错误
弃真错误
取伪错误
假设检验的流程
提出原假设和备择假设
确定适当的检验统计量,
并计算其数值
并计算其数值
进行统计决策
利用P值进行决策
单侧检验
左单侧检验
关注下限临界点
右单侧检验
关注上限临界点
一个总体参数的检验
检验统计量的确定
样本量
大
z统计量
小
总体标准差σ
已知
z统计量
未知
t统计量
总体均值的检验
总体比例的检验
总体方差的检验
两个总体参数的检验
分类数据分析
方差分析
方差分析引论
方差分析及有关术语
方差分析
通过检验各总体的均值是否相等来判断
分类型自变量对数值型因变量的影响
分类型自变量对数值型因变量的影响
因素或因子
所要检验的对象
水平或处理
因素的不同表现
观测值
在每个因子水平下得到的样本数据
方差分析的基本思想和原理
图形描述
误差分解
组内误差
组内平方和
误差平方和
残差平方和
SSE
误差平方和
残差平方和
SSE
组间误差
组间平方和
因素平方和
SSA
因素平方和
SSA
误差分析
方差分析中的基本假定
每个总体都应服从正态分布
各个总体的方差必须相同
观测值是独立的
问题的一般提法
H0:μ1=μ2=···=μk
H1:μ1,μ2,···,μk不全相等
H1:μ1,μ2,···,μk不全相等
单因素方差分析
数据结构
分析步骤
提出假设
构造检验的统计量
计算各样本的均值
计算全部观测值的总均值
计算各误差平方和
SST
SSA
SSE
计算统计量
MSA=SSA/(k-1)
MSE=SSE/(n-k)
做出统计决策
方差分析表
关系强度的测量
R^2=SSA/SST
方差分析中的多重比较
最小显著差异法LSD
提出假设
计算检验统计量
计算LSD
根据显著性水平α做出决策
双因素方差分析
一元线性回归
变量间关系的度量
变量间的关系
函数关系
相关关系
变量之间存在不确定的数量关系
特点
一个变量的取值不能由
另一个变量唯一确定
另一个变量唯一确定
类型
线性相关
正相关
负相关
非线性相关
完全相关
正相关
负相关
不完全相关
相关关系的描述与测度
散点图
相关系数
根据样本数据计算的度量两个变量
之间的关系强度
之间的关系强度
计算公式
性质
-1<=r<=1
r具有对称性,rxy=ryx
r的数值大小与x和y的原点及尺度无关
r仅是x和y线性关系的一个度量,不能用于描述非线性关系
r虽是两变量线性关系的度量,但不能说明x和y的因果关系
经验解释
|r|>=0.8时,可视为两个变量之间高度相关
0.5<=|r|<0.8时,可视为中度相关
0.3<=|r|<0.5时,视为低度相关
|r|<0.3时,说明两个变量之间的相关程度极弱,可视为不相关
上述解释必须建立在对相关系数的显著性进行检验的基础之上
相关关系的显著性检验
r的抽样分布
r的显著性检验
提出假设
计算检验的统计量
t检验
进行决策
一元线性回归
一元线性回归模型
回归模型
因变量
自变量
定义
假定
回归方程
估计的回归方程
参数的最小二乘估计
回归直线的拟合优度
判定系数
R^2=SSR/SST
测度了回归直线对观测数据的拟合程度
估计标准误差
Se=MSE^(1/2)
显著性检验
线性关系的检验
回归系数的检验
回归分析结果的评价
利用回归方程进行预测
点估计
区间估计
y的平均值的置信区间估计
y的个别值的预测区间估计
残差分析
残差与残差图
标准残差化
多元线性回归
时间序列分析和预测
时间序列及其分解
时间序列
平稳序列
非平稳序列
趋势
在长期呈现出来的某种持续上升或持续下降的变动
季节性
一年内重复出现的周期性波动
周期性
围绕长期趋势的一种波浪形或振荡式变动
随机性
时间序列的描述性分析
图形描述
增长率分析
增长率
平均增长率
增长率分析中应注意的问题
时间序列预测的程序
平稳序列的预测
趋势型序列的预测
复合型序列的分解预测
指数
基本问题
指数概念
测定多项内容数量综合变动的相对数
指数分类
考察对象的范围
个体指数
总体指数
反映指标的性质
数量指标指数
质量指标指数
计算形式
简单指数
加权指数
指数编制中的问题
选择项目
确定权数
指数计算方法
总指数编制方法
简单指数
简单综合指数
简单平均指数
加权指数
加权综合指数
拉氏指数
帕氏指数
加权平均指数
指数体系
总量指数体系分析
指数体系
平均数变动因素分解
几种典型的指数
居民消费价格指数
股票价格指数
消费者满意度指数
综合评价指数
0 条评论
下一页