《统计学》第七版
2022-06-30 23:23:05 0 举报
AI智能生成
贾俊平《统计学》第七版知识点整理
作者其他创作
大纲/内容
收集、处理、分析、解释数据并从数据中得出结论的科学
统计学
研究数据收集、处理、汇总、图表描述、概括与分析等统计方法
描述统计
参数估计
假设检验
推断统计
研究如何利用样本数据来推断总体特征的统计方法
统计及其利用领域
只能归于某一类别的非数字型数据
对事物进行分类的结果,数据表现为类别,用文字描述
例如,人口按性别分为男、女两类
分类数据
只能归于某一有序类别的非数字型数据
对事物类别顺序的测度,数据表现为类别,用文字来描述
例如,产品分为一等品、二等品、三等品、次品
顺序数据
按数字尺度测量的观察值
结果表现为具体的数值,对事物的精确测度
例如:身高175cm、168cm、183cm
数值型数据
外框
按计量尺度
通过调查或观测而收集到的数据
在没有对事物人为控制条件下而得到的
有关社会经济现象的统计数据几乎都是观测数据
观测数据
在实验中控制实验对象而收集到的数据
比如,对一种新药疗效的实验,对一种新的农作物品种的实验
自然科学领域的数据大多数都为实验数据
实验数据
按搜集方法
在相近或近似相同的时间点上收集的数据
描述现象在某一时刻的变化情况
比如,2005年我国各地区的国内生产总值数据
截面数据
在不同时间上收集到的数据
描述现象随时间变化的情况
比如,2000年至2005年国内生产总值数据
时间序列数据
按时间状况
统计数据的类型
所研究的全部个体(数据)的集合,其中的每一个个体也称为元素
有限总体的范围能够明确确定,且元素的数目是有限的
无限总体所包括的元素是无限的,不可数的
分为有限总体和无限总体
总体
从总体中抽取的一部分元素的集合
构成样本的元素的数目称为样本容量或样本量
样本
描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值
所关心的参数主要有总体均值、标准差、总体比例等
总体参数通常用希腊字母表示:μ,σ,Π
参数
用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数
所关心的样本统计量有样本均值、标准差、样本比例等
样本统计量通常用小写英文字母来表示
统计量
说明事物类别的名称
分类变量
说明事物有序类别的名称
顺序变量
取有限个值
离散变量
可以取无穷多个值
连续变量
说明事物数字特征的名称
数值型变量
随机变量
非随机变量
其他1
经验变量
由统计学家用数学方法所构造出来的一些变量,如z统计量
理论变量
其他2
变量
统计中的几个基本概念
导论
通过调查方法获得的数据
通常是对社会现象而言
通常取自有限总体
调查数据
通过实验方法得到的数据
通常是对自然现象而言
被广泛运用到社会科学中
数据的直接来源
举例
搜集容易,采集成本低
作用广泛
搜集二手资料是研究者优先考虑并采用的
特点
数据是谁搜集的
为什么目的而搜集
数据是怎样搜集的
什么时候搜集的
评估
二手数据
数据的间接来源
数据的来源
简单随机抽样
分层抽样
整群抽样
系统抽样
多阶段抽样
概率抽样
按一定概率以随机原则抽取样本
每个单位被抽中的概率是已知的,或是可以计算出来的
当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率
方便抽样
判断抽样
自愿样本
滚雪球抽样
配额抽样
非概率抽样
概率抽样与非概率抽样
自填式
面访式
电话式
调查的数据
搜集数据的基本方法
调查方法
实验组和对照组
实验中的若干问题
实验中的统计
实验法案例
实验方法
存在于概率抽样中
由于抽样的随机性所带来的误差
所有样本可能的结果与总体真值之间的平均性差异
样本量的大小
总体的变异性
影响抽样误差的大小的因素
抽样误差
抽样框误差
回答误差
无回答误差
调查员误差
非抽样误差
抽样误差可以计算和控制
非抽样误差的控制
误差的控制
数据的误差
数据的搜集
完整性审核
准确性审核
原始数据
适用性审核
时效性审核
确认是否有必要做进一步的加工整理
数据审核
数据筛选
数据排序
数据透视表
数据的预处理
列出各类别
计算各类别的频数
制作频数分布表
条形图
帕累托图
饼图
环形图
用图形显示数据
频数与频数分布
比例
百分比
比率
分类数据的整理与图示
累积频率
累积频数
累积频数分布图或频率图
顺序数据的整理与图示
品质数据的整理与显示
单变量值分组
5<=k<=15
确定组数
确定各组组距
根据分组编制频数分布表
上限
下限
组距
组中值
概念
组距分组
数据分组
直方图与条形图的区别
直方图
折线图
分组数据
茎叶图
箱线图
未分组数据
线图
散点图
气泡图
雷达图
多变量数据
数值型数据的图示
数值型数据的整理与显示
鉴别图形优劣的准则
统计表的结构
合理安排统计表的结构
时间、地点、内容
总标题内容应满足3w要求
数据计量单位相同时,可放在表的右上角标明,不同时应放在每个变量后或单列出一列标明
表中的上下两条横线一般用粗线,其他线用细线
通常情况下,统计表的左右两边不封口
表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一
对于没有数字的表格单元,一般用“—”表示
必要时可在表的下方加上注释
统计表的设计
合理使用图表
数据的图表展示
不受数据中极端值的影响
分类数据:众数
收入分配
中位数
四分位数
顺序数据:中位数和分位数
简单平均数
加权平均数
平均比率
几何平均数
数值型数据:平均数
众数、中位数和平均数的关系
众数、中位数和平均数的特点与应用场合
众数、中位数和平均数的比较
集中趋势的度量
非众数组的频数占总频数的比例
分类数据:异众比率
上四分位数与下四分位数之差
顺序数据:四分位差
全距
极差
未分组数据
平均差
方差和标准差
变量值与其平均数的离差除以标准差后的值
标准分数
经验法则
切比雪夫不等式
相对位置的度量
数值型数据:方差和标准差
一组数据的标准差与其相应的平均数之比
相对离散程度:离散系数
离散程度的度量
偏态及其测度
峰态及其测度
偏态和峰态的度量
数据的概括性度量
概率与概率分布
定义
统计量是样本的一个函数
统计量的概念
常用统计量
抽样分布
卡方分布
t分布
F分布
由正态分布导出的几个重要分布
样本均值的分布与中心极限定理
统计量及抽样分布
用于估计总体参数的随机变量
估计量
估计参数时计算出来的统计量的具体值
估计值
估计量与估计值
用样本的估计量的某个取值直接作为总体参数的估计值
无法给出估计值接近总体参数程度的信息
点估计
在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减估计误差而得到
根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量
样本统计量所构造的总体参数的估计区间
置信区间
如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例
置信水平
区间估计
点估计与区间估计
估计量抽样分布的数学期望等于被估计的总体参数
无偏性
对同一总体参数的两个无偏估计量,有更小标准差的估计量更有效
有效性
随着样本量的增大,估计量的值越来越接近被估计总体的参数
一致性
评价估计量的标准
参数估计的基本原理
总体均值的区间估计
总体比例的区间估计
总体方差的区间估计
一个总体参数的区间估计
两个总体参数的区间估计
样本量的确定
推断统计的组成部分
都是利用样本对总体进行某种推断
相同点
推断的角度不同
参数估计讨论的是用样本统计量估计总体参数的方法,总体参数μ在估计前是未知的
假设检验中是先对μ的值提出一个假设,然后利用样本信息去检验这个假设是否成立
不同点
与参数估计对比
假设问题的提出
原假设
备择假设
假设的表达式
弃真错误
取伪错误
两类错误
提出原假设和备择假设
确定适当的检验统计量,并计算其数值
进行统计决策
假设检验的流程
利用P值进行决策
关注下限临界点
左单侧检验
关注上限临界点
右单侧检验
单侧检验
假设检验的基本问题
z统计量
大
已知
t统计量
未知
总体标准差σ
小
样本量
检验统计量的确定
总体均值的检验
总体比例的检验
总体方差的检验
一个总体参数的检验
两个总体参数的检验
分类数据分析
通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量的影响
方差分析
所要检验的对象
因素或因子
因素的不同表现
水平或处理
在每个因子水平下得到的样本数据
观测值
方差分析及有关术语
图形描述
组内平方和误差平方和残差平方和SSE
组内误差
组间平方和因素平方和SSA
组间误差
误差分解
误差分析
方差分析的基本思想和原理
每个总体都应服从正态分布
各个总体的方差必须相同
观测值是独立的
方差分析中的基本假定
问题的一般提法
方差分析引论
数据结构
提出假设
计算各样本的均值
计算全部观测值的总均值
SST
SSA
SSE
计算各误差平方和
MSA=SSA/(k-1)
MSE=SSE/(n-k)
计算统计量
构造检验的统计量
做出统计决策
方差分析表
分析步骤
R^2=SSA/SST
关系强度的测量
计算检验统计量
计算LSD
根据显著性水平α做出决策
最小显著差异法LSD
方差分析中的多重比较
单因素方差分析
双因素方差分析
函数关系
变量之间存在不确定的数量关系
一个变量的取值不能由另一个变量唯一确定
正相关
负相关
线性相关
非线性相关
完全相关
不完全相关
类型
相关关系
变量间的关系
根据样本数据计算的度量两个变量之间的关系强度
计算公式
-1<=r<=1
r具有对称性,rxy=ryx
r的数值大小与x和y的原点及尺度无关
r仅是x和y线性关系的一个度量,不能用于描述非线性关系
r虽是两变量线性关系的度量,但不能说明x和y的因果关系
性质
|r|>=0.8时,可视为两个变量之间高度相关
0.5<=|r|<0.8时,可视为中度相关
0.3<=|r|<0.5时,视为低度相关
|r|<0.3时,说明两个变量之间的相关程度极弱,可视为不相关
上述解释必须建立在对相关系数的显著性进行检验的基础之上
经验解释
相关系数
相关关系的描述与测度
r的抽样分布
t检验
计算检验的统计量
进行决策
r的显著性检验
相关关系的显著性检验
变量间关系的度量
因变量
自变量
假定
回归模型
回归方程
估计的回归方程
一元线性回归模型
参数的最小二乘估计
R^2=SSR/SST
测度了回归直线对观测数据的拟合程度
判定系数
Se=MSE^(1/2)
估计标准误差
回归直线的拟合优度
线性关系的检验
回归系数的检验
显著性检验
回归分析结果的评价
一元线性回归
y的平均值的置信区间估计
y的个别值的预测区间估计
利用回归方程进行预测
残差与残差图
标准残差化
残差分析
多元线性回归
平稳序列
非平稳序列
时间序列
在长期呈现出来的某种持续上升或持续下降的变动
趋势
一年内重复出现的周期性波动
季节性
围绕长期趋势的一种波浪形或振荡式变动
周期性
随机性
时间序列及其分解
增长率
平均增长率
增长率分析中应注意的问题
增长率分析
时间序列的描述性分析
时间序列预测的程序
平稳序列的预测
趋势型序列的预测
复合型序列的分解预测
时间序列分析和预测
测定多项内容数量综合变动的相对数
指数概念
个体指数
总体指数
考察对象的范围
数量指标指数
质量指标指数
反映指标的性质
简单指数
加权指数
计算形式
指数分类
选择项目
确定权数
指数计算方法
指数编制中的问题
基本问题
简单综合指数
简单平均指数
拉氏指数
帕氏指数
加权综合指数
加权平均指数
总指数编制方法
指数体系
总量指数体系分析
平均数变动因素分解
居民消费价格指数
股票价格指数
消费者满意度指数
几种典型的指数
综合评价指数
指数
0 条评论
回复 删除
下一页