社会统计学
2024-10-16 20:06:06 1 举报
AI智能生成
哈哈
作者其他创作
大纲/内容
列联分析(定类变量—定类变量)
概念
条件分布
在其中一个变量取得固定值的条件下,另一随机变量的概率分布称为 条件分布 。如果变量
x 共有 c 个取值 变量 y 共有 r 个取值 那么从理论上说 就可以有 c+r 个条件分布 。
x 共有 c 个取值 变量 y 共有 r 个取值 那么从理论上说 就可以有 c+r 个条件分布 。
列联表中变量的相互独立性
列联表研究定类变量之间的关系实际上是通过条件分布的比较进行的 。 如果两个变量之间没有关系 ,则称变量之间是相互独立的 。如果两个变量之间是相互独立的,则必然存在变量的条件分布与其边缘分布相同 。两变量相互独立时,条件分布= 边缘分布,是列联表检验的基础。
列联表的检验
列联表可以用来比较一个变量(因变量) 的分布对于另一个变量(自变量) 各个类别的变化 。 在列联表中,焦点集中在各组之间在因变量上的差异 。
列联分析需要注意的问题
卡方分布是一个连续分布;在列联分析中,由于数据是分类非连
续的,因此计算的卡方统计量只能近似服从卡方分布。在单元格
较多、样本量较大时,分类数据的不连续分布与卡方分布之间的
差异并不明显,反之这种差距就不可忽视。
续的,因此计算的卡方统计量只能近似服从卡方分布。在单元格
较多、样本量较大时,分类数据的不连续分布与卡方分布之间的
差异并不明显,反之这种差距就不可忽视。
使用卡方统计量对列联表进行检验时,每一格数值的数学期望值
都要保持在一定的数目之上。如果存在期望值较小的情况,那么
在计算卡方统计量时, 期望频数的波动就会比较大。在一般情
况下, 小于5的格数不应超过总格数的20%。
都要保持在一定的数目之上。如果存在期望值较小的情况,那么
在计算卡方统计量时, 期望频数的波动就会比较大。在一般情
况下, 小于5的格数不应超过总格数的20%。
统计计算
首先求出列联表各单元格中的期望频数
当各格子中期望频数都不太小时
~
对于2×2列联表,特别是含有某格频数的数学期望小于5的2×2列联表,需要进行连续性校正
列联强度的计算
对于2x2列联表:
Q系数
当自变量的不同取值都会影响因变量时,采用系数,若不关心对照组的数据,采用Q系数
r*c列联表
以卡方值为基础的相关性测量
缺点:没上限
C系数
范围:[0,1),缺点:在全相关时也无法达到1
V系数
以PRE(减小误差比例法)为基础的相关性测量
系数
,
为因变量边缘分布的最大值。
为因变量边缘分布的最大值。
的非对称性
系数
的非对称性
等级相关(定序变量—定序变量)
概念
同序对
如果一个个案在变量 X和 Y 上的取值都大于或都小于另一个个案,那么这两个个案组成的对子就是一个 同序对,其个数记作
异序对
如果某对个案在变量 X 和 Y 上取值的等级是相反的,就称为 异序对,其个数记作
同分对
同分对是指在变量 X 和 Y 的取值中至少有一个是相同的对子,我们将 X相同而 Y 不同的对子个数记做 将 Y 相同而 X 不同的对子个数记做 ,将在 X 和 Y 上都相同的对子个数记做 。
统计计算
spearman等级相关系数
表示表示每个样本单位在两个变量上排序后的等级之差 。
适用于具有对称关系 的两个变量
的平方具有 PRE 意义,表示以一个变量的等级来预测另一个变量的等级时可以减少的误差比例;
的检验
当时,t=~t(n-2)
当时,~N(0,1)
Gamma等级相关系数
G的检验
~N(0,1)
其他等级相关系数(略)
肯德尔等级相关系数
萨默斯等级相关系数
回归与相关(定距变量—定距变量)
回归分析
一元线性回归
概念
一元线性回归分析的前提假定
线性关系假定:自变量和因变量之间线性相关
自变量与残差项之间相互独立
残差零期望假定:在给定x的条件下,残差的条件方差为某个常数
残差等方差假定:在给定x的条件下, 的条件方差为某个常数
残差无自相关假定:残差的逐次值互不相关
残差正态性假定
统计计算
回归方程的计算
回归方程的检验
总偏差平方和TSS=
剩余偏差平方和RSS
回归平方和RSSR
RSS=TSS-RSSR
统计量F~F(1,n-2)
检验的目标:对方程总体的检验,确认总体线性相关的存在
相关分析
相关系数r
相关系数r的检验
F=~F(1,n-2)
与回归方程的检验等价
方差分析(定类变量—定距变量)
概念
方差分析的本质:检验多个总体的均值是否有所差异
方差分析的前提假定
观察变量各总体的方差应相同
观察变量各总体应服从正态分布
样本的随机性
统计计算
一元方差分析
总平方和TSS
组内平方和RSS
组间平方和BSS
TSS=RSS+BSS
统计检验
~F(m-1, n-m) (m为分组数)
相关比率
二元方差分析(全书最难,可略)
理想模型(不考虑)
理想的独立模型(自变量间不存在交互作用)
理想交互作用模型
无重复情况下的方差分析(无交互)
总离差平方和TSS
变量A的离差平方和
变量A的平均离差平方和
A的检验~F[(a-1),(a-1)(b-1)]
变量B的离差平方和
变量B的平均离差平方和
B的检验A的检验~F[(b-1),(a-1)(b-1)]
剩余平方和RSS
平均剩余离差平方和
重复情况下的方差分析
总离差平方和TSS
列间平方和
行间平方和
交互作用
BSS=
剩余误差RSS
统计量检验
先检验交互项~F[(a-1)(b-1),ab(r-1)]
若交互项不显著,将I与RSS合并成总误差TRSS
~F[(a-1),(abr-a-b+1)]
~F[(b-1),(abr-a-b+1)]
若交互项显著,根据A、B变量的性质可产生三种模型(略,见书p413、p415)
固定效应
随机效应
混合模型
非参数检验(定类变量—定序变量)
概念
非参数检验是在总体分布未知或知道甚少的情况下,利用样本数据对总体分布形态等,如是否满足正态分
布 、总体变量间是否独立,进行推断的方法 。
布 、总体变量间是否独立,进行推断的方法 。
特点
非参数检验不需要严格的假设条件,因而比参数检验有更广泛的适用面 。
非参数检验几乎可以处理包括定类数据和定序数据在内的所有类型的数据,而参数检验通常只能用于定距数据的分析 。
在参数检验和非参数检验都可以使用的情况下,非参数检验的功效要低于参数检验。
统计计算(暂略)
概率分布
二点分布:1次伯努利实验的概率分布(二项分布的特殊情况)
排列
重复排列
非重复排列
全排列
组合
二项分布:n次伯努利实验的概率分布,简写为B(n,P)
n:实验次数,P:A在每次实验中出现的概率
二项分布的期望:E(X)=n*P
二项分布的方差:D(X)=n*p*(1-p)
超几何分布:适用于小群体研究,且当n很大时,超几何分布近似于二项分布。(例:有7男3女,求随机选3人中男性数量的分布)
泊松分布:P极小n极大时二项分布的近似
集中趋势
集中趋势是指一组数据 向其中心值靠拢 的倾向和程度 。从统计意义上来说,根据这个代表值来估计或预测每个研究对象在该变量上的取值所发生的错误总和最小 。
中位数
众数
均值
离散趋势
父主题
异众比率
极差
四分位差
方差与标准差
变异系数
标准差与均值之比
标准分
正态分布
正态分布密度函数,记为X~N(,
标准正态分布
标准分
90%的概率在
95%的概率在
99%的概率在
参数估计
大数定律与中心极限定理
伯努利大数定律和切比雪夫大数定律说明了在大量观察的情况下随机变量特征值的稳定性,即频率稳定于概率 均值稳定于数学期望 。中心极限定理则是要说明在大量观察的情况下随机变量的特征值在分布上所表现的稳定性 。 具体到抽样调查来说 ,只要样本量足够大不管总体分布如何,样本均值的分布都将是已知的 ,即服从正态分布 。
点估计:是从总体中抽取一个样本 根据该样本的统
计量对总体的未知参数作出一个数值点的估计 。
计量对总体的未知参数作出一个数值点的估计 。
点估计的性质
无偏性
要求统计量抽样分布的均值恰好等于被估计的参数值。
有效性
要求估计值的抽样分布有较小的分散性。
一致性
要求统计量随着样本容量 n 的增大以更大的概率接近被估计参数 。
均值与方差的点估计
总体均值点估计
样本均值
总体方差点估计
样本方差
区间估计
概念
置信水平 :总体参数落在某区间内的概率 。
置信区间 :为了增加参数被估计到的信心而在点估计两边设置的估计区间 。
置信区间与置信水平的关系:置信水平愈高,则相应的置信区间也愈宽,估计的精确度则相对越低 。
显著性水平 :总体参数未落在置信区间内的概率 它是用置信区间来估计的不可靠程度 用 α 表示 。
抽样平均误差(标准误)
样本均值抽样分布的标准差,它反映在参数周围抽样平均值的平均变异程度。它的值等于总体标准差除以样本大小的平方。
标准差与标准误的区别
影响抽样误差的因素
抽样单位的数目:数目越大,样本越接近总体,误差越小
总体被研究标志的变异程度:抽样误差和总体标志的变异程度成正比变化。
抽样方法的选择 :不重复抽样比重复抽样的抽样误差小。
抽样组织方式不同:不同的抽样组织所抽中的样本,对于总体的代表性也不同。
区间估计的公式
单正态总体均值的区间估计
~N(0,1)
显著性水平为a时,置信区间:
~t(n-1),S为样本方差
显著性水平为a时,置信区间:
两正态总体均值差的区间估计
总体1、2方差均已知
显著性水平为a时,均值之差
总体1、2方差未知但相等
显著性水平为a时,均值之差
其中
总体成数的估计
总体成数p的点估计
大样本总体成数p的区间估计
大样本情况下,
显著性水平为a时,p的置信区间为
假设检验
概念
研究假设
经验层面可以通过抽样等途径予以验证的假设,是对所要研究问题的暂时性回答 。 它是对变量特征及变量间关系的一种明确陈述 。
零假设
零假设也被称为虚无假设或原假设, 它是与研究假设对立的假设 。
假设检验
就是首先建立一个关于总体情况的假设 ,然后根据随机样本来决定是否接受该假设的推断过程 。
假设检验采用 逻辑上的反证法 首先通过抽样获得一组数据,即样本 。如果根据样本计算的统计量表明 在零假设 H 0 成立的条件下几乎是不可能发生的 ,就拒绝零假设并继而接受研究假设 H 1 ;如果在零假设 H 0 成立的条件下 根据样本计算的统计量发生的可能性不是很小,则接受零假设 继而拒绝研究假设 H 1 。
拒绝域
拒绝域是抽样分布内一端或两端的小区域,如果样本的统计值落在此区域的范围内 则拒绝零假设 。
按照拒绝域的位置可以区分两种类型的假设检验: 单侧检验, 包括左侧检验和右侧检验 和 双侧检验 。
接受域
接受域是抽样分布内除拒绝域以外的其他区域 。
显著性水平α
显著性水平α 一般是指在零假设成立条件下,统计检验所规定的 小概
率的标准 。 它也是否定域在整个抽样分布中所占的比例,即样本统计
值落在否定域内的可能性 。 α 的值越小,越难拒绝零假设。也就越难接
受研究假设 。
率的标准 。 它也是否定域在整个抽样分布中所占的比例,即样本统计
值落在否定域内的可能性 。 α 的值越小,越难拒绝零假设。也就越难接
受研究假设 。
两类错误
弃真错误(I类错误)
指零假设为真时拒绝零假设的可能性 。 犯弃真错误的最大概率就是显著性水平 α 。
纳伪错误(II类错误)
指零假设为假时接受零假设的可能性 。 一般而言,犯纳伪错误的概率 β 无法具体估计 。
两类错误的关系
两类错误都不可能完全避免。
当显著性水平α 减小时,由于拒绝域的减小,弃真的错误会减小 但由此而来的是接受域增大,因而纳伪的概率要增大,反之亦然 。 因此在样本容量 n 固定的情况下 如果要同时减小两类错误 也是不可能的 。一般,采用增加样本容量的办法来减少纳伪错误的概率,但这在某些情况下可能会增加弃真错误的概率 。
当显著性水平α 减小时,由于拒绝域的减小,弃真的错误会减小 但由此而来的是接受域增大,因而纳伪的概率要增大,反之亦然 。 因此在样本容量 n 固定的情况下 如果要同时减小两类错误 也是不可能的 。一般,采用增加样本容量的办法来减少纳伪错误的概率,但这在某些情况下可能会增加弃真错误的概率 。
统计计算
单个总体均值的假设检验(定距变量;总体正态分布;随机样本)
总体方差已知,可使用z检定法
~N(0,1)
总体方差未知,采用t检验法
~t(n-1)
两个正态总体均值差的假设检验(两样本是独立随机样本;总体符合正态分布)
总体1、2方差已知
~N(0,1)
两总体方差未知但相等
~t
配对样本的假设检验
,
~t(n-1)
成数的假设检验
样本较大时,成数的抽样分布近似正态分布 。
大样本总体成数的假设检验
~N(0,1)
大样本总体成数之差的检验
~N(0,1)
0 条评论
下一页
为你推荐
查看更多