社会统计学思维导图模板_ProcessOn思维导图、流程图

列联分析（定类变量—定类变量）

概念

条件分布

在其中一个变量取得固定值的条件下，另一随机变量的概率分布称为条件分布。如果变量
x 共有 c 个取值变量 y 共有 r 个取值那么从理论上说就可以有 c+r 个条件分布。

列联表中变量的相互独立性

列联表研究定类变量之间的关系实际上是通过条件分布的比较进行的。如果两个变量之间没有关系，则称变量之间是相互独立的。如果两个变量之间是相互独立的，则必然存在变量的条件分布与其边缘分布相同。两变量相互独立时，条件分布= 边缘分布，是列联表检验的基础。

列联表的检验

列联表可以用来比较一个变量（因变量）的分布对于另一个变量（自变量）各个类别的变化。在列联表中，焦点集中在各组之间在因变量上的差异。

列联分析需要注意的问题

卡方分布是一个连续分布；在列联分析中，由于数据是分类非连
续的，因此计算的卡方统计量只能近似服从卡方分布。在单元格
较多、样本量较大时，分类数据的不连续分布与卡方分布之间的
差异并不明显，反之这种差距就不可忽视。

使用卡方统计量对列联表进行检验时，每一格数值的数学期望值
都要保持在一定的数目之上。如果存在期望值较小的情况，那么
在计算卡方统计量时，期望频数的波动就会比较大。在一般情
况下，小于5的格数不应超过总格数的20%。

统计计算

首先求出列联表各单元格中的期望频数

当各格子中期望频数都不太小时

~

对于2×2列联表，特别是含有某格频数的数学期望小于5的2×2列联表，需要进行连续性校正

列联强度的计算

对于2x2列联表：

Q系数

当自变量的不同取值都会影响因变量时，采用系数，若不关心对照组的数据，采用Q系数

r*c列联表

以卡方值为基础的相关性测量

缺点：没上限

C系数

范围：[0,1),缺点：在全相关时也无法达到1

V系数

以PRE(减小误差比例法）为基础的相关性测量

系数

,
为因变量边缘分布的最大值。

的非对称性

系数

的非对称性

等级相关（定序变量—定序变量）

概念

同序对

如果一个个案在变量 X和 Y 上的取值都大于或都小于另一个个案，那么这两个个案组成的对子就是一个同序对，其个数记作

异序对

如果某对个案在变量 X 和 Y 上取值的等级是相反的,就称为异序对,其个数记作

同分对

同分对是指在变量 X 和 Y 的取值中至少有一个是相同的对子,我们将 X相同而 Y 不同的对子个数记做将 Y 相同而 X 不同的对子个数记做 ,将在 X 和 Y 上都相同的对子个数记做。

统计计算

spearman等级相关系数

表示表示每个样本单位在两个变量上排序后的等级之差。

适用于具有对称关系的两个变量

的平方具有 PRE 意义，表示以一个变量的等级来预测另一个变量的等级时可以减少的误差比例；

的检验

当时，t=~t(n-2)

当时，~N(0,1)

Gamma等级相关系数

G的检验

~N(0,1)

其他等级相关系数(略）

肯德尔等级相关系数

萨默斯等级相关系数

回归与相关（定距变量—定距变量）

回归分析

一元线性回归

概念

一元线性回归分析的前提假定

线性关系假定：自变量和因变量之间线性相关

自变量与残差项之间相互独立

残差零期望假定：在给定x的条件下，残差的条件方差为某个常数

残差等方差假定：在给定x的条件下，的条件方差为某个常数

残差无自相关假定：残差的逐次值互不相关

残差正态性假定

统计计算

回归方程的计算

回归方程的检验

总偏差平方和TSS=

剩余偏差平方和RSS

回归平方和RSSR

RSS=TSS-RSSR

统计量F~F(1,n-2)

检验的目标：对方程总体的检验，确认总体线性相关的存在