社会科学研究的理论和术语
2023-06-29 18:01:03 0 举报
AI智能生成
社会科学研究的理论和术语
作者其他创作
大纲/内容
第1章社会科学研究的理论和术语
总体和样本
统计量和参数
统计量和参数
总体:规定具有特征的全部对象的集合
样本:从总体中选择的对象的集合
参数:从总体参中计算得到的一个或多个值
统计量:从样本中计算得到的一项特征或一个值
描述统和计推断统计
描述统计:描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。
推断统计:样本能够代表更大的总体,从而利用样本数据得出关于总体特征的一些结论
总体参数估计
点估计
区间估计
假设检验
t检验
卡方检验
f检验等
抽样问题
随机抽样:总体中的每一个对象被选入样本的概率相等
典型抽样:选取在特征上与更大总体相匹配的对象
方便抽样:使用方便抽样时,根据地理距离、接触难度、参与意愿等来选择样本对象
变量类型和测量尺度
变量类型
常量:具有唯一的取值
变量:具有不止一个的取值
定量变量:用数字或评分来赋值,表示某种数量,比如身高
定性变量:赋值并不意味着特定性质的多寡
二值变量:具有两个不同分类的变量,比如性别
变量测量尺度
定类:利用无权中或无数值的符号以识别变量的不同水平。
如收入是否存在男女差异,其中男女使用0,1表示,只用来分类,没有大小之分。
如收入是否存在男女差异,其中男女使用0,1表示,只用来分类,没有大小之分。
定序:取值含有权重,但没有提供关于取值间距离的信息。
如美国十大富豪,最富有1,第二富有2,以此类推,首富比次富更富有,但不知道具体富有了多少。
如美国十大富豪,最富有1,第二富有2,以此类推,首富比次富更富有,但不知道具体富有了多少。
定距:相互之间不同等级的间隔距离和数量差别。
典型定距变量有智商、温度等。如例如甲的智商为100,乙的智商为90,那么可以知道甲乙的智商不同(定类尺度)、甲的智商比乙高(定序尺度)、甲的智商比乙高10(定距尺度)。
典型定距变量有智商、温度等。如例如甲的智商为100,乙的智商为90,那么可以知道甲乙的智商不同(定类尺度)、甲的智商比乙高(定序尺度)、甲的智商比乙高10(定距尺度)。
定比:能够测量事物间比例、倍数关系。定比尺度是测量中的最高层次,含有前三个测量尺度的特征,具有实在意义的真正零点。
定比尺度下的数字可以进行加减乘除运算,运算结果具有实在的意义。对收入、年龄、出生率、性别比、离婚率、城市的人口密度等进行的测量都依据定比尺度。
定比尺度下的数字可以进行加减乘除运算,运算结果具有实在的意义。对收入、年龄、出生率、性别比、离婚率、城市的人口密度等进行的测量都依据定比尺度。
研究设计
实验设计:实验者或研究者控制研究状况的一种研究方式,通常包括自变量和研究对象分组。
相关性研究设计:用于考察变量间联系的一种研究方式。在此类研究设计中,研究者对变量不能施加控制。
分布和图表的重要性
分布:变量数据或取值的一个集合
正态分布
t分布
f分布
卡方分布
第2章中心趋势的测度
描述统计:描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。
集中趋势分析:众数、中位数、平均数等
离中趋势分析:极差、方差、标准差等
相关分析
均值:是分布中所有取值的算术平均数
总体参数均值μ
样本的统计量均值x̅
中位数:是分布中排在第百分之五十处的均值
众数:是分布中最高频数的取值
第3章变异程度的测度
离散程度三个指标
极差:是分布中的最大值-最小值
方差/平均离差平方/平均离差平方的均值:一个分布中取离散程度的统计平均数
标准差:一个分布中单个取值与均值之间的典型或平均离差
四分位差(IQR):是第75百分位数与第25百分位数之差
离差平方/离差值:
离差平方和/平方和(SS)
第4章正态分布
正态分布/钟形曲线
性质
对称的:左半部分右半部分互为镜像,均值、中位数、众数处于同一位置且在分布的中心
单峰的:正态分布曲线中间最高,首尾两端向下倾斜
渐近的:左右尾永远不会触及底线,即x轴
偏度和峰度
偏度:取值分布在尾部非对称延伸方面偏离正态的程度
正偏:分布尾部趋向高端,因此成为正偏
负偏:分布尾部趋向低端,因此成为负偏
峰度:取值分布在平台或陡峭方面的形态
尖峰分布:分布的顶点高于正态分布的顶点
扁峰分布:分布比正态分布更加平坦
第5章标准化与z分数
标准化:将分布中的各个取值转换为z分数的过程
z分数:以标准差为单位度量的分布中一个给定取值与均值之间的距离数
z分数的特性常被用于确定正太分布数据集合的百分位数取值(90百分位即10%的取值在其之上,90%的取值在其之下的那个原始取值)
第6章标准误
标准误:某一统计量抽样分布的标准差
均值的期望值:均值抽样分布的均值称为均值的期望值
中心极限定理:在一定条件下,大量独立随机变量的平均数是以正态分布为极限的
样本容量足够大,即使样本量取值的分布不是正态分布,均值的抽样分布也服从正态分布
样本容量足够大,即使样本量取值的分布不是正态分布,均值的抽样分布也服从正态分布
自由度(degree of freedom, df):就是计算统计值所需的最少数据个数。用近似观测次数的一个或几个数字,与确定统计显著性时所用数据集的观测次数
像t值/z分数这样的统计量,取值越大就越可能意味着样本中观测到的现象同样代表着总体中有意义的现象
第7章统计显著性、效应量和置信区间
0 条评论
下一页