心理统计(全)
2023-03-17 11:16:42 3 举报
AI智能生成
根据同等学力申硕大纲整理
作者其他创作
大纲/内容
第一章 常见数据的特点与初步整理
一、常见数据的特点
(一)数据特点与分类
1.数据特点(4)
(1)随机性与变异性
【随机性】即在相同的实验条件下,或同一个人对同一个刺激的反应事先无法确定,有偶然性,是随机波动的。
由于受到各种随机因素影响,数据会在一定范围内变化,表现出【变异性】。
由于受到各种随机因素影响,数据会在一定范围内变化,表现出【变异性】。
(2)离散性
每一个观测数据都是离散的,是以一个个分散的数字形式存在的
(3)规律性
数据波动的趋势是可以预测的(虽有随机性和变异性,但随着观测次数的增多,数据的波动会显现出一定的规律性)
2.数据的分类(2+2+4)
(1)按照观测方法&来源划分
计数数据
指计算个数的数据;数据是不连续的,一般取非负整数的形式。
eg.:学校数、班级数、学生数、教师数、桌椅数、男女生人数等。
测量数据
指借助于一定测量工具或依据一定测量标准所获得的数据。(可出现分数、小数点)
eg.:品德评定等级、各科考试分数、身高、体重、时间、心理测验所得的分数
(2)按照数据分布形态
离散数据
取值是不连续的,在任何两个数据之间所能取的数值个数是有限的。
计数数据是离散数据
eg.骰子的点数、家中孩子个数
由数轴上的一个点来表示。
连续数据
可以取某一区间内的所有的值。(即:在任意两个数据点之间还可以取无限个大小不同的数值。区间前闭后开)
eg. 年龄、长度、自信分数
由数轴上的一个区间来表示。如连续数据“1”表示0.5~1.499……或[0.5,1.5);“2”表示1.5~2.499……或[1.5,2.5)。
表述值:多为区间的中间值(体重)、下限(报年龄)
(3) 按照测量水平量表水平
称名数据/类别数据
只能标示一事物与其他事物在属性上的不同或类别上的差异。(不能表明差异的大小和方向)
eg. 性别、种族、房间号、电话号码
用数字表示类别(1男2女)
特点
具有区分性(即:能将不同属性的事物区分开来)
不能进行排序,更不能进行加减乘除。
顺序数据/等级数据
按照事物某种属性的大小或多少,按照次序将各个事物加以排列后获得的数据资料(表明了差异的方向)
eg. :成绩等级、比赛排名、衬衫大小号、重要性排序
特点
具有区分性、序列性
顺序数据既无相等的单位,也无绝对的零点。
可以排序,但不能进行加减乘除。
等距数据/间隔数据
具有相等的单位,但没有绝对的零点(表明差异的大小和方向)
eg. 温度、能力测验分数
特点
具有区分性、序列性和可加性。
对等距数据可以进行加减,但不能进行乘除。(比例大小无意义)
等比数据/比例数据
既具有相等的单位,也具有绝对的零点。
eg. 身高、体重、反应时间。
对于等比数据可以进行加减乘除。
获取的数据类型
心理物理法:可以采用一些特殊方法获取等距数据甚至获取等比数据
心理测量:获得的大多数据却都是等级数据/顺序数据【eg. 智力、能力倾向、人格测验的分数】
(二)数据的表示
1.连续数据所表示的意义
离散数据由数轴上的一个点来表示。
连续数据由数轴上的一个区间来表示
连续数据由数轴上的一个区间来表示
2.等级数据的表示方法
等级数据依实际所观测事物的性质,有时数值大者排序在前,有时数值小者排序在前。
遇有相同等级,要取相同等级所占等级的均数。
例如,1.0,4.5,4.5,6.0,6.5,8.0几个数值,本应占有的等级为1,2,3,4,5,6,
统计上将这些数据排定的等级写作:1,2.5,2.5,4,5,6
统计上将这些数据排定的等级写作:1,2.5,2.5,4,5,6
二、数据的初步整理
(一)计数数据的整理
1.分类、整理及统计表格绘制
(1)分类标志要明确,内涵、外延界定清楚。分类可有不同的层次。
(2)按分类层次将数据整理成列联表的形式。
(3)分组表可有一维(一种变量,多个类别);二维(两种变量,多个类别);三维(三种变量,多个类别)等,依此类推。
eg. 将数据按不同年级和男女性别两类性质进行分类,分别统计各类的数据个数:→二维数据
2.求相对次数或比例
【相对次数】又称频率,即部分占总数的比例,它等于各部分的次数除以总次数
3.绘制统计图
(1)条形图
用条形长短表示事物数量多少。
①绘图要求:适于离散性的数据,尺度须从零开始,宽度要一致,各条形之间间距也要一致,以求美观。
②优缺点:比较直观、具体。不过如果绘图不当,也易掩盖真相。
(2)圆形图
用圆形内各扇形大小表示总体内各部分的比例关系。
①绘图要求:先求出各部分的比例,各部分比例以圆心角的度数表示,一般以上方铅垂方向的半径为基线。
②图形的优缺点:能直观地显示部分与总体的关系。不宜表示不同总体的资料。
(二)测量数据的整理
测量数据分类:将连续数整理成次数分布表,主要是依数值大小将数据排序,并列成次数分布表,标出相应的次数。
1.制作次数分布表(6)
(1)求全距
找出最大数与最小数,求其差数,称为【全距】。
(2)确定组数 K
组数(K)一般为10~20组,常取12~16组
可用公式:K=1.87×(N一1)/2/5,取近似整数
(3)求组距 i
组距(i)是任意一组的起点和终点之间的距离。
组距i=全距/K,取近似整数值。
组距确定后,规定每组的精确上、下限,以及分组区间。
下限一般为组距i的整数倍,这样划分起来方便。
例如i=3,下限一般为60(而实际分数可能是61或62)。
(4)确定分组的精确上、下限
分组区间的起点值与终点值,分别叫做组下限与组上限。
组限有“表述组限”和“精确组限”两种。
表述组下限数字的精确值为分组的精确下限,而精确下限加上组距,即为分组的精确上限。
(5)登记次数
按精确上、下限之规定划分、登记,将数据归到相应的组间内。
(6)标出组中值
一个组的组中值是该组内数据的代表值
组中值=(精确上限+精确下限)/2 OR 组中值=精确下限+半组距(i/2)
2.求累积次数
(1)自下而上的累积次数
(2)自上而下的累积次数
3.次数分布表的功用
(1)可看出数据的分布情况;
(2)给人以直观的印象;
(3)为进一步统计分析(如计算平均数、百分等级或百分位数)提供基础。
4.绘制次数分布图
(1)直方图
【直方图】是以矩形面积表示连续性随机变量次数分布的图形
作图:根据精确上、下限画图,横坐标是等距的,纵坐标由次数或相对次数决定,各矩形之间不留空隙。
特点:用矩形的面积表示连续性随机变量的次数分布。
功用:直观、生动地表示连续性随机变量分布情况(例如:分布是否对称,是陡峭还是低平等。)
(2)次数多边形/折线图
又称:折线图,是一种表示连续性随机变量次数分布的线形图。
①绘图要点:以每个分组区间组中值为横坐标,以各组的频数为纵坐标描点,顺次连接这些点即得次数多边形。
②功用:表示数据的连续性更直观,可用于多个次数多边形的比较。
散点图:表示相关关系
三、数据的描述
(一)数据集中趋势的描述
【集中趋势】指反映数据集中情况或数据代表性的一组统计量的选择与计算。
1.算术平均数M
(1)定义
【算术平均数】简称平均数,是反映一组数据分布集中趋势的量数,它等于所有数据之和除以数据的个数。
总体平均数用μ表示,变量X的样本平均数用“X-”表示。
(2)公式
N为数据个数,X为每一个数据,∑为连加和的符号
算术平均数的特点
①反应灵敏,计算严密,简单明了;
②要求相同测量工具所获得的数据(即:同质数据);
③在数据相对集中,离散程度不是很大时,对于数据总体一般水平的代表性较好;
④较少受抽样变动的影响。
②要求相同测量工具所获得的数据(即:同质数据);
③在数据相对集中,离散程度不是很大时,对于数据总体一般水平的代表性较好;
④较少受抽样变动的影响。
缺点:①容易受极端数据影响、出现模糊不清的数据时,不能计算平均数
(3)条件要求
①数据必须是同质的(即:用同一种测量工具测量某一特质所得的数据)。
②数据取值必须明确。
③数据离散程度不能太大。
②数据取值必须明确。
③数据离散程度不能太大。
(4)应用
已知小组平均数求总平均:
延伸:【加权平均数】测量所得数据,单位权重不同时,需要求加权平均数
2.中数Md
定义
将一组数据按取值大小排序,位于序列中间者即为中数。
(1)公式
①数据个数为奇数时,中数为位于中间位置的数。
② 数据个数为偶数时,中数等于位于序列中间位置的两个数的平均数。
③ 中间位置出现重复数据时
需将该重复数据视为连续数
中位数:12.5+0.33/2
(2)应用
① 数据中有含糊不清的数据时
② 需快速对集中趋势进行估计时
③ 存在极端数据时
② 需快速对集中趋势进行估计时
③ 存在极端数据时
特点
优点:概念容易理解;计算简单
缺点:反应不够灵敏(极端值无影响);受抽样影响较大(不如平均数稳定);不利于进一步代数运算
缺点:反应不够灵敏(极端值无影响);受抽样影响较大(不如平均数稳定);不利于进一步代数运算
3.几何平均数
公式
x0为初始值(基数),n为年份数(月份数,次数),xn为最后时点的数值。
例如:
1949年学校经费数为5万元(X0),1994年学校经费数为500万元(xn),问学校历年经费增加率是多少?
n=1994-1949=45,{上式}
1.1078-1.O0=0.1078,即每年按10.78%的速率递增。
1949年学校经费数为5万元(X0),1994年学校经费数为500万元(xn),问学校历年经费增加率是多少?
n=1994-1949=45,{上式}
1.1078-1.O0=0.1078,即每年按10.78%的速率递增。
课件中公式
应用
常用于平均发展速度或平均增长率
①求学习、记忆的平均进步率。
②求学校经费平均增加率,学生平均入学率、平均增加率,平均人口出生率。
①求学习、记忆的平均进步率。
②求学校经费平均增加率,学生平均入学率、平均增加率,平均人口出生率。
众数Mo
定义:在一个频数分布中,众数是具有最大频率的分类或类别
优点:概念好理解、方便计算
缺点:反应不够灵敏(极端值无影响);受抽样影响较大;不利于进一步代数运算
缺点:反应不够灵敏(极端值无影响);受抽样影响较大;不利于进一步代数运算
应用:称名数据、离散变量、描述分布形状
(二)数据离中趋势的描述
指表示数据分散程度的一组统计量,即:离中趋势量数的选择与计算(最常用的是方差或标准差)。
1.方差 S2
【方差】是反映一组数据离散趋势的量数,它等于一组数据离差平方的平均数。总体方差用σ2表示,样本方差用S2表示。
X为观察数据,X-为样本平均数,n为样本容量。
x=X-X-称为“离均差”,简称“离差”。
x=X-X-称为“离均差”,简称“离差”。
2.标准差 S
【标准差】是反映一组数据离散趋势的量数,它等于一组数据方差的算术平方根。总体标准差用σ表示,样本标准差用S表示
公式
意义
(1)若一个班的分数之标准差大,说明该班学习成绩不齐。此时标准差小好,标准差小说明成绩整齐。
(2)若一个老师所出的试卷,学生考完后标准差大,说明这张试卷出得好,把不同学生的水平区分开了。
(3)对同一个体进行多次测量,若标准差大,说明测量误差较大。
(2)若一个老师所出的试卷,学生考完后标准差大,说明这张试卷出得好,把不同学生的水平区分开了。
(3)对同一个体进行多次测量,若标准差大,说明测量误差较大。
应用
(1)在正态分布的情况下对标准差可以做如下解释:
X ± 1 S 包含总数目的 68.26%
X ± 1.96 S 包含总数目的 95%
X ± 2.58S 包含了总数目的 99%
X ± 1 S 包含总数目的 68.26%
X ± 1.96 S 包含总数目的 95%
X ± 2.58S 包含了总数目的 99%
2)用于个别数据的取舍(6σ原则):落在平均数加减3个标准差范围之外的数据,可以视为异常值予以舍弃。
3.变异系数 CV
描述一个班的各科成绩既要考虑平均数,也应考虑标准差。
公式
应用
(1)用于同一团体不同测量间变异的比较(eg. 相同班级不同科目考试成绩之变异比较)。
(2)对不同团体进行同一测量,当各团体间水平相差过大时,变异系数可用于团体间变异的比较(eg. 不同年级接受同一种试卷测试时,成绩变异大小的比较)
(2)对不同团体进行同一测量,当各团体间水平相差过大时,变异系数可用于团体间变异的比较(eg. 不同年级接受同一种试卷测试时,成绩变异大小的比较)
4.其他变异量数
平均差AD
各数据与平均数差(离差)的绝对值的平均数
四分差Q
第3个四分位数Q3(即第75个百分位数)与第1个四分位数Q1(即第25个百分位数)之差的一半
(三)数据一致性测量
所谓【一致性】,表现为两种不同测量之间,即两列数据之间是否有关系
1.相关系数 r
相关系数的概念
【相关系数】是表示两列变量相关程度的数量指标。
样本相关系数用 r 表示,总体相关系数用 ρ 表示。
相关的程度和方向
相关系数取值:通常在-1.00~+1.00之间。
系数绝对值的大小:表示相关关系的强弱
①完全相关:相关系数为-1.00或1.00,说明两个变量之间为确定关系;
②不完全相关:相关系数在-1.00~1.00之间(0及其邻近值除外),说明两个变量之间存在相关关系,有高、中、低不同程度;
③不相关:当相关系数在0及其邻近时,说明两个变量之间毫无关系。
②不完全相关:相关系数在-1.00~1.00之间(0及其邻近值除外),说明两个变量之间存在相关关系,有高、中、低不同程度;
③不相关:当相关系数在0及其邻近时,说明两个变量之间毫无关系。
相关系数的符号:表示相关关系的方向
①正相关:当相关系数为正,取值在区间(0,1]时,称正相关,表示两变量的变化方向一致。
②负相关:当相关系数为负,取值在区间[-1,0)时,称负相关,表示两变量的变化方向相反。
②负相关:当相关系数为负,取值在区间[-1,0)时,称负相关,表示两变量的变化方向相反。
2.各种相关系数的计算(5)
(1)积差相关(又称:皮尔逊相关)
(1)适用资料
两列变量为正态分布变量,且呈线性关系的测量资料。
具体来说,计算积差相关系数需要满足以下几个条件:
①数据是成对的,且成对数据的数目不少于30对;
②两列变量都是正态分布的变量;
③两列变量之间的关系是线性的。
①数据是成对的,且成对数据的数目不少于30对;
②两列变量都是正态分布的变量;
③两列变量之间的关系是线性的。
(2)公式
x=X-X-;y=Y-Y-
Sx为X变量的标准差,
Sy为Y变量的标准差,
N为成对数据个数。
Sx为X变量的标准差,
Sy为Y变量的标准差,
N为成对数据个数。
当计算出 r 值后,查有关的相关系数显著性表,可确定相关关系是否显著。
(2)等级相关:适用于等级变量的资料
①斯皮尔曼相关 rR
适用于两列变量均为等级变量的呈线性相关的资料。
例如:班级内语文、数学成绩均分为A\B\C\D等级
②肯德尔和谐系数 W
适用于k个评价者,评价n个事物的等级变量资料,多用于评分者信度分析。
W取值在区间[0,1]内
(3)点二列相关
适用于一列为正态变量的连续数据,另一列为二分名义变量的资料
常应用于测验项目的区分度分析。
例如:男、女为二分名义变量
(4)二列相关
适用于两列变量都为正态变量,但其中一列变量被人为地分成两类资料。
例如:数学、语文成绩相关性;将数学人为分成“及格”、“不及格”
(5)多系列相关
两列变量都为正态等距变量,但其中一列变量被人为地划分为多项分类变量,
这两列变量之间的相关关系的数量指标即是【多系列相关系数】。
这两列变量之间的相关关系的数量指标即是【多系列相关系数】。
φ相关(测量)
适用于:两个变量都是点分配的资料,即两个变量都是二分名义变量。φ相关不要求变量呈正态分布。
第二章 数据的分布及总体参数的估计
一、数据分布的特点
(一)正态分布
1.正态分布及其曲线的特点
(1)正态分布是连续型的概率分布。
服从于正态分布的X变量的正态曲线位于横轴的上方;
该曲线是以 直线X=μ 为对称轴的对称曲线;呈钟形,中间高,两端低;
曲线两端与横轴逐渐接近但永不相交。
服从于正态分布的X变量的正态曲线位于横轴的上方;
该曲线是以 直线X=μ 为对称轴的对称曲线;呈钟形,中间高,两端低;
曲线两端与横轴逐渐接近但永不相交。
正态曲线:正态分布密度函数曲线
曲线位于横轴上方:因为概率非负性
(2)曲线在 X=μ 处有最高点;在 X= μ±σ 处有两个拐点。
(3)正态分布是一族分布,正态曲线的位置和形状依两个参数(μ,σ2)不同而不同。
μ决定曲线的位置:μ越大,曲线越右移。
σ决定曲线形状:σ越大,曲线越低阔;σ越小,曲线越高狭。
2.标准正态分布
均值μ=0,方差σ2=1的正态分布叫【标准正态分布】。
服从正态分布的变量的取值化为标准分数 Z 后,则 Z 服从标准正态分布
X ± 1 S 包含总数目的 68.26%
X 1.65S 包含总数目的 90%
X ± 1.96 S 包含总数目的 95%
X ± 2.58S 包含了总数目的 99%
X 1.65S 包含总数目的 90%
X ± 1.96 S 包含总数目的 95%
X ± 2.58S 包含了总数目的 99%
3.正态分布表的应用
(1)已知概率可查 Z 分数;
(2)已知 Z 分数可查概率;
(3)已知概率或 Z 分数可查概率密度值(纵线高度)。
(2)已知 Z 分数可查概率;
(3)已知概率或 Z 分数可查概率密度值(纵线高度)。
4.正态分布在研究中的应用
(1)按能力分组,确定人数;
(2)化等级评定为测量数据;
(3)测验分数的正态化。
5.标准分数及其应用
如果研究数据呈正态分布,可按正态分布的规律来解释
【标准分数/Z分数】是以标准差为单位,
表示一个原始分数在团体中所处位置的相对位置量数
表示一个原始分数在团体中所处位置的相对位置量数
例如:一个班成绩X-=90,S=3。已知一个学生的成绩为97.5分,则其Z=(97.5-90)/3=2.5,接近2.58,
那么即可知该学生位于(99%/2+50%)=99.5%的位置,如果是100人,可知该人的成绩排第一位。
那么即可知该学生位于(99%/2+50%)=99.5%的位置,如果是100人,可知该人的成绩排第一位。
(二)二项分布
1.二项分布的意义
在一次试验中,若事件A发生的概率为P,则在n次独立试验中,“事件A发生的次数”X这个随机变量服从【二项分布】。
2.平均数、标准差
μ为平均数,是指理论上推导出来的,称为【总体平均数】
σ为标准差,也是理论上推导的结果。
n为试验次数
p为一次试验中某项结果发生的概率,q为某项结果不发生的概率
例题 p279
二、总体参数的估计
(一)估计原理
1.抽样分布
样本统计量的概率分布叫做【抽样分布】,抽样分布是统计推断的理论依据。
eg. 样本平均数的分布,样本方差的分布,两样本平均数之差的分布等。
2.样本平均数的分布 X bar
(1)概念
从正态分布的总体中可无限抽取大小为n的样本,所计算的这无限多个平均数的分布,称为【样本平均数的分布】
(2)标准误
样本平均数分布的标准差称为【标准误】
eg. 100分样本,则对应100个均值u和方差S
(1)若总体方差已知,则标准误为
反应:样本统计量围绕着参数的真值上下浮动的程度
体现的是用样本量估计参数的精确程度
(2)若总体方差未知,则标准误为:
(3)按样本分布规律进行推断与解释
A-正态分布/Z 分布
当总体分布为正态或近似正态分布,其总体方差σ已知,样本平均数的分布为正态分布。
统计量 Z 服从标准正态分布。
对样本平均数的分布按正态分布解释
B- t 分布
当总体分布为正态或接近正态,总体方差未知时,用样本方差代替总体方差,
则下述统计量服从自由度为n-1的t分布。
则下述统计量服从自由度为n-1的t分布。
对样本平均数的分布,按t分布解释
3.区间估计
(1)概念
【区间估计】是指用数轴上一段距离,表示未知参数可能落入的范围。
虽不能指出总体参数具体等于什么,但可指出总体参数落入某区间的可能性有多大。
虽不能指出总体参数具体等于什么,但可指出总体参数落入某区间的可能性有多大。
(2)置信区间与置信度
【置信区间】是指在某一置信度时,总体参数可能落入的区间
【置信度】(1-α),也称置信水平,指所估计的总体参数落入置信区间的可靠程度。
α:显著性水平
eg. 标准正态分布中,μ ± 1σ 包含总数目的 68.26%;其中置信区间是【-σ,σ)之间,置信度1-α=68.26%
4. 点估计
(1)概念
当总体参数不清楚时,用一个特定值(一般用样本统计量)对其估计,就称为【点估计】。
一般用样本平均数估计总体参数μ,用样本标准差Sn-1估计总体标准差σ。
一般用样本平均数估计总体参数μ,用样本标准差Sn-1估计总体标准差σ。
(2)点估计应满足的条件
①无偏性:用作估计值的统计量可能会大于/小于参数的真值,但要求所有可能的统计量与参数真值的偏差的平均值为零。
②一致性:当样本容量无限增大时,估计值会越来越接近它所估计的总体参数。
③有效性:若存在一个无偏估计量,对于其他无偏估计量来说,它的方差是最小的,就是说它的取值是比较稳定的,则这一估计值是有效的。
④充分性:用作估计值的统计量能够反映样本全部数据所反映的总体的信息。
②一致性:当样本容量无限增大时,估计值会越来越接近它所估计的总体参数。
③有效性:若存在一个无偏估计量,对于其他无偏估计量来说,它的方差是最小的,就是说它的取值是比较稳定的,则这一估计值是有效的。
④充分性:用作估计值的统计量能够反映样本全部数据所反映的总体的信息。
(二)总体平均数的估计
1.总体正态,方差已知 【 Z 分布】
(1)样本的平均数分布为【正态分布】。
(2)标准误的公式:
(3)原理
根据:正态分布与标准误的关系,可以得出一下结论
① 估计正确的可能为68.26%,出错的可能为31.74%
② 估计正确的可能为95%,出错的可能为5%
③ 估计正确的可能为99%,出错的可能为1%
2.总体正态,方差未知 【t 分布】
(1) t 服从自由度为n-1的【 t分布】
①t分布左右对称,分布的形状受自由度(样本容量)的影响。
②t分布函数与正态分布不同,是一族分布,查表时要注意自由度。
(2)标准误的计算
3.置信区间的计算、显著水平的确定
(1)显著性水平一般为0.05或0.01
因为这一概率是小概率事件,在一次抽样中不易出现。
(2)查表确定临界值
当置信度为1-α时,查表可得 μ 的置信区间
①方差已知:μ落在… 之间(查正态表);
②方差未知:μ落在…之间(查t表)
(三)总体方差与方差差异的区间估计
1.总体方差的区间估计
(1)公式
查X2表:确定(Xα/2)2与X(1-α/2)2的临界值。
(2)解释
根据公式所计算的结果为总体方差置信区间,估计正确的概率为1-α,估计错误的概率为α。
(3)推演标准差的置信区间
有了方差的区间估计量,根据标准差的计算公式,将方差开方取正平方根,
即可知标准差的估计区间,其解释同方差
即可知标准差的估计区间,其解释同方差
2.方差差异的区间估计
是指两个方差之间差异的区间估计,方差之差异用两方差的比值表示。
(1)公式
查阅F表,选择Fα/2的临界值
(2)解释
根据公式所计算的结果为方差差异的置信区间,估计正确的概率为1-α,估计错误的概率为α
(3)标准差的差异估计
有了方差差异的置信区间,可将方差开平方取其正平方根,即为标准差差异的置信区间。其显著水平同方差差异的显著性水平。
第三章 假设检验
一、检验的基本问题
(一)假设与假设检验
1.假设检验的意义
通过样本对总体的某些特征(如平均数、方差等)进行判断,或从样本的差异推论总体差异的过程,就是【假设检验】。
2.虚无假设与备择假设
(1)虚无假设
虚无假设也叫“原假设”、“零假设”、“无差假设”
是与研究假设相反的假设,根据检验结果予以拒绝或接受的假设,以H。表示
虚无假设一般都假设两个总体之间没有差异,如μ1=μ2,μ1一μ2=0,μ1≤μ2。
(2)备择假设
又称为“科学假设”、“对立假设”。
与虚无假设对立的假设,以H1表示
备择假设一般都假设两个总体参数之间有差异、不相等。如μ1≠μ2,μ1<μ2,μ1>μ2。
统计学中不能对H1的真实性直接检验,而必须通过建立虚无假设来达到检验的目的,若能证明H0为真则H1为假,若H0为假则H1为真
3.假设检验的基本思想
带有概率性质的反证法。
①假设检验总是先提出虚无假设,在承认虚无假设成立的前提下,推导样本统计量是如何分布的;
②根据样本数据计算出统计量;
③看其与虚无假设推导出的结果是否符合。
a) 如果导出了一个通常不应出现的结果(不合理现象、矛盾现象),则我们拒绝虚无假设;
b)否则,我们接受虚无假设,或称与虚无假设相容。
②根据样本数据计算出统计量;
③看其与虚无假设推导出的结果是否符合。
a) 如果导出了一个通常不应出现的结果(不合理现象、矛盾现象),则我们拒绝虚无假设;
b)否则,我们接受虚无假设,或称与虚无假设相容。
但是假设检验中的反证法,不同于纯数学中的反证法。→ 小概率事件在一次观测中不会发生,若发生则拒绝H0
(二)假设检验中的两类错误
1.α错误
α错误又称Ⅰ型错误,是指虚无假设为真时,拒绝虚无假设所犯的错误。【即:拒绝“真”】
2.β错误
β错误又称Ⅱ型错误,是指虚无假设为假时,接受虚无假设所犯的错误。【即:接受“假”】
3.α错误和β错误的关系
α增大,β就减小;α减小,β就增大。
我们希望α与β尽量小些。
对于固定的α,主要通过增加样本容量来减小β。
我们希望α与β尽量小些。
对于固定的α,主要通过增加样本容量来减小β。
(三)显著性水平
显著性水平是一种检验标准,以 α 表示,概率不超过α的事件视为“小概率事件”。
显著性水平是对拒绝虚无假设所犯错误所给定的标准,通常取α =0.05或0.01。
(四)单侧检验与双侧检验
1.单侧检验
(1)概念:查统计表时,按分布的一侧计算显著性水平概率的检验,称作【单侧检验】
(2)应用条件:凡是检验大干、小于、高于、低于、优于、劣于等有确定性大小关系的假设
(3)单侧检验的备择假设是H1:μ1<μ2或μ1>μ2。
这类关系的确定应有一定的理论依据。
2.双侧检验
(1)概念:查统计表时,按分布两端计算显著性水平概率的检验,称作【双侧检验】。
(2)应用条件:凡理论上不能确定两个总体一个一定比另一个大或小的假设检验。
(3) 双侧检验的备择假设是H1:μ1≠μ2。
二、平均数与平均数差异的显著性检验
(一)平均数显著性检验
1.概念及使用条件
【平均数显著性检验】是指样本平均数与总体平均数差异的显著性检验,
或说:是关于样本所来自的总体平均数μ与已知总体平均数μ0差异是否显著的假设检验
或说:是关于样本所来自的总体平均数μ与已知总体平均数μ0差异是否显著的假设检验
使用条件:
1⃣️总体为正态或接近正态,方差已知(统计量Z)
2⃣️总体为正态或接近正态,方差未知(统计量t);
3⃣️大样本大于30时,类似正态分布,可以用Z检验
1⃣️总体为正态或接近正态,方差已知(统计量Z)
2⃣️总体为正态或接近正态,方差未知(统计量t);
3⃣️大样本大于30时,类似正态分布,可以用Z检验
2.原理
总体为正态分布或接近正态分布的样本平均数的分布为正态分布或t分布,按抽样分布规律进行推论。
3.总体为正态或接近正态,方差已知【Z】
其样本平均数的分布为正态分布:
(1)标准误的计算:
(2)统计量的计算:
(3)查正态表,按正态分布解释
当样本平均数落入小概率事件区域则拒绝接受H0,
结论:该样本与已知总体存在显著差异 OR 样本总体平均数显著。
(作此结论犯错误的概率小于α。)
结论:该样本与已知总体存在显著差异 OR 样本总体平均数显著。
(作此结论犯错误的概率小于α。)
4.总体为正态或接近正态,方差未知【t】
此时需用样本方差的无偏估计量代替总体方差。所构造的统计量服从t分布。
(1)标准误的计算
(2)统计量的计算:
(3)查t值表,按t分布解释。
5.α水平与解释
(1)α水平:α=0.01或0.05
(2)解释
①如果是正态分布,当Z值的绝对值大于1.96或2.58时,可以作出"平均数显著的结论",作此结论犯错误的概率小于5%或1%;
当Z值小于1.96或2.58时,可以作出平均数不显著的结论。
当Z值小于1.96或2.58时,可以作出平均数不显著的结论。
②如果为t分布,则按t的临界值解释。
(二)平均数差异显著性检验
概念及使用条件
【平均数差异显著性检验】是检验两组样本各自所代表的总体平均数之间差异是否显著。
使用条件:
①两总体正态,方差已知;【Z】
②两总体正态,方差未知,但相等;【t】
③ 两总体正态,方差未知,且不等
①两总体正态,方差已知;【Z】
②两总体正态,方差未知,但相等;【t】
③ 两总体正态,方差未知,且不等
1.检验原理
根据平均数之差的抽样分布原理进行推论
如果两总体为正态或接近正态,其样本平均数之差的分布为正态分布或t分布
→ 计算标准误,统计量
→并按抽样分布的规律推断,进行假设检验。
→ 计算标准误,统计量
→并按抽样分布的规律推断,进行假设检验。
2.两总体正态,方差已知【Z】
其样本平均数之差的分布为正态分布
(1)独立样本的标准误:(2)相关样本的标准误:(3)统计量z的计算:(4)按正态统计表进行解释
3.两总体正态,方差未知,但相等【t】
其样本平均数之差的分布为t分布:
(1)独立样本的标准误:(2)相关样本的标准误:(3)统计量 t 的计算:(4)选择t值统计表进行解释。
4.两总体正态,方差未知,且不等【t】
(1)标准误的计算:(2)统计量的计算:(3)选择t值统计表进行解释,但自由度需另行计算。
(三)非参数方法
对样本分布没有要求,适合两总体非正态分布,也适用于数据为等级数据甚至称名数据的情况。
不过,正态分布或t分布的样本平均数的差异检验也可使用此方法。
不过,正态分布或t分布的样本平均数的差异检验也可使用此方法。
1.独立样本
(1)秩和检验法
① 将两样本数据混合起来统一排序,排出等级(秩次)
② 再分别计算两个样本秩次之和(“秩和”)。
→ 如果两个总体的均值是相等的,则两个样本的秩和应该大体相等。
→ 如果两个样本的秩和相差过大,则两总体均值可能存在真实的差异
② 再分别计算两个样本秩次之和(“秩和”)。
→ 如果两个总体的均值是相等的,则两个样本的秩和应该大体相等。
→ 如果两个样本的秩和相差过大,则两总体均值可能存在真实的差异
(2)中数检验法
以中数作为集中趋势的量度。
①将两样本统一排序,取中数。
②分别统计两样本位于中数以上和中数以下的数据个数。
③列2×2四格表。
④用X2检验,确定两样本是否存在显著差异。
①将两样本统一排序,取中数。
②分别统计两样本位于中数以上和中数以下的数据个数。
③列2×2四格表。
④用X2检验,确定两样本是否存在显著差异。
2.相关样本
(1)符号检验法
适用于:依据两个相关样本的资料,推论其总体均值是否相等。
基本思路:
将两样本成对数据的差值的符号作为检验依据。
→ 若两样本平均数没有显著性差异,则正差值与负差值应大体各占一半。
→ 若其中一个过小,小到某一个临界值时,意味着两总体均值差异显著。
将两样本成对数据的差值的符号作为检验依据。
→ 若两样本平均数没有显著性差异,则正差值与负差值应大体各占一半。
→ 若其中一个过小,小到某一个临界值时,意味着两总体均值差异显著。
(2)符号秩次法
适用条件:与符号检验法同,但精度比符号检验法要高(因为它不但考虑了差值的符号,同时还考虑了差值的大小)
根据样本数量不同,计算方式不同(小样本<25;大样本≥25)
三、方差及方差差异显著性检验
(一)方差显著性检验p291
1.原理
2.解释
即样本方差与总体方差的差异显著性检验。
(二)方差差异显著性检验 p292
1.原理
从两个正态总体中分别抽取容量为n1,n2的两个样本,在假设两总体方差相等的条件下,
两样本方差之比服从第1自由度为n1-1,第2自由度为n2-1的F分布。
两样本方差之比服从第1自由度为n1-1,第2自由度为n2-1的F分布。
2.公式
独立样本
相关样本
四、相关系数及其差异的显著性检验
(一)相关系数的显著性检验
1.积差相关
1)假设总体相关ρ=0时【t检验,df=n-2】
①统计量的计算 t
②查t统计表,确定相关系数是否显著,自由度df=n-2。
②查t统计表,确定相关系数是否显著,自由度df=n-2。
2)假设总体相关ρ≠0时【Z检验】
①统计量的计算 Z(将相关系数进行转换)
②查正态统计表,确定相关系数是否显著。
②查正态统计表,确定相关系数是否显著。
2.等级相关与其他相关系数的显著性检验
(1)斯皮尔曼
查等级相关显著性检验表,确定显著性。
(2)肯德尔和谐系数
当3≤N≤7时,依据N、K值,直接查肯德尔和谐系数W检验表,确定相关显著性;
当N>7时,计算X2=K(N一1)W值,查自由度为N一1的X2表,确定相关是否显著。若X2显著,表明W也显著。
(3)点二列相关
计算与二分变量对偶的连续变量平均数的差异,若二者差异显著,则点二列相关系数亦显著。
(二)积差相关系数差异的显著性检验
1.相关系数的费舍Z转换
2.统计量的计算 Z=
3.按正态分布解释差异是否显著
2.统计量的计算 Z=
3.按正态分布解释差异是否显著
(三)相关系数的合并
五、计数数据的检验( p294~298)
(一)比率的检验
1.比率的显著性检验
条件:比率的分布属于二项分布。np≥5时,近似正态分布
2.比率差异的显著性检验
(二)χ2检验
1.χ2检验的性质(选择题)
①X2检验是一种非参数检验,对数据的分布形态不作要求。
②X2适用于对计数数据的检验。计数数据通常是用列联表的方式给出的。也能处理连续变量的拟合检验问题。
③X2检验适合于对一因素多水平或多因素数据的检验。
②X2适用于对计数数据的检验。计数数据通常是用列联表的方式给出的。也能处理连续变量的拟合检验问题。
③X2检验适合于对一因素多水平或多因素数据的检验。
2.χ2检验的类别
(1)配合度检验(属于单因素检验)
指:实际观察次数与某种理论次数之间差异的显著性检验,
或检验某种次数分布的总体是否服从某一给定的理论分布。
或检验某种次数分布的总体是否服从某一给定的理论分布。
(2)独立性检验(属于双因素检验)
根据两变量的交叉分类的次数表,检验两个变量是独立的还是有关的
(3)同质性检验
检验两个样本在同一变量上的分类是否有类似的分布模式,即这两个样本数据是否同质的问题
3.χ2检验的步骤
(1)配合度检验的步骤
(1)自由度的确定:一般为df=R一1,R为分类数目。
(2)理论次数的计算
①无差假设:理论次数为理论上的概率。
②理论与经验概率:根据经验或已知某一概率分布的理论确定计算理论次数的概率。
③连续变量拟合检验
a.根据拟检验的理论分布,计算概率;
b.根据理论概率求理论次数;
c.根据计算理论次数所用的统计量数目及分组数目求自由度。
(3)卡方值计算公式
(2)独立性检验步骤(R×C表)
(1)自由度确定:df=(R-1)*(C-1)
(2)理论次数计算
(3)卡方值计算公式
(4)解释:用X2分布的概率解释,两变量不同分类间是否存在显著差异或两变量是否有相关。
(3)独立样本四格表的独立性检验步骤
4.列联表的合并
(1)简单合并法
(2)χ2相加法
(3)χ值相加法
5.品质相关
(1)四分相关
(2)φ相关
(3)列联相关
第四章 各种研究设计的方差分析
一、研究设计的一般问题
(一)设计的效应模型
1.随机模型
2.固定模型
3.混合模型
(二)数据变换
1.对数变换
2.平方根变换
3.反正弦变换
二、完全随机实验设计的方差分析
(一)一般问题
1.概念
实验的因素是一个或多个,每个因素又有多个不同的实验水平,随机选取被试,又随机分组,
将各组被试随机地安排到一种实验处理组之中的实验设计,称为【完全随机化实验设计】。
将各组被试随机地安排到一种实验处理组之中的实验设计,称为【完全随机化实验设计】。
各实验处理水平,可以是随机的,也可固定,若对两个以上因素,可有一个因素随机,一个因素固定。
因而,其效应模型可有:随机模型、固定模型和混合模型。
因而,其效应模型可有:随机模型、固定模型和混合模型。
2. 类型
单因素完全随机化实验设计
如果研究中的自变量(因素)只有一个,有多种水平,被试完全随机取样,随机分组,每组被试随机地接受一种实验处理,称为【单因素完全随机设计】。
效应模型2种:随机模型和固定模型两种。
多因素完全随机化设计
多因素完全随机实验设计主要指析因设计
是指研究中的自变量有两个或两个以上的因素,每个因素各有多种水平,随机取样,随机分组,每组被试随机地接受一种实验处理的实验设计。
效应模型3种:随机模型、固定模型和混合模型。
3.方差分析应具备的条件
完全随机取样的数据应具有以下特点:
(1)数据正态性:数据的总体分布是正态的或近似正态的。
(2)方差可加:总方差应为各方差分量的和。
(3)方差齐性:即各实验处理的方差相等。
(4)因变量数据若为等比或等距数据,用参数的方法;若为等级变量,则应该用非参数方法。
(1)数据正态性:数据的总体分布是正态的或近似正态的。
(2)方差可加:总方差应为各方差分量的和。
(3)方差齐性:即各实验处理的方差相等。
(4)因变量数据若为等比或等距数据,用参数的方法;若为等级变量,则应该用非参数方法。
确定方差齐性的依据如下:
①数据变化不大;
②可用检验方法确定;
⑧如果各组被试人数相等,可视为方差齐性。
①数据变化不大;
②可用检验方法确定;
⑧如果各组被试人数相等,可视为方差齐性。
(二)方差分析的步骤(2017论述)
1.平方和的分解与计算
(1)单因素方差分析:SSt、SSb、SSw
(2)多因素方差分析的计算见析因设计
SSt为总平方和,SSb为组间平方和,SSw为组内平方和。
k表示实验处理数,n为每组的人数。
k表示实验处理数,n为每组的人数。
2.自由度的确定
(1)单因素
①总的自由度df t=nk-1
②组间自由度df b=k-1
③组内自由度df w=k(n-1)
例题:组数K=3, 每组样本数n=30;分别求三种自由度(③=①-②)
(2)多因素(以二因素为例)
①df1=npq一1
②dfA=p一1
③dfB=q一1
④dfAB=(P一1)(q一1)
⑤dfn=Pq(n一1)
3.均方的计算
4.效应模型与F检验
5.解释
根据效应模型与F值的显著性与否进行解释。
(三)非参数方差分析
1.克一瓦式单向等级方差分析
2.弗里德曼双向等级方差分析
(四)事后检验——各平均数之间的比较
1.平均数的标准误的计算
2.显著性的确定
三、随机化区组设计的方差分析
(一)随机化完全区组设计
1.区组的概念及其各种表现形式
2.随机化完全区组设计的要求
3.随机化完全区组设计的类别
4.随机化完全区组设计的方差分析
(1)单因素完全区组设计
(2)二因素完全区组设计
(二)随机化不完全区组设计
1.概念和特点
2.统计分析
四、析因设计的方差分析
(一)析因设计
1.概念
【析因设计/因子设计】指两个或多个自变量的各水平组合都要得到考察的实验设计。
多因素完全随机设计是其中的重要设计类型。
多因素完全随机设计是其中的重要设计类型。
2.特点
3.类型
(二)方差分析步骤
1.数据模型
2.平方和的分解与计算
3.自由度的确立
4.均方的计算
5.求F值
6.解释
五、嵌套、裂区、拉丁方设计的方差分析(了解) p311~316
(一)嵌套设计
1.适用的研究问题
2.统计分析
(二)裂区设计
1.适用的研究问题
2.统计分析
(三)拉丁方设计
1.适用的研究问题
2.统计分析
第五章 一元线性回归
(一)回归分析的含义与任务
1.回归分析的含义
【回归分析】是用变量的观察数据拟合一个因变量与一个或几个自变量之间的关系,并用数学关系式表达这种关系;
检验自变量影响的显著程度,比较各自变量作用的大小;进而用一个或多个变量的变化去解释和预测另一个变量的变化
检验自变量影响的显著程度,比较各自变量作用的大小;进而用一个或多个变量的变化去解释和预测另一个变量的变化
2.回归分析的类别
线性回归、非线性回归(曲线回归)
一元回归、多元回归
3.回归分析的任务
给出当自变量x变化时,因变量Y的平均值变化的规律;根据x值对Y值作出预测。
(二)一元回归方程与回归系数
1.回归方程
y对于x的一元回归方程
它反映了自变量x变化时,因变量y的平均值变化规律。
它反映了自变量x变化时,因变量y的平均值变化规律。
2.回归系数
α称回归常数,是回归直线在y轴上的截距
b称回归系数,是回归直线的斜率,它表示自变量x变化一个单位时,y的平均变化
b写作byx,表示是以x预测y的回归方程的回归系数,以别于以y预测x回归方程的回归系数bxy。
b写作byx,表示是以x预测y的回归方程的回归系数,以别于以y预测x回归方程的回归系数bxy。
(三)一元回归方程的建立
(四)确定系数
【确定系数】也叫测定系数,它是回归方程解释力的指标。(11,14,17年)
【确定系数】指回归方程中,y变量的变异由x变量决定的比率,
即:回归平方和在总平方和中所占比率。
确定系数越大,说明回归效果越好。
即:回归平方和在总平方和中所占比率。
确定系数越大,说明回归效果越好。
若比率为1,则表明总平方和全由回归方程所决定,回归效果极佳。
若比率接近0,效果正好相反。
若比率接近0,效果正好相反。
确定系数可由x,Y两变量的相关系数决定。因此在判断回归方程是否有意义时,不仅要看回归系数是否显著,更要看确定系数是否足够大
(五)回归方程的显著性检验
(六)回归系数的显著性检验
(七)共变数分析
0 条评论
下一页