生物医学研究的统计方法
2022-02-09 10:25:59 1 举报
AI智能生成
统计方法生物医学
作者其他创作
大纲/内容
线性回归与相关—定量资料
csdn
直线相关
概念:两个变量间存在线性的协同变化关系或变化的趋势,称为直线相关。
相关分析是研究变量和变量集合之间数量协同变化关系的密切程度和方向的统计方法。
要求:1.两个变量X和Y都服从正态分布,严格说应服从双变量正态分布。2.两变量为随机变量(时间×)
应用情况
两变量地位相等,不分自变量和应变量,都是随机变量,均呈正态分布。
散点图
椭圆形分布
X、Y同时增减:正相关
X、Y此增彼减:负相关
直线形分布
直线相关系数
相关分析的步骤
⑴绘制散点图:
①呈线性趋势,计算相关性;
②呈曲线趋势,进行曲线拟合;
③无任何趋势,不必分析。
⑵根据上述公式计算γ的值
⑶相关系数的假设检验,由于抽样误差的存在,判断 γ 是否来自 ρ=0 的总体,常用t检验
⑷总体相关系数的区间估计
直线相关分析的注意事项:
⑴ 算相关系数时首先绘制散点图,判断两变量是否存在线性趋势;
⑵相关分析时要求X、Y均为随机变量,而不能用于事先界定X、Y的资料;
⑶相关分析时必须剔除异常点;
⑷相关分析要有实际意义,两变量相关,并不一定存在联系,可能是另外一种因素引起的;
⑸分层资料不宜盲目的合并,进行相关分析;同时进行相关分析时,如果不能确定各层研究对象具有同质基础,不宜盲目合并。
⑹不能将假设检验中显著性大小理解为两变量相关程度的大小,后者是由相关系数的大小决定的。
直线回归
处理两个变量间线性数量依存关系的一种统计分析方法。
【与相关分析的区别】回归分析两个变量的地位不同,X为自变量(可测),Y为因变量(不易测)
线性回归模型的前提条件:
⑴线性:应变量y的总体均数与自变量x呈线性关系;因此进行回归分析前应先绘制散点图;
⑵独立:任意两个观察单位之间相互独立;
⑶正态性:对任意给定x的值,y均服从正态分布;该分布的均数是回归直线上与x值相对应的那点的纵坐标;
⑷等方差:自变量x的取值范围内,不论x取什么值,y都具有相同的方差。
直线回归分析的步骤:
⑴绘制散点图,通过观察散点的形态来判断线性假设是否成立
⑵建立直线回归方程,即求出回归参数a和b
⑶绘制回归线
①不应超过X的实测值范围
②所绘制的直线必然通过(X平均,Y平均)
③直线的左端延长与纵轴的焦点必然是截距a。
⑷回归方程的假设检验:检验方法有【方差分析】和【t检验】
①方差分析
【基本思想】
任意一点P(x,y)的纵坐标被回归直线与均数截成3段:
三部分的变异可以表示为:=+,即SS总=SS回归+SS剩余
直线回归的应用注意事项
(1)要有实际意义
(2)必须先绘制散点图
(3)作回归分析时,如果两个变量间存在的是一种依存因果的关系,那么应该以“因”的变量为X,以“果”的变量为Y。如果变量之间并无因果关系则应以易于测定、较为稳定或变异较小者为X
(4)应用与图示以自变量的取值范围为限
(5)在回归分析中,因变量是随机变量,要求必须服从正态分布,自变量既可以是随机变量,也可以是给定的量;如果数据不符合要求,在进行回归分析前,必须先进行变量的变换。
多重线性回归
常用回归模型—-多重线性回归、Logistic回归及Cox回归的联系与区别
三者联系:它们都属于回归分析,目的都在于探讨多个自变量对因变量的影响,且自变量具有共同属性——自变量均为多个,可以为连续变量、等级变量和分类变量,其中,分类变量需转换为哑变量进行处理,等级变量按连续变量或哑变量进行处理。
三者区别:
1、多重线性回归:用于寻找连续性因变量数值随多个自变量变化而变化的直线趋势;强调因变量为连续变量。如研究肺癌患者某肿瘤标记物的水平(连续变量-因变量)是否受年龄、性别、吸烟与否及数量等自变量的影响。操作流程为:
2、Logistic回归:用于分析分类变量(或等级变量)和一些影响因素之间的关系,由于因变量非连续变量,与自变量间失去了线性关系的可能性,于是经过Logit变化,将模型转换为线性关系;强调因变量为分类变量或等级变量。如研究肺癌患病与否(二分类变量)是否受年龄、性别、吸烟与否及数量等自变量的影响。以二分类Logistic回归为例,操作流程为:
3、Cox回归:用于研究多个因素对结局事件的影响;因变量与二分类Logistic回归相似,唯一的区别在于Cox回归的因变量引入了时间因素。如分析肺癌生存时间(结局时间)(二分类变量,含时间因素)是否受年龄、性别、吸烟与否及数量等自变量的影响。操作流程为:
概述
分支主题
分支主题
拟合回归方程→解释变量之间的关系→描述关联、分析影响因素、预测
分支主题
简单线性回归--liner,independent,nomoral,equal variance
概述—双变量正态分布
分支主题
简单线性回归分析的基本步骤:散点图—拟合回归系数(最小二乘法)—假设检验【回归系数(t检验)或回归方程(方差分析)】—列出方程→统计应用
① 绘制散点图,考察是否有线性趋势及可疑的异常点;(观察趋势)
② 估计回归系数(拟合~最小二乘法)
③ 对总体回归系数(t检验)或回归方程(方差分析)进行假设检验;
④列出回归方程,绘制回归直线;
⑤ 统计应用(预测、控制)
回归直线的拟合~最小二乘法
最小二乘法--使SSE(残差平方和)达到最小
线性回归的假设检验--方程-F检验//回归系数-t检验
回归方程的假设检验—单因素方差分析—回归方程在总体中是否成立
回归系数的假设检验--t检验(自由度v=n-2)—回归系数是否为0(不相关)(简单线性回归—回归系数的t检验等价于回归模型的方差分析)(pearson相关系数的检验,spearman相关检验,方差分析)
线性回归的步骤-spss
决定系数/确定系数-R2--Y的总变异中,回归关系(回归效果-R2越大,方程拟合的效果越好)所能解释的百分比(贡献程度)。x对y的贡献--标准化回归系数β’,R-复相关系数—y与x的密切程度
结果分析
分支主题
应用--两变量依存关系、统计预测、统计控制
分支主题
练习
1.简述线性回归分析(regression)与线性相关(pearson)的区别与联系。
区别
(1)资料要求上,
进行直线回归分析的两变量,①若x为可精确测量和严格控制的变量,则对应于每个x的y值要求服从正态分布;②若x、y都是随机变量,则要求x、y服从双变量正态分布。
直线相关分析只适用于双变量正态分布资料。
(2)应用上,说明两变量线性依存的数量关系用回归(定量分析),说明两变量的相关关系用相关(定性分析)。
(3)两个系数的意义不同。r(线性相关系数)说明具有直线关系的两变量间相互关系的方向与密切程度,b(样本回归系数)表示x每变化一个单位所导致y的平均变化量。
(4)两个系数的取值范围不同
(5)两个系数的单位不同:r没有单位,b有单位(?)
联系:
(1)对同一双变量资料,回归系数b与相关系数r的正负号一致。b>0时,r>0,均表示两变量x、y同向变化;b<0时,r<0,均表示两变量x、y反向变化。
(2)回归系数b与相关系数r的假设检验等价,即对同一双变量资料,tb=tr。由于相关系数r的假设检验较回归系数b的假设检验简单,故在实际应用中常以r的假设检验代替b的假设检验。
(3)用回归解释相关:由于决定系数=R2=SS回(回归平方和) /SS总 ,当总平方和固定时,回归平方和的大小决定了相关的密切程度。回归平方和越接近总平方和,则R2越接近1,说明引入相关的效果越好。例如当r=0.20(直线相关系数),n=100时,可按检验水准0.05拒绝H0,接受H1,认为两变量有相关关系。但R2=(0.20)2=0.04(贡献程度)(>0.7--两变量相关?),表示回归平方和在总平方和中仅占4%,说明两变量间的相关关系实际意义不大。
2.决定系数与相关系数的意义相同吗?如果不一样,两者关系如何?将直线相关系数r、决定系数R2与Y的总变异SS总的关系阐释如下
假如在一回归分析中,回归系数的变异数SS回归=9,而Y的总变异数SS总=14,则决定系数R2 = SS回归/SS总=9/14=0.6429/1,相关系数r=0.8018
即将决定系数R2表示为一比值关系,当SS总= l时,则SS回归=0.6429,我们可以采用直角三角形的“勾股定理”图示决定系数与相关系数的关系
1.
①简单线性回归方程///假设检验--t检验///总体回归系数95%置信区间
②方差分析
2.
相关系数
回归系数
案例10-1年龄与身高预测研究。某地调查了4~18岁男孩与女孩身高,数据见教材表10-4,试描述男孩与女孩平均身高与年龄间的关系,并预测10.5岁、16.5岁、19岁与20岁男孩与女孩的身高
案例辨析 未绘制散点图,盲目进行简单线性回归分析;若实际资料反映两变量之间呈现某种曲线变化趋势,用简单线性回归方程去描述其变化规律就是不妥当的
正确做法 分析策略:作散点图--观察趋势→选择曲线类型→合理选择模型→统计预测。
做散点图--观察趋势
选择曲线类型,进行统计分析
选择合理的模型(公式),列出回归方程。以女孩身高二次曲线为例,方程如下:多项式曲线:
统计预测:预测19岁女孩身高为60.788+10.805×18-0.292×182=160.7,与实际趋势相符。其他预测方法相同
案例--贫血患者的血清转铁蛋白研究。第6章例6-1中,为研究某种新药治疗贫血患者的效果,将20名贫血患者随机分成两组,一组用新药,另一组用常规药物治疗,测得血红蛋白增加量(g/L)见表6-1。问新药与常规药治疗贫血患者后的血红蛋白增加量有无差别?
案例辨析 王医生的分析方法是对的(t=4.137);回归分析能代行两样本均数t检验的任务
正确做法 截距与两样本均数的差值相等。分别进行回归方程的方差分析与回归系数的t检验,得F=17.112,t=4.137。回归系数的t检验结果与两样本均数的t检验结果完全一致。以上结果说明,t检验的结果可以转化为直线回归方程分析。当分组因素为k个组(样本)时,可以设置为k-1个指示变量,采用第11章的多重线性回归分析,这在多因素分析中是最常采用的办法
多重线性回归---多因素共同作用—目的-控制混杂因素的影响
概述
例:
偏回归系数-判断x对y贡献的大小--标准化的偏回归系数
多重线性回归的模型假设与简单线性回归相同,F检验(模型),t检验(系数)
R2–决定系数-贡献--反映自变量对回归效果的贡献,标准化的回归系数β’--反映自变量对因变量贡献的大小。回归系数β--用于构建模型。R-复相关系数-y与x的密切程度
多重线性回归步骤:散点图—建模—估计参数-假设检验—列出方程
spss
选择最优回归方程///自变量筛选
结果--R2--贡献程度,,标准化偏回归系数-作用大小,偏回归系数-拟合方程//回归分析之前理解自变量之间的关系//
例--预测人体吸入氧气的效率。为了解和预测人体吸入氧气的效率,某人收集了31名中年男性的健康调查资料。一共调查了7个指标,分别是吸氧效率(,%)、年龄(,岁)、体重(,kg)、跑1.5 km所需时间(,min)、休息时的心跳频率(,次/min)、跑步时的心跳频率(,次/min)和最高心跳频率(,次/min)(教材表11-9)。试用多重线性回归方法建立预测人体吸氧效率的模型
案例辨析 我们先分析一下各个自变量之间的简单相关系数,结果发现和存在有较强的相关(r=0.930, P<0.001), 对回归模型进行共线性诊断,结果发现自变量的容忍度为0.122,方差膨胀因子等于8.188,自变量的容忍度为0.117,方差膨胀因子等于8.522,说明自变量之间存在多重共线性,所以出现了与专业结论相反的现象(共线性—自变量之间有高度相关性)
正确做法 ①把自变量从模型中删除以消除多重共线性的影响,应重新建立多重线性回归方程。最好②多用几种筛选自变量的方法(如前进法、后退法、逐步回归分析、最优回归子集法等)筛选自变量,结合专业知识和统计学知识,综合分析和比较,从而得到比较优的多重回归方程
例--医院住院人数的预测 石磊(1991)发表了其所在医院1970-1989年期间历年门诊人次、病床利用率、病床周转次数和住院人数的数据(教材表11-11),建立由、、预测的线性回归方程[中国卫生统计,1991,8(6)]。下面列出了多重线性回归分析的主要结果
案例辨析 作者采用逐步回归的方法建立了门诊人数和病床周转次数关于住院人数的多重回归方程。从结果中可以看出,整个方程是有统计学意义的,各个总体偏回归系数不为零,确定系数等于0.861,说明回归的效果也很好。但是,回头考虑资料是否适合进行多重线性回归分析,也就是资料是否满足多重回归分析的前提条件LINE?于是,对回归分析的结果进行残差分析,
残差分析--残差图提示资料不满足方差齐性的要求。Durbin-Watson统计量等于0.580,结果提示资料不满足独立性的要求。
独立性?--常识也认为同一医院不同年份之间的数据不是独立的。因此,可以认为本资料不满足多重线性回归分析的前提条件,不宜进行多重线性回归分析。
正确做法 由于各年数据前后可能存在关联性,即其取值与时间有关,故可以考虑采用时间序列等分析方法,此处从略
分支主题
多重线性回归的用途和注意事项
注意事项
哑变量化--无序多分类变量→k-1个二分类变量
哑变量化的变量与其他变量进行变量筛选时—-应将哑变量作为单独因素,整体进出回归方程
变量之间的相关性--是否存在多重共线性→计算各变量间的相关系数
分支主题
小结
logistic回归---非线性回归(分类变量Y)--计算OR-优势比→列方程→logit变换(对数)→求回归系数βi(回归系数的假设检验-waldx2检验)和事件发生概率Π
概述
线性回归--line,,logistic回归--非线性、分类变量
回归分析
一个因变量Y
分类变量Y--logistic回归
数值变量Y--一元回归/多重回归
两个因变量(时间+结局)→生存分析/cox回归
使用条件--分类变量,,(等级资料--秩和检验)
类型
logistic回归的主要效应指标--OR值及其95%CI。OR具有概率风险的含义,但OR=a/b➗c/d不等于RR=a/a+b➗c/c+d(相对危险度—相对于空白对照)(odds-优势-出现/不出现的概率)
服药组出血Y的优势odds1=a/a+b÷b/a+b=a/b
不服药组出血的优势odds2=c/d
OR值--odds ratio-优势比-odds1/odds2=a/b÷c/d=服药组出血的优势/不服药组出血的优势
RR-相对危险度=a/a+b÷c/c+d。155/4716÷96/44634--服药组出血率÷非服药组出血率(空白对照)
二分类logistic回归模型--病例与对照匹配--同一因素对疾病发生概率的影响
例--二分类结果--死亡,存活
分析:多因素--三个自变量--白细胞计数、淋巴结浸润、巩固治疗//二分类的因变量--生存/死亡
不能用线性回归(不满足line)→概率Π与x关系→logit变换(取对数)--改变因变量Y的取值范围
odds优势=a/b=Π/1-Π
原理--出血Y发生的概率与服药x之间的关系--odds-服药组出血的优势=a/b(出血的概率Π/不出血的概率1-Π)
logistic回归分析的基本原理就是利用一组观测数据拟合一个logistic模型,然后借助于这个模型来提示总体中若干个自变量与一个因变量取每个值的概率之间的依存关系,并评估用这一模型拟相关事物变化规律的准确性。
具体地说,logistic回归分析可以从统计意义上确定在消除了其它自变量的影响后,每一个自变量的变化是否引起因变量取某个值的概率的变化,并且估计出在其它自变量固定不变的情况下,每个自变量对因变量取某个值的概率的数值影响的大小。
分支主题
分支主题
β0--空白对照下 事件发生的概率(出血的概率),βi--y随x的变化幅度
例
OR值-优势比=odds1/odds2
βi—β大于0,OR大于e0(1)
样本量较大时,βi近似服从正态分布--计算置信区间
模型的假设检验---对数似然函数--G-X2分布--x2检验
分支主题
例--哑变量化--无序多分类变量→k-1个二分类变量
spss过程
自变量筛选:B=β--回归系数
分支主题
非条件logistic回归分析--病例与对照不匹配,多因素
注意事项·自变量筛选、哑变量化
条件logistic回归模型--匹配
例
分支主题
spss的cox回归可用于条件logistic回归
分支主题
小结
Logistic回归适用于
因变量Y为分类变量的研究问题
其自变量可是定时变量、有序或无序分类变量(哑变量化)。
常用于筛选危险因素、校正混杂因素、预测和控制(x对概率Π的影响)等。
Logistic回归模型的参数估计采用极大似然法--对回归系数的估计--最大似然估计
求解回归系数估计值后,仍需进行假设检验,
对回归方程的检验--似然比检验--(23条消息) 极大似然估计详解_知行流浪-CSDN博客_极大似然估计
目的:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
原理:极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计
对回归系数的检验--Wald x2检验
Logistic回归模型的参数β0表示在模型中所有自变量均为0 时,即在不接触任何潜在危险/保护因素条件下,效应事件优势(odds)的对数值(空白对照)
βi 为Xi 的Logistic回归系数,表示在控制其它自变量时,自变量Xi 每变化一个单位所引起 效应事件优势改变的对数值 。
在Logistic回归模型中,自变量每增加1个单位,事件对应的优势比为OR=eβi
βi大于0时,OR>1, 说明Xi的增大是疾病的危险因素;
βi=0时,OR=1, 说明Xi的变化与疾病无关;
βi小于0时,OR<1, 说明Xi的增大是疾病的保护因素。
对数转换(logit转换)--改变等式左边的取值范围()
ORi --优势比--表示在其它自变量取值不变的情形下, Xi 每变化一个单位后与增加前相比较,阳性事件的优势比(出血/不出血)
多自变量logistic回归
校正混杂因素
筛选影响因素
疾病预测和预后
分支主题
OR--优势比=a/b÷c/d=实验组发生的优势(Π/1-Π)/对照组发生的优势
ln(odds1/odds2)=ln(odds1)-ln(odds2)
练习
一项前瞻性队列研究中,欲研究某疾病与甲、乙两因素的关系,数据见教材表
案例辨析 三种做法所得结果不完全一致,这是很正常的,不能根据研究者的主观愿望去选择结果,应根据资料的实际情况、统计分析的结果及其与实际情况的吻合程度来决定应选取哪一种统计分析方法
正确做法 --欲研究某疾病与甲、乙两因素的关系,可以采用Logistic回归研究疾病的发生与否与甲、乙两个因素的关系。
单变量模型分别将甲因素与乙因素引入Logistic回归模型,由于可能存在其他混杂因素,单变量模型分析的结果并不可靠。将甲、乙两个因素同时纳入模型,若根据专业知识判断,甲、乙两因素间不存在交互效应,则建立主效应模型;
若甲、乙两因素间可能存在交互效应,则应选用有交互效应的全模型,但不宜用标准化回归系数比较主效应与交互效应对疾病发生的影响程度,因为交互效应除依赖于乘积项的系数外,还依赖于两个变量的乘积?
某感冒颗粒治疗小儿急性上呼吸道感染风热证的三期临床试验研究中,选择东中西5家三级甲等医院儿科为试验中心,根据试验方案,PP数据集样本共428例。因变量为疗效(有效赋值1,无效赋值0),影响疗效的可能因素有药物(服用某感冒颗粒赋值x1=1,服用对照药赋值x1=0)以及5个临床试验中心(x2),原始记录数据经汇总整理,试验组322例,对照组106例,5个分中心治疗病例数及治疗结局见教材表
案例辨析 盲目运用变量筛选方法进行变量筛选是不妥当的。
正确做法 该研究关注中心变量与药物间是否存在交互效应。分析两变量的交互效应时,模型中必须包含相应两变量的主效应,运用SPSS软件计算时,将药物变量、中心变量以及中心与药物交互项均纳入SPSS软件logistic回归界面的变量框,而且三个变量均需作为强制引入变量,因此不能采用SPSS软件提供的逐步法自动筛选变量。
某医师研究某市成年人(≥18岁)抑郁症发生的危险因素。从该市成年人随机抽取294人的一个样本,其中有抑郁症50人,无抑郁症244人。3个可疑影响因素分别为性别x1(0为男,1为女)、年龄x2(年龄/10)、健康状况x3(1为很好,2为好,3为良,4为差)。该医师作了抑郁症发生和3个因素的logistic回归分析,结果见教材表
案例辨析
(1)“女性、低年龄和健康状况差”分别是“性别、年龄和健康状况”这三个因素的一个水平,混淆了因素与水平的概念;当logistic回归方程中自变量单位不同时,不能直接通过回归系数或相应的值比较各自变量对因变量的影响程度。
(2)计算结果不正确。
正确做法
(1)需比较标准化回归系数。由标准化回归系数可知,年龄对抑郁症发生的作用最大,健康状况的作用次之,性别的作用最小。
(2)年龄每增加10岁,抑郁症发生的优势比为0.249 3,表示其他两因素取值固定,年龄每增加10岁,抑郁症发生的优势是增加前的24.93%,降低约75%;年龄每增加20岁,抑郁症发生的优势比为=0.062 2,表示其他两因素取值固定,年龄每增加20岁,抑郁症发生的优势是增加前的6.22%,降低约94%。
分支主题
生存分析-298-,生存率估计(曲线)--寿命表法/kaplan,生存曲线的比较--log-rank,cox回归--比例风险回归模型
csdn
一、基本概念和名词解释
1.生存分析(survival analysis)--是研究生存现象和响应时间数据及其统计规律的一门学科。是将事件的结果(终点事件)和出现这一结果所经历的时间结合起来分析的一种统计分析方法。
生存分析与其他多因素分析最大的区别,就是生存分析考虑了观测结果出现的时间长短。
2.生存时间(survival time, failure time)--终点事件与起始事件之间的时间间隔。
终点事件:研究者所关系的特定结局。
起始事件:反应研究对象生存过程的起始特征的事件。
终点事件与起始事件是相对而言的,都是由特定的研究目的所决定的,是整个研究过程的标尺,需要在设计时明确规定,并在研究期间严格遵守,不能随意改变。
生存时间举例
分支主题
起始事件 终点事件
服药 —–> 痊愈
手术切除 —–> 死亡
染毒 —–> 死亡
化疗 —–> 缓解
缓解 —–> 复发
3.生存时间的类型(survival time, failure time)
(1) 完全数据(complete)--从起点至死亡(死于所研究疾病)所经历的时间
(2) 删失数据(censored)—指在观察或试验中,由于人力或其他原因未能观察到所感兴趣的事件发生,因而得到的数据。
可见删失数据得到的时间是并不准确的
删失原因:失访、死于其它疾病、观察结束时病人尚存活
删失分类:
左删失(left censored)—只知道实际生存时间比观察到的要短
右删失(right censored)—只知道实际生存时间比观察到的要长
区间删失(interval censored)—只知道实际生存时间在某个区间范围内
生存时间度量单位可以是年、月、日、小时等,常用符号t表示,右删失数据右上角标记“+”,其他删失数据标记“?”。
注意:删失数据不等于截尾数据
截尾数据(Truncation)只有“左截尾”和“右截尾”两种。
左截尾:数据都大于某个值
右截尾:数据都小于某个值
截尾数据的产生,往往是因为实验设计的要求使得数据天然具有上界或者下界。
如一个实验研究退休职工的生存情况,那么显然这些数据都是左截尾的,因为所有个体的年龄都大于退休年龄(如t≥60)
截尾与删失的区别
1.产生原因不同
删失数据的产生往往是随机的,不可事先预知的,如失访等
截尾数据在实验设计时往往就可以提前预知
2.“左右”意义不同
左截尾是数据大于某个值,左删失是数据小于某个值
右截尾是数据小于某个值,右删失是数据大于某个值
3.描述级别不同
删失数据体现的是个体数据的特点,如某个患者的数据是删失的
截尾数据体现的实验中样本整体的特点,如上面说的都大于60岁
二、统计概念和名词解释
申明:生存时间的分布一般不呈现正态分布
1.条件生存概率(conditional probability of survival)---
表示某时段开始存活的个体,到该时段结束时仍存活的可能性。
年条件生存概率表示年初尚存人口存活满一年的可能性。p=活满一年例数➗年初观察(存活)例数
2.生存率(survival rate, survival function)
观察对象经历t个单位时间段后仍存活的可能性。p=活满三年例数➗期初观察例数
如期初观察例数为100,术后1、2、3年死亡总数分别为10、20、30,无截尾数据,试求各年条件生存概率及逐年生存率。
可以看出,条件概率是单个时间段的结果,而生存率实质上是条件概率的累积结果。例如,3年生存率是第一年、第二年、第三年都存活的可能性。
即 第三年存活=第三年条件存活×第二年条件存活×第一年条件存活
可见生存率的计算根据原理分为:
直接法:直接按概率定义计算
概率乘法定理:用各年条件生存概率相乘
3.描述函数(conditional probability of survival)
生存函数S(t):观察对象的生存时间T大于某时刻t的概率称为生存函数(survival function)。
S(t)=t时刻尚存活的例数➗期初观察例数
死亡函数S(t):观察对象的生存时间T不大于某时刻t的概率称为死亡函数(failure function)。
F(t)=1−S(t)
死亡密度函数f(t):观察对象在某时刻t的瞬时死亡率为死亡密度函数(failure density)
h(t)=观察对象在[t,Δt]时间内的死亡人数➗期初观察例数∗Δt=Δ死亡率➗Δt=F′(t)
风险函数h(t):生存到时刻t的观察对象在时刻t的瞬时死亡率称为风险函数(hazard function)---可以理解为一种条件死亡密度
S(t)=f(t)➗S(t)=观察对象在[t,Δt]时间内的死亡人数➗t时刻尚存人数∗Δt
4.生存曲线(survival curve)
以观察(随访)时间为横轴,以生存率为纵轴,将各个时间点所对应的生存率连接在一起的曲线图。
生存率是一条下降的曲线,分析时应注意曲线的高度和下降的坡度。平缓的生存曲线表示高生存率或较长生存期,陡峭的生存曲线表示低生存率或较短生存期。
例
某医师收集20例脑瘤患者甲、乙两疗法治疗的生存时间(周)如下:其生存曲线如下:
甲疗法组 1 3 3 7 10 15 15 23 30
乙疗法组 5 7+ 13 13 23 30 30+ 38 42 42 45+
生存率的具体算法和曲线的画法,在生存分析(2)中将详细介绍
5.中位生存期(median survival time)---又称半数生存期,表示恰有50%的个体尚存活的时间------
中位生存期越长,表示疾病的预后越好,中位生存期越短,预后越差。
估计中位生存期常用图解法或线性内插法。
注:
预后:指预测疾病的可能病程和结局
线性内插法:根据一组已知的自变量及其对应的函数值,利用等比关系求解未知函数值的方法。
三、生存资料统计学处理
(一)设计
目的:
专业目的:根据专业领域所需而定
统计学目的:
1) 估计:根据样本生存资料估计总体生存率及其它有关指标(如中位生存期等),如根据脑瘤患者治疗后的生存时间资料,估计不同时间的生存率、生存曲线以及中位生存期等。
2)比较:对不同处理组生存率进行比较,如比较不同疗法治疗脑瘤的生存率,以了解哪种治疗方案较优。
3)影响因素分析:目的是为了探索和了解影响生存时间长短的因素,或平衡某些因素影响后,研究某个或某些因素对生存率的影响。如为改善脑瘤病人的预后,应了解影响病人预后的主要因素,包括病人的年龄、性别、病程、肿瘤分期、治疗方案等。
4)预测:具有不同因素水平的个体生存预测,如根据脑瘤病人的年龄、性别、病程、肿瘤分期、治疗方案等预测该病人t年(月)生存率。
方法:
前瞻性队列研究:
前瞻性队列研究是队列研究的基本形式。研究对象的分组是根据研究对象现时的暴露状况而定的,此时研究的结果还没有出现,需要前瞻性观察一段时间才能得到。
回顾性队列研究
回顾性队列研究的研究对象是根据其在过去某时点的特征或暴露情况而入选并分组的,然后从已有的记录中追溯从那时开始到其后某一时点或直到研究当时为止这一期间内,每一成员的死亡或发病情况。
回顾性队列研究实际做的是在现在调查过去的既成事实,这时暴露与疾病或死亡均已成事实,而前瞻性队列研究的随访则是查寻在过程中新出现的病例或死亡及其死因。
(二)收集资料
1.确定起始事件、终点事件、随访终止日期、生存时间、截尾。
2.确定可能的影响因素、水平以及量化方法。如:
3.设计调查表:
一览表:因素较少时
单一表:因素较多时
调查表中应包括
可能的影响因素
观察起点和终点(年、月、日)
生存时间
生存结局
样本含量:非截尾例数至少是可能影响因素的10倍
(三)整理资料
认真检查、和对原始数据,包括影响因素、生存时间和生存结局
尽量避免缺失值
建立数据库
生存资料基本要求
样本由随机抽样方法获得,要有一定的数量
死亡例数不能太少
结尾比例不能太大
生存时间尽可能准确。因为常用的生存分析方法都在生存时间排序的基础上做统计处理,即便是小小的舍入误差,也可能改变生存时间顺序而影响结果
缺项应尽量补齐
(四)分析资料
估计: Kaplan-Meier法,寿命表法
比较: log-rank检验,Wilcoxon 秩和检验
影响因素分析: Cox比例风险回归模型
预测: Cox回归模型预测生存率
分支主题
(20条消息) 生存分析(2)_xiaohukun的博客-CSDN博客---生存率算法--K-M法、寿命法
Kaplan-Meier法由Kaplan和Meier于1958年提出,直接用概率乘法定理估计生存率,故称乘积极限法(product-limit method),是一种非参数法。
(20条消息) 生存分析(3)_xiaohukun的博客-CSDN博客---cox比例风险回归模型
分支主题
生存曲线—304
log-rank
分支主题
分支主题
breslow=wilcoxon
分支主题
分支主题
cox回归--306
https://blog.csdn.net/zfcjhdq/article/details/83502854
分支主题
分支主题
概述
生存分析---结局+时间,,
特点
两个因变量--结局+生存时间
生存时间非正态分布--非负//右偏
可能有删失数据,结尾数据=删失数据
分支主题
例
分支主题
死亡概率=死亡人数/年初人数(若有删失数据--校正人口数--分母)
生存概率=1-q
生存率=年末生存人数/年初总人数
生存概率和生存率--生存概率的累计结果
风险函数
中位生存期--50%个体存活的时间//生存率50%时对应的生存时间
生存分析步骤:生存曲线(kaplan)→组间比较(log-rank)→cox回归(生存时间与影响因子的关系)
生存率/曲线的估计--绘制生存曲线--大样本-寿命表法(频数表)/小样本-kaplan-乘积极限法
寿命表法--时间区间的生存率(1-死亡率)--大样本
乘积极限法--kaplan-meier--将生存时间按大小排列(时间区间不一定相同),然后计算生存率---小样本 /censor--删失数据
例一
例二--两组生存率比较 / cumulative proportion累积的--率/proportion-概率
生存曲线的比较--log-rank检验(非参数法)-比较两个生存函数(生存曲线/生存率)是否有差别--按生存时间排序→死亡人数的计算实际值与理论值→近似x2检验
例
近似服从x2分布--X=(Ag-Tg)2/Tg--Ag实际死亡数,Tg理论死亡数(比较两样本均数有无差别)
注意
log-rank-单因素方差分析--多样本均数的比较--F=MS组间/MS组内(变异的均方)
RR-相对危险度
cox回归--比例风险回归模型(半参数法)--以生存结局和生存时间为因变量,研究多种因素对生存时间的影响--参数估计-回归系数估计-偏似然估计PLE,假设检验-似然比检验(整个模型),waldX2(单个回归系数βi)(近似X2检验)
例
分支主题
h(t)-t时刻的风险率,HR风险比=hi(t)/hj(t)--两个群体风险函数之比
HR--风险比/危险度
PI-预后指数--线性组合
RR=相对危险度=a/a+b÷c/c+d
HR--风险比/危险度--两个群体的风险函数之比
风险函数h(t):生存到时刻t的观察对象在时刻t的瞬时死亡率称为风险函数(hazard function)---可以理解为一种条件死亡密度
参数估计和假设检验--PLE-偏似然估计--获得参数G
样本量大时→bj(偏回归系数)近似服从正态分布
分支主题
cox回归前提条件--比例风险HR不随时间改变
分类变量-kaplan--生存曲线无交叉/
分支主题
waldX2-logistic回归系数假设检验
利用试验结果得到某个参数值能够使样本出现的概率为最大
例--分析生存情况的影响因素
筛选自变量方法不同,结果也会不同--enter/stepwise
分支主题
分支主题
预后指数pi
结果报告:生存率(寿命表法、laplan)、生存率比较(log-rank-近似x2检验)、影响因素分析(HR)
注意事项
PH假定--自变量不随时间变化而变化--满足比例风险假定-HR=hi(t)/hj(t)
样本量估计--协变量数×10~15,R2--决定系数-回归的效果,RR--相对危险度
分支主题
分支主题
小结
分支主题
logistic回归/cox回归对比
线性回归—y是数值变量/连续变量
logistic--分类变量--筛选危险因素、校正混杂因素、预测和控制(x对概率Π的影响)
cox回归--因变量--时间+结局--预测风险、分析影响因素
分支主题
练习
1. 生存分析的主要用途及其统计学方法有哪些?HR-风险比,h(t)--某一时间的风险率
估计--生存率--寿命表法/KM法:即根据一组生存数据估计它们所来自的总体的生存率及其他一些有关指标。如根据白血病化疗后的缓解时间资料,估计不同时间的缓解率、缓解率曲线以及半数生存期。估计生存率常用寿命表法和Kaplan-Meier(K-M)法。
比较--生存率比较--log-rank/breslow:即比较不同受试对象生存数据的相应指标是否有差别。最常见的是比较各组的生存率是否有差别,如比较不同方案治疗白血病的缓解率曲线,以了解哪种治疗方案较优。生存曲线比较常用log-rank检验和Breslow检验。
生存预测:具有不同因素水平的个体生存预测估计,如根据白血病患者的年龄、病程、白细胞数等预测该患者年(月)生存率。生存预测常用Cox回归。
影响因素分析--:其目的是为了研究影响生存时间长短的因素,或在排除一些因素影响的情况下,研究某个或某些因素对生存率的影响。例如,为改善白血病患者的预后,应了解影响患者预后的主要因素,包括患者的年龄、病程、白细胞数、化疗方案等。影响因素分析常用Cox回归。
HR-风险比
预后指数pi
分支主题
PLE--偏似然估计--回归系数的估计
建立对数似然函数→
求参数的最大似然估计值(偏回归系数βj)
→比较包含/不包含某因素的两个模型的对数似然函数
→统计量G--deviance-差异
偏回归系数βj的区间估计--样本量较大时
风险比HR置信区间
假设检验
检验整个模型--回归方程是否成立--因变量和自变量关系能否用此回归方程表示---似然比检验
检验单个回归系数(是否为0--是否相关--是否存在此自变量对因变量的影响)---waldx2检验(近似x2检验)
2. 生存率估计的K-M法和寿命表法是如何利用删失数据的?
常见的右删失数据表示真实的生存时间未知,只知道比观察到的删失时间要长。因此,生存率估计的K-M法和寿命表法计算期初例数时,都利用了删失数据提供的这部分信息。?
3. Cox回归与logistic回归都可作临床研究中的预后分析,两者的主要区别何在?
Logistic回归模型可以作多因素预后分析,控制混杂因素效应,并可进行相对危险度估计,但不能处理随访中常见的删失数据。另外,
logistic回归模型仅考虑随访结局(生存或死亡、有效或无效),而未考虑出现该结局的时间长短。
Cox比例风险回归模型的效应变量是生存结局和生存时间,它不仅可以从事件结局的好坏,而且可以从发生事件的时间长短进行分析比较
Cox回归具有logistic回归模型的所有优点,并可以处理删失数据,能够更全面地作预后分析。但当数据失访较少或结局事件发生数较少时,宜用logistic回归分析。
4. Cox回归中的RR表示什么?如何解释RR的大小?
RR表示相对危险度(relative risk)或风险比(risk ratio),其含义是在其他协变量不变条件下,变量每增加一个单位所引起的终点事件发生风险增加到的倍数。
HR-hazard-风险比/危险度--HR=hi(t)/hj(t)--两个群体风险函数之比
h(t)-t时刻的风险率
OR优势比-logistic回归--OR=odds1/odds2=a/b÷c/d=实验组发生的优势(Π/1-Π)/对照组发生的优势
分支主题
正确做法
(1)应作为删失病例,删失生存时间的计算为从手术切除到最后一次随访的时间。
(2)死于脑梗死的病例应当作删失病例,删失生存时间的计算为从手术切除到死于脑梗死的时间。
(3)该医师的发现与中位生存期的定义并不矛盾,中位生存期不能与个体生存时间相混淆
分支主题
案例辨析 甲医师和乙医师所采用的统计分析方法都不恰当。甲医师仅考虑生存结局,未考虑生存时间;乙医师仅考虑生存时间,未考虑生存结局,而且不该采用多重线性回归,因为生存时间并不服从正态分布。
正确做法 同时考虑生存结局和生存时间,采用Cox回归进行校正混杂因素后的组间比较
分支主题
案例辨析 由于两条生存曲线出现明显交叉,说明该数据不满足Cox模型的PH假定,Cox回归分析结果并不可靠。
正确做法 由于数据不满足PH假定,进一步分析可采用含时协变量的Cox回归
1. 手术治疗100例食管癌患者,术后1、2、3年的死亡数分别为10、20、30,若无删失数据,试求各年生存概率及逐年生存率。
各年生存概率
p1=0.9
p2=1-2/9(死亡率)=0.7778
p3=1-3/7(当年年初人数)=0.5714
逐年生存率
p1=9/10=0.9
p2=7/10(初始人数)=0.7=第一年生存概率×第二年生存概率=0.9×
p3=0.4
诊断试验研究--真实性/可靠性/收益评价 //ROC-寻找某项诊断指标的最佳诊断
试验设计与资料形式
选择研究对象
诊断实验最适宜--早期诊断可改善预后的疾病
金标准
假阳性--金标准(-),新方法(+)
临界值/截断值
真实性--符合程度,可靠性--重复的稳定程度,收益--预测
常用诊断实验的评价指标--真实性、可靠性、收益指标
真实性指标
灵敏度(sensitivity,Sen) =真阳性率TPR--反映诊断试验检出病例的能力
特异度(specificity,Spe )=真阴性率TNR--反映排除非病例的能力
假阳性率(false positive rate,FPR)--误诊率
假阴性率 (false negative rate,FNR) =18/134--漏诊率(误判为阴性)
约登指数(Youden’s index)=灵敏度(真阳性率)+特异度(真阴性率)-1
=真阳性率+(1-假阳性率)-1
=真阳性率-假阳性率(正确诊断指数/正确指数)
=116/134-6/38
粗一致率(crude agreement rate,CAR)--准确度-accuracy
CAR=A+D/A+B+C+D---是诊断试验所检出的真阳性(检出)与真阴性(排除)例数之和所占受试人数的百分比。
可靠性指标/信度--某一诊断方法在相同条件下重复测量同一受试对象,所得到的结果的一致性 影响因素:受试对象的变异、观察者变异、实验条件
变异系数cv--定量诊断实验
符合率=粗一致率(CAR-crude agreement rate)--定性诊断实验--两次检测结果相同的人数(a+d-真阳性+真阴性)占总人数的百分比(真阳性率)=真阳性率+真阴性率
kappa值--定性诊断实验--不同观察者对同一批结果判定的一致性//同意观察者在不同情况下对同一批结果判定的一致程度
考虑了机遇因素对一致性的影响
实质上是实际一致性(一致性-机遇一致性)/非机遇一致性
Pa=CAR-粗一致率/符合率
Pe--机遇一致性=(a+b)(a+c)+(c+d)(b+d)/N2=R1C2×R2C2/N2 ?
R×C表
间接受益评价指标--个体效益、社会效益
预测值--
阳性预测值PV+--诊断实验阳性者患目标疾病(金标准检验)的可能性--真阳性率×
阴性预测值PV➖--诊断实验阴性者不患目标疾病的可能性
诊断试验中阳性预测值和阴性预测值的计算,不仅受该疾病在人群中患病率的的影响,还受该诊断方法灵敏度(真阳性率)和特异度(真阴性率)的影响。
P0?--患病率对预测值的影响
患病率高时阳性预测率高
患病率低时阴性预测值高
灵敏度(真阳性率-检出)和特异度(真阴性率-排除)对预测值的影响
灵敏度(真阳性率)降低,阴性预测值下降-?
特异性(真阴性率)升高,阳性预测值升高
分支主题
分支主题
似然比--病例中出现某种检测结果的概率与对照中出现相应结果的概率之比--估计最大可能性
阳性似然比--真阳性率与假阳性率之比(a/b),说明病例中出现某种检测结果阳性的概率是对照的多少倍(检出/误诊)
阳性似然比取值范围(0, ∞),越大,诊断试验证实疾病的能力越强
阴性似然比--假阴性率与真阴性率之比(c/d),说明病人中出现某种检测结果(ECT阴性结果中)阴性的概率是非病人(真阴性率)的多少倍
阴性似然比取值范围(0, ∞)越小,诊断方法排除疾病的能力越好
logistic--似然比
参数估计-最大似然估计MLE--回归系数β的估计
假设检验--似然比检验--检验方程是否成立
cox--似然比
参数估计(同上)
假设检验(同上)
分支主题
分支主题
联合诊断--采用多个诊断试验判定一种疾病--提高灵敏度(并联)或特异度(串联)
分支主题
◼ 并联(扩展)--提高灵敏度(真阳性率)--提高假阳性率(误诊率)--通过率更高,但假阳性(阴性)通过率也更高
① 必须迅速做出判断;
② 目前尚无一种灵敏度很高的试验;
③ 灵敏度高的试验费用昂贵且安全性差;
④ 漏掉一个病人时后果严重,应尽可能发现全部病人。
◼ 串联(过滤)--提高特异性(真阴性率)--提高假阴性率(漏诊率)--过滤掉更多的阳性(假阴性)
① 不必迅速做出判断;
② 目前对该病的几种诊断方法特异度不太高;
③ 必须做某些昂贵或不安全的试验。
分支主题
ROC分析-诊断和筛查试验---寻找某项诊断指标的最佳诊断界值
ROC曲线
纵坐标:TPR(灵敏度=真阳性率)◆ 表示在所有敌机来袭的事件中,每个雷达兵准确预报的概率
横坐标:FPR(假阳性率=1-特异度=误诊率)◆ 表示所有飞鸟事件中,雷达兵预报错误的概率。
敏感性和特异性的组合正好反应在一条曲线上,这条曲线就是后来被广泛应用在医疗和机器学习领域的ROC曲线
➢ ROC曲线和ROC曲线下面积可作为某一诊断方法准确性评价的指标;
➢ 使用ROC曲线可对同一疾病的多种诊断试验进行评价,可帮助临床医生筛选出最佳诊断方案
例:BMI在筛查乳腺癌中的作用--连续性资料的ROC
BMI--截断值--判定阴阳性的阈值--截断值不同,特异性和敏感性不同
对角参照线:因为对角线上对应数据点其假阳性率和真阳性率都相等(一半的误诊率),那么,如果ROC曲线延着对角线分布,表示分类是由随机因素造成的,正确分类和错误分类的概率都是50%,那么该诊断方法完全无效。
理论上最优ROC曲线:应该是从左下角垂直上升到顶线,然后水平方向向右延伸到右上角。(曲线下面积AUC=1)
ROC曲线在左上越远离对角线越好。
最优临界点选择
1. 选择原则:TPR高的同时,FPR要尽量小(对角线左边)
2. 选取方法:
①距离左上角(0,1)最近的点;
②Youden指数最大的点 (约登指数-正确诊断指数=真阳性率-假阳性率=y-x)
AUC
1.是对ROC曲线进行评价的统计量,指ROC曲线与x轴、(1,0)-(1,1)围绕的面积,如图1阴影部分。
2.如果一项诊断试验的灵敏度是1,特异度也是1(假阳性率=0),则AUC为1,说明该指标能完全正确地区分“患病”和“非患病”人群,但这样的诊断几乎不存在;同样也不存在AUC为0的情况。
3. AUC取值在0.5和1.0之间,越接近于1,说明诊断效果越好;
AUC在0.9以上时有较高准确性;
AUC在07-0.9时有一定准确性;
AUC在0.5~0.7时有较低准确性;
AUC=0.5时,相当于靠“掷钱币”下结论,毫无诊断价值。
AUC<0.5不符合真实情况,在实际中极少出现
4. 选择最优截断值:一般软件上并没有直接提供截断值,但会提供诊断变量X不同取值时相对应的灵敏度和特异度,可据此计算约登指数(灵敏度+特异度-1=真阳性率-假阳性率=y-x---正确诊断指数),一般选择Youden指数最大时对应的X为截断值。
spss
分支主题
例:等级资料的ROC
spss
ROC分析的注意事项
1. 仅对定量资料或等级资料方可作ROC曲线分析。
对于等级资料,一般要有 5个以上的等级才有ROC 曲线分析的必要。以5级分类资料为例,首先按级别从大到小排列,分别以前4个分类作为诊断界值(规定大于等于诊断界值者为阳性,小于该值者为阴性)整理出4个四格表,并计算每个诊断界值所对应的灵敏度和特异度;后以1-特异度为横坐标,灵敏度为纵坐标制作出ROC曲线。
2. ROC曲线分析不仅可将试验结果分为“正常”、“异常”两类;也可根据实际情况,把结果划分为有序分类的多个等级,如“正常”、“大致正常”、“可疑”、“大致、可疑”和“异常”五个等级
3. 从表1中的数据来看,可能认为AC SPECT诊断试验的灵敏度(0.80)高于SPECT/CT诊断试验的灵敏度(0.70);但是从图2我们可以看出,无论是在哪一个假阳性率的位置上,SPECT/CT诊断试验的灵敏度都比AC SPECT诊断试验的灵敏度好。可见,在实际临床工作中,仅以某一个截点的数据评价不同试验的灵敏度是不准确的,我们应根据ROC曲线下面积进行综合判断。
4. 不一定要选择ROC曲线下面积比较大的诊断试验
ROC曲线仅仅是综合评价一项诊断试验的灵敏度和特异度两个指标,它的绘制方法与受试人群的患病率以及漏诊、误诊的危害程度无关。
例:通过诊断试验判断无症状人群的心血管病变情况。
在临床实际中,这些无症状的就诊人群真实患心血管病变的可能性相对较小。为了减少误诊带来的医疗资源浪费和恐慌,可能会更倾向于选择特异度较高的诊断试验和截点。
在这种情况下,灵敏度指标对诊断试验的整体准确性的影响较小。应根据ROC曲线中的一部分(特异度较高的区域),而不是全部的ROC曲线下面积来选择诊断试验。
可见,完全依靠ROC曲线下面积评价诊断试验的准确性是容易产生误导的。即使是ROC曲线下面积相同的两个诊断试验也可能存在不同的临床适用范围
ROC曲线A和B有交叉
➢ 曲 线 A 下的面 积 ( 0.85) 比 曲线 B 下的面积(0.80)大。
➢ 但,如果在临床应用中需要一个特异度比较好(横轴--假阳性率=误诊率=1-特异性)的诊断试验,B诊断试验应该成为首选。
➢ 因为在特异度高、假阳性率低的区域,诊断试验B的ROC曲线优于诊断试验A。
小结---在适合的受试人群和受试条件下,诊断试验的真实性才能得到保障---在实际工作必须根据受试人群的特征、诊断结果的临床影响、诊断的经济成本等因素综合选择适合的诊断试验
论文--医学论文中ROC曲线应用错误例析
样本含量计算--相关因素--灵敏度、特异度、显著性检验水平a、容许误差//样本量n↑--一二类错误均会减小
n:所需样本量
uα:正态分布中累积概率为α/2时的u 值,(如u0.05=1.96);
δ:为容许误差,一般定在0.05~0.10;
p:为待评价筛查方法的灵敏度或特异度。用灵敏度估计病例组所需样本量,用特异度估计对照组样本量
➢假如待评价筛检试验的估计灵敏度为75%,估计特异度为55%,试计算病例组和对照组所需样本量。
➢ 设α=0.05,δ=0.08。
➢ n1=(1.96/0.08)2×(1-0.75)×0.75=113:病例组--灵敏度
➢ n2=(1.96/0.08)2×(1-0.55)×0.55=149:对照组--特异度
诊断试剂对临床试验样本量的要求:
◼ 基本原则:
(1)在符合指导原则有关最低样本量要求的前提下,还应符合统计学的要求。
(2)各临床试验机构样本量和样本分布应相对均衡?
(3)罕见病及用于突发公共卫生事件的体外诊断试剂---可酌减样本量,但应说明理由,并满足评价的要求、
◼ 特殊要求:不同原理的方法不同,依规办理即可
小结
1.诊断试验的设计通常有确定金标准、选择研究对象、确定诊断临界值/评价
指标/评价方法。并进行评价4个步骤,其资料常整理成四格表形式。
2.诊断试验的常用评价指标有真实性评价指标、可靠性评价指标和收益评价
指标三个大类;其真实性评价指标包括有有灵敏度、特异度、约登指数等;
可靠性评价指标有变异系数、符合率、Kappa值等;收益评价指标有阳性
(阴性)似然比(预测值)……
3. ROC曲线绘制及面积计算,其作用有 1)评价任意界值对疾病的识别能力,
2)选择最佳诊断界值, 3)比较两种或以上不同诊断试验对疾病的识别能力。
4. 诊断试验研究设计中样本量的计算。
医学论文的统计学报告指南
医学论文的统计报告
分支主题
.
统计术语和结果报告
小结
RCT(随机对照试验)-CONSORT声明
分支主题
宗旨:凡可导致干预效果评估偏倚的信息均应纳入其核对表
研究者在试验设计时就要想到试验结束后论文的发表,在开始试验前就认真领会其相关的“医学论文报告规范 ”要求,这也可促使研究者按照严格的标准去设计和执行试验。
流程图、清单、例
基本内容
清单
randomised controlled trial--随机对照试验
RCT论文自查清单
观察性研究--STROBE声明
清单
例
例
中介效应
诊断准确性--STARD清单
清单
分支主题
遗传关联性研究--STREGA
Meta/综述--prisma
PRISMA--RCT
流程图/清单
分支主题
MOOSE--观察性研究
动物实验--QUOROM、MOOSE
制定检索策略报告规范的建议--STARLITE声明
Meta分析--Cochrane专用报告格式
分支主题
分支主题
统计分析(大纲)
统计描述
定量变量统计描述
定性数据统计描述
统计图和统计表
统计推断
参数估计
假设检验
差异性比较
定量资料
t--正态、方差齐--两样本均数比较
t’--正态、方差不齐
秩和检验--非正态、等级
方差分析--多样本均数比较(独立、随机、正态、方差齐)
方差分析的步骤:假设→计算统计量F→求概率值P做出推论
F=MS组间/MS组内(MS=SS/V)
方差齐性检验=F检验--F=S2/S2≥Fa/2,(v1,v2)→则P≤α → 拒绝H0,接受H1 → 可以认为两总体方差不齐→不可以使用两独立样本t检验,而应采用t’
定性资料
x2--比较两种方法阳性率有无差异/构成比
秩和检验(非正态、方差不齐)
两样本--wilcoxon
多样本--kruskal-wallis
关联性分析-r-关联程度
定量资料--
pearson-线性相关(双变量正态分布)(假设检验-t检验)
spearman--秩相关(非正态、等级)(假设检验-t检验)--非参数法
定性资料--
X2检验--两种属性有无关联
kendall--分类变量秩相关(非正态、等级)--适用于合并等级资料
回归分析
定量资料--线性回归
定性资料--logistic回归
生存分析--cox回归
统计基础
绪论
1.基本概念:
总体:根据研究目的确定的性质相同或相近的研究对象的某个变量值的全体。
样本:从总体中随机抽取部分个体的某个变量值的集合。
总体参数:刻画总体特征的指标,简称参数。是固定不变的常数,一般未知。
统计量:刻画样本特征的指标,由样本观察值计算得到,不包含任何未知参数。
抽样误差:由随机抽样造成的样本统计量与相应的总体参数之间的差异。
频率:若事件A在n次独立重复试验中发生了m次,则称m为频数。称m/n为事件A在n次试验中出现的频率或相对频率。
概率:频率所稳定的常数称为概率。
P值
p值-H0成立的条件下出现目前统计量甚至更极端值的概率
p<a--只能说明差异有统计学意义,还不能说明有临床意义---还需要一个专业上认可的界值
p值越小,并不意味总体参数差别越大,只能说明更有理由认为总体参数的不同
统计描述:选用合适统计指标(样本统计量)、统计图、统计表对数据的数量特征及其分布规律进行刻画和描述。
统计推断:
参数估计---用样本统计指标(统计量)来推断总体相应指标(参数),称为参数估计。
假设检验---用样本差别或样本与总体差别推断总体之间是否可能存在差别,称为假设检验。
2.样本特点:足够的样本含量、可靠性、代表性。
3.资料类型:
(1)定量资料:计量资料
(2)分类资料:
①计数资料:
二分类:将观察对象按两种对立的属性分类,两类间相互对立,互不相容。
多分类:将观察对象按多种互斥的属性分类
②等级资料
成组设计与配对设计
配对设计
1.配对的两个受试对象分别接受两种不同的处理
2.同一受试对象接受两种不同的处理
3.同一受试对象处理前后的结果进行比较(即自身配对)
4.同一受试对象的两个部位给予不同的处理
成组设计
将受试对象随机分配成两个处理组,每一组随机接受一种处理.
定量数据的统计描述
定量变量/有序变量
频数表和直方图的作用:用于观察个数较多资料的统计描述,可以直观提示资料的分布特征和分布类型。
集中趋势、离散趋势的指标及适用范围
集中趋势
集中趋势
算术均数---适用于对称分布————不适用于偏态分布和资料中出现极值的资料
几何均数G---适用于呈倍数关系的资料或对数正态分布的资料,尤其是正偏态分布————不适用于观察值中有0 或正负数值同时出现的资料
中位数M---适用于大样本偏态分布; 分布情况不明的资料;资料中有不确定数值的资料
百分位数Px---多个百分位数结合使用,全面描述数据分布的特征————用于确定医学参考值范围 (偏态或分布不明的资料)
众数M0---适用于大样本,较粗糙
离散趋势
极差R
优点:简单明了、容易使用。
缺点:
①只反映最大值和最小值间的差异,不能反映其他观察值的变异程度。
②样本容量越大,极差可能越大。
③极差的抽样误差大,不稳定。
四分位数间距Q 适用于确定医学参考值范围, 与中位数一起描述偏态分布资料变异程度
方差与标准差S 与均数一起描述对称分布,特别是正态分布或的分布特征
变异系数CV
①适用于比较度量衡单位不同资料的变异度
②比较均数相差悬殊的资料的变异度
③衡量实验精密度和稳定性的常用指标。
频数分布特征
高峰在中间,左右大致对称,称为对称分布。 平均数=中位数=众数
高峰偏向小值的一侧(左侧),称正偏态分布(亦称右偏态)。 平均数>中位数>众数
高峰偏向大值的一侧(左侧),称负偏态分布(亦称左偏态)。 平均数<中位数<众数
均数&标准差========正态或近似正态分布
中位数&四分位数间距===偏态分布
几何均数&对数标准差===对数正态分布
定性数据的统计描述
常用相对数
率:说明某现象发生的频率或强度。(病死率不等于死亡率)
构成比:说明某现象内部组成部分所占的比重或分布,常以百分数表示。
相对比:亦称比,是A、B两个有关指标之比,说明A为B的若干倍或百分之几。两个指标可以性质相同,也可以性质不同。
标准化率
比较两种不同人群的患病率、发病率、死亡率等资料,用以消除其内部构成(年龄、性别、工龄、病程长短、病情轻重)对 率 的影响
唯一作用:比较(不可用于反映实际水平)
注意事项:
1、计算相对数的分母不宜过小;
2、分析时不能以构成比代替率;
3、对观察单位数不等的几个率,不能直接相加求其平均率;
4、比较相对数时应注意其可比性;
5、对样本率(或构成比)的比较应遵循随机抽样,并做假设检验。?
正态分布与医学参考值范围
医学参考值范围--正常人解剖、生理生化指标数据大多数个体值的波动范围,通常情况下使用95%参考值范围
常用估计医学参考值范围的方法--正态分布法--正态分布的资料,,百分位数法--偏态分布的资料
常用的u值
二项分布
在n次独立重复的伯努利试验中,设每次试验中事件A发生的概率为p。用X表示n重伯努利试验中事件A发生的次数,则X的可能取值为0,1,…,n,且对每一个k(0≤k≤n),事件{X=k}即为“n次试验中事件A恰好发生k次”,随机变量X的离散概率分布即为二项分布(Binomial Distribution)
例如,某种细胞或成分的百分比、发病率、感染率等服从二项分布的资料,直接作方差分析是不妥当的,因为此类资料不服从正态分布。
poisson分布
统计表与统计图
统计表
结构:由标题、标目、线条和数字构成。
编制统计表的要求:
①标题:概括表的内容,列于表的上方居中,应注明时间和地点;
②标目:主语和谓语分别列于横、纵标目,文字简明,层次清楚。横标目列于表的左侧,通常为被研究的事物,纵标目列于表的上端,为说明横标目的统计指标。
③线条:通常,除表的顶线、底线、纵标目下以及合计上的横线外,其余线条均省去,顶线和底线应略粗些,表的左上角不宜用斜线。
④数字:用阿拉伯数字表示,同一指标的小数位数要一致并对齐,数字暂缺或无数字者分别用“…”或“-”表示,数字为0者要记作“0”,不应空项,为方便核实和分析,应有合计。
⑤备注:一般不列入表内,必要时可用“*”标出,列于表下。
统计图
直方图:表示连续性资料的频数分布;直条矩形面积代表各组频数
线图:用于连续性资料,用于说明事物在时间上的发展变化,或某现象随另一现象而变动的情况;
半对数线图:研究指标变化的速度
箱式图
比较两组或多组数据的平均水平和变异程度
各组数据均可呈现其平均水平、四分位数间距Q(箱体长度)、最值、中位数(中间横线)、P75\P25(两端)
箱体越长数据离散程度越大
主要适用于描述偏态分布的资料
误差条图:用于【相互对比关系】的资料;
②圆图与百分条图:适用于【百分构成比资料】,表示事物各组成部分所占的【比重或构成】;
⑤散点图:适用于直线相关分析,说明两个变量间的数量关系和变化趋势。
参数估计与假设检验-42
参数估计
标准误
标准差描述个体的变异,标准误描述统计量的变异
中心极限定理
分支主题
t分布--46
图形特征
1.以0为中心,左右对称的单峰分布的一簇曲线
2.其形态变化与n(确切地说与自由度ν)大小有关。
自由度ν越小,t分布曲线越低平
自由度ν越大,t分布曲线越接近标准正态分布(u分布)曲线。
自由度ν无穷大,t分布呈标准正态曲线
{P230} —— t分布界值表
表中数据表示t值大小
t 分布与正态分布比较
①都是单峰、对称分布
②t 分布峰值较低,而尾部较高
③随自由度增大,t 分布趋近与标准正态分布;当ν趋向∞,t 分布的极限分布是标准正态分布。
Z分布
置信区间(可信区间)——求总体均数μ
分支主题
两要素
准确度:由1-α决定,1-α 越大,准确度越高。(p=1-α)
精确度:由区间长度决定。(区间越短精确度越高)
99%置信区间准确度高于95%置信区间。95%置信区间精确度更高。
e.f. 参考值范围&总体均数95%的可信区间
【总体均数估计的95%可信区间】 该区间包括总体均数μ的概率为95%。
做100次抽样算得100个可信区间,平均有95个可信区间包括μ(即:估计正确),5个可信区间不包括μ(即:估计错误)。
95%【可信度】为估计正确的概率。
【总体均数】的区间估计(单个正态总体均数μ的区间估计)
分支主题
【两总体均数差值】的区间估计
求得结果的可信区间包含0,则无显著差异
e.g. 用于比较两种药物疗效的差别
【两总体率差值】的区间估计
假设检验
(1)基本思想
(2)基本步骤
1。建立假设,确定检验水准
H0:无效假设,差异存在但不显著或差异无统计学意义,通常是与结果相反的检验
H1:备择假设,差异显著或差异有统计学意义
双侧:只关心是否相等
单侧:关心某一方是否大于另一方
样本均数与已知的总体均数μ0比较
样本均数μ1与样本均数μ2比较
检验水准/显著性水准α—a越大越容易得出有差别的结论
2。在原假设成立条件下,选择统计方法并计算检验统计量。(认为误差由抽样产生)
这里的检验方法,是指参数检验方法,有u检验、t检验和方差分析三种,对应于不同的检验公式。
对双样本资料,要注意区分【成组设计】和【配对设计】的资料类型。
3。根据P值做出统计推断
判断P值: (与界值比较,反查界值表确定范围,软件计算)
统计量:u检验得到的是u统计量或称u值;t检验得到的是t统计量或称t值;方差分析得到的是F统计量或称F值
将求得的统计量绝对值与界值相比,可以确定P值。
若p小于a—按a检验水准拒绝h0,接受h1,p越小越有理由拒绝h0,认为总体之间有差别的统计学证据越充分
若P>a,则接受H0(无效假设、差异不显著、无统计学意义),拒绝H1;若P<a,则拒绝H1,接受H0
当α=0.05时,
u值要和u界值1.96相比较,确定P值。
如果u<1.96,则P>0.05.
反之,如u>1.96,则P<0.05.
t值 要和某自由度的t界值相比较,确定P值。
如果t值<t界值,故P>0.05.
当P>0.05时,接受零假设,认为差异无统计学意义,或者说二者不存在质的区别。
反之,如t>t界值,则P<0.05.
当P<0.05时,拒绝零假设,接受备择假设,认为差异有统计学意义,也可以理解为二者存在质的区别。
单侧检验更容易出现阳性
即单侧检验显著,双侧检验未必就显著,而双侧检验显著,单侧检验必然会显著。
但即使检验结果是P<0.01甚至P<0.001,都不说明差异相差很大,只表示更有把握认为二者存在差异。(差异更显著×,更能说明有差异√)
两类错误--
分支主题
【检验水准】【第一类错误概率】
用α表示
可取单尾也可取双尾,通常取0.05或0.10
检验水准说明了该检验犯第一类错误的概率
【第二类错误概率】
用β表示
只取单尾,β值可计算
【检验效能】1-β
为什么P<α就是拒绝H0
第一类错误,也就是拒绝正确的原假设。显著性水平a既是拒绝原假设的所能容忍的最高水平,也就是第一类错误的所能容忍的最大概率。p是拒绝原假设的最低要求。p如果>a,即衡量检验结果设定的最大显著度a都要小于拒绝原假设所要求的最低水平。也就是说,我要求的最低都要大于设定的最高,因此, 则不能拒绝原假设。
参数检验【首选】
第七章 t检验
适用于---样本均数比较
①样本均数与总体均数比较(σ未知且n<50或n<30);
②成组设计的两小样本均数的比较(n1,n2均小于30或50);
③配对设计的两样本均数比较。
应用条件
①样本含量较小(n<50或n<30)时,要求样本来自正态分布总体;
②用于成组设计的两样本均数比较时,要求两样本来自总体方差相等的总体。
检验方法
单样本t检验
配对样本均数t检验
配对设计
e.f.(成组设计)——临床实验中可能造成结果误差
配对设计类型有三种--随机分组、处理前后
最终是差值均数d与0的比较
举例
一个病人透析前后效果比较
根据病情轻重分成成对组
条件
差值d来自正态分布总体,即 对d进行正态分布检验
成组t检验(两独立样本t检验)
条件
两样本独立 n1或n2较小
均服从正态分布
两样本来自的总体方差相等
举例
两组病人使用不同的治疗方法,疗效不同。
步骤
公式
正态分布检验
方差不齐时两样本均数比较
方差齐性检验
t'检验(自学)z检验、u检验(自学)
t检验:用于样本均数与已知总体均数的比较,推断样本均数所代表的未知总体均数与已知的总体均数是否有差异。
u检验:用于两样本均数间的比较,推断它们各自所代表的总体均数是否有差异。
注意事项
正确的前提
样本代表性
①要有严密的抽样研究设计---假设检验的前提
②正确选用检验方法:完全随机的设计的两数值变量资料比较时,若n小且方差齐,则选用两样本t检验;若方差不齐,则选用t检验或成组设计的两样本比较的秩和检验;若n1,n2均大于50,则选用两样本u检验。
③正确理解“显著性”的含义
④对差别有无统计学意义的判断不能绝对化。
正确选择
检验方法
定量资料(t检验,方差分析)
定性资料(X2检验)
等级资料或不符一些检验方法的条件
单双侧
单侧一般更容易获得有差异的结果
缺乏依据一般应当选用双侧检验
结论不能绝对化“根据研究结果 可以/尚不能 认为…”
正确理解P值的统计意义
P是H0成立可能性的大小
第八章 方差分析(F检验)
【适用范围】
多样本均数比较中,t检验u检验使得犯第一类错误的概率增加,且可能会得到自相矛盾的情况
主要用于【两个或多个样本均数间的比较】
为什么等级资料不可用方差分析?资料不相互独立
【应用条件】
(1) 各样本是相互独立的随机样本,且来自正态分布总体
(2) 各样本的总体方差相等,即方差齐性
【目的】根据各个总体的样本观测值,检验各个总体均值间和两两总体均值间是否存在显著性差异。
【模型假设】各样本是相互独立的随机样本;各样本均来自正态分布的总体;总体方差齐
【基本思想】根据离差来源的不同,将【总离差平方和】及【自由度】分解为两部分:组间和组内
每个部分的变异可由某个因素的作用(或某几个因素的交互作用)加以解释
①SS总:表示变异由处理因素及随机误差共同所致
②SS组间:表示变异来自处理因素的作用或影响;
③SS组内:表示变异由个体差异和测量误差等随机因素所致。
完全随机设计资料的方差分析--亦称单因素方差分析,可用于完全随机设计的多个样本均数比较的资料,研究目的是推断各个样本所代表的总体均数是否相等
计算公式
总离差平方和 = 组内离差平方和+ 组间离差平方和(SST= SSE + SSA)
若H0成立,处理因素没有作用,F理论上应当等于1;若处理因素有作用,F应当大于1
方差分析步骤
第九章 X2卡方检验
概念、公式、意义
分支主题
自由度与样本量n无关--v=(行数-1)(列数-1)
A-实际频数,T-理论频数
X2--卡方检验的统计量,反映实际频数与理论频数的吻合程度
四格表资料的卡方检验
成组设计四格表资料
概念及公式
在实际工作中,对于四格表资料,通常规定为:
两种药物治疗脑血管疾病的有效率的比较
卡方检验连续性校正仅用于v=1的四格表资料,尤其是n小的时候。当v≥2时一般不做校正。
配对设计四格表资料McNemar test
由于在抽样研究中,抽样误差是不可避免的,样本中的b和c往往不相等(即b≠c),为此,需进行假设检验。
公式及应用条件
和成组设计四格表资料相比
配对设计四格表资料不存在独立的两组,只是一个单样本用两种方法检测,结果配成对。
适用于样本含量不太大的资料
同一菌种A\B培养基的阳性率差异
行*列表资料的卡方检验
只适用于多个样本率的比较,两个或多个构成比的比较以及双向无序分类资料的关联性检验。
基本数据的三种情况,可统称为行*列表资料
①多个样本率的比较时,有R行2列,称为R*2表
②两个样本的构成比比较时,有2行C列,称为2*C表
③多个样本的构成比比较以及双向无序分类资料关联性检验时,有R行C列,称为R*C表。
公式
基本公式
专用公式(矫正)
自由度 v=(行数-1)(列数-1)
应用条件
所有格子 T≥1
1≤T<5 的格子数应小于总格子数的1/5
三种方法治疗急性肝炎有效率是否不同
多样本率间多重比较
多个实验组间的两两比较
eg.三种疗法治疗肝炎有效率的两两比较
非参数秩和检验--优点:
应用范围
(1)等级资料
(2)偏态分布资料
(3)各组离散程度相差悬殊,即方差明显不齐(各样本总体方差不相等),且不能变换达到齐性
(4)开口资料
(5)分布类型不明
(6)初步分析
(7)对于一些特殊情况,如从几个总体所获得的数据,往往难以对其原有总体分布作出估计,在这种情况下可用非参数统计方法。
分类
【配对设计】符号秩和检验
用于配对计量资料时,将配对差值的中位数与0比较。亦可用于样本中位数与总体中位数的比较。
适用情况
配对设计的计量资料,但差值d不服从正态分布或分布未知
配对设计的等级资料
两种方法检测同一药品
方法
假设
H0:差值总体中位数Md=0
H1:Md≠0
α =0.05
求差值
编秩次
依差值的绝对值从小到大编秩次
编秩次时遇差数等于 0,舍去不计,同时样本例数减1
【相持取平均】遇绝对值相等差数:符号相同顺次编秩次,符号相反取平均秩次,且符号相反
求秩和并确定检验统计量
分别求出正负秩次之和,正秩和以 T+表示,负秩和的绝对值以T-表示。
T+及T-之和应等于 n(n+1)/2,任取T+(或 T-)作检验统计量T 。
确定P 值和作出推断结论
P查表法:当 n≤50 时,查 T 界值表,得出值
若检验统计量T值在上、下界值范围内,其 P值大于表上方相应概率水平
若 T值在上、下界值上或范围外,其 P值小于表上方相应概率水平
正态近似法:当n>50时,做近似正态检验
相同秩次较多时,u偏小,应采用公式矫正
【成组设计】两独立样本秩和检验
目的:推断两总体分布位置有无差异
应用资料类型
两组计量资料的比较(偏态;方差不齐;开口)
两组等级资料比较
无淋巴细胞转移 与 有淋巴细胞转移 的胃癌患者的生存之间比较
基本思想
先假设H0成立,样本含量分别为n1、n2的两个样本来自同一个总体
两样本混合编秩次
平均秩次:(N+1)/2
根据平均秩次计算理论秩和
若H0成立
n2 秩和 T 与平均秩和【n1(N+1)/2】一般相差不大,小的差别由抽样误差造成
若相差悬殊,(表示取得的现在样本统计量T值的概率P很小,因而)拒绝H0
分析步骤
(1)建立假设,确定检验水准
H0:两总体分布位置相同
H1:两总体分布位置不同
α = 0.05
(2)编秩次、求秩和并确定统计量T
编秩
两组数据混合统一按大小进行编秩,
不同组相同值,取平均秩次。
求秩和:两组分别求秩和,并以T1、T2表示。
确定统计量T
例数相等:T1、T2任意一个
例数不等:样本量n较小者对应的秩和为统计量值
(3)确定P值,作出统计推断
查表法:当较小样本量n1≤10,n2-n1≤10时,可以查两独立样本比较秩和检验用的T界值表
若T值在界值范围内,则P大于表上方对应的概率
若在界值上或范围外,则P小于表上方对应的概率
本例:n1=10,n2-n1=4,α=0.05时,查表得界值为91~159,统计量T=162,在界值范围内,P<0.05,按a=0.05水准,拒绝10,可以认为两组的总体平均生存时间不同。
多组秩和检验
适用条件
常用于不满足参数检验条件的完全随机设计两样本或多样本比较,也可推断双向有序资料的相关性。
配伍秩和检验
常用于配伍设计连续型资料的比较。
ROC曲线--
实验研究(基本要素-三要素-受试对象、实验因素、实验效能,基本原则-四原则-随机对照重复盲法(均衡)、常见实验设计类型、样本量估计的意义)
实验设计简介
专业设计-选题、研究对象、技术方法
统计设计-研究设计、资料收集、资料整理、资料分析
实验研究与临床试验
实验设计的基本要素--三要素-受试对象、实验因素、实验效应
受试对象
实验因素--干预因素
单因素多水平--1个处理因素,处理因素水平>1--完全随机试验
多因素多水平--处理因素和处理因素水平均>1--重复测量设计、析因分析、重复测量设计、随机区间设计
实验效应--效应指标-主观/客观
实验设计的基本原则--随机、对照、重复、盲法
分支主题
随机-避免受试群体的人为分类
抽样随机-
分组随机-事先不知道分组结果
实验顺序随机-
对照-使非处理因素(年龄、气候、自愈)基本一致,使处理因素的效应得以显现
安慰剂对照--克服研究者/受试对象/评价者心理因素等造成的偏移。缺点-对照组不能从中获益,可能会带来伦理问题
空白对照-常用于动物实验,临床试验中用于安慰剂/盲法无法执行
标准对照-以公认标准/常规方法作为对照--常用于新方法能否替代传统方法
相互对照-各实验组(同一药物不同水平)
自身对照-对照和试验在同一对象上进行-身体对称不同部位/实验不同阶段
实验对照--伴随其它因素
量效对照
重复-要有一定的样本含量,提高实验的可靠性和科学性
盲法-研究者(双盲)或/和受试者不知道接受的是试验/对照措施
常见的实验设计类型
完全随机设计-随机数、计算机编程
匹配设计
配对设计-按照一定的条件将实验对象配成对子
随机区间设计—相比完全随机设计—变异的来源更多—组间/组内
组间差别越大越好,组内差别越小越好
析因分析--多个处理因素的各水平进行组合,探讨各处理因素的主效应和各因素之间的相互作用(三组四水平--4x4x4x2=128次实验)
重复测量设计--每组对象接受一种特殊处理,在几个不同时间点/同一受试对象不同部位重复获得变量的观测值
具有一个重复测量的两因素设计
交叉设计--在不同阶段试验--运动顺序
案例
分析疗效--计算治疗前后的差值
缺少统计量
配对卡方检验
重复测量--时间的影响
样本含量估计--为满足统计的准确性和可靠性(1类错误的控制和检验效能的保证),计算出所需的样本量--经验法,查表法,计算法。
意义
影响因素-检验水准a、检验效能1-β、效应量(率、均数、精度)、总体规模、变异程度
例1.--检验功效-1-β-
例二
例三
分支主题
分支主题
分支主题
分支主题
练习
绪论
1.某年级甲班、乙班各有男生50人。从两个班各抽取10人测量身高,并求其平均身高。如果甲班的平均身高大于乙班,能否推论甲班所有同学的平均身高大于乙班?为什么?
从甲、乙两班分别抽取的10人,测量其身高,得到的分别是甲、乙两班的一个样本。样本的平均身高只是甲、乙两班所有同学平均身高的一个点估计值。即使是按随机化原则进行抽样,由于存在抽样误差,样本均数与总体均数一般很难恰好相等。因此,不能仅凭两个样本均数高低就作出两总体均数熟高熟低的判断,而应通过统计分析,进行统计推断,才能作出判断
案例1-1 某研究者的论文题目为“大学生身心健康状况及其影响因素研究”,以某地职业技术学院理、工、文、医学生(三年制)为研究对象,理、工、文、医学生分别挑选了60、38、19和46人,以问卷方式调查每位学生的一般健康状况、焦虑程度、抑郁程度等。得出的结论是:“大学生身心健康状况不容乐观,学业问题、就业压力、身体状况差、人际交往不良、社会支持不力为主要影响因素”。请问其结论合理吗?为什么?应该如何?
案例辨析
① 样本不能代表总体。总体是“大学生”,而样本仅为某地三年制职业技术学院学生;
②社会学调查的样本含量显得不足; ③“理、工、文、医学生分别挑选……”这种说法中隐含人为“挑选”的意思,不符合统计学要求。
正确做法
应在论文的题目中明确调查的时间范围和地点,还应给“大学生”下一个明确的定义,以便确定此次调查的“总体”;
对“大学生身心健康状况”可能有影响的因素很多,应结合具体问题拟定出少数最可能有影响的因素(如学科、在学年限等)进行分层随机抽样,以保证样本有较好的代表性;
还应根据已知条件找到估计样本含量的计算公式,不可随意确定各学科仅调查几十人;
当然,调查表中项目的设置也是十分重要的,此处从略。
案例1-2 两种药用于同一种病,A药治疗5例,4例好转;B药治疗50例,36例好转。结论是:A药优于B药。请问其结论合理吗?为什么?应该如何?
案例辨析
① A药样本仅5例,样本含量太少;
②得出“A药优于B药”没有交待是否采用了统计学推断方法,若用目测法得出结论,则结论没有说服力;
③未明确研究目的和研究结果将被使用的范围。
正确做法
① 应明确研究目的和研究结果将被使用的范围,
若是个别研究者或临床医生想了解这两种药的大致疗效,属于小规模的临床观察,其结论仅供少数人在今后临床实践中参考,其样本含量可能不需要很大,因为观察指标是定性的(有效、无效),一般来说,每个药物组也需要几十例(以不少于20例为宜);
若属于新药的Ⅱ期临床试验,那就要严格按有关规定,比较准确地估计出所需要的样本含量,不仅如此,还有很多严格的要求,详见本书中临床试验设计一章;
②从明确定义的总体中随机抽样进行实验研究,得到的实验结果不能仅凭数据大小作出判断,应进行假设检验,以提高结论的可信度。
案例1-3 某研究者为了探讨原发性高血压患者肾小管早期损害的监控指标,选取尿常规、蛋白定性检查阴性,血肌酐、尿素氮均在正常范围内的原发性高血压患者74例作为病例组,其中男43例,女31例,平均年龄61岁(40~73岁)。根据高血压的病程将患者分为三组,Ⅰ组高血压病期<10年,Ⅱ组高血压病期10~20年,Ⅲ组高血压病期>20年。另选取53名体检健康的职工为对照组—(年龄性别)。观测两组尿视黄醇结合蛋白(retinalbinding protein, RBP)、微量白蛋白(microalbumin, mALB)、β2 微球蛋白(β2 microglobulin, β2-MG)和N-乙酰-β-D-氨基葡萄糖苷酶(N-acetyl-β-D-glucosaminidase, NAG)四项定量指标的取值。结论为:尿RBP、mALB、b2-MG和NAG是原发性高血压患者肾小球、肾小管早期损害的敏感指标。请辨析这样设计实验存在什么问题?正确的做法是什么?
案例辨析
研究对象的选取在病例组和对照组之间存在不均衡性,即两组受试者之间,除了一组患有高血压,另一组未患高血压以外,在其他很多与评价高血压可能导致坏影响的方面都不一致。
对照组选取的是53名体检健康的职工,未明确写出平均年龄以及年龄所在的范围,也未交代性别构成情况。但由我国现行的退休制度可知,在职职工的年龄通常在18~60岁之间,平均年龄大约40岁。由临床医学基本常识可知,很多因素(比如年龄、性别等)不仅对血压有影响(通常是随着年龄的增大,血压有升高的趋势),而且对肾功能也有一定程度的影响;况且,高血压患者与健康职工还在“体力和脑力劳动强度、生活方式、心理和精神的紧张程度等诸多方面不具有可比性,而这些重要的非实验因素可能对肾功能也存在不同程度的影响。总之,原研究者所选取的病例组与对照组在很多重要的非实验因素方面(特别是年龄)不具有可比性,降低了结论的说服力。
正确做法
欲探讨高血压早期肾损害的监控指标,应根据高血压患者病程所分的三个组确定受试者的年龄段,从患者所取自的人群范围内随机选取一定数量的正常健康人(而不应仅局限在原研究者所在单位内),将正常健康人也分成相应的三个年龄段,并应尽可能确保在每个年龄段中,病例组与对照组受试者在其他重要非实验因素方面(如性别构成、体力和脑力劳动强度、生活方式、心理和精神的紧张程度等)均衡一致,采用相应的统计分析方法去比较定量指标的测定结果之间的差别,其结论才具有较高的可信度。
案例1-4 某部队共有1 200人,在某段时间内患某病的人数有120人,其中男性114人,女性6人。某卫生员进行统计分析后说,经假设检验,该病的两性发病率(114/120=95%与6/120=5%)之间的差别有统计学意义,由此得出结论:“该病男性易得”。你对这个结论有何看法?若结论是错误的,那么,错误的实质是什么?正确的做法是什么?
案例辨析
这个结论是错误的!因为在这1 200人中,究竟有多少男性和多少女性并不清楚,无法计算男性发病的频率和女性发病的频率。
假如其中有1 194名男性和6名女性,则男性发病率为(120/1 194)´100% = 10.05%,而女性全部发病(女性总例数太少,不宜用百分之百发病率来描述)。
显然,原来的结论是不成立的。该卫生员所犯错误的实质是将发病人员中性别的频率错误地当作人群中发病的频率了,因而得出毫无根据的错误结论。
正确做法
若这1 200人是从一个总体中抽出来的样本,要弄清在这1 200人中男、女人数各是多少,设分别为n男和n女,然后,分别计算男性和女性的发病频率,即,;要想得出两个发病频率之间的差别是否能反映总体的情况,还应进行统计推断(即进行假设检验,此处从略)。
统计描述
平均水平
均 数--个体的平均值--对称分布
几何均数--平均倍数 --取对数后对称分布
中 位 数--位次居中的观察值--①非对称分布;②半定量资料;③末端开口资料;④分布不明
众 数--频数最多的观察值--不拘分布形式,概略分析
调和均数-- 基于倒数变换的平均值 --正偏峰分布资料
变 异 度
全 距-- 观察值取值范围 --不拘分布形式,概略分析
标 准 差 (方 差)--观察值平均离开均数的程度--对称分布,特别是正态分布资料
四分位数间距--居中半数观察值的全距--①非对称分布;②半定量资料;③末端开口资料;④分布不明
变异系数cv--标准差与均数的相对比--①不同量纲的变量间比较;②量纲相同但数量级相差悬殊的变量间比较
2005年某医院为了调查肺癌患者接受姑息手术治疗1年后的情况,被调查者150人,分别有30人病情稳定,66人处于进展状态,54人死亡。---说明频率和频率分布的区别和联系
当研究兴趣只是了解死亡发生的情况,则只需计算死亡率54/150=36%,属于频率指标。
当研究者关心患者所有可能的结局时,则可以算出反映3种结局的频率分别为20%、44%、36%,它们共同构成所有可能结局的频率分布,是若干阳性率的组合。
常用统计图的适用资料及实施方法
条图--组间数量对比--用直条高度表示数量大小
直方图--定量资料的分布--用直条的面积表示各组段的频数或频率
百分条图--构成比--用直条分段的长度表示全体中各部分的构成比
饼图--构成比--用圆饼的扇形面积表示全体中各部分的构成比
线图--定量资料数值变动--线条位于横、纵坐标均为算术尺度的坐标系
半对数线图--定量资料发展速度--线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标系
散点图--双变量间的关联--点的密集程度和形成的趋势,表示两现象间的相关关系
箱 式 图--定量资料取值范围--用箱体、线条标志四分位数间距及中位数、全距的位置
茎 叶 图--定量资料的分布--用茎表示组段的设置情形,叶片为个体值,叶长为频数
案例2-1 本章的例2-1中,该医生同时还观察了1 402名临产母亲的住院天数(教材表2-14),并得到平均住院天数为6.6天。请对此发表评论
案例辨析 首先观察资料的分布形式,由于呈正偏峰分布,选用上述结果描述住院天数的平均水平不合适。
正确做法 宜选用不受定量资料分布情况限制的中位数来描述住院天数的平均水平。本例计算结果为M =6.1(天)。
案例2-2 某人编制了一张统计表(教材表2-15), 你认为哪些需要改进?
案例辨析 原表格存在的问题:
①标题不准确;
②线条过多,出现了斜线、竖线和多余的横线;
③数字区域出现了文字;
④小数位数不统一,小数点没有纵向对齐;
⑤量纲的标注位置有误
分支主题
案例2-3 某人绘制一张统计图(教材图2-11), 你认为哪些需要改进?
案例辨析 原图形存在的问题:①缺标题;②复式条图误用为单式条图;③纵轴的量纲未注明;④未正确给出图例。
正确做法 将原图中存在的上述错误纠正过来,重新绘图
案例2-4 以病死率为考察指标,对两所医院某病的治疗水平进行比较,结果见教材表2-16,由合计的病死率得出结论为乙医院治疗水平优于甲医院,请评述这个结论。
案例辨析 由教材表2-16可以看出,此表编制得不够规范,更为严重的是,虽然甲医院各种病情患者的病死率均低于乙医院,但总的病死率却是甲医院高于乙医院。这个矛盾的出现,是由于甲医院收治的重病人多,轻病人少,乙医院则是重病人少,轻病人多。两家医院收治患者的病情不均衡,不宜直接比较基于各自病情状况的病死率——“粗病死率”。
正确做法 因各医院收治的患者在病情方面不均衡,直接进行比较是不正确的,而是要进行标准化处理后再比较。标准化(standardization)有直接标准化法和间接标准化法两种。
(1)直接标准化 首先确定一个标准组,将其病情分布视作标准分布,即两家医院理论上共同的病情分布状况。例如,某省内两家医院的对比,可以将全省、全国该类型患者入院时的病情分布作为标准组。这里,将两家医院各种程度病情的患者数对应相加,“构造”出标准组,这是在不能获得参考文献关于全省、全国情况时的做法
甲、乙医院的标准化病死率:病死人数/甲+乙死亡总数
以甲医院的计算为例,粗病死率是以甲医院实际病情分布为权重,对甲医院病死率水平的加权平均;标准化的则是以标准组病情分布为权重,对甲医院病死率水平的加权平均。即---
(2)间接标准化 也需首先确定一个标准组(由文献获得),并给定标准组的各年龄别病死率及总的病死率。由案例表2-3求出两家医院各自收治的患者按标准组的病死率水平将发生的总的死亡数。标准组的选择依据同直接标准化法
按标准组的病死率水平,甲医院有147例死亡,而实际甲医院仅有134例死亡,甲医院实际的病死发生程度低于标准组,两者程度之比134/147=0.91称作标化死亡比(standard mortality ratio,SMR),于是
结果,认为乙医院的病死率高于甲医院。这是根据数值大小得出的直观判断结果。若希望得出两医院标准化病死率之间的差别是否具有统计学意义,应进行假设检验,此处从略。
本题目是以“病死率”为例阐述了阳性率的标准化的问题,其余如死亡率、发病率、治愈率等同理
概率分布
服从二项分布及Poisson分布的条件分别是什么?
二项分布成立的条件:
①每次试验只能是互斥的两个结果之一;
②每次试验的条件不变;
③各次试验独立。
Poisson分布成立的条件:除二项分布成立的三个条件外,还要求试验次数很大,而所关心的事件发生的概率很小。
二项分布、Poisson分布分别在何种条件下近似正态分布?
二项分布的正态近似:当n较大,π不接近0也不接近1时,二项分布B(n,π)近似正态分布
Poisson分布的正态近似:
1.二项分布:已知某种非传染性疾病常规疗法的有效率为80%,现对10名该疾病患者用常规疗法治疗,问至少有9人治愈的概率是多少?
对10名该疾病患者用常规疗法治疗,各人间对药物的反应具有独立性,且每人服药后治愈的概率均可视为0.80,这相当于作10次独立重复试验,即π=0.80,n=10的贝努利试验,因而治愈的人数X服从二项分布。至少有9人治愈的概率为:
2. 据以往的统计资料,某地新生儿染色体异常率为1%,问100名新生儿中染色体异常不少于2名的概率是多少?
案例3-1 为估计某地居民尿汞值的参考值范围, 测得某地200名正常成人的尿汞值如教材--试根据该样本资料估计该地居民尿汞值的95%正常值范围。
正态性判断或检验--解法错误
正确做法 严格的正态性检验常用的方法有Z检验(通常称为矩法)、W 检验、D检验等,需要借助统计软件完成。在这里我们用粗略判断的方法:作出频率分布图看是否对称,如果对称可初步判断为正态分布,否则判为非正态。该例频率分布明显不对称
由此图可粗略判断尿汞值这个指标不服从正态分布→(经对数变换后频率分布仍不对称),所以不能用正态分布法估计正常值范围,而应用适合描述偏态分布的百分位数法→计算p95=38,故估计该地居民尿汞值的95%正常值范围不高于38(ug/l)。
在本例中,如果该地居民尿汞值呈正态分布,则上述解法四计算公式是正确的,因为汞是对人身体有害的微量元素,越少越好,又不可能取负值,下限应该为0,只需求出单侧上限即可--1.64
案例3-2 某地区10万人口中出现了20例流行性腮腺炎病例,有人希望据此推断该地区10万人口中不少于20人患流行性腮腺炎(传染性)的概率。于是,有几位爱动脑筋的学生给出了自己的解法。请辨析他们的解法之正误,并讲出道理。
案例辨析 上述解法均是错误的。解法一将发生流行性腮腺炎的人数看作是服从的Poisson分布,并近似服从正态分布,来计算相应的概率。但本例各观察单位是否患病不是互相独立的,不满足Poisson分布的应用条件,所以不能按照Poisson分布模型处理。解法二按照二项分布计算概率,同样因为各观察单位是否患病非独立,不满足二项分布的应用条件。解法三也是按照Poisson分布计算概率,因为模型选择的错误,所以导致结果错误,同样可分析解法四。
正确做法 就本例而言,因患这种病是有传染性的,即不满足独立性条件,没有合适的统计计算方法;若满足独立性,则以上四种计算方法均正确。在解法一中,因,将Poisson分布用正态分布来近似,近似程度较差,故计算出来的概率与直接按Poisson分布或二项分布计算的 结果有较大出入
分支主题
参数估计
简述标准误与标准差的区别。
(1)标准差反映个体值散布的程度,即反映个体值彼此之间的差异;标准误反映精确知道总体参数(如总体均数)的程度
(2)标准误小于标准差。
(3)样本含量越大,标准误越小,其样本均数更有可能接近于总体均数,但标准差不随样本含量的改变而有明显方向性改变,随着样本含量的增大,标准差有可能增大,也有可能减小
总体均数可信区间与医学参考值范围的区别
1、含义不同
总体均数的可信区间:按预先给定的一个概率所确定的未知参数u的可能范围。实际上一次抽样的可信区间要么包括了总体均数,要么不包括。但可以说:当a=0.05时,95%CI估计的正确概率为0.95,估计错误的概率为0.05,即有95%的可能性包含了总体均数。
医学参考值范围:“正常人”的解剖、生理、生化某项指标的波动范围,其采用单侧界值还是双侧界值,通常需要依据专业知识而定。
2、计算公式
可信区间--x±ZaSx(标准误)--符合正态分布时,n>60时近似服从正态分布--中心极限法则
参考值范围--x±ZaS(标准差)
3、用途
总体均数的可信区间:总体均数的区间估计,也可间接进行假设检验
参考值的范围:绝大多数(95%)观察对象某项指标的分布范围。
案例4-1 某研究者测得某地120名正常成人尿铅含量(mg·L-1)如下:试据此资料估计正常成人平均尿铅含量的置信区间及正常成人尿铅含量的参考值范围
由表中数据得到该例的,n=120,s=8.0031,Sx=0.73
即采用x±ZaSx计算得到正常成人平均尿铅含量100(1-a)%置信区间为(-∞,14.068 4);
采用公式x±ZaS计算得到正常成人尿铅含量100%参考值范围为(-∞,26.030 6)。
请问这样做是否合适?为什么?应当怎么做?
案例辨析 该定量资料呈偏峰分布,不适合用正态分布法计算参考值范围。
正确做法 可以用百分位数法求正常成人尿铅含量100%参考值范围的单侧上限。例如,当a=0.05时,可直接求分位数P95,(0,P95)就是所求的正常成人尿铅含量的95%正常值范围。
欲求正常成人尿铅含量总体均数的置信区间,
当样本含量n较大(比如说,n大于30或50)时,样本均数就较好地接近正态分布(根据数理统计上的中心极限定理)。本例, 因为n=120较大,不必对原始数据作对数变换就可以用x±ZaSx估计总体均数的置信区间。
案例4-3 某市往年的12岁男孩平均身高为140.0 cm。现在从该市的12岁男孩中随机抽得120名作为研究对象,得到平均身高为143.1 cm, 标准差为6.3 cm。请估计该样本对应总体均数的95%置信区间,并确定该均数是否与往年不同。//某学生的回答如下:“该例12岁男孩平均身高的点估计值为143.1 cm,按公式(4-21)计算得到该点估计值的95%置信区间为141.9~144.2cm。因为往年12岁男孩平均身高为140.0 cm,没有落在所计算的95%置信区间以内,所以可以认为现有男孩平均身高与往年身高有差异”。//请指出学生回答中的不恰当之处。
案例辨析 不恰当之处有三:
① “点估计值的95%置信区间”的说法不对;②“以往男孩平均身高没有落在所计算的95%置信区间以内”的说法不对;
③“现有男孩平均身高与往年身高有差异”的说法不对。
正确做法
① 应该说“点估计值对应总体均数的95%置信区间”;
② 应该说“95%置信区间没有覆盖(包括)以往男孩平均身高”;
③应该说“现有男孩平均身高与往年男孩平均身高的差异有统计学意义”
假设检验
1.试述假设检验中α与P的联系与区别。
a值是决策者事先确定的一个小的概率值。
P值是在H0(虚拟假设)成立的条件下,出现当前检验统计量以及更极端状况的概率。
P≤a时,拒绝H0假设。
2. 试述假设检验与置信区间的联系与区别。
区间估计与假设检验是由样本数据对总体参数作出统计学推断的两种主要方法。
置信区间用于说明量的大小,即推断总体参数的置信范围;
而假设检验用于推断质的不同,即判断两总体参数是否不等。
3. 怎样正确运用单侧检验和双侧检验?
选用双侧检验还是单侧检验需要根据数据的特征及专业知识进行确定。
双侧检验--若比较甲、乙两种方法有无差异,研究者只要求区分两方法有无不同,无需区分何者为优
单侧检验--若甲法是从乙法基础上改进而得,已知如此改进可能有效,也可能无效,但不可能改进后反不如以前。
在没有特殊专业知识说明的情况下,一般采用双侧检验即可。
4. 试述两类错误的意义及其关系。
Ⅰ类错误α(typeⅠerror):如果检验假设H0实际是正确的,由样本数据计算获得的检验统计量得出拒绝H0的结论,此时就犯了错误,统计学上将这种拒绝了正确的零假设H0(弃真)的错误称为Ⅰ类错误。
Ⅱ类错误β(type Ⅱ error):假设检验的另一类错误称为Ⅱ类错误(type Ⅱ error),即检验假设H0原本不正确(H1正确),由样本数据计算获得的检验统计量得出不拒绝H0(纳伪)的结论,此时就犯了Ⅱ类错误。Ⅱ类错误的概率用b 表示。
在假设检验时,应兼顾犯Ⅰ类错误的概率(α)和犯Ⅱ类错误的概率(β)。犯Ⅰ类错误的概率(α)和犯Ⅱ类错误的概率(β)成反比。如果把Ⅰ类错误的概率定得很小,势必增加犯Ⅱ类错误的概率,从而降低检验效能;反之,如果把Ⅱ类错误的概率定得很小,势必增加犯Ⅰ类错误的概率,从而降低了置信度。为了同时减小α和β,只有通过增加样本含量,减少抽样误差大小来实现。
5.试述检验功效的概念和主要影响因素。
答:拒绝不正确的的概率,在统计学中称为检验功效(power of test),记为1-β。检验功效的意义是:当两个总体参数间存在差异时(如备择假设H1:μ≠μ0成立时),所使用的统计检验能够发现这种差异(拒绝零假设H0:μ=μ0)的概率,一般情况下要求检验功效应在0.8以上。
影响检验功效的四要素:总体差异、总体标准差、检验水准a、犯二类错误的概率β
6.简述假设检验的基本思想。
假设检验是在H0成立的前提下,从样本数据中寻找证据来拒绝、接受的一种“反证”方法。
如果从样本数据中得到的证据不足,则只能不拒绝,暂且认为成立(因为拒绝的证据不足),即样本与总体间的差异仅仅是由于抽样误差所引起。
拒绝是根据某个界值,即根据小概率事件确定的。所谓小概率事件是指如果比检验统计量更极端(即绝对值更大)的概率较小,比如小于等于0.05(各种科研杂志习惯上采用这一概率值),则认为零假设的事件在某一次抽样研究中不会发生,此时有充分理由拒绝,即有足够证据推断差异具有统计学意义
1.一般正常成年男子血红蛋白的平均值为140 g/L(μ0),某研究者随机抽取25名高原地区成年男子进行检查,得到血红蛋白均数为155 g/L,标准差25 g/L(s)。问:高原地区成年男子的血红蛋白是否比一般正常成年男子的高?
两样本均数比较-t
2. 一般而言,对某疾病采用常规治疗,其治愈率约为45%。现改用新的治疗方法,并随机抽取180名该疾病患者进行了新疗法的治疗,治愈117人。问新治疗方法与常规疗法的效果是否有差别?
Z检验--中心极限定理--大样本情况下(n1,n2>50)→检验统计量Z渐进服从标准正态分布--Z0.05/2=1.96
案例5-1 为了比较一种新药与常规药治疗高血压的疗效,以血压下降值为疗效指标,有人作了单组设计定量资料均数比较的检验,随机抽取25名患者服用了新药,以常规药的疗效均值为,进行检验,无效假设是,对立假设是,检验水平α=1%。结果值很大,拒绝了无效假设。“拒绝了无效假设”意味着什么?下面的说法你认为对吗?
(1)你绝对否定了总体均数相等的无效假设。-- 可能犯Ⅰ类错误a
(2)你得到了无效假设为真的概率是1%。---α=1%是表示在无效假设成立的条件下,犯Ⅰ类错误的概率(弃真)。
(3)你绝对证明了总体均数不等的备择假设。---可能犯Ⅰ类错误。
(4)你能够推论备择假设为真的概率是99%。---α=1%是表示在无效假设成立的条件下,犯Ⅰ类错误的概率(弃真),而不是推论备择假设为真的概率是99%。
(5)如果你决定拒绝无效假设,你知道你将犯错误的概率是1%。---在无效假设成立的条件下,就该例拒绝无效假设犯错误的概率是p。
(6)你得到了一个可靠的发现,假定重复这个实验许多次,你将有99%的机会得到具有统计学意义的结果。---在无效假设成立的条件下,还可能犯错误,并不是完全“可靠”的发现;1-a=99%是指无效假设成立的条件下不犯1类错误的概率是99%。
正确做法 “拒绝了无效假设”意味着在无效假设成立的条件下,推断犯错误的概率为p。
案例5-2 某工厂生产的某医疗器械的合格率多年来一直是80.0%。最近从该厂一次抽取20个该器械检测,合格13个,计算得到合格率为65.0%;一周后又抽取15个器械检测,合格10个,计算得到合格率为66.7%,分别进行Z检验(大样本--近似正态分布),得到两总体率相等的结论,表明合格率没下降,两个合格率的平均值为65.85%,进行Z检验,得到两总体率不等的结论,表明合格率下降了。请对这一结论发表你的意见。
案例辨析 不正确,因为分别用n=20和n=15的两个小样本计算的样本频率与总体概率80.0%比较,进行两次Z检验,样本量太小,检验功效太小,不能得到总体概率不等的结论。
正确做法 加大样本量,对样本频率所代表的总体概率与已知总体概率80.0%进行假设检验,具体方法从略。(样本量的估计见本书第15章样本含量估计)
实验设计
2. 如果某项实验研究中需要考察3个实验因素,各因素均取4个水平,拟用析因设计来安排此项实验,问至少要进行多少次实验才便于考察各级交互作用对观测结果的影响?请说出计算的依据。
4´4´4´2=128
析因设计中不同的实验条件数为全部因素的水平数相乘,各实验条件下至少要作2次独立重复实验。
3. 欲探讨用微型角膜刀行角膜深板层内皮移植术的适应证、临床疗效及并发症的预防及处理,用微型角膜刀对6例患者6只患有大疱性角膜病变眼行深板层角膜内皮移植术。术后随访6~9个月。结果表明,5例患者视力明显提高,患者术后平均角膜内皮细胞密度为(2 481±212) 个/ mm,角膜中央厚度平均为(549±61) μm ,散光为(2 104±1 119)D,未发生严重并发症。得如下结论:用微型角膜刀行角膜深板层内皮移植术是治疗大疱性角膜病变的可选术式。与传统的穿透性角膜移植相比,该术式有望成为角膜内皮移植的技术平台,但远期疗效尚需继续随访。请问该研究是否遵循了实验设计的基本原则?应如何设计该实验?
首先该研究违反了对照的原则。没有设立对照组,仅凭6例中5例术后视力明显提高,但没有与传统的穿透性角膜移植相比,不具有说服力。
正确的做法是:首先选取一定数量的患有大疱性角膜病变眼的患者,将患有大疱性角膜病变眼随机分成两组,接受两种手术方法的治疗。若病情、病程等非处理因素对预后有影响,则应尽量保证两组之间在重要的非处理因素上均衡。然后再对两种手术方法术后的治疗效果进行比较。
案例12-1 某项研究欲观察E1A基因对裸鼠移植肿瘤生长的抑制和化学治疗的增敏作用,研究者进行了两个实验。
一是裸鼠致瘤实验,在实验设计中,将4周龄裸鼠随意分为3组,每组5只,分别接受不同的处理。
二是模拟E1A基因治疗临床应用的裸鼠实验,研究者取20只4周龄裸鼠,接种癌细胞系后,随意地分为4组。已知裸鼠的性别、体重等非实验因素对实验结果可造成不同的影响。请辨析该实验设计存在哪些差错?应当如何改进?
案例辨析 研究者在进行此项实验研究过程中,随机化观念淡漠,以随意代替随机,没有认真遵循实验设计的“随机、均衡”的原则。在制定实验方案时,要非常重视非实验因素的干扰,应使用随机化方法使全部受试对象都有同等的机会被分入任何一个处理组中去,使各组具有可比性。在该研究中,研究者对裸鼠随意分组,显然没有考虑到裸鼠的“性别、体重、健康状况”等重要非实验因素对不同处理组中的实验结果所造成的非平衡影响。若研究者随意地从笼中抓取裸鼠,首先抓取5只作为第一组,再抓5只作为第2组,依此类推。可以想像,活泼健康的裸鼠直到最后才会被抓到,因此各组受试对象之间在健康状况等方面并没有达到均衡一致,各组之间也就不具有可比性。
正确做法 要想提高实验研究结果的可信度,应利用随机化方法尽量均衡重要非实验因素(如性别、体重、健康状况等)对不同处理组中的实验结果所造成的影响,才能使实验结果在各对比组间具有很好的可比性。
案例12-2 为了观察甲紫注入小型猪正常腮腺后组织病理变化情况,有人选择6个月龄、体重20~25 kg的中国实验用小型猪15只,雄性9只,雌性6只。每只动物任选一侧腮腺为实验组,另一侧作为正常对照组,以消除个体差异及增龄对实验结果的影响。按注入甲紫后1周、2周、1个月、3个月及6个月将15只动物随机分为5组,每组3只(每个组的3只动物分别随机注入0.6、1.0及4.0 ml 1%甲紫溶液),然后观察组织病理变化情况。请辨析该实验设计存在哪些差错?应当如何改进?
案例辨析 在该研究中共用了15只小型猪,乍看起来“15”这个数目不算太小,但仔细看一下不难发现,该实验中共涉及两个实验因素:第一个因素是“甲紫作用时间”,它有“1周、2周、1个月、3个月及6个月”5个水平;第二个实验因素是“甲紫剂量”,它有“0.6 ml、1.0 ml及4.0 ml”3个水平。这两种因素水平的全面组合共有15种情况,每种情况构成一个实验条件,这样在每个实验条件下只有1只动物。所以该实验各组的样本大小为n=1。这就违背了实验设计中的“重复原则”。因为生物体本身存在变异,只有在相同条件下进行多次独立重复实验,随机现象的变化规律才能正确地显露出来。
正确做法 究竟样本含量应取多大需要提供有关的基本信息,需要找到与相应实验设计类型对应的样本含量估计公式进行计算。不仅如此,此项实验研究所设立的正常对照组也是值得怀疑的,因为在动物的口腔内,一边用药而另一边不用药,怎能保证用药的那一边不会影响不用药的那一边呢?
案例 12-3 为了比较甲磺酸托烷司琼和盐酸托烷司琼控制由顺铂、多柔比星化疗所致胃肠道反应的疗效和不良反应,现选取40例接受含顺铂和(或)多柔比星化疗的肿瘤患者进行实验研究。从充分利用每个受试者,尽可能排除非实验因素(如病情、年龄、性别等)的干扰方面考虑,在课题组会议上,人们分别提出了下面几种实验设计类型,你认为采用哪种设计较好?
设计1,成组设计:将40例肿瘤患者随机地均分成2组,一组给甲磺酸托烷司琼,另一组给盐酸托烷司琼。
设计2,条件相近者配对设计:可将40例肿瘤患者按病情、性别、年龄等各方面都相同或接近的每两个患者配成一对,用随机的方法决定其中一个患者接受甲磺酸托烷司琼,另一个患者接受盐酸托烷司琼。
设计3,40例肿瘤患者第一个化疗周期先用甲磺酸托烷司琼,经过一段时间后在下一个化疗周期用盐酸托烷司琼,即采用“自身配对设计”。
设计4,将40例肿瘤患者完全随机地分成2组,用随机的方法决定第一组20例患者使用两种药的顺序,如先甲磺酸托烷司琼后盐酸托烷司琼,则第2组的20例患者用药的顺序相反。每次用药前后观测指标的取值,即采用“成组交叉设计”。
设计5,将40例肿瘤患者按病情、年龄、性别等配成20对,用随机的方法决定每一对中2个患者使用两种药的顺序,如其中一个患者用药的顺序是先甲磺酸托烷司琼后盐酸托烷司琼,则另一患者用药的顺序正好相反,每次用药前后观测指标的取值,即采用“配对交叉设计”。
案例辨析
设计1不合适,因为样本含量较小,即使采取完全随机化分组,也很难保证两组患者在各种重要的非实验因素(如病情、年龄、性别等)方面保持均衡一致;设计1还有第二个不足之处--见(2)
(2)设计1和设计2都存在着一个不足之处,那就是受试者利用率低。若在临床上每个化疗周期内,经过一段时间后化疗所致的实验室检查指标和消化道反应会完全恢复,不影响下一个周期对化疗药和控制不良反应药(此处指甲磺酸托烷司琼或盐酸托烷司琼)疗效的观察,可考虑选用其他更合适的实验设计类型。
显然,设计3到设计5比前两种设计对患者的利用率提高了。但是在设计3中,所有的患者都是先用甲磺酸托烷司琼后用盐酸托烷司琼,这样就人为地引入了“顺序误差”。
正确做法 对本例而言,设计5是比较好的设计方法,它能将两种药的使用顺序所产生的影响从总误差中分解出来。若在对交叉设计定量资料进行方差分析时,将“携带效应”引入方差分析模型,其结论会更可信。
临床试验设计
案例13-1 某制药企业开发了一个治疗抑郁症的新药,欲与安慰剂对照进行Ⅱ期临床试验,初步评价新药的临床疗效和安全性。按《药品注册管理办法》要求,样本含量需要200例,考虑20%脱落率,最终样本含量确定为240例,治疗组和对照组各120例。这样确定样本量是否正确?脱落率一定要考虑到20%吗?10%可以吗?
案例辨析
①样本含量不能简单地按照《药品注册管理办法》所要求的最低样本含量来确定;
②不估算,根据不足。
正确做法
(1)样本含量应当经过统计学计算。
(2)尽可能进行样本含量估算。
(3)如果经过统计学计算,样本含量多于《药品注册管理办法》的规定,按照计算结果确定。(多了可以,少了不行)
(4)如果经过统计学计算,样本含量少于《药品注册管理办法》的规定,按照国家要求确定
(5)新药临床试验,特别是Ⅱ期临床试验,通常考虑20%脱落率,但是,如果有比较详实的预试验资料,可以参考预试验确定脱落率。
案例13-2 某制药企业开发了一个治疗糖尿病的新药,欲与二甲双胍对照在四个临床试验中心进行Ⅱ期临床试验,初步评价新药改善餐后血糖的临床疗效和安全性。样本含量为240例,每个中心60例。经抽签决定,第一、四中心负责观察新药组,第二、三中心负责观察对照组。这样进行随机化是否正确?应当怎样做?
案例辨析 以上几个问题都是很基本的,应该从概念和方法上弄清楚。
正确做法 多中心临床试验的随机化原则是整体随机,即从整体上来讲,这是一个试验,而不是四个试验,需要把中心看作是分层因素(stratify),同时考虑分段,因为是两组,段的长度应当是2的倍数并大于等于2。具体随机化方法可以利用大型统计软件(如SAS、SPSS)的随机程序实现。
案例13-3 某制药企业开发了一个治疗感冒的中药,名为抗感胶囊,欲与感冒清热颗粒对照,进行Ⅲ期临床试验。如何设计双盲试验?
案例辨析 这是一个非常实际的问题,可用下面的方法来解决。
正确做法 《药品注册管理办法》要求新药Ⅲ期临床试验尽量采用双盲方法。虽然两药品剂型不同,但是,我们可以采用“双模拟”方法,以达到双盲的目的。准备与抗感胶囊同等数量的抗感胶囊安慰剂,准备与感冒清热颗粒同等数量的感冒清热颗粒安慰剂。治疗组服用抗感胶囊和感冒清热颗粒安慰剂,对照组服用感冒清热颗粒(使患者都接收到治疗)和抗感胶囊安慰剂,这种方法被称为“双盲双模拟法”。
调查设计--随机、配对
案例14-1 调查某中学学生的身高和体重,在全体200名学生中,随机抽取15%,即抽取30人,抽取步骤如下:先将全校学生按点名册,从1,2,…,30编号;然后通过计算机产生一系列9位的随机数字;每次选取后面的3位数,共30组,编号等于此数的学生便被抽中;若所取的3位数大于或等于学生最大编号,则将该数的首位数字弃之,若后面所选取的随机数与前面的随机数相同,则废弃后面的随机数,继续抽取新的随机数,直到抽满30名学生为止。请问:这个抽样结果是否正确?它存在什么不足?应该如何操作?
案例辨析 此抽样结果存在的问题主要是没有保证每一位学生以同等的概率被抽到,因为“若所取的3位数大于或等于学生最大编号,则将该数的首位数字弃之”会使学号为两位数的学生有较多的机会被抽到,所以,它没有真正体现随机抽样的目的。
正确做法 为使每一位学生有同等的概率被抽到,正确的做法是:先将全校学生按点名册从1,2,3,…,200编号;然后依次产生200个在(0,1)上均匀分布的随机数,第一个产生的随机数对应第1号学生,第二个随机数对应第2号学生,依此类推,直至第200号学生;最后,对随机数从小到大排序,则前30个随机数所对应的30个对象即为所抽得的对象。
案例14-2 孕期补充维生素与婴儿神经管缺陷关系的调查研究。调查对象分为两类,一类为先服用维生素后怀孕的妇女,另一类为怀孕后才开始服用维生素的妇女,调查研究结果表明,前者比后者所生的婴儿神经管缺陷发生率要低得多,故得出了孕期之前补充维生素可以减少生育神经管缺陷婴儿的危险性的结论。请问:这个结论是否可信?它存在哪些不足?应采取什么样的措施才可弥补及完善这些不足?
案例辨析 此调查设计存在的缺陷很多。
其一,两类调查对象之间存在某些生理特征上的系统差别,致使在解释结果时发生困难;
其二,“先服用维生素后怀孕”和“怀孕后才开始服用维生素”的表述在时间观念上不够明确,第一类妇女在怀孕前多长时间开始服用维生素?每天服用的剂量是多大?第二类妇女在怀孕后多长时间开始服用维生素?每天服用的剂量是多大?这些至关重要的问题都没作出明确规定,其结论的可信度很低;
其三,维生素的种类很多,是仅服用任何一种还是服用任何几种也未作交代。显然,在对上述两类妇女的调查研究中,组间混杂因素的影响十分严重,缺乏可比性,因此,所得出的结论没有说服力,可信度差。
正确做法 应将拟接受调查的妇女分为四组,且服用的维生素为叶酸。
第1组:怀孕前后均未服用叶酸的妇女;
第2组:怀孕前未服用而怀孕后一周内开始服用叶酸的妇女;
第3组:怀孕前半年内服用叶酸而一旦怀孕后就再也没有服用叶酸的妇女;
第4组:怀孕前半年直到孩子出生之日一直坚持服用叶酸的妇女。记录每日服用叶酸的剂量,还应记录可能导致婴儿神经管缺陷的一切可能的可疑危险因素的接触情况,对调查所得的结果运用相应设计资料的多因素分析方法(如多重回归分析等)进行处理,或许能获得较有价值的线索。
人们最关心的是:最有可能导致胎儿神经管畸形的原因是什么,是遗传,是母亲的生活环境,还是母亲体内缺乏某些物质?有经验的临床医生将答案初步锁定在第三个问题上。于是提出研究假设:胎儿神经管畸形,可能是由于母体内缺少某种或某些微量元素所致。
确定调查目的:调查出现神经管畸形的胎儿的母亲体内各种微量元素的含量,
同时,以同期同地怀孕时间相当且胎儿神经管正常的母亲为对照,也检查她们体内各种微量元素的含量。
结果发现:以妊娠期母体血清锌、铜浓度和铜/锌比值为研究指标,通过产前腹部B超检查(联合),对怀有神经管畸形胎儿的孕妇组和正常孕妇组进行调查,经统计分析,两组血清锌浓度平均值之间的差别有统计学意义,即怀有神经管畸形胎儿的孕妇组的血清锌平均值低于正常孕妇组的血清锌平均值,而血清铜浓度和铜/锌比值的平均值在两组之间的差别无统计学意义,于是,可得出血清锌与神经管畸形的发生有关联的结论。当然,这个结论是否正确,还需要通过大样本前瞻性(详后)动物实验研究进一步予以证实。
案例14-3 在某项病例对照研究中,研究者选择那些因阴道出血前来就诊且后来被诊断患有子宫内膜癌的妇女作为病例组,选择未患子宫内膜癌的正常妇女为对照组,回顾性调查她们是否使用过雌激素,从而获得了病例对照研究的资料,经计算,发现子宫内膜癌患者发病前使用雌激素者是对照组的9倍,经过统计学处理,认为两组之间的差别有统计学意义,于是作出统计推断:雌激素可导致子宫内膜癌。请问:这项调查研究的结果是否可信?若认为不可信,问题的症结在哪里?应如何解决之?
案例辨析 该项病例对照调查研究的结果不可信,它的症结是所选用的对照组不恰当。因为对照组妇女与病例组妇女除了未患与患有子宫内膜癌外,还在“阴道出血”这个严重症状上有区别,即对照组妇女未交代是否出现了阴道出血。若阴道出血妇女在对照组中占的比例很小,且阴道出血确实因某些原因所致时,则阴道是否出血这个因素就是病例组与对照组之间的重要混杂因素。事实上,根据临床专业知识可知,服用雌激素的妇女易导致阴道出血。显然,由于服用雌激素后阴道出血导致就诊机会增多,使无症状的子宫内膜癌的检出率提高,这是一种假象。
正确做法 病例组妇女患有子宫内膜癌,对照组妇女未患子宫内膜癌。用配对的方法选择对照组妇女,使病例组每一个妇女都有与她配对的一个对照组妇女。配对条件是:年龄、生育子女的个数、阴道是否出血、婚姻状况、性生活的频次等。根据这样的病例组与对照组进行回顾性调查研究,考察两组妇女服用雌激素的比例(更恰当地说,是优势比)并进行统计学处理,才能获得比较符合实际的结论。
随机区组设计和析因设计资料的分析
1.随机区组设计与完全随机设计资料在设计和分析方面有何不同?
在设计上,随机区组设计在设计阶段按照一定条件将受试对象配成区组,平衡了某些因素效应对处理因素效应的影响,更好地控制了其他因素对处理因素效应的影响,设计效率较高。
在分析上,随机区组设计资料的方差分析将总变异分解为3部分,将由区组因素导致的变异分离出来,使得误差更接近“随机误差”,假设检验的结果更敏感。
2. 随机区组设计的Friedman检验,如何写?请解释之。
各种处理的总体分布相同。Friedman检验的前提为在各区组内部变量值的秩次是随机的,因此由这些秩次算得各种处理总体的秩次值之和相等。
3.① 某研究者欲比较A、B、C和 D四种饲料对小鼠体重的影响。选择10窝小鼠(每窝4只),应采用何种实验设计方法?如何分析?② 若研究者欲研究四种饲料中脂肪和蛋白质两种成分对小鼠体重的影响,两种成分各有高、低两种含量(析因设计),应选用何种设计方法?请简述分析方法。
① 应用随机区组设计。分析方法:
首先应考虑如果满足方差分析的要求(正态、方差齐性),应用随机区组设计的方差分析(单因素方差分析);
若不满足方差分析的条件,可尝试经变量变换后用随机区组设计的方差分析;
若仍不满足方差分析的条件,可用Frideman法秩和检验。
② 用析因设计,可分析两因素间的交互作用。分析方法:用析因设计资料的方差分析。
4.对于两因素的析因设计资料和随机区组设计资料,假定两个因素分别用A和B表示,可否先单独分析A因素,再单独分析B因素?为什么?
不可以。如果分别应用单因素的方法(方差分析方法、检验或秩和检验等)分析A、B两因素,就会出现以下结果:
① 没有按照实验设计的方法选择分析资料,达不到设计时的目的,信息利用率低。
②不能同时分析两个因素,即控制一个因素影响后分析另一个因素的实验效应。
③ 对于析因设计资料,无法分析因素间的交互效应。
1.将36只大白鼠按体重相近的原则配为12个单位组,并将各单位组的3只大白鼠随机地分配到三个饲料组,一个月后观察尿中氨基氮的排出量(mg)。经初步计算,SS总=162,SS单位=8,SS饲料=110。试列出该实验数据的方差分析表。
2.将18名原发性血小板减少症患者按病情和年龄都相近的原则配为6个单位组,每个单位组中的3名患者随机分配到A、B、C三个治疗组中,治疗后患者的血小板升高,结果见教材表16-16,问3种治疗方法的疗效有无差别?
该资料为随机区组设计,应用随机区组设计资料的方差分析,结果见练习表16-2,可进一步作多重比较
4.某研究人员以0.3 ml/kg剂量纯苯给大鼠皮下注射染毒,每周3次,经45天后,使实验动物白细胞总数下降至染毒前的50%左右,同时设置未染毒组。两组大鼠均按照是否给予升高白细胞药物分为给药组和不给药组,实验结果见教材表16-18,试作统计分析
析因设计,应用方差分析的方法分析
5.外源性NO供体硝普钠(SNP)对培养心肌细胞DNA有损伤作用,某研究者欲实验超氧化物歧化酶(SOD)和过氧化氢酶(CAT)对心肌细胞的保护作用,实验材料用Wistar大鼠心肌细胞。将相同条件的20个盛有细胞悬液培养皿随机分为4组,每组5个培养皿。四组培养皿均加入40 mol/L SNP。另外,第二组培养皿中加入50 U/ml SOD,第三组培养皿中加入50 U/ml CAT,第四组培养皿中加入50 U/ml SOD和50 U/ml CAT。5小时避光培养后电泳分析,结果如教材表16-19(迁移改变50个细胞位置)请分析实验结果。
析因设计--方差分析
重复测量设计和交叉设计资料的分析
两样本差异性比较--定量-t检验,定性-x2检验、秩和检验wilcoxon
两独立样本定量资料的假设检验(t检验/校正t检验--比较两样本均数有无差别--正态、方差齐,秩和检验—非正态)
分支主题
为甚要进行假设检验--差异是由什么造成
两独立样本t检验--n大于50➕方差齐/正态➕方差齐//正态➕方差不齐—校正t检验//非正态—秩和检验
两独立样本t检验-独立、正态、方差齐(n大于50).。— 用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著
例1.定量分析--discriptive统计描述,
例2.p>0.1--方差齐-看第一行结果
t’检验--deviation-偏差,方差不齐(p<0.1)-校正t检验(t’)
配对t检验--配对→对照试验→观察结果
例--
Z检验-
中心极限定理--大样本情况下(n1,n2>50)→检验统计量Z渐进服从标准正态分布--Z0.05/2=1.96
练习:
1.假设检验中,P值和α的含义是什么?两者有什么关系?
P是指H0成立时出现目前样本情形的概率最多是多大, α是事先确定的检验水准。但P值的大小和α没有必然关系。
2. 既然假设检验的结论有可能有错,为什么还要进行假设检验?
假设检验中,无论拒绝不拒绝H0,都可能会犯错误,表现为拒绝H0时,会犯Ⅰ类错误(弃真),不拒绝H0时,会犯Ⅱ类错误(求伪),但这并不能否认假设检验的作用。只要涉及到抽样,就会有抽样误差的存在,因此就需要进行假设检验。只是要注意,假设检验的结论只是个概率性的结论,它的理论基础是“小概率事件不可能原理--p<0.05”。
3. 配对设计资料能否用完全随机设计资料的统计检验方法(t检验--两独立随机样本均数比较)?为什么?
不能。采用完全随机设计资料的t检验会使检验效能(1-β)降低,从而可能会使应有的差别检验不出来。
4. 对于完全随机设计两样本定量资料的比较,如何选择统计方法?
完全随机设计两样本定量资料比较统计方法的选择最关键的是看是否满足正态性(样本量较大时不必进行正态性检验)和方差齐性。
t 检验--资料来自正态总体且总体方差齐
t′检验--正态性但总体方差不齐
秩和检验--当两者都不满足时
当然,我们也可采用变量变换的方法使其满足t或t′检验的条件。
5. 为什么在秩和检验编秩次时不同组间出现相同数据要给予“平均秩次”,而同一组的相同数据不必计算“平均秩次”?
取不取“平均秩次”对该组的总的秩和没有影响
1. 某单位研究饲料中维生素E缺乏对肝中维生素A含量的影响,将同种属、同年龄、同性别、同体重的大白鼠配成8对,并将每对动物随机分配到正常饲料组和缺乏维生素E的饲料组,定期将大白鼠杀死,测定其肝中维生素A的含量(教材表6-12),问饲料中维生素E缺乏对肝中维生素A的平均含量有无影响?
此题是个配对设计的资料,差值的正态性检验结果表明:差值来自正态总体(检验:P=0.268),所以采用配对t检验。结果为:t=6.837,=7,P<0.001,拒绝H0,可以认为维生素E缺乏对肝中维生素A含量有影响
案例6-1 为研究直肠癌患者手术前后血清CEA含量有无差异,作者收集了以下资料:
(1)有人采用了两独立样本的t检验(正态,方差齐),结果t=15.92,v=34,p<0.05。从而得出结论:手术前后血清CEA含量有差异,术前CEA含量高于术后。
属于盲目套用两独立样本的t检验,因为未检查定量资料是否满足参数检验的前提条件。
(2)也有人觉得上述分析方法不对,应该采用两独立样本的秩和检验(非正态、等级资料),结果为:Z=-4.83,<0.05。
若定量资料满足参数检验的前提条件,直接用秩和检验会降低检验功效。
(3)还有人认为应该采用校正t检验(正态、方差不齐),结果:t’=22.51,p<0.05。
若定量资料不满足正态性要求,直接用校正的t检验也是不妥当的。
(4)有人将上述三种方法作一比较,认为既然三者结论是一致的,所以采用哪种分析方法都无所谓。对此你有何看法?
应当采用哪种统计分析方法不应仅看结论是否一致,而应根据分析目的、设计类型、资料是否满足参数检验的前提条件(正态性、方差齐性)等方面综合考虑,事先选定统计分析方法,不能等到计算结果出来了,再确定统计分析方法。
正确做法 此案例涉及完全随机设计两小样本资料的假设检验,统计方法的选择一定要结合数据特征。通过对两组数据进行正态性检验,发现两样本均来自正态总体,但方差齐性检验结果表明,两总体方差不齐,所以最好的办法就是t’检验,此种情况一般不主张采用秩和检验,因为检验功效会大大降低。
案例6-2 为研究不同药物对肥胖患者的疗效,将BMI≥28的肥胖患者随机分成两组,每组10人,测得他们服药前及服药2个月后体重的变化(教材表6-10)。试评价:①A、B两种药物对肥胖患者是否有效。②A、B两种药物的疗效有无差别。
(1)假设数据服从正态分布,且总体方差齐,在评价A、B两种药物对肥胖患者是否有效时,作者对A、B两组患者分别采用了独立样本的 t 检验,结果:A 组患者服药前后比较 t =1.040,P=0.312; B组患者服药前后比较 t =1.125,P=0.275。从而得出结论,两种药物均无效。(2)有人认为这种方法不太好,他采用独立样本的t检验,首先比较服药前两组基线水平,结果 t =1.533,P=0.160,表明差异没有统计学意义,两组有可比性。进而,比较治疗后两组体重的差异,结果 t =0.346,P=0.734,从而得出结论:A、B两种药物的疗效差异无统计学意义。
案例辨析
(1)误用独立样本的t检验取代配对设计定量资料的t检验(前后)
正确做法:(1)欲评价A、B两种药物对肥胖患者是否有效,应分别对A、B两组患者服药前后体重进行配对检验,求得值后与界值进行比较,从而得出药物治疗前后体重变化有无差异的推断。另外,即使在进行配对检验时获得了一个较小的P值,拒绝了H0,下结论也一定要慎重。差异有统计学意义并不能说明药物就有效,药物是否有效以及疗效的好坏一方面要结合专业知识方可得出结论,另一方面服药前后肥胖患者的饮食习惯、运动情况等因素对体重都会有影响。因此,对同一个体处理前后某项指标进行比较,一定要保证非处理因素在处理前后保持不变,否则难以得出正确的结论。
(2)本案例中采用独立样本的t检验单纯比较两组治疗后体重有无差异去推断两种药物的疗效差别是不正确的。因为两组肥胖患者治疗前体重可能不同,缺乏组间可比性。因为未充分发挥两组患者服药前的信息,使结论的可信度降低。
正确做法:总之,如果要分别评价A、B两种药物是否有效,可以首先按照自身对照设计资料,考虑采用配对t检验并结合专业与实际进行推断。另外,可以同时设定一个平行对照帮助推断。如果欲评价A、B两种药物的疗效有无差别,可以采用以下两种方法之一:①分别计算出各组治疗前后体重的差值,然后作完全随机设计两样本比较的t检验;②以治疗前两组体重数据作为协变量的值,采用多重回归扣除治疗前体重的影响(参见本书第11章)。
案例6-3 为研究长跑运动对增强普通高校学生的心功能的效果,某学校随机抽取15名男生,进行5个月的长跑锻炼,5个月前后测得的晨脉数据如教材表6-11所示,问长跑锻炼前后的平均晨脉次数有无不同?
作者认为该研究属于配对设计的定量资料(前后),通过对差值进行正态性检验,发现差值不是来自正态总体( W 检验:P=0.041),所以用配对资料的符号秩和检验(非正态),结果为 T=10,查 T界值表,得双侧P<0.05。因此认为长跑后的平均晨脉次数低于长跑前的平均晨脉次数。你认为上述分析是否合适?请说明理由。
案例辨析 “同一受试对象处理前后的比较”严格地说不是合格的配对设计,因为处理前的个体接受的是空白处理,而处理后的同一个体接受的是“处理(长跑)+时间(5个月)”,因此,即便长跑前后的晨脉次数有差别,也不能就判断是长跑的作用,因为有5个月的时间效应混杂在其中。
正确做法 处理此类问题的最好办法是加一个平行对照,使“时间效应”在两组比较时互相抵消,从而可以更真实地揭示“长跑与否”产生的效应之间的差别有无统计学意义。
两独立样本定性资料的假设检验(x^{2}检验)--n≥40,T≥5-- 一般四格表x^{2}检验 // n<40,或n>40,但1≤T<5 →校正卡方检验 // n<40且T≤5--fisher确切概率法
x^{2}检验--A为实际值,T为理论值
x^{2}用于衡量实际值与理论值的差异程度--(由于平方的存在,差异是被放大的)
属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。
它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
例1--喝牛奶对感冒发病率有没有影响
假设喝牛奶与感冒无关--感冒的实际发病率--71/180=28.29%
卡方 = (43 - 39.3231)平方 / 39.3231 + (28 - 31.6848)平方 / 31.6848 + (96 - 99.6769)平方 / 99.6769 + (84 - 80.3152)平方 / 80.3152 = 1.077
自由度等于V = (行数 - 1) * (列数 - 1),对四格表,自由度V = 1
v=1→查询卡方分布的临界值表→3.84--喝牛奶和感冒95%概率不相关的卡方分布的临界概率是:3.84
1.077<3.84,没有达到卡方分布的临界值,所以喝牛奶和感冒是独立不相关的。
例2--不吃晚饭对体重下降有没有影响
1. 建立假设检验:
H0:r1=r2,不吃晚饭对体重下降没有影响,即吃不吃晚饭的体重下降率相等;
H1:r1≠r2,不吃晚饭对体重下降有显著影响,即吃不吃晚饭的体重下降率不相等。α=0.05--显著值?
2. 计算理论值 ----若各理论数与相应实际数相差越小,卡方值越小;如两者相同,则卡方值必为零。
3. 计算卡方值
4. 查卡方表求P值
卡方检验的自由度v=(行数-1)(列数-1),则该题的自由度v=(2-1)(2-1)=1,查卡方界值表,找到3.84
本题卡方=5.498即卡方>3.84,P<0.05 ,差异有显著统计学意义,按α=0.05水准,拒绝H0,可以认为两组的体重下降率有明显差别
卡方分布
若n个相互独立的随机变量ξ₁,ξ₂,...,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)
R语言作图
x1 = rnorm(1000000)
x2 = rnorm(1000000)
x3 = rnorm(1000000)
x4 = rnorm(1000000)
x5 = rnorm(1000000)
x6 = rnorm(1000000)
Q1 = x1^2
Q2 = x1^2 + x2^2
Q3 = x1^2 + x2^2 + x3^2
Q4 = x1^2 + x2^2 + x3^2 + x4^2
Q5 = x1^2 + x2^2 + x3^2 + x4^2 + x5^2
Q6 = x1^2 + x2^2 + x3^2 + x4^2 + x5^2 + x6^2
par(mfrow=c(1,1))
plot(density(Q1),xlim=c(0.23,6),ylim = c(0,1),breaks = 200,col = 'blue',lwd=2,main='chi-square',xlab = '',ylab='')
lines(density(Q2),col='black',lwd=2)
lines(density(Q3),col='red',lwd=2)
lines(density(Q4),col='green',lwd=2)
lines(density(Q5),col='gray',lwd=2)
lines(density(Q6),col='orange',lwd=2)
legend('topright',c('k=1','k=2','k=3','k=4','k=5','k=6'),fill = c('blue','black','red','green','gray','orange'))
一般四格表x^{2}检验--n≥40,T≥5 --比较两种方法差异
公式
例1--求理论值(校正-nr1×nc1/N)→n≥40,T≥5 → x2=(A-T)2/T → x2(实际值)>x2(0.05,1)=3.84 → p<0.05→ 拒绝H0,接受H1→
例2.当n<40,或n>40,但1≤T<5 →校正卡方检验(连续矫正-continuity correction)
例3.fishers’exact test--fisher确切概率法--n<40,T≤5
配对四格表x^{2}检验--比较两种方法关联性-pearson
例--假设两种方法的阳性率相等 → b=c →b和c的理论频数=b+c/2 → 当b+c≥40 → x2=(b-c)2/b+c,当b+c<40,进行连续性矫正-x2=(b-c-1)2/b+c
例--b+c<40--连续性矫正-x2=(b-c-1)2/b+c
配对四格表可做以下分析--mcnemar检验,pearson行列系数(是否相关),kappa一致性检验(是否一致)
行列表x^{2}检验
例-发生率是否相同--相关性分析-pearson
注意事项--
①3x2-修正α水平-α=0.05/3=0.0167 ②多组之间两两比较。
③合并删除
④等级比较--非参数检验
⑤常见问题
例
第一类错误/第二类错误--α-弃真,β取伪
假设检验是反证法的思想,依据样本统计量作出的统计推断,其推断结论并非绝对正确,结论有时也可能有错误,错误分为两类。
第一类错误(typeⅠerror),Ⅰ型错误,拒绝了实际上成立的H0,,即错误地判为有差别,这种弃真的错误称为Ⅰ型错误。其概率大小用即检验水准用α表示。α可取单尾也可取双尾。假设检验时可根据研究目的来确定其大小,一般取0.05,当拒绝H0时则理论上理论100次检验中平均有5次发生这样的错误.。
第二类错误(typeⅡ error)。Ⅱ型错误,接受了实际上不成立的H0 ,也就是错误地判为无差别,这类取伪的错误称为第二类错误。第二类错误的概率用β表示,β的大小很难确切估计。当样本例数固定时,α愈小,β愈大;反之,α愈大,β愈小。因而可通过选定α控制β大小。要同时减小α和β,唯有增加样本例数。统计上将1-β称为检验效能或把握度(power of a test),即两个总体确有差别存在,而以α为检验水准,假设检验能发现它们有差别的能力。实际工作中应权衡两类错误中哪一个重要以选择检验水准的大小。
练习
1. 简述卡方检验适用的数据类型
X2检验是应用较广的一种定性资料的假设检验方法,常用于检验两个或多个样本率(或构成比)之间有无差别
2.两组二分类资料的设计类型有几类?其相应的检验方法是什么?
两组二分类资料的设计类型主要有2类,即完全随机设计(一般四格表卡方检验)和配对设计(配对四格表卡方检验)---在假设检验方法上均采用卡方检验。
3.什么资料适合用秩和检验进行检验?简述秩和检验步骤。
进行有序资料(等级)的比较时宜采用秩和检验。秩和检验步骤为:
①建立假设,并确定检验水准;
② 根据不同的设计类型对资料进行编秩并计算秩和;
③ 根据计算的秩和直接查表或计算相应的统计量H再查表(X2),确定值下结论。进行有序资料的比较时宜采用秩和检验
1.某医院观测了28例肝硬化患者和14例再生障碍性贫血患者血清中抗血小板抗体, 结果是:肝硬化患者中有2例阳性,再生障碍性贫血患者中有5例阳性。问:两类患者血清抗血小板抗体阳性率有无差别?
资料属于独立的两组二分类资料比较。理论频数T分别为4.67、23.33、2.33、11.67,应选用校正X2公式(n小于40,T>5/n>40,T<5)(Fisher确切概率法--n<40,T<5)计算。
假设:两种疾病患者血清抗血小板抗体检测阳性率相同,a=0.05。
计算统计量校正卡方X2=3.621 4,自由度=1,P=0.057 0<0.05, 无统计学意义,尚不能认为两种疾病患者血清抗血小板抗体检测阳性率不同。
2. 对100名钩端螺旋体病患者同时用间接免疫抗体试验和显微镜凝集试验进行血清学诊断,结果见教材表8-18。试比较用两种方法检验的阳性率有无差别?
本资料属于配对的两组二分类资料比较,b+c=11+6=17<40,应选用校正配对卡方公式计算。
假设H0:两种方法检测的阳性率相同,a=0.05。计算统计量 X2=0.9412,df=1,P=0.332,无统计学意义,尚不能认为两种方法检测的阳性率不同。
3.研究两种不同的治疗训练方案对肥胖症患者的减肥效果情况,结果见教材表8-19。问这两种治疗训练方案对肥胖症患者的减肥效果是否相同?
该资料属于结果变量为有序变量的定性资料,应选用秩和检验。--两样本三分类
假设:两种治疗方案对肥胖症患者的减肥效果相同,a=0.05。
按照治疗效果由差到好编秩,计算秩和T甲=1974 ,统计量U=-2.064,P=0.039,有统计学意义,可以认为两种治疗方案的减肥效果不同,
由两组平均秩和看,甲组为1 974÷46=42.91,乙组为2682÷50=53.64,因为编秩是由差到好,因此可认为乙治疗方案的效果好于甲治疗方案。
4.比较三种中药方剂对骨质疏松症的治疗效果,结果见教材表8-20。三种方剂的治疗效果是否有差异?
多样本二分类
假设H0:三种方剂对骨质疏松症的治疗效果相同,a=0.05。
计算统计量X2=6.3350,df=2,P=0.042,差别有统计学意义,拒绝H0,接受H1,尚不能认为这三种方剂的治疗效果不相同。
案例8-1 某单位调查了4类人员乙型肝炎表面抗体(HBsAb)的阳性率,想比较3种病人与健康人群的阳性率有无差别,数据见教材表8-14。
请大家对本案例讨论如下问题:
(1)若看成一个4×2列联表资料进行1次检验,是否能达到分析目的?
(2)若将每一种病人与健康人群HBsAb的检查结果分别组成四格表,进行3次四格表检验,对否?
(3)怎样达到分析目的?
案例辨析
(1)因为分析目的是“想比较3种病人与健康人群的阳性率有无差别”,进行1次检验,不能达到分析目的。
(2)独立地进行3次四格表检验是不妥的,因为那样做会增大犯假阳性错误()的概率。
正确做法
(1)就本例而言,对于这个4组二分类资料,当小于5的理论频数的个数少于总格子数的 1/5 时,适合用一般 X2检验进行总的分析。 其结果是 X2= 14.148 9,P=0.002 7<0.05,4类人员HBsAb阳性率之间的差别有统计学意义。
(2)接着作两两比较,原作者较关注3种病人与健康人的HBsAb比较,其阳性率是否有差异,因此只需比较3次。但每次比较,对应的检验水准应作调整(见后)。
(3)为了达到前述的统计分析目的,又使犯假阳性错误的概率不增加,应当对每个四格表资料进行假设检验时降低检验水准,即取a’=0.05/(2x3)=0.0083。于是,肝癌病人和健康人比较X2=8.5779,p=0.003 4<0.008 3;肝炎病人和健康人比较X2= 9.2883,p = 0.002 3<0.008 3; 食管癌病人和健康人比较X2(校正--T<5)=0.1807,p=0.670 7>0.008 3。因此可以认为,肝癌病人、肝炎病人和健康人的HBsAb阳性率有差异,而不能认为食管癌病人和健康人的HBsAb阳性率有差异。(说明:X2检验通常为单侧检验,所以,校正的a’应等于a/(2xc),这里c为两两比较的总次数)
案例8-2 在论文《果糖二磷酸钠治疗新生儿缺氧缺血性脑病的疗效观察》中,为了研究果糖二磷酸钠治疗新生儿缺氧缺血性脑病的疗效,将患者随机分为观察组和对照组,观察组用果糖二磷酸钠,对照组用胞磷胆碱。治疗效果分为无效、有效和显效三种结果(教材表8-15)
原作者采用列联表的专用X2检验公式,结果是:X2=4.74,p<0.05,认为两组疗效之间的差异有统计学意义。
请大家对本案例讨论如下问题:
(1)原作者的分析目的是什么?选用检验的问题在哪里?
(2)什么情况下可以选用X2检验?
(3)本问题应选用的统计分析方法是什么?为什么要选择这样的方法?
案例辨析 分析目的为“比较观察组与对照组治疗新生儿缺氧缺血性脑病的疗效有无差异”;选用X2检验不能达到前述的分析目的,因为此检验法与疗效的有序性没有任何联系。
正确做法
(1)如果仅关心两个实验分组中的患者在三个疗效等级上的人数分布是否相同,此时,可以选用X2检验。
(2)本例的定性资料属于“结果变量为有序变量的单向有序的2x3列联表资料”,为了实现前述的统计分析目的,应选用秩和检验。本例采用秩和检验进行统计分析,Hc=2.8107,P=0.093 6。尚不能得出两组疗效之间的差异有统计学意义的结论。
案例8-3 某研究者欲比较食管癌TNM分期的某种基因蛋白阳性表达率有无差异,收集了食管癌Ⅱa期患者7例、Ⅱb期患者10例、Ⅲ期患者23例,检测了某种基因蛋白的阳性表达例数(x)分别为3、8和21例。研究者考虑食管癌的TNM分期是有序变量,因此运用秩和检验处理资料,结果Hc=6.1191,p=0.0134(教材表8-16), 差异有统计学意义。
请大家对本案例讨论如下问题:
(1)原作者的分析目的是什么?在此目的下应选择的统计分析方法是什么?
(2)在什么情况下可以选用秩和检验?
案例辨析 原作者盲目选择秩和检验处理了该资料。原作者的分析目的是“食管癌TNM分期在某种蛋白的阳性表达率方面有无差异”;为实现此分析目的,首先应弄清这是一个什么样的列联表资料。食管癌TNM分期这个有序变量是“原因变量”,不是“结果变量”,结果变量为“是否阳性”,故此定性资料可以被视为“双向无序的3x2列联表资料”。
正确做法 以采用一般检验或Fisher精确检验(--n<40,T<5,若小于5的理论频数的个数小于总格子数的1/5)处理资料为宜。可将教材表8-16整理成案例表8-1,因为有3个理论频数小于5,故采用Fisher精确概率法进行计算更合适,结果是:P=0.017 2,可以认为食管癌TNM不同分期某种蛋白的阳性表达率之间的差异有统计学意义。
但当结果变量为多值有序变量,且希望比较各期患者在结果上的差别是否具有统计学意义时,需要选用秩和检验。本例,原作者对原因变量“赋值或打分”,采用秩和检验是没有意义的。
两样本秩和检验--非参数检验 --wilcoxon-非正态、等级 // 多样本均数的秩和检验--kruskal-wallis秩和检验
非参数检验
两样本定量资料秩和检验—非正态分布
例
两样本等级资料秩和检验
例
多组定量资料的比较--F方差分析-多个样本均数的比较//LSD-多个样本均数间的两两比较(多重比较)//方差不齐、等级资料--KW秩和检验
方差分析--F检验–独立、正态、方差齐
BK
方差齐性--各比较组相应的总体方差相等
方差齐性检验-BK70
是指由两样本方差推断两总体方差是否相同的检验方法--F检验--F=S2/S2,v1=n1-1,v2=n2-2
查F界值表--Fa/2,(v1,v2),一般α=0.1
若F≥Fa/2,(v1,v2)→则P≤α → 拒绝H0,接受H1 → 可以认为两总体方差不齐→不可以使用两独立样本t检验,而应采用t’
计算
假设检验
计算检验统计量F值
SS总=(n-1)S2
SS组间=ni(x-x)2
MS组间=SS组间/v组间--组间均方-处理因素效应和随机误差综合结果
SS组内=SS总-SS组间
MS组内=SS组内/v组内
F=MS组间/MS组内
确定P值
F值与F界值表-F0.05(v1,v2)相比--F>FF0.05(v1,v2)--则P<0.05--拒绝H0
多个样本均数的两两比较
对于两组资料的比较,方差分析完全等价于t检验-两样本均数比较
多个样本均数的两两比较-Dunnett-t检验、LSD-t检验、 SNK-q检验、 Tukey法、 Scheffe法、 Bonferroni-t检验、 Sidak-t检验
单因素方差分析---多样本均数比较不能直接用两样本t检验进行—增加一类错误的概率(弃真)--应用方差分析(正态、方差齐)/秩和检验kw(非正态或方差不齐)
SS--变量在各组的均值与总均值之偏差平方和的总和,
df--组件自由度
MS=SS/V→F=MS组间/MS组内
例
方差分析的步骤--假设→计算统计量F→求概率值P做出推论
例--i-组内,j-组间
注意--局限、数据变换
分支主题
分支主题
数据变换
多个样本均数间的两两比较(多重比较)–lsd-t
多重比较--LSD-t,SNK,Bonferroni
多个样本均数的秩和检验--kruskal-wallis—非正态/方差不齐/等级/分布类型不清 // 两样本秩和检验-wilcoxon秩和检验
偏态/方差不齐--用spss检验
例--多样本均数比较--正态?方差齐?→ 数据变换或秩和检验→编秩次→计算统计量H→比较x2
正态?方差齐?→
是→单因素方差分析
否→数据变换/秩和检验→
例:独立?正态?方差齐?→是-单因素方差分析/否-秩和检验
案例辨析 原作者用3次检验处理此定量资料是不妥当的,因为这样做割裂了原先的整体设计,对资料的利用率较低,对误差的估计不够合理,检验统计量的自由度较小,结论的可信度降低。
正确做法 这是从三个子总体内完全随机抽取受试对象的单因素3水平设计定量资料的假设检验问题,应选用与此设计对应的统计分析方法。
若定量资料满足参数检验的三个前提条件(即独立性、正态性和方差齐性),应选用单因素3水平设计定量资料方差分析;
若定量资料不满足参数检验的三个前提条件,可选用Kruskal-Wallis秩和检验。
假定3组定量资料满足独立性要求,对3组定量资料用检验分别进行正态性检验,得:卵巢发育不良组为w=0.979,p=0.930;丘脑性闭经组为w=0.874,p=0.087;垂体性闭经组为W=0.844,p=0.083。因3组正态性检验结果均有>0.05,说明3组定量资料满足正态性要求。
再对3组定量资料进行方差齐性检验(采用Levene检验),得:f=1.416,p=0.265。说明3组定量资料满足方差齐性的要求。
因该定量资料满足方差分析的前提条件,故建议采用单因素3水平设计定量资料方差分析处理。经方差分析,f=74.64,p<0.001;进而经Bonferroni检验,卵巢发育不良组高于丘脑性闭经组(p<0.001),卵巢发育不良组高于垂体性闭经组(p<0.001),而丘脑性闭经组与垂体性闭经组之间的差异无统计学意义(p=0.234);虽然结论与原作者的相同(巧合),但原作者的处理过程不妥。
例--方差齐性检验+正态性检验→方差不齐 → 数据变换(平方根)→方差齐性检验(levene)+正态性检验(w检验)→ 方差齐 →方差分析→三样本均数有差别→LSD法(两样本均数间的两两比较/多重比较)→两两样本均数之间有无差异
案例辨析 进行方差分析,首先要进行方差齐性及各样本的正态性检验。从3组生存天数的方差看,A细菌为7.29,B细菌为9.67,C细菌为41.34。大小方差比近5倍之多,可能方差不齐。通过Levene检验(方差齐性检验),f=4.14,P=0.043,方差不齐,因此,直接进行方差分析不妥当。
正确做法
通过平方根数据变换使其尽可能接近方差分析的前提条件。
通过Levene检验,w=1.15,p=0.348,方差齐;
经过正态性检验,A细菌组w=0.989,p=0.976;B细菌组w=0.968,p=0.860;C细菌组w=0.875,p=0.286。即3组正态性检验结果均有p>0.10,说明3组定量资料经平方根变换后满足正态性要求。
因此,平方根数据变换后满足了方差分析的前提条件,可进行方差分析。经方差分析,f=4.96,p=0.027,即小白鼠接种3种不同的细菌后存活的天数有差别。进一步用LSD法进行多重比较(两样本均数间的两两比较/多重比较),C细菌与A细菌、C细菌与B细菌之间均有统计学差异,而B细菌与C细菌之间无统计学差异。
另外,亦可通过非参数检验(如Kruskal-Wallis秩和检验)进行分析。:编秩次
练习
1. 方差分析的基本思想和应用条件是什么?
基本思想--
对于不同设计的方差分析,其思想都一样,即均将处理间平均变异与误差平均变异比较。不同之处在于变异分解的项目因设计不同而异。
具体来讲, 根据试验设计的类型和研究目的,将全部观测值总的离均差平方SS和及其自由度V分解为两个或多个部分,除随机误差作用外,每个部分的变异可由某个因素的作用加以解释,通过比较不同变异来源的均方,借助F分布作出统计推断(统计量F),从而推论各种研究因素对试验结果有无影响。
应用条件--
① 各样本是相互独立的随机样本,均服从正态分布;
② 各样本的总体方差相等,即方差齐性。
2. 多组定量资料比较时,统计处理的基本流程是什么?
多组定量资料比较时首先应考虑用方差分析,对其应用条件进行检验,即方差齐性及各样本的正态性检验。
若方差齐性,且各样本均服从正态分布,选单因素方差分析。
若方差不齐,或某样本不服从正态分布,选Kruskal-Wallis秩和检验(两样本秩和检验--wilcoxon),或通过某种形式的数据变换使其满足方差分析的条件。
若方差分析或秩和检验结果有统计学意义,则需选择合适的方法(如Bonferonni、LSD法等)进行两两比较(多重比较)
1. 根据教材表7-11资料,大白鼠感染脊髓灰质炎病毒后,再作伤寒或百日咳接种是否影响生存日数?若结论为“有影响”,请作多重比较(与对照组比)。
本题资料可考虑用完全随机设计的单因素方差分析(独立、随机、正态、方差齐)进行统计处理。
(1)建立检验假设,确定检验水准。
H0:大白鼠感染脊髓灰质炎病毒后,再接种伤寒或百日咳菌苗生存日数相等。
H1:大白鼠感染脊髓灰质炎病毒后,再接种伤寒或百日咳菌苗生存日数不等或不全相等,a=0.05。
(2)方差分析应用前提条件的检验 首先进行正态性及方差齐性检验,三组均服从正态分布(P1=0.684,P2=0.591,P3=0.507),三个总体的方差齐(P=0.715),符合单因素方差分析的条件,可行方差分析。
(3)各组可分别采用均数和标准差描述其集中趋势和离散趋势,各组的统计描述及总体均数的置信区间如下:
(4)资料的方差分析见方差分析表 方差分析结果F=4.776,P=0.017,即大白鼠感染脊髓灰质炎病毒后,再接种伤寒或百日咳菌苗生存日数不等或不全相等。
进一步行多重比较(LSD检验),结果两实验组均与对照组有统计学差异。认为大白鼠感染脊髓灰质炎病毒后,再接种伤寒或百日咳菌苗对生存日数有影响,生存日数减少。
2. 将18名乙脑患者随机分为三组,分别用单克隆抗体、胸腺肽和利巴韦林三种药物治疗,观察指标为治疗后的退热时间,结果见教材表7-12。问三组治疗结果的差异是否具有统计学意义?
从专业上考虑,退热时间一般不服从正态分布,可采用Kraskal-Wallis检验(多样本秩和检验)分析三组乙脑患者的退热时间差异有无统计学意义。
(1)各组可分别采用四份位数描述其集中趋势和离散趋势,各组的统计描述如下
(2)建立检验假设,确定检验水准。
H0:三组乙脑患者的退热时间相等,
H1:三组乙脑患者的退热时间不等或不全相等,
a=0.05。
(3)Kraskal-Wallis检验--结果统计量H<X2=4.799(查X2分布界值表),v=2,P=0.091>0.05。结论为,a在=0.05的水平上尚不能认为三组治疗结果的差异具有统计学意义.
案例7-3 某地用三种药物杀灭钉螺,每次用200只活钉螺,用药后清点每批钉螺的死亡率(%)如下:
研究者直接对数据进行了方差分析,得F=17.06,p<0.001;进而经Bonferroni检验(多个均数间的两两比较),这三种药物的效果为两两间均有差别(p<0.05)。请问该研究者所做统计处理是否合理?为什么?正确的做法是什么?
案例辨析 多组比较,但数据都是0和1之间的百分比,例如,某种细胞或成分的百分比、发病率、感染率等服从二项分布的资料,直接作方差分析是不妥当的,因为此类资料不服从正态分布。
正确做法 这类情形应当作了反正弦变换后作方差分析。该资料经反正弦变换为
甲 42.99 38.94 39.52 34.76 44.71 33.21
乙 36.87 32.58 26.92 28.32 23.97 30.66
丙 29.33 16.95 17.66 14.77
经SPSS运算,结果F=17.719,p<0.001;进而经Bonferroni检验,这三种药物的效果两两间差别均有统计学意义(p<0.05),即甲药杀灭钉螺效果好于乙药与丙药,而乙药好于丙药。
另外,该案例资料也可直接用非参数检验Kruskal-Wallis检验进行分析(多样本的秩和检验--非正态)。通过Kruskal-Wallis检验,=0.004,故可认为三种药物杀灭钉螺时,钉螺的死亡率总体分布不同或不全相同。进一步进行两两比较,检验水准a=0.05/3=0.017,Z0.017=2.12(案例表7-1)
甲药与乙药、甲药与丙药之间差异有统计学意义,而乙药与丙药之间差异无统计学意义。即甲药杀灭钉螺效果好于乙药与丙药,而乙药与丙药之间效果接近。
另外,可以看出,参数检验的检验功效高于非参数检验
关联性分析--相关系数r,相关系数的假设检验-t检验,线性回归系数的检验-t检验,回归方程的检验-单因素方差分析。相关系数r与线性回归系数β的假设检验等价(t检验)
概述---相关-定量-随机变量--pearson(线性、正态)/spearman(等级、非正态) ,关联-定性-分类变量--X2检验,dendall-等级
例-散点图--观察是否存在相关关系
相关-连续随机变量间的联系
关联-分类变量间的联系
定量描述线性联系的强度和相关方向--pearson积矩相关系数(计算积矩相关系数要求两变量满足双变量正态分布)(简单线性相关?)--样本相关系数r
线性回归系数的估计
两个连续随机变量间的相关分析(随机变量--定量)---线性-pearson(双变量正态分布)-身高与体重(假设检验-t)// spearman秩相关(非正态)-编秩次-时间与花费(假设检验-t)
pearson积矩相关系数--线性相关联系的强度和相关方向--xy服从双变量正态分布 // 线性回归--随机、独立、正态、线性
直线相关分析步骤:散点图--求r -假设检验(t检验--是否相关)--参数估计(ρ的置信区间)
散点图--观察趋势
计算相关系数r
假设检验--验证xy是否线性相关--t检验(自由度v=n-2)(两样本均数的差异性比较)
参数估计:总体相关系数ρ的置信区间估计--由于抽样误差的存在,r也是一个随机变量--用r来估计总体相关系数ρ的置信区间
spss
线性相关分析应用中应注意的问题
观察两变量关系-散点图
剔除异常值
分支主题
线性相关--二元、正态、随机
分支主题
ρ=0---样本含量?曲线相关?分层分析?
结合专业知识
spearman秩相关系数--独立、随机、非正态、分布类型未知、数据不确定、等级资料--编秩次→t检验
案例:xy两独立随机变量的相关性--①非正态-spearman秩相关 // ②xy双变量正态分布--pearson积矩相关系数
分析步骤
编秩次(方便计算--找出相关性)
假设检验--→t检验 // 参数估计--求相关系数的置信区间
spss步骤:
两个分类变量间的关联分析(分类变量--定性)--X2检验/kendall(等级)--两种属性(有无关联/关联强度r)--二分类/多分类资料
概述--分类变量(两种属性--有/无,是/否,)
讨论两种属性有无关联
交叉分类2×2表的关联分析--两种属性有无关联(行为AB与有无冠心病)
分析步骤
两种属性的关联性分析--X2检验
虚拟假设H0:两种属性无关联。
计算统计量x2→对比x2 0.05(2)=3.84→p<0.05→拒绝H0--两种属性存在关联
r--关联系数--越大,两变量关联强度越大
自由度v=(2-1)×(2-1)=1 // t检验-v=n-2
pearsonX2?
spss
2×2配对资料的关联分析-----两种方法的结果是否有关联(影像与检验、新方法与金标准),关联程度r
步骤--同交叉分类2x2
例
分支主题
spss
对比--金标准--2x2 X2--诊断性试验--真阳性率(敏感性),真阴性率(特异性)
McNemar-阳性率是否相等--仅考虑配对中不一致的数据(假阳性/假阴性),相关系数--关联强度和方向
多分类资料的关联分析-------两种属性多分类--统计量X2公式与上述不同-求和
分析步骤
例--两种属性-多分类--x2检验公式--ij(求和)
同交叉分类2x2
分支主题
总结
相关-定量-随机变量--pearson(线性、正态)/spearman(等级、非正态) ,关联-定性-分类变量--X2检验
pearson--双变量正态分布--线性相关,r的计算同线性回归中β的计算
spearman--非正态,等级资料
两种属性--二分类/多分类资料--x2检验
相关分析(定量)与回归分析比较:相关分析-联系程度,回归分析-依存关系
相关--两个随机变量之间的联系,一致--AB基本相同--线性回归
例二--人为分类(不随机)
积差相关系数?
分支主题
练习
1. 1988年某地抽查0~7岁儿童营养不良患病情况如教材表9-10,某医师要想了解年龄与营养不良患病率是否有关(关联性分析),你认为应选用什么统计方法?为什么?
秩相关(spearman),因患病率资料一般不服从正态分布。
1. 某学校随机抽取18名学生,测定其智商(IQ)值,连同当年数学和语文两科总成绩如表教材9-11。试计算数学成绩与智商、语文成绩与智商以及数学与语文成绩的相关系数,并检验总体相关系数是否为零。能否认为数学好的原因是语文好,或者语文好的原因是数学好?
数学与智商的相关系数(Pearson)为0.918,语文与智商的相关系数为0.958,数学与语文的相关系数为0.932。
各总体相关系数均不为0(t检验)
数学好或者语文好与智商有关系。不能认为数学好的原因是语文好,或者语文好的原因是数学好,两者之间不存在因果关系
2. 将10份研究生院的入学申请书让两位老师排序,结果见教材表9-12。请问两人的排序是否相关?
随机变量(pearson/spearman)--非正态资料--spearman秩相关
Spearman相关系数为0.842,总体相关系数不为0(P=0.002),可以认为两人的排序相关。
3. 关于丈夫和妻子关节炎的患病率分析中,100对中年夫妇的患病情况见教材表9-13,试分析丈夫和妻子关节炎的患病有无关系
分类变量(X2/kendall)--两种属性有无关联
运用交叉分类2×2列联表的关联分析,X2=0.00(b=c),X2 0.05=3.84>0.00,在α=0.05的水平下,不拒绝H0,尚不能认为中年夫妇中丈夫患关节炎和妻子患关节炎有关联。
案例9-1 有研究者以“正常血糖、糖耐量减低及2型糖尿病人群胰岛素抵抗与非酒精性脂肪肝的相关分析”为题,研究了非酒精性脂肪肝的患病率与糖尿病分级(即正常血糖、糖耐量减低和2型糖尿病三级)的关系。以正常血糖者、糖耐量减低者和2型糖尿病患者为研究对象,年龄、性别可比,无大量饮酒史、肝炎史,脂肪肝的诊断以影像学结果为准。指标以均数±标准差表示,统计分析采用两组独立样本比较的t检验。结果发现,三组血糖、胰岛素、血脂水平等和脂肪肝患病率差别有统计学意义(数据及统计结果见教材表9-7),糖耐量减低组与正常血糖组比较P<0.05,2型糖尿病组与糖耐量减低组比较P<0.05。结论,随着正常血糖向糖耐量减低及糖尿病发展,血糖、血脂、胰岛素抵抗指数及脂肪肝患病率等指标值皆升高并逐渐加重,差异有统计学意义,认为脂肪肝患病率与血糖水平、血胰岛素、血脂、胰岛素抵抗、糖耐量减低和2型糖尿病等成正相关。
经检验,糖耐量减低组与正常血糖组比较,以及2型糖尿病与正常血糖组比较,各指标比较的值均<0.01;而2型糖尿病与糖耐量减低组比较,餐后胰岛素两组比较<0.05,脂肪肝患病率比较<0.05,其余各指标比较的值均<0.01。
请问:该研究的目的(相关分析)与设计方法(差异性比较)吻合吗?
该研究设计属于何种类型?
有无更好的设计方案?
本设计最适合哪种统计分析法?
本例的统计分析方法有何不妥?
本例的统计分析结果能推出本例的结论吗?若否,则可以推出什么结论?
本例的统计表达有何不妥吗?
案例辨析 这里,题目是“相关分析”,结果也得到了“相关”的结果,但仔细分析其研究内容与统计学方法,发现其测量了三组人群的血糖、血脂和脂肪肝患病率,这样的设计属于多组比较的设计,不能达到相关分析的目的,最多只能认为研究的结局指标与分组因素“有关”。
正确做法 欲进行相关分析,必须从特定人群(如正常人或糖耐量减低但未患糖尿病的人或2型糖尿病患者)中抽取一组随机样本,直接采用Pearson相关分析研究定量观测指标血糖、胰岛素、血脂水平等之间的相关关系;若希望研究以上三个人群之间血糖、胰岛素、血脂水平等与脂肪肝患病率之间的关系,应采用较复杂的统计分析方法(如多重logistic回归分析)处理,此处从略。
案例9-2 有研究者欲评价两种量表对某疾病的严重程度得分的一致性,评分者A用量表1,评分者B用量表2,对同一批患者(5人)进行了评分,结果见教材表9-8,研究者在Excel中采用Pearson函数计算了两次评分的相关系数,结果两者相关系数非常之高(r=0.866 3),因此认为,两种量表得分是一致的。
请问:该研究的目的与设计方法吻合吗?就本例的设计而言,存在任何不妥吗?
本例可否采用Pearson相关系数进行计算?
计算的结果正确吗?推论正确吗?
案例辨析 在本例中,突出的问题有两个。
第一个问题是样本量太小,只有5人,难以得出有统计学意义的结论(可信度低)。查表得知,当样本量只有5时,自由度为3,此时在的水平要得到有统计学意义的相关系数值的最低界限是0.878,本例系数为0.86,尚未达到有统计学意义的临界值,原研究者必定是对相关系数未作假设检验而妄下断论。
第二个问题是以“相关”推断“一致”。实际上,“相关”与“一致”有本质的区别。“相关”可以是不同指标间的相关,可以正相关,可以负相关,只表示变量间的联系,而“一致”则是同指标间同方向且基本同值的概念。令,则间相关系数为1,但它们并不一致,在不考虑截距项的前提下,增加1倍,平均增加2倍。实际研究中也有这样的例子,如仪器未校正时与校正后的数据,两者相差一个系统误差,但相关系数为1。
正确做法
①增加样本量。
②将同一病人的两份量表评分总分视为X、Y两变量的取值,采用后面将要讲到的简单线性回归分析方法处理,进行回归参数假设检验时,应检验总体截距是否等于0、总体斜率是否等于1。
③对两份量表的分级的符合性进行Kappa系数分析。
案例9-3 有研究者欲研究某药口服量与血药浓度关系,把口服药物设定为1, 2.5, 5, 7.5, 10, 15, 20, 30等档次,每档各取3只动物(共24只)进行试验,于服药后1 h抽血检验血药浓度(教材表9-9)。在SPSS中作散点图(教材图9-4),计算得口服药物量与血药浓度的Pearson相关系数=0.979,经假设检验P<0.001,认为口服药物量与血药浓度呈线性正相关。
请问:本例的两个变量各有何特征?可以计算Pearson相关系数吗?若可以,则计算的方法与步骤有何不妥吗?计算结果正确吗?可以推出本例的结论吗?
案例辨析
本例的重要问题是,线性相关的条件不满足,即口服剂量是人为取定的,属于非随机变量,因此不宜作相关分析。
其次,仅利用Pearson相关系数与假设检验值就认为两者呈线性正相关为时过早。分析本例的散点图,可发现散点呈曲线形,而非直线型,因此即使口服剂量是随机变量也不宜直接作线性相关分析。
第三,研究者取的剂量范围为1~30,而结论认为口服药物量与血药浓度呈线性正相关,未限定浓度范围,也是不妥的。相关分析很重要的一条就是在多大范围作的研究就在多大范围下结论,因为超过范围很可能结论就不再成立。
正确做法
①若要进行相关分析,则应将浓度随机化,不可定点;
②认真分析散点图,看其散点分布趋势,因是曲线形,因此宜在适当变换(如对数变换等)后作线性相关分析。
三大相关系数--pearson/spearman/kendall相关系数--csdn
统计学的相关系数经常使用的有三种:皮尔森(pearson)相关系数和斯皮尔曼(spearman)相关系数和肯德尔(kendall)相关系数.--(23条消息) 统计学三大相关系数之皮尔森(pearson)相关系数_ruthy的博客-CSDN博客_皮尔森相关系数
皮尔森相关系数是衡量线性关联性的程度,p的一个几何解释是其代表两个变量的取值根据均值集中后构成的向量之间夹角的余弦。
在这三大相关系数中,spearman和kendall属于等级相关系数亦称为“秩相关系数”,是反映等级相关程度的统计分析指标。
相关系数---考察两个事物(在数据里我们称之为变量)之间的相关程度。
如果有两个变量:X、Y,最终计算出的相关系数的含义可以有如下理解:
(1)、当相关系数为0时,X和Y两变量无关系。
(2)、当X的值增大(减小),Y值增大(减小),两个变量为正相关,相关系数在0.00与1.00之间。
(3)、当X的值增大(减小),Y值减小(增大),两个变量为负相关,相关系数在-1.00与0.00之间。
相关系数的绝对值越大,相关性越强,相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。通常情况下通过以下取值范围判断变量的相关强度:
相关系数 0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0.0-0.2 极弱相关或无相关
pearson相关系数--直线相关
公式--- 两个连续变量(X,Y)的pearson相关性系数(Px,y)等于它们之间的协方差cov(X,Y)除以它们各自标准差的乘积(σX,σY)。系数的取值总是在-1.0到1.0之间,接近0的变量被成为无相关性,接近1或者-1被称为具有强相关性
python实现公式
def pearson(vector1, vector2):
n = len(vector1)
#simple sums
sum1 = sum(float(vector1[i]) for i in range(n))
sum2 = sum(float(vector2[i]) for i in range(n))
#sum up the squares
sum1_pow = sum([pow(v, 2.0) for v in vector1])
sum2_pow = sum([pow(v, 2.0) for v in vector2])
#sum up the products
p_sum = sum([vector1[i]*vector2[i] for i in range(n)])
#分子num,分母den
num = p_sum - (sum1*sum2/n)
den = math.sqrt((sum1_pow-pow(sum1, 2)/n)*(sum2_pow-pow(sum2, 2)/n))
if den == 0:
return 0.0
return num/den
现在,用两个向量测试一下:
vector1 = [2,7,18,88,157,90,177,570]
vector2 = [3,5,15,90,180, 88,160,580]
运行结果为0.998,可见这两组数是高度正相关的。
从上面的公式我们知道,皮尔森相关性系数是协方差与标准差的比值,所以它对数据是有比较高的要求的:
第一, 实验数据通常假设是成对的来自于正态分布的总体。为啥通常会假设为正态分布呢?因为我们在求皮尔森相关性系数以后,通常还会用t检验之类的方法来进行皮尔森相关性系数检验,而 t检验是基于数据呈正态分布的假设的。
第二, 实验数据之间的差距不能太大,或者说皮尔森相关性系数受异常值的影响比较大。例如心跳与跑步的例子,万一这个人的心脏不太好,跑到一定速度后承受不了,突发心脏病,那这时候我们会测到一个偏离正常值的心跳(过快或者过慢,甚至为0),如果我们把这个值也放进去进行相关性分析,它的存在会大大干扰计算的结果的。
spearman相关系数--秩相关
kendall相关系数--分类变量秩相关
(23条消息) 统计学三大相关系数之皮尔森(pearson)相关系数_AlexMerer的博客-CSDN博客_皮尔森相关系数
(23条消息) 统计学之三大相关性系数(pearson、spearman、kendall)_t15600624671的博客-CSDN博客
(23条消息) Pearson相关系数, Spearman相关系数,Kendall相关系数的区别_wqhlmark64的博客-CSDN博客_kendall和spearman相关系数的关系
计算积距pearson 相关系数,连续性变量(双变量正态分布)才可采用;
计算Spearman 秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据;
计算Kendall 秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据。
计算相关系数:当资料不服从双变量正态分布或总体分布未知,或原始数据用等级表示时,宜用 spearman 或kendall 相关
连续变量
Pearson 相关复选项 积差相关 --计算连续变量或是等间距测度的变量间的相关分析
Spearman 复选项 等级相关 --计算斯皮尔曼相关,适用于连续等级资料
分类变量--Kendall 复选项 等级相关 --计算分类变量间的秩相关,适用于合并等级资料
注:
1 若非等间距测度的连续变量 因为分布不明- 可用等级相关/ 也可用Pearson 相关,对于完全等级离散变量必用等级相关
2 当资料不服从双变量正态分布或总体分布型未知或原始数据是用等级表示时, 宜用 Spearman 或 Kendall 相关。
3 若不恰当用了Kendall 等级相关分析则可能得出相关系数偏小的结论。则若不恰当使用,可能得相关系数偏小或偏大结论而考察不到不同变量间存在的密切关系。对一般情况默认数据服从正态分布的,故用Pearson 分析方法。
两个连续变量间呈线性相关时,使用 Pearson 积差相关系数 ,用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系。(前提:作散点图主观判断下先)。按照高中数学水平来理解, 它很简单, 可以看做将两组数据首先做Z 分数处理之后, 然后两组数据的乘积和除以样本数。按照大学的线性数学水平来理解, 它比较复杂一点, 可以看做是两组数据的向量夹角的余弦.
Spearman 相关系数 又称秩相关系数,是利用两变量的秩次大小作线性相关分析,对原始变量的分布不作要求,属于非参数统计方法,适用范围要广些。
斯皮尔曼等级相关是根据等级资料研究两个变量间相关关系的方法。它是依据两列成对等级的各对等级数之差来进行计算的,所以又称为“等级差数法”
斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关来进行研究
对于 服从Pearson 相关系数的数据亦可计算Spearman 相关系数,但统计效能要低一些。Pearson 相关系数的计算公式可以完全套用 Spearman 相关系数计算公式,但公式中的x 和y 用相应的秩次代替即可。
Kendall's tau-b 等级相关系数 :用于反映分类变量相关性的指标,适用于两个分类变量均为有序分类的情况。对相关的有序变量进行非参数相关检验; 取值范围在-1-1 之间,此检验适合于正方形表格;肯德尔(Kendall)W 系数又称和谐系数,是表示多列等级变量相关程度的一种方法。适用这种方法的数据资料一般是采用等级评定的方法收集的,即让K 个 评委(被试)评定N 件事物,或1 个评委(被试)先后K 次评定N 件事物。等级评定法每个评价者对N 件事物排出一个等级顺序,最小的等级序数为1 ,最大的为N ,若并列等级时,则平分共同应该占据的等级,如,平时所说的两个并列第一名,他们应该占据1 ,2 名,所以它们的等级应是1.5, 又如一个第一 名,两个并列第二名,三个并列第三名,则它们对应的等级应该是1,2.5,2.5,5,5,5, 这里2.5 是2,3 的平均,5 是4,5,6 的平均。
肯德尔(Kendall)U 系数又称一致性系数,是表示多列等级变量相关程度的一种方法。该方法同样适用于让K 个评委(被试)评定N 件事物,或1 个评委 (被试)先后K 次评定N 件事物所得的数据资料,只不过评定时采用对偶评定的方法,即每一次评定都要将N 个事物两两比较,评定结果如下表所示,表格中空白位 (阴影部分可以不管)填入的数据为:若i 比j 好记1 ,若i 比j 差记0 ,两者相同则记0.5 。一共将得到K 张这样的表格,将这K 张表格重叠起来,对应位置的 数据累加起来作为最后进行计算的数据,这些数据记为γij 。
(23条消息) 三大统计学相关系数讨论_yu_tsl的博客-CSDN博客_统计学三大相关系数
0 条评论
下一页