第一章 医学统计中的基本概念 1、 医学统计学是研究医学数据的收集、整理、分析、解释和呈现其结果的一门学科。
2、 个体:研究的基本观察单位。
3、 变量:用于观察研究对象的指标。
4、 观察值:个体变量的数值。
5、 资料:又称为数据,由变量的观察值构成。
¢ 变异:个体观察值之间具有的差异。
¢ 变异和同质是对统计学数据的要求! ¢ 变异是统计学研究的真正对象! ¢ 统计学是研究变异规律的科学! ¢ 同质:个体观察值之间的变异在允许范围内。
¢ 异质:个体观察值之间的变异超出允许范围。
一、总体、抽样、样本、参数、统计量 总体:同质的个体所构成的全体研究对象。总体同时具有同质和变异两个特点。
有限总体:总体中的个体数量是有限的。
无限总体:总体中的个体数量是无限的。
¢ 样本:从总体中随机抽取的部分个体。
¢ 样本量:样本所包含的个体数目。
¢ 参数:刻画总体特征的指标。
¢ 统计量:刻画样本特征的指标。
抽样:从总体中随机抽取部分个体的过程。抽样具有代表性、随机性、可靠性、可比性;
原则:代表性:样本能充分反映总体特征。
随机性:保证总体中每个个体都有相同的几率被抽样。
随机性是代表性的保证;
生活中随机性的例子(思考题);
¢ 计量资料:由连续变量的观察值构成的资料。对每个观察对象的观察指标用定量方法测定其数值大小所得的资料,一般有度量衡单位,例如年龄、身高、血糖。
¢ 计数资料:由离散变量的观察值构成的资料。先将观察对象的观测指标按性质或类别进行分组,然后计数各组的数目所得的资料,例如性别、患病、血型。
¢ 等级分组资料:由等级变量的观测值构成的资料。具有计数资料的特征,同时又具有半定量性质的资料,例如细菌培养阳性结果。
二、3种设计类型:完全随机设计;
配对设计;
配伍组设计。
三、 抽样误差、概率和小概率事件 ¢ 抽样误差:由抽样引起的样本统计量与总体参数之间的差异。
抽样误差的原因;
抽样误差是不可避免的。
¢ 概率P:表示某事件发生的可能性大小的度量。
v 小概率事件:统计学上习惯将P≤0.05或P≤0.01的事件称为小概率事件,表示该事件发生的可能性很小。
“小概率事件”统计意义(两面性)
¢ 小概率事件几乎不会发生,或者说可以认为在一次试验中不会发生→统计推断基础(正面:应用);
¢ 小概率事件偶然会发生,如果发生了→统计推断发生错误(反面:警惕);
第二章 集中趋势的统计描述 一、统计描述 总体和样本具有同质和变异两个特征。
集中趋势—同质的统计描述;
变异程度—变异的统计描述;
统计描述主要通过统计量和统计图表来刻画的 频数表和直方图 频数表:同时列出观察指标的可能取值区间及其在各区间内出现频数的统计表。
直方图:以垂直条段代表频数分布的一种图形,条段的高度代表各组的频数,由纵轴标度;
各组的组限由横轴标度,条段的宽度表示组距。
频数表和直方图的用途 1. 作为陈述资料的形式;
2. 便于观察数据的分布类型;
3. 便于发现资料中含有的异常值;
4. 可用各组段的频率作为概率的估计值;
二、平均数 平均数:描述一组观察值集中趋势或平均水平的统计指标。
平均数类型 算数均数(均数):线性尺度上的平均水平;
几何均数:对数尺度上的平均水平;
中位数:顺序尺度上的平均水平;
百分位数:顺序尺度上的平均水平。
均数的意义和应用 均数代表每组观察值的平衡点,也就是重心。
常用在对称分布,尤其是正态分布;
在偏态分布时,易受极值影响;
算术均数 算数均数(均数):线性尺度上的平均水平 几何均数及应用 几何均数:对数尺度上的平均水平;
1. 几何均数的对数等于各观察值对数的算术均数;
2.几何均数主要应用在免疫学(抗体滴度、血清凝聚效价)、微生物学(细菌计数)等领域。观察值一般呈等比或对数正态分布。
中位数 中位数:将一组观察值从小到大按顺序排列,居中心位置的数值,记为M。
中位数的精确计算 1. 当观察例数n为奇数时,中位数是按顺序排列在第(n+1)/2项的观察值;
2. 当观察例数n为偶数时,中位数是按顺序排列在第n/2和(n/2)+1项观察值的平均值;
百分位数 百分位数Px:指在一组数据中找到这样一个数值,全部观察值的x%小于Px ,其余(100-x)%大于Px。
l 定量:频数表/图 集中趋势+离散程度 是否对称 变异系数:两均数相差很大,或者不同变量间变异程度的比较 l 定性:发病率、构成比 l 相对数使用注意事项 l 率的标化 第三章 变异程度的统计描述 自由度的理解 样本方差S2是总体方差σ2的无偏估计。
E(S2)=σ2 n-1 是自由度df 自由度:已知 ,固定X1,X2,...,Xn-1后,Xn必然确定;
所以只有n-1个独立(自由变化)个体。
不同类型变异程度指标的比较 正态分布及应用 正态分布有两个参数 和 , 分别表示均数和标准差 主要特征:
1.以为中心的对称分布 2.钟型曲线 3.曲线下面积分布有规律 4.两个参数决定位置和变异 当μ=0,σ=1时,称为标准正态分布 正态分布曲线下面积 单侧95%=双侧90%=1.645 μ±σ:68% μ±1.96σ:95% μ±2.58σ:99% 二、医学参考值范围的制定方法 (一)选择一定数量的参照样本;
(二)对选定的参照样本进行准确的测定;
(三)决定取单侧范围还是双侧范围值;
(四)选择适当的百分范围;
(五)估计参考值范围的界限;
(三)决定取单侧范围还是双侧范围值 有些指标过高或过低均属异常(A) ,故其参考值范围需要分别确定下限和上限,称作双侧参考值范围。有些指标仅在过高(B)或过低时为异常(C),只需确定其上限或下限,称作单侧参考值范围。
(四)选择适当的百分范围 参考值的百分范围应根据资料的性质和研究目的选择,它与诊断阈值有确定的关系。百分范围的不同将导致不同的假阳性率和假阴性率。
(五)估计参考值范围的界限 参考值范围估计主要有百分位数法和正态分布法。
总结 衡量变异程度的指标 极差、四分位数间距、方差和标准差、变异系数 正态分布的特征和曲线下面积分布规律 医学参考值范围的制定方法 第四章 抽样误差与假设检验 假设检验(基本步骤)
1、 建立假设和确定检验水准;
建立假设(反证法的假设命题)
无效假设H0: μd=0 备择假设H1: μd≠0 确定检验水准α(小概率事件定义)
α=0.05或α=0.01 2. 选择检验方法和计算检验统计量;
3. 确定P值和作出统计推断结论 1)计算获得t值的概率P值,并与检验水准α比较。
2)若P≤α,小概率事件发生,矛盾,拒绝H0 ,接受H1;
认为μd≠0,即治疗前后血清甘油三酯差异有显著统计学意义。
3)若P> α,不能拒绝拒绝H0 ;
认为μd=0,即治疗前后血清甘油三酯差异无显著统计学意义。
假设检验(三个基本步骤)
1. 建立假设和确定检验水准;
3. 选择检验方法和计算检验统计量;
4. 确定P值和作出统计推断结论。
假设检验的思路 1. 为了判断两组样本代表的总体之间的差异是由抽样误差还是总体之间本质差别引起的? 2. 作假设。H0:抽样误差引起的;
H1 :总体本质差别引起的。
3. 利用反证法在H0条件下计算样本的统计量。
4. 利用抽样分布原理,根据样本统计量大小判断抽样结果是否为小概率事件,决定是否拒绝H0 。
假设检验的基本思想 反证法思想 小概率事件原理 关于α的说明 1. 检验水准,显著性水平,即定义小概率事件;
2. 界值是人为确定的,常用0.05,0.01;
某些情况下可取0.1,0.001;
¢ P>0.05,“差异没有显著统计学意义”;
¢ P<0.05,“差异有显著统计学意义”;
¢ P<0.01,“差异有极其显著统计学意义”;
¢ 错误的说法:“有显著差异”;
“差异是否显著”由专业来决定,统计学只能给出“差异是否有统计学意义”,即是否有证据表明存在差异。
3. 界值代表容许犯错的最大概率,是事先确定的,不能随便移动 。
假设检验的两类错误 1. 一般反证法能得到绝对矛盾;
2. 假设检验的矛盾基于“小概率事件原理”—“小概率事件(P<α)在一次试验中是不会发生的”;
l 若小概率事件发生了,则我们犯了经验主义错误;
l 因为小概率事件发生可能性为α,则我们犯经验主义错误的概率为α,这种错误称为Ⅰ型错误。
l 若小概率事件没有发生,接受零假设时,还是有可能犯错误,这时候错误是教条主义,称为Ⅱ型错误。
单侧还是双侧检验—研究目的决定第五章 t 检验 t分布特征 ¢ 自由度ν不同,曲线形态不同,t分布是一簇曲线;
¢ 自由度ν越大,t分布越接近于正态分布;
当自由度ν逼近∞时,t分布趋向于标准正态分布;
¢ 自由度较小时,曲线峰的高度低于标准正态曲线,且曲线峰的宽度也较标准正态分布曲线峰狭,尾部面积大于标准正态曲线尾部面积,而且自由度越小,t分布的这种特征越明显(翘尾低狭峰)。
标准正态分布 概率a、与u值关系 标准正态分布中u值大小与尾部面积(概率a)有关,以ua (单侧)和ua/2(双侧)表示;
P、自由度n与t值关系 1. 在t分布中,t值与P、n的大小有关;
2. 在t分布中,当自由度一定时P越小,|t|越大;
3. 在P一定时,自由度越小,|t|越大,大于u值;
4.在单侧时(尾部面积取单侧)t界值表示为ta,n , 双侧时表示为ta/2,n ,其意义为 单样本 t检验原理 在 H0 :m =m0的假定下,可以认为样本是从已知总体中抽取的,根据t分布的原理,单样本t检验的公式为:
自由度n=n-1 样本来自总体的可能性越大:
• 样本均数与总体均数差别越大;
• 样本标准差越小;
• 样本量越大;
单样t检验的应用条件:
小样本资料(如n<40)且服从正态分布,或大样本资料。
单样本t检验——检验步骤 1. 建立检验假设,确定检验水准 H0:m=m0,该地难产儿与一般新生儿平均出生体重相同; H1:m¹m0,该地难产儿与一般新生儿平均出生体重不同; a=0.05或0.01。
2. 计算检验统计量 在μ=μ0成立的前提条件下,计算统计量为:
3. 确定P值,做出推断结论 本例自由度=nn-1=35-1=34,P>0.05,表明差异无统计学意义,按 a=0.05水准不拒绝H0,根据现有样本信息,尚不能认为该地难产儿与一般新生儿平均出生体重不同。
配对样本均数t检验 配对样本均数t检验:简称配对t检验,又称非独立两样本均数t检验,适用于配对设计计量资料均数的比较,其比较目的是检验两相关样本均数所代表的未知总体均数是否有差别。
配对设计:是将受试对象按某些重要特征相近的原则配对,每对中的两个个体随机地给予(两种处理中的)一种处理。
配对设计概述 1. 应用配对设计可以减少实验的误差和控制非处理因素,提高统计处理的效率。
2. 配对设计处理分配方式主要有三种情况:
①两个同质受试对象分别接受两种处理,如把同窝、同性别和体重相近的动物配成一对,或把同性别和年龄相近的相同病情病人配成一对;
②同一受试对象或同一标本的两个部分,随机分配接受两种不同处理,如例5.2资料;
③自身对比(self-contrast)。即将同一受试对象处理(实验或治疗)前后的结果进行比较,如对高血压患者治疗前后、运动员体育运动前后的某一生理指标进行比较。
配对样本均数t检验——检验步骤 1. 建立检验假设,确定检验水准 H0:md=0,两种结核菌素的皮肤浸润反应总体平均直径差异为0; H1:md¹0,两种结核菌素的皮肤浸润反应总体平均直径差异不为0; a=0.05或0.01。
2. 计算检验统计量 3. 确定 P 值,作出推断结论 自由度计算为 ν=n-1=12-1=11, P=0.001<0.01,差别有统计学意义,拒绝H0,接受H1, 可认为两种方法皮肤浸润反应结果的差别有统计学意义。
两独立样本均数t检验 1. 两独立样本均数t 检验又称成组t检验。
2. 适用于完全随机设计的两样本均数的比较,其目的是检验两样本所来自总体的均数是否相等。
3. 完全随机设计是将受试对象随机地分配到两组中,每组患者分别接受不同的处理,分析比较处理的效应。
两独立样本t检验原理 两独立样本t检验的检验假设是两总体均数相等,即H0:μ1=μ2,也可表述为μ1-μ2=0, t统计量计算公式为 两独立样本t检验——检验步骤 1. 建立检验假设,确定检验水准 H0:m1=m2,两种疗法治疗后患者血糖值的总体均数相同;
H1:m1¹m2,两种疗法治疗后患者血糖值的总体均数不同;
=a0.05或0.01。
2. 计算检验统计量 3. 确定P值,作出推断结论 两独立样本t检验自由度为 n =n1+n2-2 =12+13-2=23;
P=0.001<0.01,按a=0.01的水准拒绝H0,接受H1,差异有统计学意义。
t检验的应用条件 ¢ 计量资料;
¢ 小样本(n<40)要求服从正态分布(正态性检验进行判断),或大样本;
¢ 两组比较时,要求方差齐性(方差齐性检验进行判断);
¢ 组间均衡可比性。
关于t检验的说明 ¢ 关于α的说明;
¢ 几何均数资料t检验,服从对数正态分布,先作对数变换,再作t检验;
¢ 数据是否服从正态分布,通过正态性检验进行判断;
不服从正态分布,不能用t检验,应采用秩和检验;
¢ 数据是否方差齐性,通过方差齐性检验进行检验;
若方差不齐,应采用t’检验。
关于α的说明 1. 检验水准,显著性水平,即定义小概率事件;
2. 界值是人为确定的,常用0.05,0.01;
某些情况下可取0.1,0.001;
¢ P>0.05,“差异没有(显著)统计学意义”;
¢ P<0.05,“差异有(显著)统计学意义”;
¢ P<0.01,“差异有极其(显著)统计学意义”;
¢ 错误的说法:“有显著差异”;
“差异是否显著”由专业来决定,统计学只能给出“差异是否有统计学意义”,即是否有证据表明存在差异。
3. 界值代表容许犯错的最大概率,是事先确定的,不能随便移动 。
t 检验中的注意事项 1. 假设检验结论正确的前提 作假设检验用的样本资料,必须能代表相应的总体,同时各对比组具有良好的组间均衡性,才能得出有意义的统计结论和有价值的专业结论。
2. 检验方法的选用及其适用条件 应根据分析目的、研究设计、资料类型、样本量大小等选用适当的检验方法。
3. 双侧检验与单侧检验的选择 需根据研究目的和专业知识予以选择。单侧检验和双侧检验中的t值计算过程相同,只是t界值不同,对同一资料作单侧检验更容易获得显著的结果。单双侧检验的选择,应在统计分析工作开始之前就决定,若缺乏这方面的依据,一般应选用双侧检验。
4.假设检验的结论不能绝对化 假设检验统计结论的正确性是以概率作保证的,作统计结论时不能绝对化。在报告结论时,最好列出概率P的确切数值。当P 接近临界值时,下结论应慎重。
5. 正确理解P值的统计意义 P是指在无效假设 H0 的总体中进行随机抽样,所观察到的等于或大于现有统计量值的概率。其推断的基础是小概率事件的原理,即概率很小的事件在一次抽样研究中几乎是不可能发生的,如发生则拒绝H0。因此,只能说明统计学意义的“显著”。
假设检验中两类错误 第六章 方差分析 F分布的三个抽样分布的事实上,它们都是基于正态分布。分布函数F:F分布在的统计学家RAFisher姓的第一个字母的名称F分布的目的:方差分析,协方差分析和回归分析的分析。
(A)F分布的定义为:设X,Y两个独立的随机变量X的自由度的卡方分布M,Y服从卡方分布的N 2 独立自由的程度的各自的自由度,在另外的购买比例的量的统计分布的卡方分布F =(/米)/(Y / N)(米,n)的F分布服从自由度在F服从程度的自由米,第二自由度的F-n的密度函数的分布这样的条目, (II)F的性质为1的分布,这是一种非对称的分布; 2,具有两个自由度,即相应的分布是由F(n-1个,百万-1 m-1的1)中,n表示? - 1通常被称为作为分子的自由度,m-1的通常被称为作为分母的自由度; 3 F分布是一个自由度n -1个,和m-1是一个分布族的不同程度的参数,自由决定的F-分布的形状。
F分布的天然的互补性:Fα,DF1,DF2 =1/F1-α,DF2,DF1 多个样本均数的两两比较 两独立样本均数t检验 如采用多次t检验,累积Ⅰ型错误概率将大大增加。
方差分析思想 要说明甲组比乙组和丙组好, 首先 其次:
方差分析步骤 ⒈ 提出检验假设,确定检验水准。
H0: 三个组GSH值的总体均数相同;
H1: 三个组GSH值的总体均数不全相同;
⒉ 根据公式计算SS、MS及F值,列于方差分析表内。
⒊ 确定P值,作出判断 ¢ 分子自由度=k-1=2,分母自由度=n-k=33, F=23.85,P<0.05,差别有统计学意义,按照0.05的显著性水准,拒绝H0,可认为三种处理方式大鼠的GSH值不全相同。
均数之间的多重比较 完成方差分析后,我们可以得到结论:
H0:各组总体均数相同;
H1:各组总体均数不全相同;
如果接受H0 ,分析完成(F检验一次性完成多组比较,控制了Ⅰ型错误);
如果拒绝H0 ,接受H1 ,则需要进一步做“多重比较”确定哪些组间有差异(post hoc检验);
¢ “多重比较”仍然不能采用t检验! 多重比较的方法 LSD-t检验;
SNK-q检验;
Dunnett-t检验;
LSD-t检验 最小显著差异(Least significant difference)t检验 SNK-q检验 SNK(Student-Newman-Keuls)检验,亦称q检验。
Dunnett-t检验 方差分析的使用条件 1. 各处理组样本来自随机、独立的正态总体 直方图、茎叶图粗略估计;
P-P图、Q-Q图精确估计;
偏度系数和峰度系数估计;
one-sample K-S非参数检验( D法);
2. 各处理组样本的总体方差相等 Bartlett检验法:正态分布资料;
Levene检验法:无资料分布要求(SPSS);
3. 正态性和方差齐性的假设检验 方差分析与方差齐性检验的比较 相同点:都在比较方差大小;
不同点:
目的 方差分析在比较总体均数是否相等;
方差齐性检验在比较两总体方差是否相同;
¢ 查表 方差分析是单侧F界值表(总体组间≥组内);
方差齐性是双侧F界值表(总体分子未必>分母);
第七章 相对数及其应用 相对数的种类 率(rate)
构成比(constituent ratio)
相对比(relative ratio)
率(通常针对二分类计数资料)
概念:率是表示某种现象发生的频率和强度,常以百分率(%)、千分率(‰)、万分率(/万)、十万分率(/10万)等表示 。
计算公式:
注意:比例基数”通常依据习惯而定,治愈率、感染率用百分率,出生率、死亡率用千分率,某些疾病的死亡率用十万分率。保持率的整数位1~2位。
构成比(通常针对多分类计数资料或等级资料)
概念:又称构成指标,表示事物内部各个组成部分所占整体的比重,通常以100%为比例基数,以百分比表示。
计算公式:
注意:各组成部分的构成比之和为100%,某一部分比重增大,则其它部分相应减少。
相对比 概念:相对比是两个有关联指标之比,用以描述两者的对比水平,常用R表示。
计算公式:
注意:A大于B用倍数表示,A小于B时用百分数表示。
相对比的种类 1. 两类个体例数之比 ¢ 两类同指标之比(男:女)
¢ 两类不同指标之比(人均收入)
2. 两个率之比(相对危险度RR)
3. 两个相对比之比(比值比OR)
相对数使用应注意的问题 1. 不要把构成比与率相混淆(例7.1);
2. 使用相对数时分母不宜过小(投篮比较);
3. 注意资料的可比性(医院治愈率比较);
4. 要考虑抽样误差。
率的标准化 率的标准化,是为了在比较两个不同人群的患病率、发病率、死亡率等资料时,消除其内部构成(如年龄、性别、工龄、病程长短等)的影响。如年龄会影响死亡率,年龄越大,死亡率可能越大;
病情越重,越难治愈,治愈率就越低。
标准化直接法的计算步骤 1. 选取标准构成。标准构成选取方法有三种:
(1)另外选取一个包含比较各组(如各地区)的有代表性的、较稳定的、数量较大的构成为标准。如世界的、全国的、全省的数据为标准构成。
(2)取比较各组的各层例数的合计为标准构成。
(3)从比较的各组(如各地区)中任选其一的构成作为标准构成。
2. 在标准构成下,以原分层率计算各组的预期发生数。
3. 计算标准化率。
医学中常用的相对数指标 1. 死亡统计指标 ¢ 死亡率:表示某地某年每1000人中的死亡人数;
¢ 年龄别死亡率 ¢ 死因别死亡率(十大死亡率)
¢ 死因构成 2. 疾病统计指标 发病率:“新发病率”,表示在某一时期内特定人群中患某病新病例的频率。
患病率:“现患病率”,也称现患率,表示某一时点某人群中患某病的频率。
第八章 卡方检验 A:观察值;
T:理论值;
四格表的自由度为1 是连续型分布的 检验统计量χ2 值反映了实际频数与理论频数的吻合程度 1. 若检验假设H0:π1=π2成立,四个格子的实际频数A 与理论频数T 相差不应该很大,即统计量χ2 不应该很大。
2. 如果χ2 值很大,即相对应的P 值很小,若 P≤α,则反过来推断A与T相差太大,超出了抽样误差允许的范围,从而怀疑H0的正确性,继而拒绝H0,接受其对立假设H1,即π1≠π2 卡方检验步骤 (1)
建立检验假设,确定检验水平。
H0:π1=π2 即甲药与乙药的总体有效率相等 H1:π1≠π2 即甲药与乙药的总体有效率不等 α=0.05。
(2)求检验统计量值 (3) 确定P 值,作出推断结论 因为P=0.251>0.05,按α=0.05水准,接受H0,差异有统计学意义,可以认为甲乙两种药物治疗冠心病的总体有效率相等。
四格表资料检验的应用条件:
n≥40且所有T≥5,用基本公式 所有情况,都可以用Fisher确切概率法 配对四格表资料,用配对专用公式;
关联性检验 Vs Kappa统计量 Kappa>0.75,一致性好;
Kappa<0.4,一致性差;
n<200 考虑用关联性检验;
n>200,考虑用Kappa。
行×列表资料的χ2检验 行数或者列数大于2列联表资料称为行×表资料或称R×C表资料 卡方检验统计量 基本公式 列联表资料检验的应用条件:
1. T≥1,且5>T≥1的格子数不能超过1/5,用基本公式;
2. 所有情况,都可以用Fisher确切概率法;
3. 两组或多组比较的等级分组资料 非参数检验 实际应用中:对于行列表资料要根据其分类类型和研究目的选用恰当的检验方法。对于两组或多组比较的等级分组资料不宜用卡方检验。
多个样本率间的多重比较 1. 用四格表资料的卡方检验进行两两比较;
2. 检验水准α’=α/n,n为检验次数;
这种多重检验校正方法称为Bonferroni方法。
四格表专用公式 :1) 这种校正称为连续性校正。
2) 如检验所得P值近于检验水准a时, 好改用四格表确切概率法。
第十章 线性相关与回归 线性相关的基本概念 把这种Y随着X变化而变化的关系称之为相关关系,如果这种变化呈现直线关系,又称之为直线相关(线性相关)或简单相关。
线性相关系数 相关系数就是说明具有直线关系的两个变量间相关密切程度和相关方向的统计量。
相关系数r没有测量单位,其数值为-1≤r≤1 相关系数的显著性检验 原因:由于根据样本资料计算出来的相关系数存在抽样误差。
举例:假设在一个X与Y无关总体中作随机抽样,由于抽样误差的影响,所得的样本相关系数也常常不等于零。
结论:要判断两个变量X与Y在总体是否真的存在相关关系,需要作总体相关系数ρ是否为零的假设检验。
进行线性相关分析的注意事项 1. 线性相关表示两个变量之间的相互关系是双向的,分析两个变量之间到底有无相关关系可首先绘制散点图,散点图呈现出直线趋势时,再作分析。
2. 依据公式计算出的相关系数仅是样本相关系数,它是总体相关系数的一个估计值,与总体相关系数之间存在着抽样误差,要判断两个事物之间有无相关及相关的密切程度,必须作假设检验。
3. 相关分析是用相关系数来描述两个变量间相互关系的密切程度和方向。而两个事物之间的关系既可能是依存因果关系,也可能仅是相互伴随的数量关系。要证明两事物间确实存在因果关系,必须凭借专业知识加以阐明。
等级相关系数 1 如果观测值是等级资料,则可以用等级相关来表达两事物之间的关系。
2 常用的等级相关计算方法是Spearman等级相关系数。
线性回归方程的显著性检验 1 对线性回归方程要进行假设检验,就是要检验b是否为β=0的总体中的一个随机样本。该假设检验通常用采用方差分析或者t检验,两者的检验效果等价。
2 t检验:
3 方差分析:
进行线性回归分析的注意事项 ⒈ 只有对两个有内在联系的变量进行回归分析才是有意义的。
⒉ 作回归分析时,如果两个有内在联系的变量之间存在的是一种依存因果的关系,那么应该以“因”的变量为X ,以“果”的变量为Y 。
⒊ 在回归分析中,要求自变量与因变量都服从正态分布。
⒋ 回归方程建立后必须作假设检验,只有经假设检验拒绝了无效假设,回归方程才有意义。
⒌ 使用回归方程计算估计值时,不可把估计的范围扩大到建立方程时的自变量的取值范围之外。
线性相关与回归的区别与联系 1. 线性相关表示两个变量之间的相互关系是双向的;
回归则反映两个变量之间的依存关系,是单向的。
2. 如果对同一资料进行相关与回归分析,则得到的相关系数r与回归方程中的b正负号是相同的。
3. 在相关分析中,求出r后要进行假设检验,同样,在回归分析中,对b也要进行假设检验。同一样本的这两种假设检验也是等价的。
4.相关和回归可以互相解释。
直线回归:研究两个变量之间的数量依存关系 直线相关:研究两变量之间相互联系的方向和密切程度。
r是表示两个随机变量之间呈直线相关的强度和方向的统计量。
直线回归:要求Y服从正态分布,X为人为控制或精确测量 直线相关:要求X和Y都服从正态分布。
r=0.85,关系密切?,只能说程正相关。
总复习 计量资料:由连续变量的观察值构成的资料。对每个观察对象的观察指标用定量方法测定其数值大小所得的资料,一般有度量衡单位,例如年龄、身高、血糖。
计数资料:由离散变量的观察值构成的资料。先将观察对象的观测指标按性质或类别进行分组,然后计数各组的数目所得的资料,例如性别、患病、血型。
等级分组资料:由等级变量的观测值构成的资料。具有计数资料的特征,同时又具有半定量性质的资料,例如细菌培养阳性结果。
统计推断 参数估计 s未知,且n小 s未知,但n足够大 s已知 2.用两种方法检验已确诊的肝癌患者120名, 得到如下资料 甲法 乙法 合计 + - + 42 30 72 - 18 30 48 合计 60 60 120 (1)请解释表中42、18两个数字的意义。
2c (2)请通过 检验说明两种方法检查的阳性检出率有无差别。
解:
(1).请解释表中42、18两个数字的意义。
“42”表示两种方法检验结果一致的例数,“18”是指两者不一致的例数(4分)
2c(2).请通过 检验说明两种方法检查的阳性检出率有无差别。
1).检验假设:H0:两法检验结果无差别或一致, 的扣1分)a=0.05(2分,未给H0或a H1:两法检验结果有差别或不一致, 2).计算统计量:因配对四格表b+c=48>40,故可不用校正法(3分,用校正公式扣1分)
3).确定P值并作结论:自由度=1,界值 < 今 0.05,不拒绝H0,即还不能认为甲法与乙法的检验结果有差别。(3分,未给实际结论的扣1分)>,故P Chapter 基本概念 显著性检验(test of significance):计算P值 医学统计工作的内容:
1、实验设计:最关键最重要 2、收集资料:最基础 原始资料:实验数据 现场调查资料 医疗卫生工作记录 报表 报告卡 质量控制——精度和偏倚 3、整理资料 (1)
资料的逻辑检查(坏数)
(2)
一致性检查 (3)
原始数据加工:频数分布表 4、分析资料:统计描述(表、图、离散趋势、集中趋势)和统计推断 统计描述类型的选择:
集中趋势 离散趋势 对称、正态 μ, 对数正态 G S lgX 偏态及其他 M Q,R 单位不同或均数差别大 CV 医学统计的资料类型:计量资料、计数资料、等级分组资料 医学统计学的对象:有变异的事物 总体和样本:
总体(population)的特性:同质性、大量性、差异性。
抽样 总体 样本 参数 统计量 推断 抽样的要求:代表性、随机性、可靠性、可比性。
样本的三性:代表性、随机性、可靠性。
可靠性(reliability):实验的结果要具有可重复性。即由科研课题的样本得出的结论所推测总体的结论有较大的可信度。
两样本间具有:可比性。
误差的类别:
1、系统误差(system error):在资料的收集过程中,由于仪器初始状态没有调零、标准试剂未经矫正、标准指定偏高或偏低等原因,造成的观察结果的倾向性的偏大或偏小。必须克服。
2、随机测量误差(random measurement error):在避免系统误差的情况下,由于各种偶然因素的影响造成对同一对象多次测量值的不一致。
3、抽样误差(sampling error):由于抽样造成的的样本统计量与总体参数之间的差别。不可避免。样本含量越大,抽样误差越小。如均数的抽样误差:。
概率(probability):P(A)
小概率事件:P≤0.05(有统计学意义)或P≥0.01(有高度统计学意义)。
Chapter 集中趋势的统计描述 手工整理资料频数表(frequency table)的步骤:
1、求极差(全距)
2、确定组数、组距 参考组距=全距 / 组数 3、确定组段 4、手工编制划记表 直方图(histogram):
高度:各组的频数 纵轴 宽度:组距 横轴表示组限 均数(average):
适用:对称分布或偏度不大的资料,尤其适合正态分布。
1、算术均数(mean):
2、加权均数:
3、几何均数:
, 中位数(median):观察值按照从小到大排列时,居中心位置的数值。
适用于1、分布明显成偏态时,2、频数分布的一端或两端无确切数值时。不便于统计计算。
M:中位数;
LM:M所在组的上限;
f L:M所在组之前积累的频数;
fM:M所在组的频数;
i:组距。
百分位数(percentile):Px。在一组中找到这样一个数值P,全部观察值的x%小于P。P75、P25描述资料离散程度。
众数:一组观察值中,出现频率最高的那个观察值。若为分组资料,则为频率最高组的组中值。适用于大样本,但粗糙。
Chapter 离散程度的统计描述 离散的表述指标:
1、按间距计算:极差、四分位数间距 2、按平均差距:离均差平方和、方差、标准差、变异系数 极差(range,R):即全距。粗略。适用于任何分布。
四分位数间距(quartile,Q):一组观察值按大小排序后,分成四个数目相等的段落,每个段落观察值的数目占总例数的25%。去掉两端含有极端数值的25%,取中间的50%的观察值的数据范围即为~。
越大则数据变异越大。适用于偏态分布。
Q=P75 - P25 离均差平方和(sum of square of deviation):
方差(variance):
样本方差 总体方差 标准差(standard deviations):
适用于近似正态分布。
p.s.1、可用于合并资料的直接计算 2、与均数结合可以完整概括一个正态分布。
变异系数(CV):用于均属相差交大或单位不同的几组数据观察值的比较。
CV= 正态分布(normal distribution):
1、正偏态分布:高峰向左,长尾向右 负偏态分布:高峰向右,长尾向左。
2、μ和σ是正态分布总体的两个参数,对应样本统计量中的S和X。实际应用中μ和σ通常未知,可以将S和X作为总体参数的估计量使用。
注意对比:
2、μ是位置参数,σ是变异参数。
描述方法:N(μ,σ2)
3、曲线下面积的意义:X1~X2出现的概率。
μ±σ 68.3% μ±1.96σ (单侧μ±1.645σ)
95% μ±2.58σ(单侧μ±2.33σ)
99% 标准正态分布(standard~):是μ=0,σ=1的正态分布。
对于任何参数为μ、σ的正态分布,都可以通过变量变换转化成标准正态分布:。
医学参考值范围(reference value range)的制定方法:
1、选择足够数量的正常人作为参照样本 2、对选定的参照样本进行准确的测定 3、决定取单侧范围还是双侧范围值 4、选择适当的百分范围 5、估计参考值范围的界限 Chapter 抽样误差与可信区间 中心极限定理:在样本含量很大的情况下(n≥50),无论样本测量量(X)服从什么分布,样本均数的抽样分布都近似服从以μ为均数的正态分布N(μ,σ2/n)
标准误(standard error):样本均数之间变异的标准差。
实际工作中总体标准差σ 未知,,用样本的标准差S代替:
标准差与标准误的区别:
标准差 标准误 含义 描述观察值的变异程度的大小的指标 描述样本均数的抽样误差大小的指标 公式 ()
意义 标准差较小,表示观察值围绕均数波动较小, 说明样本均数代表性好 小,表明样本均数围绕总体均数的波动较小, 说明样本均数可靠性好 应用 1、表示观察值变异程度 2、结合样本均数描述正态分布资料特征,确定医学参考值范围 3、计算标准误 4、计算CV 1、估计样本均数抽样可靠程度 2、估计总体均数的可信区间 3、进行假设检验 n↑ 趋于稳定(σ)
逐渐减小 标准误(公式)的意义:
1、与标准差的联系:在样本含量一定的情况下,标准误与标准差成正比。
(1)
当观察值的变异(标准差)较小时,样本均数之间的抽样误差较小,抽到的样本均数与总体均属可能相差较小,用估计μ的可靠性较好 (2)
当观察值的变异较大时,样本均数之间的抽样误差较大,抽到的样本均数与总体均属可能相差较大,用估计μ的可靠性较差。
2、与样本含量的关系:与其平方根成反比,说明在同一总体中随机抽样,样本含量越大,标准误越小。
3、标准误反映了样本均数间的离散程度,也反映了样本均数与总体均数的差异。
参数估计(parameter estimation):指偶那个过样本参数估计总体参数,是统计推断的重要内容之一。常用方法有点估计、区间估计。
点估计(point ~):使用单一数值直接作为总体参数的估计值。适用于各种资料。
区间估计(interval ~):按照预先给定的概率计算出一个区间,使它能够包含总体参数。给定的概率(1-α)称为可信度。计算得到的区间称为可信区间(confidence interval,CI)
可信区间通常包括两个数值界定的可信限(confidence limit),分别为上限、下限。
总体均数估计的95%可信区间表示:该区间有95%的概率包含总体均数μ。注意不可以说“总体均数有95%的概率落在这个区间里”。
可信区间估计效果的比较:
1、(1-α)越接近1越好,概率↑ 2、区间宽度越窄越好,精确度↑ 但两者是矛盾的。一般选择(1-α)=95%。
t分布(t distribution):是以0为中心的对称分布;
当时,t分布的极限分布就是标准正态分布。在正态分布的总体中进行抽样,服从自由度的t分布。
t的大小与α、自由度有关。
可信区间的计算:
, 若n≥50,则t分布接近标准正态分布,则简化 , 若σ已知,则可简化为 , , Chapter 假设检验 假设检验(hypothesis test):
目的:比较总体参数有无差别 基本思想:首先对所需比较的总体提出一个无差别的假设,然后通过样本数据推断是否拒绝这一假设。
基本方法:反证法和小概率事件。
基本步骤:
1、建立假设和确定检验水准 无效假设(null hypothesis):H0:μ=μ0(或μd=0),总体均数无差别。
备择假设(alternative ~):H0:μ≠μ0(或μd≠0),总体均数有差别 假设有单侧和双侧两种。应用单侧检验一定要有过硬的专业知识。一般选用双侧检验,因为双侧检验得出有显著差别的结论,单侧检验结论也一定是显著差别;
然而反之不亦然。
检验水准亦称显著性水准(significance level),用α表示,是预先设定的拒绝域的概率值。一般取0.05。
2、选择检验方法和计算检验统计量 t 来自正态分布(或近似)的小样本(n<50)
u 1、无论何种分布的大样本(n≥50时)
2、σ已知的正态分布小样本 F 方差分析 1、独立的,水平k≥3 2、均来自于正态分布的总体 3、方差齐 推断2个或2个以上总体率、构成比之间的差别 非参 1、总体分布偏态或未知 2、个别数据偏大或某段不确定 3、等级资料 3、确定P值、做出统计推断结论 P值的意义:假设检验下结论的主要依据,指在原假设成立的条件下,观察到的样本差别是由机遇所致的概率。
结论:
1、p<α,样本数据差异显著,有统计学意义,拒绝H0,接受H1 2、P>α,样本数据差异不显著,无统计学意义,根据现有样本不足以拒绝H0(不等于接受H0)。
单样本的t检验:
条件:μ,,S,n 1、H0:μ=μ0 ,α=0.05,双侧检验 2、t=, 3、 配对样本t检验:
条件:n,指标1、指标2(d,∑d,∑d2)
1、H0:μd=0,α=0.05 2、t= 3、 成组设计实验的两样本均数比较 条件:n1,n2,1,2,S1,S2 1、H0:μ1=μ2 , 2、u= 3、, F检验:
条件:表格略 1、H0:各组总体均数相同, H1:各组总体均数不全相同 2、, vTR=k-1,vE=n-k 3、F符合自由度为(k-1,n-k)的F分布。
F值接近1,则可认为均值只来源于随机波动。若F>1,且F>Fα,(k-1,n-k),则P<α,……。
假设检验中的两类错误:
1、第一类错误:当H0为真时,拒绝H0接受H1。又称假阳性错误(阳性指两者总体参数有差异)。检验水准α是预先规定的犯第一类错误的概率的最大值。
2、第二类错误:当H0为假时,不拒绝H0。又称假阴性错误。概率大小用β表示,只取单侧,一般未知。
可证,α越大β越小,α越小β越越大。若要同时减少第一类错误和第二类错误,唯一方法是增大样本含量 简单四格表的检验:
有效 无效 合计 药物1 a b a+b=n1 药物2 c d c+d=n0 合计 a+c=m1 b+d=m0 N 1、H0:,α=0.05 2、 当n≥40,且所有T≥5时,四格表专用公式 当n≥40,但有1<T≤5时,使用四格表校正公式 当n≤40,或有T≤1时,使用Fisher确切概率公式 3、=3.84,=6.63 配对四格表检验:
对照组 病例组 合计 有暴露史 无暴露史 有暴露史 a b a+b=n1 无暴露史 c d c+d=n0 合计 a+c=m1 b+d=m0 N 1、H0:,α=0.05 2、, 当b+c≥40时, 当b+c<40时, 3、=3.84,=6.63 行*列资料的检验:
有效 无效 合计 药物1 a b n1 药物2 c d n2 药物3 e f n3 合计 m1 m2 N 1、H0:各组有效率相同, H1:各组有效率不全相同 2、, (行数-1)(列数-1)
3、 Chapter 相对数及其应用 相对数(relative number):是两个有关的据对数之比,也可以是两个有关的统计指标之比。常用的有:率、比值比、构成比。
率(rate):表示在一定的范围内某现象的发生数与可能发生的总数之比。
构成比(constitute ratio):表示某事物内部组成部分在总体中的比重。
相对比(relative ratio):A、B两有关联的指标之比,用以描述两者的对比水平。如RR。
总体均数 总体标准差 总体率 四分位数间距 总体相关系数 第二类错误的概率;
总体回归系数 CV 变异系数 β CI 可信区间 M中位数 P50 50% SMR实际死亡数/预期死亡数 — END —
扩展阅读文章
推荐阅读文章
推荐内容
留琼范文网 www.bjcnart.com
Copyright © 2002-2018 . 留琼范文网 版权所有