当前位置:首页 > 医学统计学基本概念[资料]
医学统计学基本概念
1. 2. 3.
医学统计学是以医学理论为指导,应用概率论与数理统计的有关原理和方法,研究医学资料的搜集、整理、分析和推断的一门应用科学。 统计工作的步骤:(1)设计(2)收集资料(3)整理资料(4)分析资料; 或者分三步:(1)研究设计(2)资料分析(3)结论。
定量资料:又称为数值变量资料,特点:(1)各观察值之间有量的差别;(2)数据间有连续性。它是指变量的取值不止是可列个,而是可取某区间[a,b],(-oo,oo)上的一切值。 4.
定性资料:又称为分类资料、分类变量资料(包括二项分类、多项分类资料),特点:(1)各观察值之间有质的差别;(2)数据间有离散性。它是指变量的取值有限的,至多是可列多个。附:无序分类:二项分类、多项分类 5.
等级资料:又称为半定量资料,有序分类,指各类之间有程度的差别。特点:()各观察单位间或者相同,或者存在质的差别;(2)各等级间只有顺序,而无数值大小,故等级之间不可度量。 6. 7. 8. 9.
个体individual:即每个观察单位。
总体population:根据研究目的确定的同质观察单位的全体。
样本:是从总体中随机抽取部分观察单位,其实测值的集合。样本包含的观察单位数称为样本含量或样本大小。
参数parameters:描述某总体特征的统计指标称为总体参数,简称参数。如总体均数、总体标准差等。特点:参数是未知的,固有的,不变的!
10. 统计量:描述某样本特征的的统计指标称为样本统计量,简称统计量。特点:统计量是已知的,变化的,有误差的! 11. 概率probability:是描述随机事件发生的可能性大小的数值。常用P表示。它的大小界于0和1之间。
12. 随机事件:(1)可重复性:相同条件下可重复进行;(2)随机性:出现两种机两种以上结果;(3)偶然性:实验前不能肯定将出现哪种结果。 13. 频率的稳定性:在重复试验中,事件A的频率随着试验次数的不断增加将愈来愈接近一个常数p,频率的这一特性称为频率的稳定性。
14. 概率的统计定义:频率的稳定性充分说明随机事件出现的可能是事物本身固有的一种客观属性,因而是可以被认识和度量的。这个常数p就称为事件A出现的概
率(probability),记作 P(A) 或 P。这一定义称为概率的统计定义。它是事件A发生的可能性大小的一个度量。容易看出, 频率为一变量,是样本统计量,而概率为常数,是一总体参数。实践中,当试验次数足够多时,可以近似地将频率作为概率的一个估计。
15. 小概率原理:当某事件发生的概率小于或等于0.05时,统计学通常称该事件为小概率事件,其涵义为该事件发生的可能性很小,进而认为其在一次抽样中不可能
发生,此即为小概率原理。
16. 同质(homogeneity): 性质相同的事物称为同质的。
17. 变异(variation):同质的事物内个体之间或同一个体重复测量间的差别称为变异。
18. 参考值范围(reference interval)又称正常值范围(normal range)。由于正常人的形态、功能、生化等各种指标的数据因人而异,而且同一个人的某些指标还会随着时间、
机体内外环境的改变而变化,因此需要确定其波动范围,即正常值范围,简称正常值(normal value)。 19. 正常值范围(normal ranges), 是指绝大多数正常人的某指标范围。
20. 抽样误差(sampling error): 由于抽样造成的样本统计量和总体参数之间的差异。
21. 标准误(standard error):样本统计量的标准差称为标准误。样本均数的标准差称为均数的标准误。 22. 参数估计:由样本信息估计总体参数称为参数估计,包括点估计和区间估计。
23. 点估计(point estimation) :直接用样本统计量作为总体参数的估计值。这种估计方法简单,但未考虑抽样误差的大小。
24. 区间估计(interval estimation) :按一定的概率或可信度(1-?)用一个区间估计总体参数所在范围,这个范围称作可信度为1-? 的可信区间(confidence interval, CI),又
称置信区间。这种估计方法称为区间估计。
25. 可信度为1-? 的可信区间的确切涵义是:每100个样本所算得的100(1-?)%可信区间,平均有100(1-?)个包含了总体参数。如取?=0.05,则每100个样本所算得
的100个95%可信区间,平均有95个包含总体参数在内,有5个不包含总体参数。
26. 可信区间的两个要素:第一个要素是可靠性,常用可信度1-?的大小表示;第二个要素是精确性,常用可信区间的长度CU-CL衡量。
27. 均数95%可信区间,其涵义是:如果重复100次抽样,每次样本含量均为n,每个样本均按 (见课本P42)构建可信区间,则在此100个可信区间内,
理论上有95个包含总体均数,而有5个不包含总体均数。
28. 可信度为95%的CI的涵义:每100个样本,按同样方法计算95%的CI,平均有95%的CI包含了总体参数。这里的95%,指的是方法本身!而不是某个区间! 29. 第一类错误(I型错误):拒绝了实际上成立的H0假设,称为“假阳性”, 用α来表示。 30. 第二类错误(II型错误):不拒绝实际上不成立的H0,称为“假阴性”,用β来表示。
31. 检验效能(power of a test)或检验功效:1?? 称检验效能(power of a test),过去称把握度。为当两总体确有差异,按检验水准?所能发现该差异的能力。1??只取单
尾。
32. 完全随机设计:根据某一试验因素,将试验对象完全按随机设计分为若干个组,每个组的样本例数可以相等,也可以不等,分别求出各组试验结果的均数,即为
单因素多个样本均数,单个因素可以有多个水平,R>2
33. 随机区组设计又称配伍组设计(Random Block Design):即两因素多个样本均数的比较(或称两因素方差分析,two way analysis of variance)。 34. 绝对数:在计数资料中,各组的观察数称绝对数。
35. 相对数:是两个有联系的指标的比,计数资料的统计描述主要是相对数(relative number)。
36. 率(rate):说明某现象发生的频率或强度,常用%、‰、1/万、1/10万等作单位,表示在一定范围内,某现象的发生数与可能发生某现象的总数之比 。率的结果常
以保留1-2位整数为宜。
37. 构成比(constituent ratio):说明一事物内部各组成部分所占的比例,常以%来表示。
38. 比:也称相对比(relative ratio),两个有关指标之比。通常以某种现象的数量为1或100作基数,看另一种现象的数量是多少,说明一事物是另一事物的若干倍或百
分之几。两个相比的指标可以性质相同,如时间比、性别比;也可性质不同。比=A/B 39. 秩次是指全部观察值按某种顺序排列的位序;秩和:是同组秩次之和。 40. 秩变换:将等级变成秩次的方法称为秩变换。
41. 秩和检验:就是通过秩次的排列求出秩和,从而对总体的分布进行假设检验的方法。 42. 确定性关系:是指两变量间的关系是函数关系。
非确定性关系:是指两变量在宏观上存在关系,但并未精确到可以用函数关系来表达。
相关关系:指既是必然的又是不确定的关系称为相关关系。当两个变量之间出现如下关系,一个增大,另一个也同时增大,或缩小,我们称这种现象为共变,也就是说两个变量之间有相关关系。相关关系不一定是因果关系。相关关系可以是因果关系,也可以是伴随关系。
43. 直线相关系数:简称为相关系数,用符号 r表示,是用于说明具有直线关系两个变量之间,相关关系的密切程度和相关方向的指标。 44. 等级相关的含义:等级相关反映的是两变量等级间的相关,并不反映两变量间的数值关系。 45. 直线相关:这种直线关系,或分析这种直线关系的理论和方法,统称为直线相关。 46. 直线回归: 直线回归是用于研究两个变量x与y之间的线性依存关系的一种统计分析方法。
47. 试验研究设计:是指研究者根据研究目的、通过对受试对象施加干预,严格控制各种影响因素,获得干预研究结果。
48. 双盲临床试验:是指观察者方和被观察者方在整个试验过程中不知道受试者接受的是何种处理;单盲临床试验是指仅被观察者方处于盲态。观察者方指的是研究
者、参与试验效应评价的研究人员、数据管理人员、统计分析人员;被观察者方指的是受试对象及其亲属或监护人。双盲双模拟:试验组:试验药+阳性对照药的安慰剂;对照组:阳性对照药+试验药的安慰剂。 医学统计学相关知识
1. 频数分布表的用途:(1)看出频数分布的两个重要特征:集中趋势 、离散趋势 (2)揭示资料的分布类型
2. 描述定量资料集中趋势的三个指标及其应用条件:(1)均数(也称算术均数):适用于单峰对称分布的资料;(2)几何均数:适用于等比资料、对数正态分布资料;(3)中位数:适用于偏态分布资料、分布不规则或未知分布资料、一端或两端有不确定数据(开口资料)的资料。
3. 描述定量资料离散程度的指标(极差、四分位数间距、标准差、变异系数)及其适用范围:这四个指标均反映定量资料的离散程度。极差和四分位数间距可用于任何分布(极差常用于描述单峰对称分布小样本分布资料的变异程度,或用于初步了解资料的变异程度;四分位数间距常用于描述偏态分布资料、两端无确切值或分布不明确资料的离散程度),后者比前者稳定,但均不能综合反映各观察值的变异程度;标准差最常用,要求资料近似服从正态分布;变异系数可用于比较度量单位不同的两组或多组资料的变异度或均数相差悬殊的两组或多组资料的变异度。
4. 正态分布的特征:(1)正态分布是一单峰分布,高峰位置在均数处;(2)正态分布以均数为中心,左右完全对称;(3)正态分布取决于两个参数,即均数μ和标准差σ。μ是位置参数,μ越大,则曲线沿横轴向右移动;μ越小,曲线沿横轴向左移动。σ为 形态参数,表示数据的离散程度,若σ小,则曲线形态“瘦高”;σ大,则曲线形态“矮胖”。(4)有些指标不服从正态分布,但通过适当的变换后服从正态分布;(5)正态分布曲线下的面积分布是有规律的。 5. 正态曲线下的面积规律
? ? ? ?
正态曲线下面积总和为1;正态曲线关于均数对称;对称的区域内面积相等;
对任意正态曲线,按标准差为单位,对应的面积相等; ?-1.64?~ ?+1.64?内面积为90%;
?-1.96?~ ?+1.96?内面积为95%;?-2.58?~ ?+2.58?内面积为99%。
小于?-3?的面积为 0.13%; 小于?-2?的面积为 2.28%; 小于?-? 的面积为15.87%。
6. 标准误与标准差的关系
区别 标准差 s 标准误 sx 意义 个体变异 统计量的抽样误差
用途 正常值范围 (x±1.96s) 总体均数的可信区间( x±t ?, ? s x) 与n关系 n? s趋于稳定 n? sx趋于 0
联系 1.两者都是变异指标,说明个体之间的变异用标准差,说明统计量之间的变异用标准误。 2.当样本含量不变时,标准差大,标准误亦大,均数的标准差与标准误成正比。 7.下列说法正确吗?算得某95%的可信区间,则:
总体参数有95%的可能落在该区间。(错) 有95%的总体参数在该区间内。(错)
该区间包含95%的总体参数。(错) 该区间有95%的可能包含总体参数。(错) 该区间包含总体参数,可信度为95%。(对)
8. 影响可信区间大小的因素:(1)可信度:可信度越大,区间越宽;(2)个体变异:变异越大,区间越宽; (3)样本含量:样本含量越大,区间越窄。
9. 均数的可信区间和参考值范围的区别
区别 可信区间 参考值范围 意义 未知参数的可能范围 正常值的波动范围
公式 ?已知或?未知,但n足够大(x±u ? /2,sx)或(x±u ? /2 ?,x) (x±u ? /2,sx) ?未知( x±t ?, ? s x)
用途 估计总体均数 判断正异常
小结:均数的可信区间:均数?界值×标准误 个体的容许区间(参考值范围):均数?界值×标准差 10. 可信区间与容许区间的区别:见P44 11. 假设检验的基本思想:
?
提出一个假设(H0); 验证这个假设。如果假设成立,会得到现在的结果吗?
两种可能的情况:(1)得到现在的结果可能性很小(小概率) →拒绝H0 (2)有可能得到现在的结果(不是小概率) →没有理由拒绝H0 假设检验的步骤:(1)建立检验假设;(2)确定检验水准α;(3)计算检验统计量并求P值;(5)界定P值并作结论。 12. I 型错误和 II 型错误
假设检验的结果 实际情况 拒绝 H0 H0 成立 H0 不成立
13. 差异检验和优度检验:差异检验之意义在于是否能够确认H1成立,故希望所得P值很小,因为P值越小,表示手头样本从H0总体随机获得之概率越小,即否定H0而确认H1成立的把握越大。
优度检验之意义在于是否能够确认H0成立,故希望所得P值较大,因为P值越大,表示手头样本从H0总体随机获得之概率越大。
14. 可信区间与假设检验区别和联系:可信区间说明量的大小即推断总体均数范围,假设检验推断质的不同即判断两总体均数是否不等;可信区间可回答假设检验问题,可信区间若包含了H0 ,按?水准,不拒绝H0;若不包含H0 ,按?水准,拒绝H0 ,接受H1;
可信区间不但能回答差别有无统计学意义,还能提示差别有无实际专业意义;可信区间不能够完全代替假设检验。可信区间只能在预先规定概率?的前提下进行计算,假设检验能获得一较为确切的P值。 15. 下列说法正确吗?
? ?
P是H0成立的概率。(错) P是 I 型误差的概率。(错)P是 H0 成立时,获得现有差别的概率。(错)
P是 H0 成立时,获得现有差别以及更大的差别的概率。(对) 统计推断时的风险。(错) 拒绝H0时所冒的风险。(对)
I 型错误(?) 把握度(1-?) 不拒绝 H0 II 型错误(?) 16.t检验的应用条件:(1)独立性:各观察个体间是相互独立的,不能互相影响,亦不能一方影响另一方;(2)正态性:两组均数比较时,要求两组数据服从正态分布;配对设计时,要求差值服从正态分布。(3)方差齐性:两样本所对应的正态总体之方差相等。
17. 总体方差不相等的t 检验 :(1)数据变换后进行t 检验;(2)秩转换的非参数检验;(3)近似t检验 ? t'检验。 18. 两样本均数比较方法的选择
方差齐 方差不齐
小样本 t 检验 t‘ 检验 大样本
u 检验
u 检验
19.方差分析的基本思想:方差分析(analysis of variance)又称为变异数分析,采用F检验统计量,也称F检验。这种方法的基本思想是对变异进行分解和分析,把全部观察值之间的变异—总变异,按照设计和需要分为两个或多个组成部分,再作分析, 从而达到统计推断之目的。总变异=组内变异+组间变异;组内变异:抽样(随机)误差(个体差异和测量误差);组间变异:组间本质差别+抽样(随机)误差;如果组间无本质差别,则组间变异=组内变异
或F=
MSBetween?1MSWithin20.方差分析的优点:(1)不受比较组数的限制;(2)可同时分析多个因素的作用;(3)可分析因素间的交互作用。
21. 方差分析的意义:是按照实验设计把总变异分成若干部分,划分得越细,各部分的涵义越明确,对结论亦较易解释;同时,残余的变异即误差部分越小,因而能够提高检验的灵敏度和结论的准确性。
22. F分布是方差比的分布,常用于方差齐性检验,方差分析等。 F分布特征:
(1) F分布为一簇单峰正偏态分布曲线,与两个自由度有关。(2) 若F服从自由度为(?1,?2)的F分布,则其倒数1/F服从自由度为(?2,?1)的F分布。 (3) 自由度为(?1,?2)的F分布,其均数为?2/(?2-2),与第一自由度无关。
(4) 第一自由度?1=1时,F分布实际上是t分布之平方;第二自由度?2=∞时,F分布实际上等于?2分布。
(5) 每一对自由度下的F分布曲线下的面积分布规律,见方差分析用F界值表,表中横标目为第一自由度,纵标目为第二自由度,表中分别给出了右侧尾部概率为0.05
和0.01时的F界值。 23.方差分析表 变异来源 组间 组内 总 SS SS组间 SS组内 SS总 v k-1 N-k N-1 MS SS组间/v组间 SS组内/v组内 F P MS组间/ MS组内 24.方差分析与t检验的关系
当比较两个均数时,从同一资料算得之 F 值与t值有如下关系:F = t2 可见在两组均数比较时,方差分析与t检验的效果是完全一样的。 25. 方差分析后的两两比较(多重比较)的几种方法:
一、SNK-q检验(多个均数间全面比较) 二、LSD-t检验(有专业意义的均数间比较)
三、Dunnett检验 (多个实验组与对照组比较) 还有TUKEY 、DUNCAN、 SCHEFFE、 WALLER 、BON等比较方法 各组间的比较用SNK法; 各试验组与某一对照组间的比较用Dunnet法。
26. 方差分析应用条件:① 各样本是相互独立的随机样本;② 各样本来自正态总体;③ 各组总体方差相等,即方差齐。 方差分析和t检验要求: 独立性、正态性、方差齐性。 27. 总结:均数、方差的比较:
样本均数与总体均数的比较( t 检验) 配对设计样本均数的比较(配对t 检验) 两样本均数的比较 ( t 检验, u 检验, F 检验, SNK, Duncan) 多样本均数的比较( F 检验,ANOVA)
?
各组间的比较(SNK法); 各试验组与某一对照组间的比较用(Duncan法)
两个方差的比较( F 检验) 多个方差的比较( Bartlett 检验
28. 二项分布应用条件:医学领域有许多二分类记数资料都符合二项分布(传染病和遗传病除外),但应用时仍应注意考察是否满足以下应用条件: (1)每次实验只有两类对立的结果;如阳性或阴性、生存或死亡,不允许考虑“可疑”等模糊结果,属于二项分类的资料。 (2) n次事件相互独立;即每个观察单位的观察结果不会影响到其它观察单位的结果。如要求疾病无传染性、无家族聚集性等。
(3)每次实验某类结果的发生的概率是一个常数。已知发生某一结果(如阳性)的概率为π,其对应的概率必然是(1-π),我们知道总体率π一般是未知的,在实际工作中要求π是从大量观察中获得的比较稳定的数值。
29.二项分布的应用:(1)样本率与总体率的比较;(2)两样本率的比较。
30. Poisson分布特征:① 非对称,但μ增大时趋于对称;② 均数与方差均为μ;③ 分布的可加性, n个独立的Poisson分布相加仍符合Poisson分布,可使μ>20,使得可用正态近似。
31. Poisson分布应用条件:(1)平稳性:X的取值与观察单位的位置无关;(2)独立增量性:在某个观察单位X的取值与前面各观察单位上X的取值独立.;(3)普通性:在充分小的观察单位上X的取值最多为1。
32. Possion分布的应用:(1)总体均数估计;(2)样本均数与总体均数的比较;(3)两样本均数的比较。 33.χ2检验的用途:(1)推断多个总体率之间有无差别(2)推断几组总体构成比之间有无差别
(3)两个变量之间有无关联性(4)频数分布的拟合优度检验。
34. χ2检验的基本思想:χ2= ??A?T?T
如果H0假设成立,那么实际频数与理论频数应该比较接近。如果实际频数与理论频数相差很大,超出了抽样误差所能解释的范围,则可认为H0假设不成立,即两样本对应的总体率不等。χ2值反映了实际频数与理论频数吻合的程度。如果两总体率相同的假设成立,则实际频数与理论频数之差异纯系抽样误差所致,故一般不会很大,χ2值也就不会很大;在一次随机试验中,出现大的χ2值的概率P是很小的。因此,若根据实际样本资料求得一个很小的P,且P≤α(检验水准),根据小概率原理,就有理由怀疑H0假设的真实性,因而拒绝它;若P>α,则没有理由拒绝H0。χ2值的大小除取决于︱A-T︱的差值外,还与基本数据的格子数有关,严格地说是与自由度有关。在x2检验中,自由度指在表中周边合计不变的前提下,基本数据可以自由变动的格子数 。 35. x2检验的精髓:检验实际频数和理论频数的吻合程度。如果实际频数和理论频数越吻合, 说明H0假设成立的可能性就越大,反之,如果实际频数和理论频数相差越远,说明 H0越不可能成立。
36.普通四个表资料卡方检验公式的选用条件: 1) n≥40,且T≥5时,用未校正的值
2
共分享92篇相关文档