当前位置:首页 > 医学统计学基本概念[资料]
(ad?bc)2n??(a?b)(c?d)(a?c)(b?d)22) 1≤T<5,且n≥40时,宜用校正χ2值
?2?A?T?0.5??T2???a?b??c?d??a?c??b?d?2?ad?bc?n/2?n23) T<1或n<40时,宜用确切概率计算法
P?(a?b)!(c?d)!(a?c)!(v?d)!a!b!c!d!n!37. 行×列表的χ2值计算专用公式: ?2=
?n????AnnR2C??1???38. 行×列表资料采用χ2检验时,注意事项:
(1)注意理论数的大小。行×列表资料采用χ2检验时,对理论数的要求与四格表资料相同,不能有T<1,T<5的个数不能超过所有理论数个数的1/5(四格表中有一个T<5即超过1/5),如出现上述情况,可用以下办法解决:
1)增加观察例数可使实际频数增加,从而使T增大。
2)合并相邻行或列的实际数,从而使T增大。合并时应注意合理性,一般有序分类可合并,无序分类则不可合并。 3)采用精确概率检验法或似然比χ2检验法,
(2)最小理论数求法。上述χ2检验时,采用专用公式计算χ2值无须理论数,但也必须求出最小理论数,观察其大小是否满足上述各项条件。最小理论数位于最小行列合计数相对应的位置上,因此可用行、列合计数中小者相乘除以总例数即得到最小理论数。
(3)多组资料比较经χ2检验拒绝H0时只能认为多组间总的看差别有统计学意义,并不说明两两之间差别均有统计学意义。若需分析两两之间构成差别有无统计学意义,可采用χ2分割法或改变检验水准法进行分析等。 39. 配对四格表资料的?2检验步骤:(H0、H1写法特殊)
一.H0: 两法检出阳性率相同,总体B=C; H1: 两法检出阳性率不同,总体B≠C。
?=0.05。
二. 计算统计量: ?2。
三. 查?2界值表,判断P与α大小
四. 按?=0.05水准,拒绝H0 或接受H1 。得出结论。
40. 列联表:将单一样本的每个观察单位,同时按两种因素,进行分组,分组以后就得到R×C表。然后对这个表进行x2检验,以判断两个因素的关联性。而这种配对设计而形成的双向交叉排列的统计表,用以描述行变量和列变量之间的关系,特称为列联表。
关于列联表内两个分类变量是否有关联性的统计推断,仍然是用x2检验,但是它的检验假设有所不同。
一. 列联表关联性分析的?2检验步骤:(结合课件看)
H0: 不同矽肺期次的患者肺门密度分布相同; H1: 不同矽肺期次的患者肺门密度分布不同或不全相同。
?=0.05。
二. 计算统计量: ?2 , v 。 三. P=?
四. 按?=0.05水准,拒绝H0 ,接受H1 。
认为肺门密度与矽肺期次有关。结合本资料,肺门密度有随矽肺期次增高而增加的趋势。
41. R×C表资料中的行一般为研究因素的不同水平分组,列一般为研究结果(效应指标)的分类。根据行和列的分组或分类情况,可将R×C表资料分为以下几种情况: 1)双向无序R×C表
行和列的分组或分类均为无序。此时可采用χ2检验处理。 2)单向有序R×C表
若行的分组为有序(如药物剂量、患者年龄、病情轻重等),但率的效应为无序分类(如染色体损伤的类型、疾病的证型等),此时仍可按双向无序处理,采用χ2检验;若行的分组为无序(如三种药物处理),而列的效应为有序(如痊愈、显效、好转、无效),此时应采用秩和检验或Ridit检验方可判断疗效上的优劣。因为χ2检验不考虑有序分类变量的顺序。如果固定有序分类变量的顺序,将列的频数互换后,检验的结论相同,显然不合理 。 3)双向有序R×C表
若行的分组为有序(如年龄),效应分类也为有序(如疗效等级),可按单向有序R×C表中,列为有序分类时的处理方法,采用秩和检验或Ridit检验。若行和列均为同一观察对象的两个有序变量,如矽肺的期次和肺门密度的级别,病程与疗效等,此时为配对设计,可先采用χ2检验。
42. 资料的分类
数值变量资料
二分类
分类资料 无序多分类 多分类
有序多分类(等级资料) 43. 参数统计和非参数统计
参数统计 非参数统计 (parametric statistics) (nonparametric statistics) ↓ ↓
已知总体分布类型,对未知参数进行统计推断 对总体的分布类型不作任何要求 ↓ ↓
不受总体参数的影响,比较分布或分布位置 依赖于特定分布类型,比较的是参数 ↓
适用范围广;可用于任何类型资料(等级资料,或“>50mg” ) 44. 非参数检验适用情况:①总体分布形式未知或分布类型不明;②偏态分布的资料:
③等级资料:不能精确测定,只能以严重程度、优劣等级、次序先后等表示; ④不满足参数检验条件的资料:各组方差明显不齐。 ⑤数据的一端或两端是不确定数值,如“>50mg”等。
45.秩和检验的适用范围:(1)等级资料;(2)定量资料,但数据的某一端或两端无确定数值(开口资料);(3)定量资料,但数值的分布是极度偏态的,如L形分布,或个别数值偏离过大而不属于“过失误差”者;(4)定量资料,但各组离散程度相差悬殊,即使经变量变换,也难以达到方差齐性;(5)定量资料,但分布型尚未确知,此时可先用秩和检验法进行分析;(6)兼有等级和定量性质的资料。 46.秩和检验的优缺点:
优点 :⑴不论样本所来自的总体分布的形式如何,甚至是未知的,都能适用。
⑵某些非参数方法计算简便。因此在急需获得初步结果时可采用。
⑶易于理解和掌握。⑷可用于不能或未加精确测量的资料,如等级资料或某些记数资料。
缺点:⑴对适宜用参数方法的资料,若用非参数法处理,常损失部分信息,降低效率。
⑵虽然许多非参数法计算简单,但不少问题的计算仍嫌繁冗。
47.样本的相关系数r 的特征:(1) -1≤ r ≤1,没有单位; (2)r 的绝对值大小表示相关关系的密切程度;
(3) r 的符号表示相关的方向:r>0为正相关;r<0为负相关;r=0为零相关或无相关
48. 回归系数和回归方程的意义及性质:
? ?a?bXY(1)b 的意义:回归系数b称为斜率,表示自变量增加一个单位时,应变量的平均改变量。
(2)a 的意义:a为截距或常数项,a的值表示当X=0时,应变量Y的估计值。从坐标轴上看,a对应回归直线延伸至X=0时与Y轴的交点,故称为截距。 (3)^Y(Y-hat)的意义: ^Y表示给定X时Y的平均值的估计。^Y的涵义是均数—不同X时Y均数的估计值,与一般的均数的计算方法不同,这里的均数是给定X的条件下,由回归方程估计得到的,故又称为条件均数。
(4)Y-^Y的意义:Y-^Y称为剩余,又称残差,是Y的观察值与对应的估计值之差,在回归图中表示各散点到回归直线的纵向距离。 (5)
) ( Y ? ? Y 的意义:称为残差平方和 (residual sum of squares)或剩余平方和,是所有剩余之平方和,综合表示点距直线的距离。在所有的直线中,回归?2直线的残差平方和是最小的。(最小二乘)
49. 回归直线的有关性质:
(1) 直线通过均点
(X,Y)(2) 直线上方各点到直线的纵向距离之和 = 直线下方各点到直线的纵向距离之和 即:
?(Y2?)?0?Y(3) 各点到该回归线纵向距离平方和较到其它任何直线者为小。
????Y??Y?Y????a?bX??2250. 应变量Y的总变异分解: ?Y?Y??
2????????????Y?Y?Y?Y?????????2
SS总?SS回?SS剩
v总=v回+v剩,v回=1, v剩=n-2。
?总 ??回??剩决定系数 r2?SS回归SS总51. 直线回归中三种假设检验间的关系: 在直线回归中,相关系数的假设检验,回归系数的假设检验,以及回归方程的方差分析结果等价。
52. 的可信区间与Y的容许区间:
可信区间是针对条件均数的,而容许区间是针对Y的取值范围的。 :给定 X 时 Y 的估计值是 Y 的均数的一个估计。 ?Y的容许区间估计?给定X 时 Y 值的容许区间是 Y 值的可能范围。
53. 回归方程的应用:(1)描述两个变量间的依存关系。 (2)利用回归方程进行预测。
(3)利用回归方程进行估计。(4)利用回归方程获得更高精度的参考值。 (5)利用回归方程进行控制。 54. 应用直线回归的注意点: (1).回归分析要有实际意义:
? ? ?
要有实际意义; 充分利用散点图,判断:(1) 线性趋势 (2) 离群值 当样本含量较大时,统计学检验的作用减弱; 回归关系可以内插,不宜外延; 自变量的选择: 原因 容易测量的 变异小的 年龄、身高、体重、体表面积
?Y?tr?tb?F(2)在作回归前应先作散点图 (3)内插和外延 55. 回归分析的正确应用:
.回归系数是有单位的,不能根据 b 的大小判断回归关系的密切程度。
.应用条件(LINE):(1)线性(linear)(2)独立(independent)(3)给定X时,Y正态分布(normal)(4)等方差(equal variance)。
56.直线回归分析和相关分析的区别与联系:
(1)区别:在资料要求上:回归要求因变量Y服从正态分布,X是可以精确测量和严格控制的变量,一般称为I型回归;相关要求X和Y均服从双变量正态分布,称为II型回归。 在应用上:说明两变量的依存变化的数量关系用回归,说明变量间相关关系用相关。
(2)联系:1)对一组数据同时计算r和b,它们的正负号一致,r为+说明两变量间相互关系是同向的,b为+说明X增一个单位,Y平均增b个单位。
2)r和b的假设检验是等价的。
57.研究设计的定义:在进行科学研究时,对研究方案作合理的安排,以减少随机误差的影响。采用适当的研究试验次数,减少试验的成本并能对数据进行有效的分析,提高研究试验的可靠信,从而实现研究目的。
研究设计的作用:(1) 合理安排试验因素,提高研究质量。(2) 控制误差,使研究结果保持较好的稳定性。(3) 通过较少的观察例数,获取尽可能丰富的信息。 58.研究设计包括专业设计与统计设计两个部份。
统计设计主要是依据研究目的,从研究的现况条件出发,规定研究因素、选择效应指标、确定研究对象的引入方式方法和规模,拟实施的方法、方案,及数据收集、整理分析的模式,直至结果的解释,进行系统的安排,使其消耗最少的人力和物力、时间,而获得可靠的信息与结论。 59.研究设计的形式:在医学研究中,根据观察者是否主动施加干预而分为两类:
干预研究设计(试验研究)(类型:试验研究设计、临床试验设计、社区干预试验设计)、观察研究设计 (调查研究)
研究设计的形式:前瞻性与回顾性 试验研究与调查研究 (前瞻性试验研究 前瞻性调查研究 回顾性试验研究 回顾性调查研究) 61.实验设计的特点:
(1)研究者能人为设置处理因素 (2)受试对象接受何种处理因素/水平是由随机分配而定的。 (3)能使多种实验因素包括在较少次数的实验中,更有效地控制误差,达到高效的目的。
62.研究因素与混杂因素:研究因素:主要研究指标,与研究结果(效应)相联系。混杂因素:干扰研究结果的指标。 常见的混杂因素:年龄、性别;病程、病情;疾病史、家族史、伴发疾病
对混杂因素的处理:(1)采用良好的设计:排除,平衡;(2)设计时考虑:改为修饰因素。
63.实验设计(实验研究)的基本要素、基本原则、基本内容、步骤、常用的实验设计方法、实验设计对照的形式:
基本要素:处理因素、受试对象、实验效应 基本原则:对照(均衡性)、重复(可靠性)、随机(客观性)
基本内容和步骤:(1)建立研究假设(立题);(2)明确研究范围(应有严格的纳入标准和排除标准);(3)确立处理因素(分清处理因素和非处理因素,并注意处理因素的标准化);(4)明确观察指标(实验效应);(5)控制误差和偏倚。
常用的实验设计方法:(1)随机化分组方法;(2)完全随机分组方法;(3)配对设计;(4)配伍组设计及随机分组方法。 实验设计对照的形式:(1)空白对照;(2)安慰剂对照;(3)实验对照;(4)标准对照;(5)自身对照。
共分享92篇相关文档