当前位置:首页 > 2卫生管理师职称考试之《统计学》知识点及试题
卫生管理师职称考试之《统计学》知识点及试题
第一部分 基础知识 统计学
统计学是研究数据及其存在规律的科学,是关于数据收集、整理、分析、表达和解释的普遍原理和方法。 统计学的总体是指根据研究目的确定的、全部同质个体的某个(或某些)变量值。这里的个体又称观察单位(或研究单位),可以是一个社区、一个特定的人群、一个人、一个血样、一个细胞、一个基因、一个蛋白质等。样本:总体中有代表性的一部分。
根据研究目的,对研究对象的某个或某些特征(亦称研究指标或项目)实施观测,这些特征(指标或项目)称为变量。变量的测得值叫变量值(也叫观察值或资料)
统计工作的步骤 一研究设计,二收集资料;三整理资料;四 分析资料。
计量资料定义通过度量衡的方法,测量每一个观察单位的某项研究指标的量的大小,得到的一系列数据资料。如:体重与身高,特点:有度量衡单位;多为连续性资料(通过测量得到)
计数资料定义:将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。特点:没有度量衡单位;多为间断性资料(通过枚举或记数得来)
等级资料定义:介于计量资料和计数资料之间的一种资料,通过半定量方法测量得到。特点:每一个观察单位没有确切值;各组之间有性质上的差别或程度上的不同。 总体:根据研究目的确定的同质的、观察单位的全体。
同质与变异研究对象具有的相同的状况或属性等共性称同质或同质性;对于同质的各观察单位,其某变量值之间的差异,称为变异。
误差:统计上所说的误差泛指测量值与真值之差,样本指标与总体指标之差。主要有二种:系统误差;随机误差。系统误差:指数据搜集和测量过程中由于仪器不准确、标准不规范等原因,造成观察结果呈倾向性的偏大或偏小。特点:具有累加性。随机误差:由于一些非人为的偶然因素使得结果或大或小,是不确定、不可预知的。特点:随测量次数参加而减小。
抽样误差:由于抽样原因造成的样本指标与总体指标之间的差别。特点:有抽样发生抽样误差就不可避免。
减少抽样误差的方法:(1)增加样本的代表性。样本量 n 相等的情况下:
整群抽样>单纯随机抽样>系统抽样>分层抽样(2) 增加样本量n (3)选择变异程度较小的研究指标。 概率:描述随机事件发生的可能性大小的数值,常用P来表示。P的大小在0和1之间。通常一个事件的发生小于5%,就叫小概率事件。
频率:在实际工作中,当观察单位的例数足够多时,可以用频率来代替概率。频率是概率的估计值。 实验设计与调查设计目的:观察不同处理因素的效应。3个基本要素:1处理因素和非处理因素、2实验对象、3试验效应通过实验指标表达选择指标的依据(1准确性、2灵敏性、3稳定性)基本原则:对照的原则(保证均衡一致的条件1、对等2同步3专设)、重复原则(样本量)、随机化原则。 频数:当汇总大量的原始数据时,把数据按类型分组,其中每组数据个数,称该组的频数。 频数表(频数分布):将变量值分为不同数量的组段,清点各组段的例数。表示各组及其对应的组频数的表格。意义概括了解变量值在各组段的分布和规律。两个特征:集中趋势与离散趋势(共性与个性)主要用途:1.揭示分布类型2. 发现特大值和特小值3.计算集中趋势指标与离散趋势指标。 资料的统计描述:即用少量几个统计指标刻画出原始数据的特征称为统计描述。
计量资料频数表的编制步骤1.确定全距(R)=最大值— 最小值2.定组数(8-15组)和组距:
3.写出组段的下限:第1组段值小于或等于最小变量值,并以整数(0,5或2,4,6,8)较好。4.划计并计数:变量(x)归为L ≤x<U(见表2-1
平均数概念:平均数表示一组同质计量数据集中趋势的位置和平均水平。作用:是一组计量数据平均水平的代表值;可作为不同组间的比较值。 算术均数( mean);简称均数,用 X 表示.
fX Xx1?x2?xnX??f X?n?n??一表2-1 101名正常成年女性血清总胆固醇频数表 组段 频数(f) 组中值X fX 2.3- 1 2.45 2.45 2.6- 3 2.75 8.25 2.9- 6 3.05 18.30 3.2- 8 3.35 … 3.5- 17 3.65 3.8- 20 3.95 4.1- 17 4.25 4.4- 12 4.55 4.7- 9 4.85 5.0- 5 5.15 5.3- 2 5.45 5.6- 5 1 5.75
合计 101 —— 409.7 加权法公式计算 ?fX?f1X1?f2X2?fkXkX??ff1?f2?fk ?f?4.06(mmol/L)X??fX?1?2.45?3?2.75?1?5.75 101几何均数适用条件:X值呈倍数增长或部分数据偏离过大偏态分布(正偏态)资料。计算公式:
?flgXi
G?lg?1()例2-4 某地5例微丝蚴血症患者治疗7年后用间接荧光抗体试验测得其抗体滴度分别为1/10,1/20,1/40,?f1/80,1/160,求几何均数。 G?510?20?40?40?160?34.8?lgX)?lg?1(lg10?lg20?lg40?lg40?lg160)?34.8G?lg?1( n5结论:平均抗体滴度为1:34(几何均数法)
中位数M:定义:将一组变量值由小到大依次排列,居以中间位次的观察值即为中位数,为这组数据的平均数。适用于描述偏态分布资料的平均水平。如潜伏期、病程资料。 中位数的计算 M?X1N为奇数
(n?1)2
1
M?(Xn?X(n?1))22 N为偶数 2百分位数是一种位置指标,用 P x 表示。定义:将一组变量值由小到大依次排列,为第x百分位数的秩次, 其对应的变量值(x)为第x百分位数,记为Px。 例:8位患者某病的住院天数:
2 2 2 3 3 4 5 6
求50%位数和80%位数。解:第50%位次:nX%=8×0.5=4
中位数=P50=3(天) 第80%位次:nX%=8×0.8=6.4,用公式2.7
p?x[trunc(6.4)?1]?x7?(天)5 80百分位数计算结果的应用1.常计算P25、P50 、P75、和P95,为临床治疗提供依据。 例2-9:120名细菌性痢疾治愈的住院天数 P5=3.5(天),即只有5%的人住院低于3.5天。
P95=15(天) 2.确定医学指标的参考值 几个常用的变异指标 极差;全距(Range):意义:R值越大,表示该组数据的变异越大。缺点:数据利用不全,部分信息损失,在例数少时结果不稳定。
四分位数间距:常用QR表示 QR=P75%-P25% 作为变异指标比极差稳定。常用于表示偏态分布资料的变异。例:QR= P75%-P25% =67.7-39.2=28.5天 表示方法:Md(QR) M=51天,(QR=28.5天) 标准差的简化计算公式: ?X2?(?X)2/n(列数较少) S?n?1
22 S??fX?(?fX)/?f?f?1 (频数表资料)
例2-11 甲组5名同龄男孩的身高值(cm) X X2
90 8100 95 9025
50250?(500)2/5 100 10000 S??7.915?1 105 11025
110 12100 ?X?500 ?X2?50250标准差的意义:反映一组变量值变异程度,组间单位相同时,S越小,表示数据的变异程度越小。 变异系数(CV)
1.单位不同时组间变异程度的比较。
某地7岁年龄组男童身高与体重
指标 S CV(%) 身高(cm) 123.10 4.71 3.83 体重(kg) 22.29 2.26 10.14
结论: 7岁年龄组男童身高与体重值指标比较,体重指标的变异大于身高指标。 某地不同年龄组男童身高(cm)
年龄组 S CV% 1-2月 56.3 2.1 3.73 5-6月 66.5 2.2 3.31 3-3.5岁 96.1 3.1 3.22 5-5.5岁 107.8 3.3 3.06 结论:随着年龄增加,身高的变异变小。
参数统计:统计推断方法,通常要求样本来自正态总体,或方差齐等,在这些假设的基础上,对总体参数进行估计和检验,称为参数统计。
非参数统计:有许多资料不符合参数统计的要求,不能用参数统计的方法进行检验,而需要一种不依赖于总体分布类型的假设检验;是通过将样本实际数据排队编秩后,对秩次进行比较,因此也叫秩和检验。 抽样误差:由于抽样引起的样本统计量与总体参数之间的差异。
标准误 :(σx Sx) 表示抽样误差大小的指标; 样本均数的标准差。
(均数)标准误意义:反映抽样误差的大小。标准误越小,抽样误差越小,用样本均数估计总体均数的可靠性越大。
点估计是用样本统计量直接估计其总体参数值。如用 估计?、S估计?等。方法虽简单,但未考虑抽
样误差大小
区间估计是按预先给定的概率(1-α),确定一个包含总体参数的范围。该范围称为参数的可信区间 评价可信区间估计的优劣: 正确性:可信度1?,即区间包含总体参数的理论概率大小,愈接近1愈好。 精确性:区间的宽度,区间愈窄愈好。
当样本含量为定值时,上述两者互相矛盾。若只顾提高可信度,则可信区间会变宽 可信区间与参考值范围的区别
可信区间用于估计总体参数,总体参数只有一个 。
参考值范围用于估计个体值的分布范围,个体值有很多 。
95%可信区间中的95%是可信度,即所求可信区间包含总体参数的可信程度为95%。 95%参考值范围中的95%是一个比例,即所求参考值范围包含了95%的正常人。 95%的可信区间的理解:
从正态总体中随机抽取100个样本,可算得100个样本均数和标准差,也可算得100个均数的可信区间,
可能发生的两类错误 平均约有95个可信区间包含了总体均数 。
但在实际工作中,只能根据一次试验结果估计可信区间,我们就认为该区间包含了总体均数 假设检验的结果
客观实际 正常值范围与可信区间
拒绝H0 不拒绝H0 正常值范围概念:绝大多数正常人的某指标范围。(95%,99%, 指绝大多数正常人) H0成立 I型错误推断正确用途:判断观察对象的某项指标是否正常.
可信区间概念:总体均数所在的数值,范围( 95%,99% 指可信度)用途: (?) 估计总体均数(1??) 正态分布是描述连续型变量值分布的曲线,医学上许多资料近似服从正态分布。H0不成立即推断正确 II型错误正态分布在统计推断上有重要的 直方图的频数分布与正态分布
H1成立 (1??) (?) 正态分布曲线理论上的特征
为中心, X值呈钟型分布对称性减少。1)以X= μ(2 )在 X= μ处,f(x)取最大值。(3 )正态分布由μ 、 σ决定 正态分布的位置和形状。随μ 不同,曲线位置不同,称μ为位置参数。σ越大,曲线形状不同,
称σ为形状参数。
医学参考值是指包括绝大多数“正常人”的各种生理及生化指标常数,也称正常值。正常值是指在一定范围内波动的值,医学上常用95%的范围作为判定正常或异常的参考标准。 医学参考值制定时注意问题
1.确定诊断指标为“定性”或“定量”2.计量数据要确定其分布(正态或偏态)3.计量资料考虑制定单侧诊断界值还是双侧诊断界值4.有足够的样本例数(一般不低于100例)
二项分布是指在只会产生两种可能结果如“阳性”或“阴性”之一的n次独立重复试验中,当每次试验的“阳性”概率保持不变时,出现“阳性”的次数X=0,1,2, ?,n的一种概率分布。记为X~B (n,π), n为试验次数,π为“阳性”概率。 适用条件
1,每次试验只会发生两种对立的结果之一,两种互斥结果的概率之和恒等于1; 2,每次试验产生某种结果(如“阳性”)的概率π固定不变;
3,各次试验是互相独立的,即任何一次试验结果的出现不会影响其它试验结果出现的概率。
二项分布的应用 总体率的区间估计 样本率与总体率的比较 两样本率的比较 研究非遗传性疾病的家族集聚性 群检验 I型错误和II型错误
II 类错误的概率 β 值的两个规律:
1. 当样本量一定时, α 愈小, 则 β 愈大,反之…; 2.当 α 一定时, 样本量增加, β 减少.
共分享92篇相关文档