当前位置:首页 > 研究生医学统计学考点总结
医学统计学
基本概念:
1.医学统计学Statistics:医学统计学是以医学理论为指导,应用概率论与数理统计的有关原理和方法,研究医学资料的搜集、整理、分析和推断的一门科学。 2.同质和异质:具有相同性质的事物称为同质(homogeneous)。否则称为异质的或者间杂的(heterogeneous)。不同质的个体不能笼统地混在一起分析,同质和异质是相对的概念。
3.变异:同质事物之间的差别称为变异(variation),亦称个体变异。变异的两个方面:
个体与个体间的差别
同一个体重复测量值间的差别
结果是随机的,不可预测的;
一种或多种不可控因素(已知的或未知的)作用下的综合表现; 个体变异是普遍存在的; 个体变异是有规律的;
没有个体变异,就没有统计学。 4.总体和样本:
总体(population):根据研究目的所确定的同质观察单位的全体;分为有限总体和无限总体。
个体(individual):是构成总体的最基本观察单位。 样本(sample):是从总体中按照一定的目的随机抽取的一部分具有代表性的个体集合。
样本含量(sample size):样本中包含的个体个数。 5.参数和统计量:
? 总体参数(parameter):描述某总体特征的指标,简称参数,一般用希腊字母表示,如:? 、? 、 π 。
X? 统计量(statistic):描述某样本特征的指标,一般用拉丁字母表示,如: 、
s、p 。
? 在总体被确定之后,总体参数就是一个常数,是不会变化的,不管你是否确切知其大小;而统计量是几乎总是随着样本而变的。
6.随机(random):是指机会均等,目的是保证样本对总体的代表性、可靠性。 7.概率和频率:
频率( relative frequency ):在n次随机试验中,事件A发生了m次,则比值m/n称为事件A在这n次试验中出现的频率。
概率(probability):是随机事件发生可能性大小的一个度量,是一种参数,常用P表示,0≤P ≤1。
8.小概率事件和小概率原理: 小概率事件:医学研究中,将概率小于等于0.05或0.01的事件称为小概率事件。 小概率原理:小概率事件并不表示不可能发生,但在某一次试验中,是不会发生的。
9.变量的分类:
? 按照取值的特性:
? 数值变量 numerical Variable 定量变量:既有顺序的意义,又有间隔的意义,可以认为是连续的;往往有单位;取值间的差异是可以度量的。
? 分类变量 categorical Variable 定性变量:取值是是分散、定性的,表现为互不相容的类别和属性。
? 无序分类 unordered categorics: 无顺序,无间隔,仅有分类
– 二项分类 – 多项分类
? 有序分类 ordered
categorics 等级变量:仅有顺序,无单位;取值间的差异是不可度量的
? 不同分类的互相转化
? 数值变量→无序分类变量 ? 数值变量→有序分类变量
? 有序分类变量→无序分类变量
信息量只有减少,不可增加
统计描述指标,呈现方式可分为两种 统计图:直观,但精确度稍差
统计报表:能尽量详细,精确,但不够直观
统计推断:从样本信息外推到总体,以最终获得对所感兴趣问题的解答 参数估计:样本→所在总体特征
假设检验:该指标可能的影响因素分析
频数分布
1.频数表编制步骤 求极差:R=Xmax-Xmin
选定适当的组段数后估计组距:组段数的选取以能反映资料的分布特征为宜,一般取8 ~ 12组
列出组段:组段的含义:包括组段的下限而不含组段的上限 。如:3.2~ 等价于 [3.2,3.5)。
划记归组获得频数
求频率,完成频数表 :相应的频数除以总数即为频率,各组段的频率总和为1或者100%。
2.频数分布所提供的信息
? 频数分布图用以表示数据的分布规律。 ? 观察有无可疑值。 ? 考察分布的类型。
? 对称分布
? 非对称分布(偏态分布)
? 左偏态(负偏态) :指分布的长尾在峰的左侧。
? 右偏态(正偏态) :指分布的长尾在峰的右侧。
? 考察分布的特征
? 集中位置 (Central Tendency):描述指标有平均数(算术均数(Mean)、几何均数(Geometric Mean) 、中位数(Median)、百分位数(Percentile) )。
? 离散趋势 (Tendency of Dispersion):描述指标有极差(Range)、四分位数间距(interquartile range) 、方差(Variance) 、标准差(Standard Deviation) 、变异系数( coefficient of variation ) 。
3.平均数应用的注意事项:
? 同质的资料计算平均数才有意义。 ? 均数适用于:单峰对称分布的资料。
? 几何均数适用于:对数变换后单峰对称的资料。等比资料、滴度资料、对数正态分布资料。计算几何均数时:
? 变量值中不能有0
? 同一组变量值不能同时存在正、负值,若变量值全为负值,可先将负号除去,算出结果后再冠以负号
? 中位数:理论上可用于任何分布资料,常用于描述偏态资料,开口资料,有不确定值的资料的集中位置。但当资料适合计算均数或几何均数时,不宜用中位数。
中位数和百分位数在样本含量较少时不稳定,越靠两端越不稳定; 中位数在抗极端值的影响方面,比均数具有较好的稳定性,但不如均数精确。
不同质的资料应考虑分别计算平均数。
? 百分位数:样本含量较少时不宜计算靠近两端的百分位数。 ? 平均数要与变异指标结合使用。
4.变异度指标:
四分位数间距(inter-quartile range):QU - QL = P75 - P25,即中间一半观察2222值的极差。 X?X??X??X??????????X?X????2s??2?s? n?1NNn?1方差及标准差:
变异系数(coefficient of variation, CV):
为标准差和均数的比值,排除了平均水平的影响,并取消了单位。因此变异系
s数常用于: CV??100%X? 比较度量衡单位不同的两组或多组资料的变异度
? 比较均数相差悬殊的两组或多组资料的变异度
5.变异度的正确应用:
? 极差不稳定,不灵敏
? 标准差的基本内容是离均差,它显示一组变量值与其均数的间距,故标准差直接地、总结地、平均地描述了变量值的离散程度。 ? 在同质的前提下,标准差大表示变量值的离散程度大,即变量值的分布分
散、不整齐、波动较大;反之,标准差小表示变量值的离散程度小,即变量值的分布集中、整齐、波动较小。 ? 变异系数派生于标准差,其应用价值在于排除了平均水平的影响,并消除了单位。 6.总结:
? 每个观察指标均有其特定的变异规律; ? 描述变异:
? 图形描述 ? 统计量描述
? 平均数:均数、几何均数、中位数和百分位数
? 变异度:极差、方差、标准差、四分位数间距、变异系数 ? 不同分布的指标,用不同的统计量描述;
? 用平均数与变异度共同描述。
正态分布
?1.公式:如果随机变量X的概率密度函数为 f ( X ) ? e 2 (-∞< X <
?2?+∞)
则称X服从正态分布,记作X~N(?,?2),其中, ?为分布的均数, ? 为分布的标准差。?为总体均数,?为总体标准差。
π为圆周率,e为自然对数的底,X为变量,代表横轴的数值,f(X)为纵轴数值。
2.正态分布的特征(重要):
? 单峰分布;高峰在均数处;
? 以均数为中心,均数两侧完全对称。
? 正态分布有两个参数(parameter),即位置参数(均数)和变异度参数(标准差)。
? 有些指标本身不服从正态分布,但经过变换之后可以服从正态分布。 ? 正态曲线下的面积分布有一定的规律。
X轴与正态曲线所夹面积恒等于1 ,对称区域面积相等。 ?-1.64?~ ?+1.64?内面积为90%;
?-1.96?~ ?+1.96?内面积为95%; ?-2.58?~ ?+2.58?内面积为99%。
正态分布曲线下的面积与标准正态分布曲线下的面积对应(以标准正态离差为单位)。
1?(X??)22
共分享92篇相关文档