当前位置:首页 > 统计学原理复习重点- 修改2 - 图文
(2)单项数列的中位数
计算各组的累计频数(向上累计或向下累计);根据中位数位置确定中位数。
n
fi
中位数的位置=i?1 2对于分组后的数据
下限公式:
f ?Sm?12 Me?L??dfm上限公式:
f ?Sm?12 Me?U??dfm
式中:m为中位数所在的组,d为该组组距,
L、U分别为该组的下限值与上限值, fm为该组的频数,
Sm-1 为该组以下各组的频数总和, Sm+1为该组以上各组的频数总和, 显然 Sm?1?fm?Sm?1?f
众数(Mode)
众数是一组数据中出现次数最多的变量值。 在分组数据中,众数可按下式计算: 下限公式: fm?fm?1 Mo?L??d (fm?fm?1)?(fm?fm?1) 上限公式: fm?fm?1?d Mo?U?(fm?fm?1)?(fm?fm?1)
式中: fm为某数值出现次数(频数)最多的组(第m组)的频数, fm-1与fm+1分别为第m-1组与m+1组的频数,
L、U分别为第m组的下限与上限值,d为该组组距。
?1???Me??X?N??X?N??????1??2??2????2?????1、如果某组统计数据中没有哪个数值出现较多的频率(次数),则可认为该组数无众数;如果有多个数据出现的次数(频率)较多,则认为有多个众数。 在有多个众数的情况下,则对众数的关注度下降,因为多众数对描述数据位置无多大帮助。
2、对描述品质数据的分布特征的―位置‖测度只能用众数。 中位数、众数与算术平均数的关系
四、中位数、众数与算术平均数的关系1、如果数据具有单一众数,且分布是对称的,则众数Mo、中位数Me与均值X相等,即Mo?Me?X;2、对于非对称分布,当分布左偏时(说明存在极端小的值)X?Me?Mo当分布右偏时(说明存在极端大的值)X?Me?Mo3、在偏斜度适度的情况下,不论是左偏还是右偏,中位数与算术平均数之差约等于众数与算术平均数之差的1/3,即有如下经验公式:1Me?X?(MO?X)3 ? 众数、中位数和均值都是对数据集中趋势的测度,
1、均值由全部数据计算,包含了全部数据的信息,具有良好的数学性质,当数据接近对称分布时,具有较好的代表性;但对于偏态分布,其代表性较差。
2、中位数是一组数据中间位置上的代表值,不受数据极端值的影响,对于偏态分布的数据,其代表性要比均值好。
3、众数是一组数据分布的峰值,是一种位置的代表,当数据的分布具有明显的集中趋势时,尤其对于偏态分布,众数的代表性比均值好。
4、对接近正态的分布数据,常用均值描述数据的集中趋势;对偏态分布,常用众数或中位数描述数据的集中趋势。
5、均值只适用于定距或定比尺度的数据;定序尺度数据可用中位数或众数进行描述,而对定类尺度数据,只能用众数进行描述。
分布离散程度的测度
对数据分布特征的另一个测度指标是数据分布离散程度。 它反映各数据远离其中心值的程度,因此,也称离中趋势。 集中趋势反映的是各变量值向其中心值聚集的程度, 离中趋势反映各变量值之间的差异状况。 注意:
集中趋势的测度值概括地反映了数据的一般水平,它对该组数据的代表程度,取决于该组数据的离散水平。
数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差。 极差(Range)
极差是最简单的测度离中趋势(分散程度)的指标,也称全距,是一组数据最大值与最小值之差:
Range=Largest Value - Smallest Value 对于组距分组数据,极差可近似地表示为: R=最高组上限 - 最低组下限 ▲注意:
1、极差易受极端值的影响;
2、由于极差只利用了数据两端的信息,没有反映中间数据的分散状况,因而不能准确描述数据的分散程度。 方差(Variance)
方差是各变量值与其均值离差(deviation about the mean)平方的平均数。 总体方差(Population Variance) 总体方差用?2表示
其中:Fi为第i组数据的频数Xi为第i个数(未分组)或第i 组组中值(分组) 样本方差(Sample Variance) 样本方差用S2表示
其中:fi为第i组数据的频数xi为第i个数(未分组)或第i 组组中值(分组) 标准差:方差的平方根(正)。
1、由于方差计算中使用了平方运算,因此方差的单位也是平方,如上述班级规模例中方差为64(学生)2,其具体意义不明确。因此方差只有在比较不同组数据的离散程度时才有数量大小上的意义。
2、标准差是对方差的开方运算,因此,其单位与原始数据的单位一致,它与均值及其他用同一单位测度的数据相比较也容易一些。
(标准差就是指数据“离散程度的测度值”距“均值”的距离)。 离散系数(Coefficient of Variation)
离散系数:一组数据标准差与其均值的比,也称为标准差系数,是测度数据离散程度的相对指标:
四、离散系数(Coefficient of Variation)离散系数:一组数据标准差与其均值的比,也称为标准差系数,是测度数据离散程度的相对指标:例:五个班级规模的例中,若视为总体,离散系数为:7.15/44=0.16,若视为样本,则离散系数为:8/44=0.182。
1、对不同组数据,其离散程度既受其数据本身的水平的影响,也受数据计量单位的影响,因此对不同(性质)组别的数据,不好用离差或标准差来比较它们的离散程度;
2、由于离散系数消除了来自这两方面的影响,因此可以用它进行不同数据组的比较。
分布偏态与峰度的测度
偏态(Skewness)和峰度(Kurtosis)是对数据分布特征的进一步描述。
平均数与标准差相同的数据组,其频数分配(分布)也可能不同,如果频数分布是对称的,则称为对称分布,否则为偏态分布。 偏态及其测度
测定偏态的方法主要有两种: (1)算术平均数与众数比较法, (2)动差法。
算术平均数与众数比较法
完全对称分布:算术平均数、中位数、众数重合 非对称分布:三者相互分离,
算术平均数 < 中位数 < 众数
可用算术平均数与众数之间的距离作为测度偏态的一个尺度: 偏态 = 算术平均数 - 众数
这是偏态的绝对数,它以原有数据的单位为单位。
共分享92篇相关文档