当前位置:首页 > 统计学第四章第三节
定均值时,x1,x2,x3,------xn,这n个数据中前n—1个数据都可以自由取值,而第n个数据受全部数据的平均值的制约,不能自由取值。第n个数据可以由公式∑xi求得。因此,方差的自由度是n—1。
也可以这样理解:从字面意义上看,自由度是指一组数据中,可以自由取值的个数。当样本数据的个数为n时,如果样本平均数确定后,只有n—1个数据可以自由取值,其中必有一个数据不能自由取值。例如,假如样本有3个数值, X1=2,X2=4,X3=9,则平均数=5。当平均数=5确定后,X1,X2,X3只有两个数据可以自由取值,其中必有一个不能自由取值。例如X1=6,X2=7,那么X3则必然取2,而不能取其他值。
另一种解释:即共有n个样本,有n个自由度。用样本方差估计总体方差,自由度本应为n,但总体均值也未知,用样本平均数去估计它,就用掉了了一个自由度,故,只剩下n—1个自由度。
(七)标准差系数
厂名 工人平均 标准差 标准差系数 劳动生产率(元) 甲 16000 600 3.75 乙 8000 400 5.00
(八)标准分数——每一个变量值相对位置的测度
1. 标准分数——变量值与其平均数的离差除以标准差后的值。又称z分数,或标准化值。
设标准分数为zi,则有zi=(离差/标准差)
z分数,zi可以被解释为xi偏离平均数,相当于标准差的个数。
如,z=2,表示变量值比平均数大2个标准差,如果等于-2,则表示变量值比平均数小2个标准差。
z分数大于0,是指那些数值大于平均数的观察值,z分数小于0,是指那些数值小于平均数的观察值,z分数等于0,是指那些数值等于平均数的观察值,
任何观察值的z分数都可以解释为该观察值在数据集中相对位置的测度。因此,如果位于两个不同数据集中的观察值的z分数相等,则可以说它们的相对位置相同,即偏离平均数的标准差的个数相同。
例如:已知下面样本的平均数为44,标准差是8。 班级的学生数xi 均值的离差 z分数
46 2 0.25 54 10 1.25
42 -2 -0.25 46 2 0.25 32 -12 -1.5 第5个观察值的z分数是-1.5,说明它是偏离平均数最远的一个样本,它比平均数低1.5个标准差。
(九)经验法则
经验法表明,当一组数据对称分布时:
约有68%的数据在平均数加减1个标准差的范围之内。 约有95%的数据在平均数加减2个标准差的范围之内。 约有99%的数据在平均数加减3个标准差的范围之内。
例如,液体清洁剂纸板箱在生产线上可以被自动装满。填充的重量通常呈钟型分布。如果填充重量的平均值是16盎司,标准差是0.25盎司,利用经验公式:
大约68%的已填充纸板箱的重量在15.75-16.25之间 大约95%的已填充纸板箱的重量在15.50-16.50之间 大约99%的已填充纸板箱的重量在15.25-16.75之间
可以看到,一组数据中低于或高于平均数3倍标准差之外的数值是很少的,也就是说,在平均数加减3个标准差的范围内几乎包含了全部数据,而在3个标准差之外的数据,在统计上也称为异常值或离群点。
(十)切比雪夫不等式
对于任意分布形态的数据,根据切比雪夫不等式,至少有(1-1/z.z)的数据落在z个标准差之内。
其中z是大于1的任意值,但不一定是整数。
z=2,至少有75%的数据落在平均数加减2个标准差的范围之内 z=3,至少有89%的数据落在平均数加减3个标准差的范围之内。 z=4,至少有94%的数据落在平均数加减4个标准差的范围之内
例如,
假设100个大学生数学课程的考试成绩的平均数是70分,标准差是5分。那么有多少学生的考试成绩在60——80之间?又有多少学生的考试成绩在58——82之间?
第二节 偏态与峰态的度量
偏度和峰度是从整个图形来刻画分布特征的。
一 偏态及其测度
(一)偏态
即 指数据分布的不对称性。 偏斜的程度测定——偏态系数
1.未分组资料的偏态系数公式
例如:某组工人生产产品日产量件数分别为48 49 50 51 52 计算偏态系数。
平均数=∑x/n=(48+49+50+51+52)/5=50 标准差=1.41 n=5
生产件数 离差 离差平方 离差立方 48 -2 4 -8 49 -1 1 -1
50 0 0 0 51 1 1 1 52 2 4 8 250 0 10 0
sk=5×0/(5-1)(5-2) 1.41 ×1.41×1.41=0 ( 正态分布 )
例如:某组工人生产产品日产量件数分别为5 20 45 85 95 计算偏态系数。 平均数=∑x/n=50 标准差=35.2 n=5
生产件数 离差 离差平方 离差立方
5 -45 2025 -91125 20 -30 900 -27000 45 -5 25 -125 85 35 1225 42875 95 45 2025 91125 250 0 6200 15750 sk=5×15750 /(5-1)(5-2) ×35.2×35.2×35.2
=78750/523370.5=5.296=0.15 (有点正偏斜,右偏斜)
偏态系数测度了数据分布的非对称程度。如果一组数据的分布是对称的,则偏态系数等于0;如果偏态系数明显不同于0,表明分布是非对称的。
2 分组资料的偏态系数 公式:
它是离差三次方的平均数再除以标准差的三次方。
当对称分布时,离差三次方后正负离差可以相互抵消,因此,sk是分子等于0,sk也就等于0。 当分布不对称时,正负离差不能相互抵消,就形成了正或副的偏态系数。当sk为正值时,表示正离差值较大,可以判断为正偏,或右偏。Sk为负值时,表示负离差数值较大,可以判断为负偏或左偏。
Sk值越大,表示偏斜的程度越大。 例如:资料如下,计算偏斜系数
月工资额(元)工人数(人) 工资总额(元)离差 离差平方 离差立方 离差立方乘次数
500 30 15000 -180 32400 600 50 30000 80 6400 700 70 49000 20 400 800 30 24000 120 14400
900 20 18000 220 48400
合计 200 136000 —— —— —— 平均数=13600/200=680(元) 标准差=
Sk=
从计算结果可以看出,偏态系数为
二 峰态及其测度
(一)峰态定义
即数据分布的平峰或尖峰程度。 (二)峰态的测度—峰态系数 1 未分组资料的峰态系数K 2 公式:
第四节
平均指标的应用原则
一、 社会经济现象的同质性
二、组平均数补充总平均数
三、 分配数列补充平均数
共分享92篇相关文档