当前位置:首页 > 第三篇 抽样调查
“平均数置信度”是指用样本平均数估计总体平均数的可信程度。若选择此复选框,其右侧将显示默认值95%,可计算在显著水平0.05(双尾)条件下,用样本平均数估计总体平均数的置信度。如果认为95%不合适,可输入要求达到的可信程度。
若选择“第K大值”或“第K小值”,其框中将显示默认值“1”,即要求给出全数列中第一个最大值或最小值,与上面的最大值或最小值是一样的。本例选择默认值。
以上各项选定后,单击“确认”按钮,即在指定区域输出一个两列的计算结果表,如表3—8—附录中B、C两列所示,表中左边一列为标志项,右边一列为统计值(如果是多个样本,每个样本都给出一个两列的输出表)。
表3—8—附录 描述统计计算结果表 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 21 A B C 重量(公斤) 82 85 85 85 88 88 88 88 89 89 89 89 89 90 90 90 90 90 平均 标准误差 中值 模式 标准偏差 样本方差 峰值 偏斜度 区域 最小值 最大值 求和 计数 最大(2) 最小(2) 置信度(95.0%) 重量(公斤) 91.23 0.64 90.00 90.00 4.06 16.49 0.12 0.31 18.00 82.00 100.00 3649.00 40.00 100.00 85.00 1.30
以下省略 表中指标解释如下:
1.“平均”指样本均值,是“求和”项与“计数”项的比值。“求和”指样本标志值合计,“计数”指样本单位数。
2.“标准误差”指样本平均数的抽样平均误差,是“标准偏差”与“计数”平方根的比值,其计算为:μ =
sn?4.0640≈0.64。
25
3.“中值”指中位数,第20、21项都是90公斤,二者的平均数也就是90公斤。 4.“模式”指众数。
5.“标准偏差”指样本标准差。 6.“样本方差”指样本标准差的平方。
7.“峰值”也称峰度,是次数分布数列的特征之一。其值若小于3,画出的次数分布钟形曲线为平顶;若大于3,画出的次数分布钟形曲线为尖顶;若小于1.8,则钟形曲线呈U形。
8.“偏斜度”也称斜度,是次数分布数列的另一特征。其值若为正值,则钟形曲线向右偏斜;若为负值,则钟形曲线向左偏斜;越接近0,越趋于正态分布即钟形分布。 9.“区域”指极差,也称全距。
10.“最大值”和“最小值”都是指全数列(所有样本数据)说的。
11.由于抽取样本时方差未知,需用自由度n-1的t分布估计总体平均数。按照n-1=39、显著性水平0.05(双尾)查t分布表,得t的临界值为2.023。所以,估计总体平均数之间的置信度应为2.023×0.64=1.3。因此,总体平均数的估计区间为91.23-1.3~91.23+1.3,即89.93公斤~92.53公斤之间。
三、总体均值的区间估计
(一)已知总体方差,进行总体均值的区间估计。
假定某零件的长度服从正态分布,现从一批产品中随机抽取9件,测得其平均长度为21.4毫米,已知总体标准差为0.15毫米,要求按置信概率0.95估计该批产品平均长度的置信区间。
首先,单击“常用”工具栏中的“fx”按钮,从弹出的“粘贴函数”对话框中,选择“统计”类中的“CONFIDENCE”函数(总体均值置信区间函数),回车进入该函数的对话框,如图3—8—附录2所示:
图3—8—附录2 CONFIDENCE对话框图
其次,在CONFIDENCE对话框中,完成以下操作: 在Alpha框中输入设定置信概率的显著水平,本例为0.05; 在Standard dev框中输入总体标准差,本例为0.15;
26
在Size框中输入样本容量,本例为9。
完成以上操作后,即在对话框底部给出计算结果,本例为0.098(这是允许误差)。若事先选定了放置数据的单元格,则回车确认就可以将0.098放入选定的单元格中。
以上操作还可以用输入函数公式的方法完成。方法是:单击任一空单元格,输入“=CONFIDENCE(0.05,0.15,9)”,回车确认,即可得出同样的结果。
最后,将样本均值21.4加上0.098得21.498(毫米),减去0.098得21.302(毫米),这表明有95%的把握推断该批零件的平均长度在21.302毫米~21.498毫米之间,这就是总体均值的估计区间。
非正态分布的总体如果样本容量大于30,也可以使用CONFIDENCE函数对总体的均值进行区间估计。
(二)未知总体方差,进行总体均值的区间估计。
如果是正态总体但方差未知,可用样本方差代替总体方差、用自由度为n-1的t统计量对总体进行均值的区间估计。公式为:x?ta/2sn?1n,式中,ta/2sn?1n为允许误差。
如上例,如果总体方差未知,但计算出样本方差为0.021,要估计总体的均值,首先,需要先单击任一空单元格,输入“=TINV(0.05,8)*SQRT(0.021/9)”,回车确认,得出允许误差为0.1114。然后,将样本均值21.4分别加上0.1114和减去0.1114,得到总体长度均值的估计区间为21.2886毫米~21.5114毫米。上述操作中,TINV为给定自由度和双尾概率的学生氏-t分布的区间点,TINV(0.05,8)代替查t分布表,所得结果比查表更准确。 SQRT为平方根函数。
三、总体比率(成数)的区间估计
某企业对其产品在消费者中的满意情况进行调查,在抽选的200人中,有140人回答对产品的外包装不满意,现要求以95%的概率保证程度估计全体市民中不满意产品外包装的人数比例。
首先求得样本比例:p?140200?0.7,1-p=1-0.7=0.3。其次按显著水平查正态分布表,
得t值为1.96。然后单击任一空单元格,输入“=1.96*SQRT((0.7*0.3)/200)”,回车确认,即得出允许误差为0.064。最后,计算0.7±0.064得到以95%的概率保证估计的全体市民中不满意产品外包装的人数比例在63.6%~76.4%之间。
四、样本容量的确定
27
在Excel中确定样本容量,主要使用输入公式的方法。根据已经掌握的概率度、总体方差、抽样误差,将数据带入计算样本容量的公式中并输入到表中的任一空单元格,回车确认就得到所需要的样本容量。输入公式的方法以前多次叙述过,这里不再赘述。
【个案分析】
美国田纳西州的多勒总公司(Dollar General Corporation)创立于1939年。公司经营着2000多家连锁店,以低廉的普通价格在市场上销售非耐用的纺织品和保健、美容、卫生用品等17 000多种不同的产品。为消除通货膨胀的影响,使得公司增加可自由支配资金,总公司决定采用LIFO(后进先出)法对存货进行计价。后进先出存货计价法会计实务需要编制后进先出指数。为了避免计算2000多个零售店的17000多种存货价值的麻烦,该公司采用抽样推断的方法估计存货的价值。
通过本章的学习,请你思考:假如你是本公司的管理人员,你将怎样确定一个合理的样本容量?采用何种方式抽取样本?怎样计算抽样误差并进行区间估计,并说明总体指标落在这个区间的可能性有多大?
多勒总公司是这样进行的:从100个零售店和3个仓库随机抽取800种产品作为样本,年末进行实地盘存。会计人员据此编制存货价值指数为1.034,这说明在现行成本法下,由于最近一年内通货膨胀的影响,公司存货的价值增加了3.4%。但是,这个指数只是总体的一个样本估计,还需要估计精确度的陈述。根据样本结果,极限误差为0.006,平均误差为 0.003。因此,区间[1.028 ,1.04]提供了后进先出总体指数的95.45%的置信区间估计。这个精确度被认为很好。
多勒总公司管理员罗伯特先生为我们提供了这个统计应用案例。
【关键名词】
总体指标 样本指标 重复抽样 不重复抽样 抽样平均误差 抽样极限误差 抽样误差的概率度 点估计 区间估计 样本容量
【讨论与思考】
1.什么是全及总体和样本总体?什么是参数和统计量?它们之间有什么区别和联系?
28
2.什么是抽样误差、抽样平均误差和极限误差?影响抽样误差的因素有哪些? 3.怎样利用抽样调查资料推断总体指标?
4.怎样确定样本容量?影响样本容量的因素有哪些?
29
共分享92篇相关文档