当前位置:首页 > 统计学简答题参考答案
统计学简答题参考答案
第一章 绪论
1.什么是统计学?怎样理解统计学与统计数据的关系?
答:统计学是一门收集、整理、显示和分析统计数据的科学。统计学与统计数据存在密切关系,统计学阐述的统计方法来源于对统计数据的研究,目的也在于对统计数据的研究,离开了统计数据,统计方法以致于统计学就失去了其存在意义。 2.简要说明统计数据的来源。
答:统计数据来源于两个方面:直接的数据:源于直接组织的调查、观察和科学实验,在社会经济管理领域,主要通过统计调查方式来获得,如普查和抽样调查。间接的数据:从报纸、图书杂志、统计年鉴、网络等渠道获得。 3.简要说明抽样误差和非抽样误差。 答:统计调查误差可分为非抽样误差和抽样误差。非抽样误差是由于调查过程中各环节工作失误造成的,从理论上看,这类误差是可以避免的。抽样误差是利用样本推断总体时所产生的误差,它是不可避免的,但可以控制的。 4.解释描述统计和推断统计的概念?(P5)
答:描述统计是用图形、表格和概括性的数字对数据进行描述的统计方法。 推断统计是根据样本信息对总体进行估计、假设检验、预测或其他推断的统计方法。 第二章 统计数据的描述
1描述次数分配表的编制过程。 答:分二个步骤:
(1) 按照统计研究的目的,将数据按分组标志进行分组。 按品质标志进行分组时,可将其每个具体的表现作为一个组,或者几个表现合并成一个组,这取决于分组的粗细。
按数量标志进行分组,可分为单项式分组与组距式分组
单项式分组将每个变量值作为一个组;组距式分组将变量的取值范围(区间)作为一个组。
统计分组应遵循“不重不漏”原则
(2) 将数据分配到各个组,统计各组的次数,编制次数分配表。 2. 一组数据的分布特征可以从哪几个方面进行测度?
答:数据分布特征一般可从集中趋势、离散程度、偏态和峰度几方面来测度。常用的指标有均值、中位数、众数、极差、方差、标准差、离散系数、偏态系数和峰度系数。
3.怎样理解均值在统计中的地位? 答:均值是对所有数据平均后计算的一般水平的代表值,数据信息提取得最充分, 具有良好的数学性质,是数据误差相互抵消后的客观事物必然性数量特征的一种反映,在统计推断中显示出优良特性,由此均值在统计中起到非常重要的基础地位。受极端数值的影响是其使用时存在的问题。 4. 简述众数、中位数和均值的特点和应用场合。
答:众数、中位数和均值是分布集中趋势的三个主要测度,众数和中位数是从数据分布形状及位置角度来考虑的,而均值是对所有数据计算后得到的。众数容易计算,但不是总是存在,应用场合较少;中位数直观,不受极端数据的影响,但数据信息利用不够充分;均值数据提取的信息最充分,但受极端数据的影响。 5.为什么要计算离散系数? 答:在比较二组数据的差异程度时,由于方差和标准差受变量值水平和计量单位
的影响不能直接比较,由此需计算离散系数作为比较的指标。
6.描述茎叶图和直方图,箱线图的画法,并说明它们的用途(P41、42)
答:茎叶图将数据分为“茎”和“叶”两部分,绘制茎叶图的关键是设计好树茎,通常是以该组数据的高位数值作 为树茎,而且树叶上 只保留该数值的最后一个数字。通过茎叶图可以看出数据的分布形状及数据的离散状况。 直方图的绘制方法:在平面直角坐标系上,将分组标志作为横轴,并将各组次数作为纵轴,绘出的长方形图即直方图。通过直方图 可以看出数据的分配特征。 箱线图是由一个箱子和两条线段组成的。其绘制方法是:首先找出一组数据的五个特征值,即数据的最大值、最小值、中位数和两 个四分位数;然后连接两个四分位数画出箱子;再将两个极值点与箱子相连接。通过箱线图可以看出数据分布的特征。 7.设计一张规范的统计表应该注意哪些问题?
答:1、统计表一般为横长方形,上下两端封闭且为粗线,左右两端开口。 2、统计表栏目多时要编号,一般主词部分按甲、乙、丙;宾词部分按(1)(2)等次序编号。 3、统计表总标题应简明扼要,符合表的内容。 4、主词与宾词位置可互换。各栏排列次序应以时间先后、数量大小、空间位置等自然顺序编排。 5、计量单位一般写在表的右上方或总栏标题下方。 6、表内资料需要说明解释部分,如:注解、资料来源等,写在表的下方。7、填写数字资料不留空格,即在空格处划上斜线。统计表经审核后,制表人和填报单位应签名并盖章,以示负责。 第三章 概率、概率分布与抽样分布
1.解释总体分布、样本分布和抽样分布的含义
答:总体分布指某个变量在总体中各个个体上的取值所形成的分布,它是未知的,是统计推断的对象。从总体中随机抽取容量为n的样本?x1,x2,?,xn?,它的分布称为样本分布。由样本的某个函数所形成的统计量f?x1,x2,?,xn?,它的分布称为抽样分布(如样本均值、样本方差的分布)
2.重复抽样与不重复抽样相比,抽样均值抽样分布的标准差有什么不同? 答:重复抽样和不重复抽样下,样本均值的标准差分别为: ?2n, ?2?N?n??? n?N?1?因此不重复抽样下的标准差小于重复抽样下的标准差,两者相差一个调整系数 3.解释中心极限定理的含义
答:在抽样推断中,中心极限定理指出,不论总体服从何种分布,只要其数学期望和方差存在,对总体进行重复抽样时,当样本容量充分大,样本均值趋近于正态分布。中心极限定理为均值的抽样推断奠定了理论基础。 4.简述系统抽样组织方式组织实施的基本步骤(P98) 答:在抽样中先将总体各单位按某种顺序排列,并按某种规则确定一个随机起点,然后,每隔一定的间隔抽取一个单位,直至抽取n个 单位形成一个样本。 5.整群抽样的优缺点是什么?(P98)
答:整群抽样的优点:可以简化抽样框的编制。样本单元比较集中,实施调查便利,且能节约费用。 整群抽样的缺点:当群内具有一定的相似性,而不同群之间的差别比较大时,相同样本量下整群抽样的抽样效率比简单随机抽样差 ,抽样误差较大。
6.什么是必要的样本容量,其影响因素有哪些?
答:是指一个样本的必要抽样单位数目。在组织抽样调查时,抽样误差的大小直接影响样本指标代表性的大小,而必要的样本单位数目是保证抽样误差不超过某一给定范围的重要因素之一
影响因素:(1) 研究对象的变化程度;(2) 所要求或允许的误差大小(即精度要求);(3) 要求推断的置信程度。也就是说,当所研究的现象越复杂,差异越大时,样本量要求越大;当要求的精度越高,可推断性要求越高时,样本量越大。 第四章 参数估计
1.简述评价估计量好坏的标准
答:评价估计量好坏的标准主要有:无偏性、有效性和相合性。设总体参数?的
???,称??是无偏估计量;如果??和??,如果E??是无偏估计估计量有??1和?12112?小于D??,则??比????,?更有效;如果当样本容量n??,?量,且D?12112??????则??1是相合估计量。
2.简述样本容量与置信水平、总体方差、允许误差的关系
2z?/2??2?答:以估计总体均值时样本容量的确定公式为例:n?
E2样本容量与置信水平成正比、与总体方差成正比、与允许误差成反比。
第五章 假设检验
1.理解原假设与备择假设的含义,并归纳常见的几种建立原假设与备择假设的原则. 答:原假设通常是研究者想收集证据予以反对的假设;而备择假设通常是研究者想收集证据予以支持的假设。建立两个假设的原则有: (1)原假设和备择假设是一个完备事件组。(2)一般先确定备择假设。再确定原假设。(3)等号“=”总是放在原假设上。(4)假设的确定带有一定的主观色彩。(5)假设检验的目的主要是收集证据来拒绝原假设。
2.第一类错误和第二类错误分别是指什么?它们发生的概率大小之间存在怎样的关系? 答:第I类错误指,当原假设为真时,作出拒绝原假设所犯的错误,其概率为?。第II类错误指当原假设为假时,作出接受原假设所犯的错误,其概率为?。在其他条件不变时,?增大,?减小;?增大,?减小。
3.什么是显著性水平?它对于假设检验决策的意义是什么? 答:假设检验中犯第一类错误的概率被称为显著性水平。显著性水平通常是人们事先给出的一个值,用于检验结果的可靠性度量,但确定了显著性水平等于控制了犯第一错误的概率,但犯第二类错误的概率却是不确定的,因此作出“拒绝原假设”的结论,其可靠性是确定的,但作出“不拒绝原假设”的结论,其可靠性是难以控制的。
4.什么是p值?p值检验和统计量检验有什么不同?
答:p值是当原假设为真时,检验统计量小于或等于根据实际观测样本数据计算得到的检验统计量值的概率。P值常常作为观察到的数据与原假设不一致程度的度量。统计量检验采用事先确定显著性水平?,来控制犯第一类错误的上限,p值可以有效地补充?提供地关于检验可靠性的有限信息。p值检验的优点在于,它提供了更多的信息,让人们可以选择一定的水平来评估结果是否具有统计上的显著性。
5.什么是统计上的显著性?
答:一项检验在统计上是显著的(拒绝原假设),是指这样的(样本)结果不是偶然得到的,或者说,不是靠机遇能够得到的。显著性的意义在于“非偶然的。 第七章 相关与回归分析
1.相关分析与回归分析的区别与联系是什么? 答:相关与回归分析是研究变量之间不确定性统计关系的重要方法,相关分析主要是判断两个或两个以上变量之间是否存在相关关系,并分析变量间相关关系的形态和程度。回归分析主要是对存在相关关系的现象间数量变化的规律性作出测度。但它们在研究目的和对变量的处理上有明显区别。它们均是统计方法,不能揭示现象之间的本质关系。
2.什么是总体回归函数和样本回归函数?它们之间的区别是什么? 答:以简单线性回归模型为例,总体回归函数是总体因变量的条件期望表现为自变量的函数:E?YXi??f?Xi?????Xi,或Yi????Xi?ui。总体回归函数是确定的和未知的,是回归分析所估计的对象。样本回归函数是根据样本数据所估
?x或y???x?e。回归分???????i??计出的因变量与自变量之间的函数关系:yiiii析的目的是用样本回归函数来估计总体回归函数。它们的区别在于,总体回归函数是未知但是确定的,而样本回归函数是随样本波动而变化;总体回归函数的参
?是随机变量;总体回归函数中的?,?数?,?是确定的,而样本回归函数的系数?误差项ui不可观察的,而样本回归函数中的残差项ei是可以观察的。 3. 什么是随机误差项和残差?它们之间的区别是什么?
答:随机误差项ui表示自变量之外其他变量的对因变量产生的影响,是不可观察的,通常要对其给出一定的假设。残差项ei指因变量实际观察值与样本回归函数计算的估计值之间的偏差,是可以观测的。它们的区别在于,反映的含义是不同且可观察性也不同,它们的联系可有下式:
垐 x?u 垐 ?????ei?yi????xi?????xi?ui?????xi?????ii??????4.为什么在对参数进行最小二乘估计时,要对模型提出一些基本的假定?
答:最小二乘法只是寻找估计量的一种方法,其寻找到的估计量是否具有良好的性质则依赖模型的一些基本的假定。只有在一系列的经典假定下,最小二乘估计量才是BLUE。
5. 为什么在多元回归中要对可决系数进行修正?
共分享92篇相关文档