当前位置:首页 > 环境科学领域学术论文中常用数理统计方法的正确使用问题
目的,最好不提“相关性”问题;若以探索两者的“共变趋势”为目的,建议作者改用相关分析。
需要特别指出的是,回归分析中的R2在数学上恰好是Pearson积矩相关系数
r的平方。因此,这极易使作者们错误地理解R2的含义,认为R2就是 “相关系数”或“相关系数的平方”。问题在于,对于自变量是普通变量(即其取值具有确定性)、因变量为随机变量的模型Ⅰ回归分析,2个变量之间的“相关性”概念根本不存在,又何谈“相关系数”呢?(说明:二元回归可决系数符号用小写r2)
5 显著性水平
相关分析及正态分布检验等均为基于假设检验的统计分析方法。而显著性水平的确定是假设检验中至关重要的问题。显著性水平反映了拒绝某一原假设时所犯错误的可能性。通常,拒绝客观上正确的原假设的几率用α值表示,该值被称为假设检验的显著性水平(Significant level)。α值一般在进行假设检验前由研究者根据需要确定,常用的取值是0.05或0.01。对于前者,相当于在原假设事实上正确的情况下,研究者接受这一假设的可能性为95%;对于后者,则研究者接受事实上正确的原假设的可能性为99%。显然,降低α值可以减少拒绝原假设的可能性。因此,在报告统计分析结果时,必须给出α值。在进行统计分析时,各种统计软件通常在给出检验统计量的同时,也给出该检验统计量取值的相伴概率(即某特定取值及更极端可能值出现的准确概率,用p表示)。p值是否小于事先确定的α值,是接受或拒绝原假设的依据。如果p值小于事先已确定的α值,就意味着原假设成立的可能性很小,因而可以拒绝原假设。相反,如果p值大于事先已确定的α值,就意味着原假设成立的可能性较大,因而不能拒绝原假设。在计算机软件尚不普及的情况下,计算检验统计量并与特定
显著性水平的临界值比较是简洁的方法,但在计算机软件很普及的今天,建议直接使用p值进行统计推断,并在结果中给出p,以表达精确错误率。
以二元相关分析为例,相关分析中的原假设是“相关系数为零”(即2个随机变量间不存在显著的相关关系)。如果计算出的检验统计量的相伴概率(p值)低于事先给定α值(如0.05),就可以认为“相关系数为零”的可能性很低, 2个随机变量之间存在明显的相关关系。与相关分析不同,在正态分布检验时,原假设是“样本数据来自服从正态分布的总体”。此时,如果计算出的检验统计量的相伴概率(p值)低于事先给定α值(如0.05),则表明数据不服从正态分布。
在本刊来稿中,作者在描述相关分析结果时常有的失误是仅给出相关系数的值,而不给出显著性水平。这就无法判断2个随机变量间的相关性是否显著。此外,作者在论文中常常用“显著相关”和“极显著相关”来描述相关分析结果,即认为p值小于0.05就是显著相关关系(或显著相关),小于0.01就是极显著相关关系(或极显著相关)。显然,这也是不规范的。在假设检验中,只有 “显著”和 “不显著”,没有“极显著”这样的提法(令人遗憾的是,有些统计软件教程中也有此种提法)。只要计算出的检验统计量的相伴概率(p值)低于事先确定的α值,就可以认为检验结果“显著”(相关分析的原假设是“相关系数为零”,故此处的“显著”实际意味着“相关系数不为零”,或说“2个随机变量间有显著的相关关系”);同样,只要计算出的检验统计量的相伴概率(p值)高于事先确定的α值,就可以认为检验结果“不显著”。因此,不能认为p值小于0.05就是“显著相关”, p值小于0.01就是“极显著相关”。换言之,在进行相关分析时,不能同时使用0.05和0.01这2个显著性水平来决定是否拒绝原假设,只能使用其中的1个。规范的做法是指出在什么α值(0.01或0.05)下是否显著相关并在括号中给出p值。需要指出的是,有少数作者在报告二元相关分析结果时,针对p值大于0.05的情形宣称“2个随机变量有相关性但不显
著”。这种说法是自相矛盾的。“有相关性”就意味着“检验结果显著”,“检验结果不显著”就意味着 “不存在相关性”。在二元相关分析中,如果事先确定的α值为0.05,则只要p值大于0.05,2个随机变量之间就不存在相关关系。反之, 如果2个随机变量间存在相关关系,则p值应小于0.05。
6 推荐参考书
为了能够准确、系统地了解常用的数理统计学概念和方法,适当阅读一些参考书是十分必要的。目前,这方面的出版物很多,作者们可很方便地从书店购得。此处我们推荐作者们阅读以下书籍。
1)《应用数理统计方法》。该书由北京大学环境学院陶澍教授编著、中国环境科学出版社1994年出版。该书以环境科学及相邻学科的研究人员为主要对象,以方法应用为主轴,具有很好的可读性。
2)《统计学方法与数据分析引论》(上、下)。该书由科学出版社2003年出版,原著者为美国学者R.L.奥特和M.朗格内克,中译者为张忠占、王建稳、王强和杨中华。本书同样注重实例分析,可作为文科各专业本科生的统计学引论教程,以及理工科各专业学生应用统计学课程的教材或教学参考书,也可作为无任何统计学基础的一线科研人员阅读的统计学入门书籍。
3)《SPSS统计分析方法及应用》。该书由北京市高等教育精品教材立项项目资助、中国人民大学统计学院薛薇教授编著、电子工业出版社2004年出版。这是一本介绍著名统计软件SPSS的教程。
4)《SPSS实用统计分析》。该书由郝黎仁、樊元、郝哲欧等学者编著,中国水利水电出版社2003年出版。
5)《SAS统计分析实用大全》。该书由北京大学社会学系阮桂海教授等编著,清华大学出版社2003年出版,是一本关于著名统计软件SAS的很系统、全面的教程。
致谢:本文在写作过程中主要参考了北京大学环境学院陶澍教授的《应用数理统计方法》一书,且本文第一作者之所以十分重视审查编辑部来稿中的数理统计方法问题,与其在北京大学环境学院攻读博士学位期间选修陶澍教授所讲授的“应用数理统计学”课程密切相关。需要特别感谢的是,陶澍教授还在百忙中拨冗详细审阅了本文,并对文稿进行了重要修改。
共分享92篇相关文档