云题海 - 专业文章范例文档资料分享平台

当前位置:首页 > 大数据时代的统计学

大数据时代的统计学

  • 62 次阅读
  • 3 次下载
  • 2026/4/26 21:44:45

大数据时代的到来使得相关分析需要达到的要求更高,针对传统统计分析中的相关测量法存在的缺陷,大数据时代的相关分析首先满足“通用性”和“均等性”两个准则,相关分析的结果应该只与变量之间连动性的紧密程度有关,而不应受变量间相关形式的影响

[29-30]

近些年,国外已经有很多学者开始注意到大数据时代相关分析方法的重要性,对如何改进相关分析方法进行了研究。Reshef等学者(2011)基于信息论中关于两个事件集合的相关性信息度量提出了一种关于相关性分析的改进方法--最大信息系数(Maximal Information

Coefficient,MIC)的,可以对变量间的非函数相关关系进行有效的识别。David Lopea-Paz等学者(2013)运用 Copula 转换提出了随机相关系数(Randomized Dependence Coefficient,RDC),并与MIC方法进行了对比,证明前者的时间复杂度更低。Hoang V.Nguyen等学者(2014)根据MIC方法,提出了更一般化的相关分析方法--最大相关分析(Maximal Correlation Analy-sis,MAC),扩展了MIC方法的运用范围,可以对两组变量之间的非函数相关关系进行准确的测量

[27]

新兴的相关分析方法在最近几年涌现,一方面是由于国内外学者看到了大数据分析中传统统计相关分析存在的缺陷,运用传统统计方法已经无法满足大数据时代数据分析的需求;更重要的在于,国内外学者们都看到了大数据时代相关分析思维的重要性,看到了相关分析在特征选择、变量依赖关系识别中的实用性

[27]

。大数据时代,相关分析的运用范围之广、重

要性之大是我们不能忽略的,也是传统相关分析所面临的巨大机遇。如何以相关分析思路为起点探究新的分析方法,使统计相关分析方法能够更顺应时代的变化,体现出传统统计思维的经典与先进,在大数据下能够发挥作用,即是传统相关分析面临的挑战也是机遇。

3.3 因果分析的变化

随着大数据时代的到来,经济中,对于数据的分析发生了很大的变化,从原来的注重因果分析到如今对相关分析的看重。人们不再过多的关注“为什么”。而更加的想知道“是什么”

[7]

4 大数据时代下统计学面临的机遇和挑战

4.1 大数据时代下统计学面临的机遇

一个新生事物的出现将必定导致传统观念和技术的革命。数码照相机的出现导致传统相片胶卷和影像业的已近消亡。如果大数据包含了所有父亲和儿子的身高数据,只要计算给定的父亲身高下所有儿子的平均身高就可以预测其儿子身高了。模型不再重要,当年统计学最得意的回归预测方法将被淘汰。大数据的到来将对传统的统计方法进行考验。统计学会不会

5

象科学哲学那样,只佩戴着历史的光环,而不再主导和引领人们分析和利用大数据资源。现在其他学科和行业涌入大数据的热潮,如果统计学不抓紧参与的话,将面临着被边缘化的危险

[8-12]

现今统计学的目标是通过获取数据和分析数据发现真理( 总体的参数和性质) ,统计方法和理论对数据有过高的要求。而大数据充满了各种随机的、非随机的误差和偏倚,不能满足这些苛刻的要求。按照波普的科学划界准则,只要我们能从大数据中提炼出具有可证伪的结论,那么这个结论还是科学的,可以用于知识积累。这些可证伪的大数据结论可作为进一步科学研究的假说,以数据驱动研究4.2 大数据时代统计学面临的挑战

大数据时代并不会自动生成,总是需要不断地提出和解决大数据发展所遇到的问题和矛盾,才会有切实的进步。事物发展的不同阶段有不同的“时务”,需要不同的应对。统计数据的搜集方面,传统的统计抽样调查不再适用,这需要我们结合大数据的来源来搜集数据;数据整理方面,不再是传统的计算机所能运行的,它需要更大的存储以及计算机处理数据的能力;数据分析方面,很多传统的统计方法不再有效,利用这些方法对数据进行分析,未必能得到我们想要的结果,这就需要我们对统计方法的创新与发展做进一步的努力。

对统计工作者而言,这种改变不仅意味着拓宽了统计研究的范畴\丰富了统计研究的内容\增强了统计学的生命力,还意味着统计工作及统计研究的四个转变

[22]

[24]

(1) 转变统计研究过程。传统的统计研究过程包括统计设计、收集数据、整理与分析和统计资料的积累、开发与应用等四个基本环节。大数据时代,由于数据规模巨大、数据结构复杂等特点,以及整理数据可能损坏原有数据中有价值信息,针对大数据的统计研究过程仅包括数据整理与分析和数据的积累、开发与应用两个基本环节。进一步的分析表明,大数据整理与分析过程仅指数据储存工作。总的说来,大数据统计研究过程包括数据储存和数据的积累、开发与应用两个环节。

(2)转变统计研究方法。传统的统计研究方法,如建立回归方程、估计模型参数、检验参数估计结果等因为大数据的特点而无法实施,对大数据的统计分析是以相关关系为基础展开的。但针对大数据的相关关系分析不同于传统的相关关系的分析,传统的相关分析基本是线性相关分析,大数据研究的相关关系分析的不仅是线性相关,更多的是非线性相关以及不明确函数形式的线性关系。

(3)转变统计研究目的。传统统计研究的目的主要是为了探寻现象( 或变量) 间的相关关系、因果关系以及建立在相关关系或因果关系基础上的预测分析。大数据由于数据规模

6

巨大和数据结构复杂以及要求数据处理速度快等特点,因果分析往往不可行。大数据时代统计研究分析的目的主要是研究现象间的相关关系以及建立在相关分析基础上的预测分析。

(4)转变统计研究工作思想。传统统计研究工作中,囿于计算技术的限制,总是希望用尽量少的数据和相对复杂的模型尽量获取有价值的信息。传统的统计抽样调查方法虽然在小数据时代有助于节省费用、了解总体信息,但可能存在抽样框不稳定、调查样本片面、调查结果经不起细分以及纠偏成本高昂的缺陷。在大数据时代,样本即总体,由于计算机超前的数据处理能力,可以通过分析处理大数据了解总体各方面的信息。另外,还需将传统统计质量管理控制中的事后检验转变为事先预测,以及转变尽量利用复杂模型的思想为巧用简单模型的思想。

结论

从统计学角度定义,大数据不是基于人工设计、借助传统方法而获得的有限、固定、不连续、不可扩充的结构型数据,而是基于现代信息技术与工具可以自动记录、储存和连续扩充的、大大超出传统统计记录与储存能力的一切类型的数据。大数据时代下,统计学发生了很多的变化,传统的统计学方法已经不能够很好的处理大数据问题。这要求我们必须改变传统的统计学分析思维,从数据获取、处理、分析方面找到更加适合大数据的一套完整的统计分析方法。对于每一位统计工作者来说,这既是机遇,有是挑战。机遇在于,在大数据时代下,统计学的地位不容忽视,它是处理大数据问题的有效途径。挑战在于,要得到一套适合大数据的统计分析方法实属不易,这需要我们每一位统计学者和工作者的不懈努力。

7

参考文献

[1]Rados?aw Bandomir, Mariusz Krawczyk, Jacek Namie?nik. A New Analyzer Based on Pellistor Sensor with Neural Network Data Postprocessing for Measurement of Hydrocarbons in Lower Explosive Limit Range[J]. Journal of Automated Methods & Management in Chemistry, 2005, 2005(2).

[2]S. G. Wesnousky. Possibility of Biases in the Estimation of Earthquake Recurrence and Seismic Hazard from Geologic Data[J]. Bulletin of the Seismological Society of America, 2010, 100(5A).

[3]Patricia L. Mabry. Making Sense of the Data Explosion[J]. American Journal of Preventive Medicine, 2011, 40(5).

[4]V. Letouzey, S. Huberlant, P. Mares et al.. Assessment of Quality of Life of Patients Supported for Genital Prolapse Surgery: Feasibility of a Computerized Data Collection[J]. The Journal of Minimally Invasive Gynecology, 2011, 18(6). [5]Patricia L. Mabry. Making Sense of the Data Explosion[J]. American Journal of Preventive Medicine, 2011, 40(5).

[6]卢敏,刘学.大数据-任务并不简单[J].软件和信息服务,2011,11:44-52. [7]姜奇平.大数据时代到来[J].互联网周刊,2012,01:6.

[8]Hang Yang, Simon Fong, Guangmin Sun et al.. A Very Fast Decision Tree Algorithm for Real-Time Data Mining of Imperfect Data Streams in a Distributed Wireless Sensor Network[J]. International Journal of Distributed Sensor Networks, 2012, 2012.

[9]B. Zhu, L. Xu, D. Faries et al.. PMH83 Comparison of Total Health Care Costs Between Remitters and Non-Remitters for Schizophrenia Patients from a Prospective Longitudinal, Observational Study in the Presence of Missing Data[J]. Value in Health, 2012, 15(4). [10]W. Aigner, A. Rind, S. Hoffmann. Comparative Evaluation of an Interactive Time-Series Visualization that Combines Quantitative Data with Qualitative Abstractions[J]. Computer Graphics Forum, 2012, 31(3pt2).

[11]Ahmed M. Abdel-Khalek, Mostafa A. Elseifi, Kevin Gaspard et al.. Model to Estimate Pavement Structural Number at Network Level with Rolling Wheel Deflectometer

8

Data[J]. Transportation Research Record: Journal of the Transportation Research Board, 2012, 2304(-1).

[12]B. Zhu, L. Xu, D. Faries et al.. PMH83 Comparison of Total Health Care Costs Between Remitters and Non-Remitters for Schizophrenia Patients from a Prospective Longitudinal, Observational Study in the Presence of Missing Data[J]. Value in Health, 2012, 15(4).

[13]郭兆辉.营销的未来-大数据[J].软件和信息服务,2012,09:36-37.

[14]李国杰,程学旗.大数据研究:未来可以及经济社会发展的重大战略领域[J].战略与决策研究,2012,27(6):647-657.

[15]卢东明.谈微博上淘宝广告中的大数据[J].软件和信息服务,2013,07:70 [16]霍学文.关于云金融的思考[J].经济学动态,2013,06:33-38. [17]俞立平.大数据与大数据经济学[J].中国软科学,2013,07:177-183. [18]李永宏.大数据与云计算[J].统计与管理,2013,06:114-116. [19]杨少浪.“大数据”背景下的GDP[J].中国统计,2013,10:27-28. [20]李金昌.大数据与统计新思维[J].统计研究,2014,31(1):10-15. [21]邱东.大数据时代对统计学的挑战[J].统计研究,2014,31(1):16-17

[22]朱建平.大数据时代下数据分析理念的辨析[J].统计研究,2014,31(2):10-19. [23]黄永勤.国外大数据研究热点及发展趋势探析[J].情报杂志,2014,33(6):99-105. [24]耿直.大数据时代统计学面临的机遇与挑战[J].统计研究,2014,31(1):5-9. [25]冷加起.大数据带来哪些大变革[J].中国统计,2014,12:19-20

[26]解明明.政府统计视觉的大数据样本与总体关系探讨[J].中国统计,2014,12:54-55. [27]程鑫,石洪波.大数据时代传统相关分析的局限与拓展[J].统计与决策,2015,05:73-74. [28]李凯,张丽君.二阶部分线性自回归模型的经验似然估计[J].统计与决策,2015,05:75. [29]郑捷.大数据背景下政府电子商务统计的研究与探索[J].商,2015,03:82-83. [30]何强.政府统计视阈中的大数据核心思想刍议[J].调研世界,2015,02:50-53.

[31]维克托.迈尔-舍恩伯格,肯尼思.库克耶.大数据时代-生活、工作与思维的大变革[M].盛杨燕,周涛 译,杭州: 浙江人民出版社.

9

搜索更多关于: 大数据时代的统计学 的文档
  • 收藏
  • 违规举报
  • 版权认领
下载文档10.00 元 加入VIP免费下载
推荐下载
本文作者:...

共分享92篇相关文档

文档简介:

大数据时代的到来使得相关分析需要达到的要求更高,针对传统统计分析中的相关测量法存在的缺陷,大数据时代的相关分析首先满足“通用性”和“均等性”两个准则,相关分析的结果应该只与变量之间连动性的紧密程度有关,而不应受变量间相关形式的影响[29-30]。近些年,国外已经有很多学者开始注意到大数据时代相关分析方法的重要性,对如何改进相关分析方法进行了研究。Reshef等学者(2011)基于信息论中关于两个事件集合的相关性信息度量提出了一种关于相关性分析的改进方法--最大信息系数(Maximal Information Coefficient,MIC)的,可以对变量间的非函数相关关系进行有效的识别。David Lopea-Paz等学者(2013)运用 Copula 转换提出了随机相关系数(Randomized Dependence Coef

× 游客快捷下载通道(下载后可以自由复制和排版)
单篇付费下载
限时特价:10 元/份 原价:20元
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219
Copyright © 云题海 All Rights Reserved. 苏ICP备16052595号-3 网站地图 客服QQ:370150219 邮箱:370150219@qq.com