当前位置:首页 > 大数据综述
大数据相关技术综述及调研
大数据本身就是一个很抽象的概念,提及大数据很多人也只能从数据量上去感知大数据的规模,如: 百度每天大约要处理几十PB 的数据; Facebook 每天生成300 TB 以上的日志数据; 据著名咨询公司IDC 的统计, 2011 年全球被创建和复制的数据总量为1. 8 ZB( 1021 ) ,但仅仅是数据量并不能区分大数据与传统的海量数据的区别。在2008 年《Science》杂志出版的专刊中,大数据被定义为“代表着人类认知过程的进步,数据集的规模是无法在可容忍的时间内用目前的技术、方法和理论去获取、管理、处理的数据”。比较有影响力的Gartner 公司也给出了大数据的定义,大数据是高容量、高生成速率、种类繁多的信息价值,同时需要新的处理形式去确保判断的作出、洞察力的发现和处理的优化。这种定义不仅是数据规模大,更重要的是如何从这些动态快速生成的数据流或数据块中获取有用的具有时效性价值的信息,但是这些数据类型众多,结构化、半结构化、非结构化的数据对已有的数据处理模式带来了巨大的挑战,其中也体现了大数据在3V 基础上发展的4V定义。4V 定义即volume, variety,velocity,value,关于第4 个V的说法并不统一,国际数据公司( International Data Corporation,IDC) 认为大数据还应当具有价值性( value),大数据的价值往往呈现出稀疏性的特点; 而IBM 认为大数据必然具有真实性( veracity),这样有利于建立一种信任机制,有利于领导者的决策。百度百科对大数据的定义是: 大数据( big data) ,或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。大数据的科学家Rauser提到一个简单的定义: 大数据就是超过了任何一个计算机处理能力的庞大数据量。
以下为大数据与传统数据应用的对比:
大数据综述
3 大数据的技术与处理工具
从大数据比较有影响力的概念和大数据的研究现状来看,推动大数据发展的核心力量之一就是大数据的分析处理工具和技术。因为传统的数据分析处理技术已经无法满足大数据的需求,大数据的出现也必然伴随着新的处理工具和新技术的出现。
3. 1 大数据的处理工具
大数据处理技术的不断更新也促使了大数据处理工具的出现。在大数据的处理平台中,大家最熟悉的莫过于Apache的Hadoop 的块处理平台,Hadoop 主要是基于MapReduce编程框架和HDFS。HPCC ( high perform-ance computing cluster)系统也是一种开源的分布式密集数据处理平台,主要有以下组件: a) Thor( HPCC data refinery cluster) 主要是作为一个能够并行处理跨节点的分布式文件系统进行工作,主要负责大量数据的接收、传输、连接和检索工作,对数据进行整合; b)Roxie( HPCC data delivery engine) 提供了大量的高性能的多用户在线查询功能; c) ECL( enterprise control language ) 是一种适合处理大数据的功能强大的编程语言; d) ECL IDE 主要是与ECL 配合工作的,用来编码、调试、监控ECL 的程序; e) ESP( enterprise services platform) 提供了一个易用的访问ECL 查询接口,一般支持SOAP、XML、HTTP 和REST 等。Hadapt是一种高性能的自适应分析平台。
处理工具 Hadoop Hadapt HPCC Spark 件 Hadoop生态圈:
核心组件 MapReduce 编程框架和HDFS 分布式文件系统 hybrid storage engine,Hadoop,HDK Thor 集群、Roxie集群以及ECL、ECL IDE、ESP 等组件 Spark SQL、Spark Streaming、MLLib和GraphX等组
Spark生态圈:
共分享92篇相关文档