云题海 - 专业文章范例文档资料分享平台

当前位置:首页 > 大数据管理概念技术与挑战

大数据管理概念技术与挑战

  • 62 次阅读
  • 3 次下载
  • 2026/4/23 23:18:53

正是由于大数据的广泛存在才使得大数据问题 的解决很具挑战性.而它的广泛应用则促使越来越 多的人开始关注和研究大数据问题. 2 大数据处理框架

2.1 大数据处理模式 大数据的应用类型有很多,主要的处理模式可 以分为流处理(stream processing)和批处理(batch processing)两 种[18 -19].批处理是先存储后处理 ( store - then -process),而流处理则是直接处理 ( strai ght - through processing). 2.1.1 流处理 流处理的基本理念是数据的价值会随着时间的 流逝而不断减少,因此尽可能快地对最新的数据作 出分析并给出结果是所有流数据处理模式的共同目 标.需要采用流数据处理的大数据应用场景主要有

网页点击数的实时统计、传感器网络、金融中的高频 交易等. 流处理的处理模式将数据视为流,源源不断的 数据组成了数据流.当新的数据到来时就立刻处理 并返回所需的结果.图1[18]是流处理中基本的数据 流模型:

Fi g.1 Basic data stream model. 图1 基本的数据流模型 数据的实时处理是一个很有挑战性的工作,数 据流本身具有持续达到、速度快且规模巨大等特点, 因此通常不会对所有的数据进行永久化存储,而且

数据环境处在不断的变化之中,系统很难准确掌握 整个数据的全貌. 由于响应时间的要求,流处理的过程基本在内 存中完成,其处理方式更多地依赖于在内存中设计 巧妙的概要数据结构( synopsis data structure),内 存容量是限制流处理模型的一个主要瓶颈.以PCM (相变存储器)为代表的储存级内存(storage class memor y,SCM)设备的出现或许可以使内存未来不 再成为流处理模型的制约.

数据流的理论及技术研究已经有十几年的历 史,目前仍旧是研究热点.与此同时很多实际系统也 已开发和得到广泛的应用,比较代表性的开源系统 如Twitter的Storm[20]、Yahoo的S4[21]以及Linkedin 的 Kafka[22]等. 2.1.2 批处理 Google公司在2004年提出的 MapReduce [ 23] 编程模型是最具代表性的批处理模式.一个完整的 MapReduce过程如图2[23]所示:

Fi g.2 Execution overview of MapReduce. 图2 MapReduce执行流程图 MapReduce模型首先将用户的原始数据源进 行分块,然后分别交给不同的 Ma p任务区处理.Ma p 任务从输入中解析出链?值(Key ?Value)对集合,然 后对这些集合执行用户自行定义的 Map函数得到 中间结果,并将该结果写入本地硬盘.Reduce任务 从硬盘上读取数据之后会根据key值进行排序,将 具有相同 Key值的组织在一起.最后用户自定义的 Reduce函数会作用于这些排好序的结果并输出最 终结果. 从 MapReduce 的处理过程我们可以看出, MapReduce的核心设计思想在于: 1)将问题分而治 之; 2)把计算推到数据而不是把数据推到计算,有效 地避免数据传输过程中产生的大量通信开销. MapReduce模型简单,且现实中很多问题都可用 MapReduce模型来表示.因此该模型公开后立刻受 到极大的关注,并在生物信息学、文本挖掘等领域得 到广泛的应用. 无论是流处理还是批处理都是大数据处理的可 行思路.大数据的应用类型很多,在实际的大数据处 理中,常常并不是简单地只使用其中的某一种,而是 将二者结合起来.互联网是大数据最重要的来源之 一,很多互联网公司根据处理时间的要求将自己的 业务划分为在线(online)、近线(nearline)和离线 ( offline),比如著名的职业社交网站Linkedin[24],这 种划分方式是按处理所耗时间来划分的.其

中在线 的处理时间一般在秒级甚至是毫秒级,因此通常采用 上面所说的流处理.离线的处理时间可以以天为基 本单位,基本采用批处理方式,这种方式可以最大限 度地利用系统I ?O.近线的处理时间一般在分钟级或 者是小时级,对其处理模型并没有特别的要求,可以 根据需求灵活选择,但在实际中多采用批处理模式. 2.2 大数据处理的基本流程 大数据的数据来源广泛,应用需求和数据类型 都不尽相同,但是最基本的处理流程一致.海量 Web 数据的处理是一类非常典型的大数据应用,从中可以 归纳出大数据处理的最基本流程.ScholarSpace [ 25] 由中国人民大学网络与移动数据管理实验室 (WAMDM)开发,目标是建立一个“以人为本”,即 150 计算机研究与发展 2013,50( 1)

以作者为中心来展示多学科中文文献的集成数据库 系统.该系统已经从最初的计算机领域扩展到包括 经济、法律等人文社会科学在内的多领域,从数据抽

取和集成,一直到最终的结果展示,ScholarSpace完 整地体现出大数据处理的一般流程.在其基础上我 们归纳出大数据的基本流程,如图3所示:

Fi g.3 Basic framework of bi g data p rocessing. 图3 大数据处理基本流程 整个大数据的处理流程可以定义为在合适工具 的辅助下,对广泛异构的数据源进行抽取和集成,结 果按照一定的标准统一存储.利用合适的数据分析 技术对存储的数据进行分析,从中提取有益的知识 并利用恰当的方式将结果展现给终端用户.具体来说 可以分为数据抽取与集成、数据分析以及数据解释. 2.2.1 数据抽取与集成 大数据的一个重要特点就是多样性,这就意味 着数据来源极其广泛,数据类型极为繁杂,这种复杂 的数据环境给大数据的处理带来极大的挑战.要想 处理大数据,首先必须对所需数据源的数据进行抽 取和集成,从中提取出关系和实体,经过关联和聚合 之后采用统一定义的结构来存储这些数据.在数据 集成和提取时需

要对数据进行清洗,保证数据质量 及可信性.同时还要特别注意前面提及的大数据时 代模式和数据的关系,大数据时代的数据往往是先有 数据再有模式,且模式是在不断的动态演化之中的. 数据抽取和集成技术不是一项全新的技术,传 统数据库领域已对此问题有了比较成熟的研究.随 着新的数据源的涌现,数据集成方法也在不断的发 展之中.从数据集成模型来看,现有的数据抽取与集 成方式可以大致分为以下4种类型[26]:基于物化或 ETL方法的引擎(materialization or ETL engine)、基 于联邦数据库或中间件方法的引擎(federation engine or mediator)、基于数据流方法的引擎(stream engine) 及基于搜索引擎的方法(search engine). 2.2.2 数据分析 数据分析是整个大数据处理流程的核心,因为 大数据的价值产生于分析过程.从异构数据源抽取 和集成的数据构成了数据分析的原始数据.根据不 同应用的需求可以从这些数据中选择全部或部分进 行分析.传统的分析技术如数据挖掘、机器学习、统 计分析等在大数据时代需要作出调整,因为这些技 术在大数据时代面临着一些新的挑战,主要有: 151孟小峰等 :大数据管理:概念、技术与挑战

1)数据量大并不一定意味着数据价值的增加, 相反这往往意味着数据噪音的增多.因此在数据分 析之前必须进行数据清洗等预处理工作,但是预处 理如此大量的数据对于机器硬件以及算法都是严峻 的考验. 2)大数据时代的算法需要进行调整.首先大数 据的应用常常具有实时性的特点,算法的准确率不 再是大数据应用的最主要指标.很多场景中算法需 要在处理的实时性和准确率之间取得一个平衡,比 如在线的机器学习算法(online machine learning); 其次云计算是进行大数据处理的有力工具,这就要 求很多算法必须作出调整以适应云计算的框架,算 法需要变得具有可扩展性;最后在选择算法处理大 数据时必须谨慎,当数据量增长到一定规模以后,可 以从小量数据中挖

搜索更多关于: 大数据管理概念技术与挑战 的文档
  • 收藏
  • 违规举报
  • 版权认领
下载文档10.00 元 加入VIP免费下载
推荐下载
本文作者:...

共分享92篇相关文档

文档简介:

正是由于大数据的广泛存在才使得大数据问题 的解决很具挑战性.而它的广泛应用则促使越来越 多的人开始关注和研究大数据问题. 2 大数据处理框架 2.1 大数据处理模式 大数据的应用类型有很多,主要的处理模式可 以分为流处理(stream processing)和批处理(batch processing)两 种[18 -19].批处理是先存储后处理 ( store - then -process),而流处理则是直接处理 ( strai ght - through processing). 2.1.1 流处理 流处理的基本理念是数据的价值会随着时间的 流逝而不断减少,因此尽可能快地对最新的数据作 出分析并给出结果是所有流数据处理模式的共同目 标.需要采用流数据处理的大数据应用场景主要有 网页点击数的实时统计、传感器网络、金融中的高频 交易等. 流处理的处

× 游客快捷下载通道(下载后可以自由复制和排版)
单篇付费下载
限时特价:10 元/份 原价:20元
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219
Copyright © 云题海 All Rights Reserved. 苏ICP备16052595号-3 网站地图 客服QQ:370150219 邮箱:370150219@qq.com