云题海 - 专业文章范例文档资料分享平台

当前位置:首页 > 大数据心得体会

大数据心得体会

  • 62 次阅读
  • 3 次下载
  • 2025/6/6 19:24:07

( Volume) ,数据种类多( Variety) ,数据要求处理速度快( Velocity) ,数据价值密度低( Value) ,即所谓的四V 特性。

数据规模大( Volume):企业面临着数据量的大规模增长。例如,IDC最近的报告预测称,到2020年,全球数据量将扩大50倍。目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十TB到数PB不等。简而言之,存储1PB数据将需要两万台配备50GB硬盘的个人电脑。此外,各种意想不到的来源都能产生数据。

数据种类多( Variety):一个普遍观点认为,人们使用互联网搜索是形成数据多样性的主要原因,这一看法部分正确。然而,数据多样性的增加主要是由于新型多结构数据,以及包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等数据类型造成。其中,部分传感器安装在火车、汽车和飞机上,每个传感器都增加了数据的多样性。

处理速度快( Velocity):高速描述的是数据被创建和移动的速度。在高速网络时代,通过基于实现软件性能优化的高速电脑处理器和服务器,创建实时数据流已成为流行趋势。企业不仅需要了解如何快速创建数据,还必须知道如何快速处理、分析并返回给用户,以满足他们的实时需求。根据IMS Research关于数据创建速度的调查,据预测,到2020年全球将拥有220亿部互联网连接设备。

数据价值密度低( Value):大数据具有多层结构,这意味着大数据会呈现出多变的形式和类型。相较传统的业务数据,大数据存在不规则和模糊不清的特性,造成很难甚至无法使用传统的应用软件进行分析。传统业务数据随时间演变已拥有标准的格式,能够被标准的商务智能软件识别。目前,企业面临的挑战是处理并从各种形式呈现的复杂数据中挖掘价值。 1.4 大数据的三个特征

除了有四个特性之外,大数据时代的数据还呈现出其他三个特征。

第一个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求.

第二个特征是数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。

第三个特征是处理速度快,时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。 2 大数据的技术与处理 2.1 大数据的技术

1.数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。 2.数据存取:关系数据库、NOSQL、SQL等。 3.基础架构:云存储、分布式文件存储等。

4.数据处理:自然语言处理(NLP,NaturalLanguageProcessing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机\理解\自然语言,所以自然语言处理又叫做自然语言理解(NLU,NaturalLanguage Understanding)

(Computational Linguistics。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。 5.统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。

6.数据挖掘:分类 (Classification)、估计(Estimation)、预测(

Prediction

(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)。 7.模型预测:预测模型、机器学习、建模仿真。 8.结果呈现:云计算、标签云、关系图等。 2.2 大数据的处理 1.采集

大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。

2.导入/预处理

虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。 导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。 3.统计/分析

统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。 统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。 4.挖掘

与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复

杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。

整个大数据处理的普遍流程至少应该满足这四个方面的步骤,才能算得上是一个比较完整的大数据处理。 3 大数据的应用

正如诸多文献所谈到的,大数据对许多行业的影响和冲击已经呈现。例如,商零售、物流、医药、文化产业等。金融,作为现代经济中枢,其实也已透出了大数据金融的曙光。

过去的2013年,中国金融界热议最多的或许是互联网金融,更有人指出2013年是中国互联网金融元年。确实,第三方支付、P2P、网贷、众筹融资、余额宝、微信支付等发展迅速。众多传统金融业者也或推出自己的电商平台,或与互联网企业联手提供相应的金融产品和服务。

互联网金融,无论是业界、监管者或理论界,都在试图给出自己的理解和定义。但到目前为止,尚未有一个统一的、规范的概念。在我看来,互联网金融本来就是一个不确切的概念,也不可能有一个明确的定义。严格说来,所谓互联网金融只是大数据金融的一种展现或形态。换言之,前者是表,后者是里。

这是因为,无论是互联网还是金融业,其实质都是大数据(信息)。首先,对互联网企业而言,流量、客户等数据(信息)是其涉足金融业的基石。对金融企业而言,提供中介服务,撮合金融交易也是以数据(信息)为基础。其次,没有大数据技术的支撑,所谓互联网金融也难以快速、持续成长。20世纪90年代互联网浪潮的蓬勃兴起,至今已近二十年。但从世界范围看,所谓互联网金融却发展缓慢。当然,其中原因很多,但其主要原因则是大数据技术是近几年才快速发展起来的。最后,从金融企业来看,在数据中心建设,软硬件系统建设,数据(信息)挖掘、分析等方面也是做得有声有色,其庞大的客户数据、海量交易记录及众多信息源,使其在大数据应用方面也做了许多积极探索。因此,要准确反映近年新金融趋势,“大数据金融”比“互联网金融”更为贴切。

4 大数据应用中的三大难题

搜索更多关于: 大数据心得体会 的文档
  • 收藏
  • 违规举报
  • 版权认领
下载文档10.00 元 加入VIP免费下载
推荐下载
本文作者:...

共分享92篇相关文档

文档简介:

( Volume) ,数据种类多( Variety) ,数据要求处理速度快( Velocity) ,数据价值密度低( Value) ,即所谓的四V 特性。 数据规模大( Volume):企业面临着数据量的大规模增长。例如,IDC最近的报告预测称,到2020年,全球数据量将扩大50倍。目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十TB到数PB不等。简而言之,存储1PB数据将需要两万台配备50GB硬盘的个人电脑。此外,各种意想不到的来源都能产生数据。 数据种类多( Variety):一个普遍观点认为,人们使用互联网搜索是形成数据多样性的主要原因,这一看法部分正确。然而,数据多样性的增加主要是由于新型多结构数据,以及包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等数据类型造成。其中,部分传感器安装在火车、汽车和飞机上,每个

× 游客快捷下载通道(下载后可以自由复制和排版)
单篇付费下载
限时特价:10 元/份 原价:20元
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219
Copyright © 云题海 All Rights Reserved. 苏ICP备16052595号-3 网站地图 客服QQ:370150219 邮箱:370150219@qq.com