云题海 - 专业文章范例文档资料分享平台

当前位置:首页 > spark分享文档

spark分享文档

  • 62 次阅读
  • 3 次下载
  • 2025/5/31 20:08:35

语玩用户行为分析系统

---基于spark的大数据用户行为分析系统

撰写人:吴国兴 2016.05.06

目录

语玩用户行为分析系统 ................................................................................................................... 1

一 前言 ..................................................................................................................................... 1

1.1背景............................................................................................................................. 1 1.2系统名称 ..................................................................................................................... 1 1.3定义............................................................................................................................. 1 1.4参考资料 ..................................................................................................................... 2 1.5 环境准备 .................................................................................................................... 2 二 系统技术实现介绍 ............................................................................................................. 5

2.1 数据产生及存储 ........................................................................................................ 5 2.2 数据处理关键流程 .................................................................................................... 5 三 模块详细介绍 ..................................................................................................................... 9

3.1 模块清单 .................................................................................................................... 9 3.2模块详细说明 ........................................................................................................... 10 四 附录 ................................................................................................................................... 11

一 开发中可能出现的问题 ........................................................................................... 11 二 源码 ........................................................................................................................... 13

一 前言

1.1背景

大数据(big data),指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

随着语玩用户的日益增长,用户在使用过程中的所留下的操作习惯、用户属性等海量数据已经无法使用传统的技术或者方法来存储分析,而spark的出现,恰好解决了这一难题,利用spark,我们可以很容易的通过集群等计算分析出我们想要的结果,为我们的产品后续提供了一个很重要的决策参数,也是我们的巨大的无形资产。

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。 Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

1.2系统名称

全称:语玩用户行为分析系统 版本号:v1.0.0 英文简称:YWALS v1.0.0

1.3定义

本文档中用到的术语的定义和英文名称定义: 中文名称 英文名称 英文简说明 称 1

hbase hive HBase是一个分布式的、面向列的开源数据库 hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行

1.4参考资料

1 Scala详细总结(精辟版++) 2

spark介绍

1.5 环境准备

开发环境系统平台 :windows 开发所用语言 : scala 开发所用IDE : Scala-IDE (http://scala-ide.org/)

1 部署spark

1、环境准备 (1)配套软件版本要求:

Java 6+

Python 2.6+.

Scala version (2.10.x).

(2)安装好linux、jdk、python, 一般linux均会自带安装好jdk与python,但注意jdk默认为openjdk,建议重新安装oracle jdk。

2

搜索更多关于: spark分享文档 的文档
  • 收藏
  • 违规举报
  • 版权认领
下载文档10.00 元 加入VIP免费下载
推荐下载
本文作者:...

共分享92篇相关文档

文档简介:

语玩用户行为分析系统 ---基于spark的大数据用户行为分析系统 撰写人:吴国兴 2016.05.06 目录 语玩用户行为分析系统 ................................................................................................................... 1 一 前言 ..................................................................................................................................

× 游客快捷下载通道(下载后可以自由复制和排版)
单篇付费下载
限时特价:10 元/份 原价:20元
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219
Copyright © 云题海 All Rights Reserved. 苏ICP备16052595号-3 网站地图 客服QQ:370150219 邮箱:370150219@qq.com