云题海 - 专业文章范例文档资料分享平台

当前位置:首页 > Hadoop云计算平台搭建最详细过程(共22页)

Hadoop云计算平台搭建最详细过程(共22页)

  • 62 次阅读
  • 3 次下载
  • 2025/6/14 21:33:39

利用率、I/O负载、网络流量情况等,可以帮助合理调整分配系统资源,优化系统性。

图二十一 Ganglia 监控总界面

图二十二 Ganglia-cpu监控界面

图二十三 Ganglia-cluster cpu 监控界面

图二十四 Ganglia-memory监控界面

图二十五 Ganglia-network监控界面

3. HBase

简单地说,hbase是一个分布式的、面向列的开源数据库,不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库。Hbase的核心是将数据抽象成表,表中只有rowkey和column family,rowkey记录的是主键,通过key/value很容易找到,column存储实际的数据。

ZooKeeperHmasterHRegionServerHRegionServerHRegionServerHRegionHRegionHRegionHRegionHRegionHRegionHDFSHRegionHRegionHRegion

图二十六 HBase架构

4. Mahout

Mahout是Apache的一个开源的项目,基于Hadoop平台设计和开发的算法工具库。提供一些经典的机器学习算法,包含聚类、分类、推荐引擎、频繁子项挖掘。Apache

Mahout主要包括以下部分: ? ? ? ? ?

频繁模式挖掘:挖掘数据中频繁出现的项集;

聚类:将诸如文本、文档之类的数据分成局部相关的组;

分类:利用已经存在的分类文档训练分类器,对未分类的文档进行分离; 推荐引擎(协同过滤):获得用户的行为并从中发现用户可能喜欢的事物;

频繁子项挖掘:利用一个项集(查询记录或购物记录)去识别经常一起出现的项目。

Mahout的主要目标是建立可伸缩的机器学习算法,这种可伸缩性是针对大规模的数据集而言的,Mahout的算法运行在Apache Hadoop平台下,通过Mapreduce模式实现,但是Mahout并不严格要求算法的实现要基于Hadoop平台,单个节点或非Hadoop平台或Hadoop平台也可以。Mahout核心库的非分布式算法也具有良好的性能。

图二十七 Mahout提供的算法

Mahout中FPGrowth在Mapteduce模式下运行过程及用时:

  • 收藏
  • 违规举报
  • 版权认领
下载文档10.00 元 加入VIP免费下载
推荐下载
本文作者:...

共分享92篇相关文档

文档简介:

利用率、I/O负载、网络流量情况等,可以帮助合理调整分配系统资源,优化系统性。 图二十一 Ganglia 监控总界面 图二十二 Ganglia-cpu监控界面 图二十三 Ganglia-cluster cpu 监控界面 图二十四 Ganglia-memory监控界面 图二十五 Ganglia-network监控界面 3. HBase 简单地说,hbase是一个分布式的、面向列的开源数据库,不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库。Hbase的核心是将数据抽象成表,表中只有rowkey和column family,rowkey记录的是主键,通

× 游客快捷下载通道(下载后可以自由复制和排版)
单篇付费下载
限时特价:10 元/份 原价:20元
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219
Copyright © 云题海 All Rights Reserved. 苏ICP备16052595号-3 网站地图 客服QQ:370150219 邮箱:370150219@qq.com