云题海 - 专业文章范例文档资料分享平台

当前位置:首页 > Hadoop学习-9-MR程序开发

Hadoop学习-9-MR程序开发

  • 62 次阅读
  • 3 次下载
  • 2025/12/11 1:02:45

HADOOP_9_MR程序开发—WORDCOUNT

实验目的

可以使用java语言,重写wordcount程序,掌握mapReduce并行框架的核心思路 先决条件

熟悉java,了解MapReduce的基本编写思路

实验过程

1. 在Eclipse环境下编写WordCount程序,统计所有除Stop-Word(如a, an, of, in, on, the, this, that,…)外所有出现次数k次以上的单词计数,最后的结果按照词频从高到低排序输出 2. 在集群上运行程序,对莎士比亚文集文档数据进行处理

3. 可自行建立一个Stop-Word列表文件,其中包含部分停词即可,不需要列出全部停词;参数k作为输入参数动态指定(如k=10)

编写不依赖Hadoop可单独运行的WordCOunt

public class WordCount { … }

编写WordCountMapper

public static class WordCountMap extends Mapper { … }

编写WordCOuntReducer

public static class WordCountReduce extends Reducer { … }

运行与调试

1. 首先利用 scp 命令将停词文件以及 wordcount 的可执行 jar 传输到集群的 mater节点上面去。然后使用 ssh 命令登录到该节点:

2. 然后在 hdfs 上面我们小组的目录下创建一个 wordcount 目录,以及子目录 input 。然后使用 hadoopfs -put 命令将停词文件拷贝到该目录下

3. 在 wordcount/output 目录下面生成结果文件 part-r-00000 ,打开之后查看结果和预期是否一致。词频从高到低,并且在统计之前已经将标点符号去掉。

可以用hadoop fs -get /wordcount/output/part-r-00000 .命令下载到当前文件夹。也可以打开浏览器:http://localhost:50070/dfshealth.jsp,选择Browse the filesystem来直接查看HDFS上面文件的内容。

搜索更多关于: Hadoop学习-9-MR程序开发 的文档
  • 收藏
  • 违规举报
  • 版权认领
下载文档10.00 元 加入VIP免费下载
推荐下载
本文作者:...

共分享92篇相关文档

文档简介:

HADOOP_9_MR程序开发—WORDCOUNT 实验目的 可以使用java语言,重写wordcount程序,掌握mapReduce并行框架的核心思路 先决条件 熟悉java,了解MapReduce的基本编写思路 实验过程 1. 在Eclipse环境下编写WordCount程序,统计所有除Stop-Word(如a, an, of, in, on, the, this, that,…)外所有出现次数k次以上的单词计数,最后的结果按照词频从高到低排序输出 2. 在集群上运行程序,对莎士比亚文集文档数据进行处理 3. 可自行建立一个Stop-Word列表文件,其中包含部分停词即可,不需要列出全部停词;参数k作为输入参数动态指定(如k=10) 编写不依赖Had

× 游客快捷下载通道(下载后可以自由复制和排版)
单篇付费下载
限时特价:10 元/份 原价:20元
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219
Copyright © 云题海 All Rights Reserved. 苏ICP备16052595号-3 网站地图 客服QQ:370150219 邮箱:370150219@qq.com