用Hive实现MapReduce的单词统计

242 阅读 0 评论 160 点赞

我是靠谱客的博主敏感小蜜蜂，这篇文章主要介绍用Hive实现MapReduce的单词统计，现在分享给大家，希望可以做个参考。

一个简单的单词统计在用MapReduce来实现虽然是经典用例，但是现实起来还是比较复杂的。

下面介绍如何用hive来实现单词统计。

首先准备一个记录单词的word.txt

然后在hive中新建一个表

并将word.txt的数据导入到该表中

然后运行如下的命令

select tt.wordtxt,count(*) cc from ( select explode(split(line,' ')) as wordtxt from word) as tt group by wordtxt sort by cc desc ;

结果如下

其中对该命令进行分析：

select tt.wordtxt,count(*) cc from ( select explode(split(line,' ')) as wordtxt from word) as tt group by wordtxt sort by cc desc ;

select explode(split(line,' ')) as wordtxt from word

不能直接对wordtxt进行group by，因为这个wordtxt不是列属性，所以需要在外面将这个表设置为as tt作为一个表，而此时wordtxt作为tt表的一个属性，这样才能进行group by。

以上就是敏感小蜜蜂最近收集整理的关于用Hive实现MapReduce的单词统计的全部内容，更多相关用Hive实现MapReduce内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。