我是靠谱客的博主 玩命短靴,这篇文章主要介绍hive数据库去重数据步骤,现在分享给大家,希望可以做个参考。

1.编写去重sql

复制代码
1
2
3
4
5
6
7
8
9
10
11
SELECT * FROM ( SELECT *, row_number () over (PARTITION BY id ORDER BY id DESC) AS rk FROM ap_jyz_jyzqgdwa ) tmp WHERE tmp.rk < 2

2.创建新表并将去重之后的数据导入新表

复制代码
1
2
create table newtable as select * from oldtable;

完整示例:

复制代码
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
CREATE TABLE ap_jyz_jyzqgdwa_dup AS SELECT * FROM ( SELECT * FROM ( SELECT *, row_number () over (PARTITION BY id ORDER BY id DESC) AS rk FROM yk_ap.ap_jyz_jyzqgdwa ) tmp WHERE tmp.rk < 2 ) a

3.删除旧表

复制代码
1
drop table if exists oldtable;

4.对创建的表进行重命名

复制代码
1
ALTER TABLE old_table_name RENAME TO new_table_name;

5.删除字段,下面这个sql的意思是只保留id字段,其他删除

复制代码
1
2
alter table yk_ap.ap_jyz_jyzqgdwa replace columns(id string)

 

最后

以上就是玩命短靴最近收集整理的关于hive数据库去重数据步骤的全部内容,更多相关hive数据库去重数据步骤内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(148)

评论列表共有 0 条评论

立即
投稿
返回
顶部