工作中,需要进行不同集群间数据迁移(这里演示CDH5->CDH6),迁移分为2个步骤:
1、库、表shema迁移
2、数据迁移
一、库、表schema迁移
核心思想主要是构建建库、建表语句,传统数据仓库大概都会有stage、ods、dw、dm、default等数据分层体系。
于是考虑使用shell脚本,将所有库及其下的表导出一份,然后再通过sed、awk或编辑软件的猎魔师制作建表语句。
①、获取所有DB及其下tables
gen_hive_db_tables.sh
复制代码
1
2
3
4
5
6
7
8
9
10
11#!/bin/bash hive_databases='stage ods dw dm default' for db in $hive_databases do hive -e "use $db; show tables;" > ./db_tables/${db}_all_tables.txt done
执行完毕后,就生成了针对每个库下的所有table list。
②、构建建表语句
复制代码
1
2
3
4
5
6
7
8
9
10
11
12;select '\;'; show create table default.tbl_a ;select '\;'; show create table stage.tbl_b ;select '\;'; show create table ods.tbl_c ;select '\;'; show create table dw.tbl_d ;select '\;'; show create table dm.tbl_e ;select '\;'
可以按库分开构建,也可以将所有的库下表导入到一个大的文件中,然后构建一份大的建表语句。
创建完毕后,使用如下命令构建建表语句:
hive -f gen_tbl_ddl.sql > tbl_ddl.sql
构建完毕后,同样使用上述命令执行,即完成建表语句的创建。
二、data迁移
data迁移可以自己写代码实现,但hadoop已经针对该应用场景提供了基于M/R方式的数据迁移工具distcp工具。
如下代码为针对不同库表,进行数据迁移命令构建流程:
复制代码
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15#!/bin/bash hive_databases='stage ods dw dm default' for db in $hive_databases;do tbl_file=`ls ./db_tables|grep $db` for tbl in `cat ./db_tables/$tbl_file` do #echo $tbl echo "hadoop distcp -update -delete -m 200 webhdfs://cdh_cluster1:50070/user/hive/warehouse/$db/$tbl webhdfs://cdh_cluster2:9870/user/hive/warehouse/$db/$tbl" >> distcp_for_${db}.txt done done
注意如下参数区别:
-update
-delete
-overwrite
-m
最后
以上就是老实皮皮虾最近收集整理的关于CDH集群间数据迁移一、库、表schema迁移二、data迁移的全部内容,更多相关CDH集群间数据迁移一、库、表schema迁移二、data迁移内容请搜索靠谱客的其他文章。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复