使用spark查询hudi表

343 阅读 0 评论 227 点赞

我是靠谱客的博主勤恳母鸡，这篇文章主要介绍使用spark查询hudi表，现在分享给大家，希望可以做个参考。

查询数据

初始化环境

source /opt/client/bigdata_env

source /opt/client/Hudi/component_env
启动客户端

spark-shell --master yarn --driver-memory 20g --driver-cores 4 --executor-memory 12g --executor-cores 4 --num-executors 50 --conf spark.executor.memoryOverhead=4096
导入包

import org.apache.hudi.QuickstartUtils._import scala.collection.JavaConversions._import org.apache.spark.sql.SaveMode._import org.apache.hudi.DataSourceReadOptions._import org.apache.hudi.DataSourceWriteOptions._import org.apache.hudi.config.HoodieWriteConfig._
查询

val org_reader = spark.read.format("org.apache.hudi").load("hdfs://hacluster/hudi/default/o_org")org_reader.registerTempTable("hudi_o_org")

spark.sql("select count(*) from hudi_o_org").show()

spark.sql("desc hudi_o_org").show(200,false)

最后

以上就是勤恳母鸡最近收集整理的关于使用spark查询hudi表的全部内容，更多相关使用spark查询hudi表内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(227)

本文分类：数据库
浏览次数：343 次浏览
发布日期：2023-12-07 01:35:35

相关文章

HUDI preCombinedField 总结

HUDI preCombinedField 总结

Apache Hudi 表目录结构Apache Hudi 表目录结构

Apache Hudi 表目录结构Apache Hudi 表目录结构

Hive几种存储格式总结

Hadoop跨集群迁移数据（整理版）1. 什么是DistCp2. Hadoop DistCp的api使用3. 测试用例4. 应用程序调用distcp接口总结

Hadoop跨集群迁移数据（整理版）1. 什么是DistCp2. Hadoop DistCp的api使用3. 测试用例4. 应用程序调用distcp接口总结

使用spark查询hudi表

Hadoop（35）：Hadoop调优之HDFS集群迁移0. 相关文章链接1. Apache和Apache集群间数据拷贝2. Apache和CDH集群间数据拷贝

Hadoop（35）：Hadoop调优之HDFS集群迁移0. 相关文章链接1. Apache和Apache集群间数据拷贝2. Apache和CDH集群间数据拷贝

数据湖之Hudi（11）：使用Spark更新Hudi中的数据0. 相关文章链接1. 环境准备2. Maven依赖3. 核心代码

数据湖之Hudi（11）：使用Spark更新Hudi中的数据0. 相关文章链接1. 环境准备2. Maven依赖3. 核心代码

presto查询hudi异常解决

presto查询hudi异常解决

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部