Spark控制Insert hive表小文件

武飞扬头像

沐沐牡

2024-07-26 帮助2人

1.小文件产生原因：
spark.sql.shuffle.partitions=200 ，spark sql默认shuffle分区是200个，如果数据量比较小时，写hdfs时会产生200个小文件。

2. 可尝试通过以下操作来解决小文件过多问题，在sql执行过程中，设置分区个数（repartition可以在rdd生效，配置是全局生效的）如下

--conf spark.sql.shuffle.partitions=10

3. sql中设置分区方式

INSERT OVERWRITE TABLE

tab_name partition(partition_date=***)

select name,age,address from tmp_table Distribute by rand();

这篇好文章是转载于：学新通技术网

版权申明：本站部分内容来自互联网，仅供学习及演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，请提供相关证据及您的身份证明，我们将在收到邮件后48小时内删除。
本站站名：学新通技术网
本文地址： /boutique/detail/tanhihcaki

系列文章

同类精品

继续加载

相关推荐

实时热点