• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

Spark控制Insert hive表小文件

武飞扬头像
沐沐牡
帮助2

1.小文件产生原因:
spark.sql.shuffle.partitions=200 ,spark sql默认shuffle分区是200个,如果数据量比较小时,写hdfs时会产生200个小文件。

2. 可尝试通过以下操作来解决小文件过多问题,在sql执行过程中, 设置分区个数(repartition可以在rdd生效,配置是全局生效的)如下

  1. --conf spark.sql.shuffle.partitions=10 

3. sql中设置分区方式

        INSERT OVERWRITE TABLE

tab_name  partition(partition_date=***)

select name,age,address from tmp_table Distribute by rand();

这篇好文章是转载于:学新通技术网

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通技术网
  • 本文地址: /boutique/detail/tanhihcaki
系列文章
更多 icon
同类精品
更多 icon
继续加载