Hudi22Hudi集成Flink:常见问题汇总

电光闪烁

2024-06-29 帮助1人

问题一：存储一直看不到数据

如果是 streaming 写，请确保开启 checkpoint，Flink 的 writer 有 3 种刷数据到磁盘的策略：

当某个 bucket 在内存积攒到一定大小 (可配，默认 64MB)
当总的 buffer 大小积攒到一定大小（可配，默认 1GB）
当 checkpoint 触发，将内存里的数据全部 flush 出去

问题二：数据有重复

如果是 COW 写，需要开启参数 write.insert.drop.duplicates，COW 写每个 bucket 的第一个文件默认是不去重的，只有增量的数据会去重，全局去重需要开启该参数；MOR 写不需要开启任何参数，定义好 primary key 后默认全局去重。（注意：从 0.10 版本开始，该属性改名 write.precombine 并且默认为 true。）

如果需要多 partition 去重，需要开启参数: index.global.enabled 为 true。（注意：从 0.10 版本开始，该属性默认为 true。）

索引 index 是判断数据重复的核心数据结构，index.state.ttl 设置了索引保存的时间，默认为 1.5 天，对于长时间周期的更新，比如更新一个月前的数据，需要将 index.state.ttl 调大（单位天），设置小于 0 代表永久保存。（注意：从 0.10 版本开始，该属性默认为 0。）

问题三：Merge On Read 写只有 log 文件

Merge On Read 默认开启了异步的 compaction，策略是 5 个 commits 压缩一次，当条件满足参会触发压缩任务，另外，压缩本身因为耗费资源，所以不一定能跟上写入效率，可能会有滞后。

可以先观察 log，搜索 compaction 关键词，看是否有 compact 任务调度：After filtering, Nothing to compact for 关键词说明本次 compaction strategy 是不做压缩。

持续更新......

注：其他Hudi相关文章链接由此进 -> Hudi文章汇总

这篇好文章是转载于：学新通技术网

Hudi22Hudi集成Flink:常见问题汇总

相关文章链接

问题一：存储一直看不到数据

问题二：数据有重复

问题三：Merge On Read 写只有 log 文件

photoshop保存的图片太大微信发不了怎么办

word里面弄一个表格后上面的标题会跑到下面怎么办

photoshop扩展功能面板显示灰色怎么办

《学习通》视频自动暂停处理方法

Android 11 保存文件到外部存储，并分享文件

TikTok加速器哪个好免费的TK加速器推荐

微信公众号没有声音提示怎么办

excel下划线不显示怎么办

excel打印预览压线压字怎么办

微信运动停用后别人还能看到步数吗