数据倾斜导致子任务积压

坨坨的大数据

2024-05-10 帮助1人

业务背景：

一个流程中，有两个重要子任务：一是数据迁移，将kafka实时数据落Es，二是将kafka数据做窗口聚合落hbase，两个子任务接的是同一个Topic GroupId。上游Topic的 tps高峰达到5-6w。

问题描述：

给 24个 TaskManager(CPU) 都会出现来不及消费的情况。

问题原因：

做窗口聚合的任务的分组字段，分组粒度太小，hash不能打散，数据倾斜严重，导致少数TaskManager上压力过大，从而影响落Es的效率，导致背压。

解决方式：

将两个任务独立开来，作为不同的流程。

结果：

修改之前24个TaskManager(CPU) 来不及消费，改完之后20个CPU可完成任务。Kafka实时数据落Es的16个TaskManager，将kafka数据做窗口聚合落hbase的4个TaskManager。

另：

同样的数据、同样的Tps作为数据输入，Hbase的输出能力远超过Es，考虑实时任务落数据进Es要慎重。

Flink任务落Es时要考虑设置微批落数据，设置bulk.flush.max.actions和bulk.flush.interval.ms至合适值，否则影响吞吐量。

这篇好文章是转载于：学新通技术网

photoshop保存的图片太大微信发不了怎么办