尚硅谷离线数仓架构图重绘

武飞扬头像

Petrov_Dong

2024-06-27 帮助1人

这几天重新回顾离线数仓的项目，一边看一边重新梳理了架构图，主要是重画了flume和kafka这块，注意一下生产flume和消费flume里面的设计，hive的建仓太复杂，画不出来

学新通

采集Flume

TailDir Source：用TailDir Source，好处：断点续传、多目录。Exec Source 不能断点续传。Spooling Directory Source只能单目录。
LogInterceptor：拦截器，过滤脏数据
Kafka Channel：省去sink，直接传kafka效率更高（Kafka Channel数据存在kafka里，所以数据是存在磁盘中的）

消费Flume

Kafka Source：从kafka读取数据
TimestampInterceptor：flume会用当前的系统时间来决定输出到HDFS路径的时间，而flume读取数据的时候可能已经是第二天了，那这条数据就会被发往第二天的路径，我们希望的是根据日志里的事件时间来决定存储在HDFS中的路径，所以用拦截器读取日志的事件时间
File Channel：channel存在磁盘中，比较慢但是安全。还有Memory Channel，更快但是数据存在JVM堆中，数据可能会丢失
HDFS sink：注意这里HDFS可能会产生大量小文件，教程里修改了几个配置，做到了文件每128M时滚动形成新文件。

Kafka

单分区单topic

Sqoop

sqoop有多种同步策略，需要注意

学新通

这篇好文章是转载于：学新通技术网

版权申明：本站部分内容来自互联网，仅供学习及演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，请提供相关证据及您的身份证明，我们将在收到邮件后48小时内删除。
本站站名：学新通技术网
本文地址： /boutique/detail/tanhiaccbk

系列文章

同类精品

继续加载