Flume学习笔记

 功能
分布式的实时文件、网络端口数据流采集,可以将各种不同数据源的数据实时采集到各种目的地
特点
实时采集 实时监听数据源,一有数据产生就采集
功能全面 大数据常用数据源和目标地都封装好了对应的接口
允许自定义开发 Java开发的源码,提供了自定义开发的接口
开发相对简单 开发一个配置文件,写入配置即可
可以实现分布式采集 本身不是分布式工具,可以实现分布式采集

架构
Agent:一个flume程序就是一个Agent
Event:flume采集的数据封装为Event对象进行传输
Source:实时监听数据源,数据源一产生数据就采集
Channel:负责临时存储采集到的数据,将所有Event临时存储
Sink:负责将Channel中的数据发送到目标地,主动从Channel取数
多数据源架构

 
 
设计目的:将一份数写入不同的目的地
多层架构

 
设计目的:防止多个Flume程序直接与目的地进行数据交互,影响目的地性能
使用方式
离线(采集到HDFS):配置Source 和Sink文件

Flume学习笔记最先出现在Python成神之路

版权声明:
作者:玉兰
链接:https://www.techfm.club/p/18659.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>