flume配置文件_flume 启动配置文件 - CSDN
精华内容
参与话题
  • Flume核心配置文件说明 1、 watchdog watchdog.restarts.max watchdog每分钟重启的最大数   2、 common node flume.config.heartbeat.period node发送心跳周期,默认5000...

    Flume核心配置文件说明

    1、 watchdog

    watchdog.restarts.max

    watchdog每分钟重启的最大数

     

    2、 common node

    flume.config.heartbeat.period

    node发送心跳周期,默认5000(毫秒)

    flume.node.status.port

    node web端口

    flume.node.heartbeat.backoff.ceiling

    node向master发送心跳之后等待反馈的最大时长,默认60000(毫秒)

    flume.node.http.autofindport

    如果已有node启动,允许第二个node自动选择一个未使用的端口做web服务。多个node的界面端口从35862、35863向后延续

     

    3、agent

    flume.agent.logdir

    agent日志路径

    flume.agent.logdir.maxage

    当前处于打开状态agent日志文件收集信息的时长,在这之后该日志文件将会被关闭,并将数据发送到网络,默认10000(毫秒)

    flume.agent.logdir.retransmit

    在end-to-end模式下agent向collector发送数据失败后再次发送的间隔时长,默认60000(毫秒),建议至少是flume.collector.roll.millis的两倍

    flume.agent.failover.backoff.initial

    当primary sink(可以认为是第一collector)故障后,重启primary sink的一个延迟时间,在此期间,agent将把数据发送到secondary sink(可能是第二collector)

    flume.agent.failover.backoff.max

    在一定时限内尝试链接故障节点失败后,agent将把数据转发向备用节点

     

    4、collector

    flume.collector.event.host

    默认collector地址

    flume.collector.port

    默认collector端口

    flume.collector.dfs.dir

    最终数据发向目录(默认),可以是本地,可以是hdfs,默认是/tmp

    flume.collector.dfs.compress.codec

    压缩格式GzipCodec, DefaultCodec (deflate), BZip2Codec,默认是None

    flume.collector.roll.millis

    hdfs文件切换(关闭后新建)的时长

    flume.collector.output.format

    collector发送数据格式avro, avrojson(默认), avrodata…

     

    5、master

    flume.master.servers

    用逗号分隔多个master地址列表

    flume.master.store

    master配置存储方式(zookeeper/memory) zookeeper保证master的配置在多master节点之间同步,memory则保存在内存中,其配置随着master宕机而丢失

    flume.master.serverid

    master的唯一标识

    flume.master.http.port

    http端口

    flume.master.heartbeat.missed.max

    判断节点失效的最大未达心跳数

    flume.master.savefile

    当前flume配置文件的路径,默认conf/current.flume

    flume.master.savefile.autoload

    启动时是否加载current.flume,默认false

    flume.master.gossip.period

    master通信周期(毫秒)

    flume.master.heartbeat.rpc

    THRIFT/AVRO

    flume.event.rpc

    THRIFT/AVRO

    flume.report.server.rpc.type

    THRIFT/AVRO

       

    6、zookeeper

    flume.master.zk.logdir

    zookeeper日志路径

       

       

    7、thrift

    flume.thrift.socket.timeout.ms

    thrift网络连接超时时间(毫秒)

     

    command shell(flume command)

     

    help

    帮助

    connect master:port

    登录master

    config logicalnode source sink

    为逻辑节点配置一个source到sink的映射

    getnodestatus

    获得节点状态(HELLO, CONFIGURING, ACTIVE, IDLE, ERROR, DECOMMISSIONED, LOST )

    HELLO, node启动时

    CONFIGURING, node被配置后

    ACTIVE, 一个event从source送达到sink

    IDLE, source中所有evnet发送完毕后

    ERROR, 节点故障退出,数据没有flush

    DECOMMISSIONED, node被master移除

    LOST, master长时间未收到node心跳

    getconfigs

    获得配置

    getmappings [physical node]

    如果physical node参数被省略,将显示所有logical node到physical node的映射关系

    exec

    同步执行命令

    Source file

    执行脚本.

    submit

    异步执行命令

    wait ms [cmdid]

    设定一个时间,周期检查命令进程的状态(success or failure)

    waitForNodesActive ms node1 [node2 […]]

    设定一个时间,检查node是否处于使用(configuring, active)状态

    waitForNodesDone ms node1 [node2 […]]

    设定一个时间,检查node是否处于未用(IDLE, ERROR, LOST)状态

    quit

    退出

       

       

    command shell(exec & submit command)

    双引号

    包含转义字符的java string

    单引号

    能引住除单引号之外的所有字符

    noop

    touch master, 不做操作

    config logicalnode source sink

    为逻辑节点配置source到sink的映射

    multiconfig flumespec

     

    unconfig logicalnode

    取消逻辑节点的配置,影响master调整故障转移列表(failover list)

    refreshAll logicalnode

    刷新

    save filename

    保存current configuration到master硬盘

    load filename

    从master中加载current configuration

    map physicalnode logicalnode

    配置物理节点到逻辑节点的映射关系,master的配置将被同步到logicalnode

    spawn physicalnode logicalnode

    恢复

    decommission logicalnode

     

    unmap physicalnode logicalnode

    取消映射

    unmapAll

    全部取消

    purge logicalnode

    清除状态,类似重启一个logical node, 适用于(DECOMMISSIONED、 LOST)状态

    purgeAll

    清除所有logical node的状态

    Flume Source

       

       

    1、Flume’s TieredEvent Sources

    collectorSource[(port)]

    Collector source,监听端口汇聚数据

    autoCollectorSource

    通过master协调物理节点自动汇聚数据

    logicalSource

    逻辑source,由master分配端口并监听rpcSink

       

       

     

    2、Flume’s BasicSources

    null

     

    console

    监听用户编辑历史和快捷键输入,只在node_nowatch模式下可用

    stdin

    监听标准输入,只在node_nowatch模式下可用,每行将作为一个event source

    rpcSource(port)

    由rpc框架(thrift/avro)监听tcp端口

    text("filename")

    一次性读取一个文本,每行为一个event

    tail("filename"[, startFromEnd=false])

    每行为一个event。监听文件尾部的追加行,如果startFromEnd为true,tail将从文件尾读取,如果为false,tail将从文件开始读取全部数据

    multitail("filename"[, file2 [,file3… ] ])

    同上,同时监听多个文件的末尾

    tailDir("dirname"[, fileregex=".*"[, startFromEnd=false[, recurseDepth=0]]])

    监听目录中的文件末尾,使用正则去选定需要监听的文件(不包含目录),recurseDepth为递归监听其下子目录的深度

    seqfile("filename")

    监听hdfs的sequencefile,全路径

    syslogUdp(port)

    监听Udp端口

    syslogTcp(port)

    监听Tcp端口

    syslogTcp1(port)

    只监听Tcp端口的一个链接

    execPeriodic("cmdline", ms)

    周期执行指令,监听指令的输出,整个输出都被作为一个event

    execStream("cmdline")

    执行指令,监听指令的输出,输出的每一行被作为一个event

    exec("cmdline"[,aggregate=false[,restart=false[,period=0]]])

    执行指令,监听指令的输出,aggregate如果为true,整个输出作为一个event如果为false,则每行作为一个event。如果restart为true,则按period为周期重新运行

    synth(msgCount,msgSize)

    随即产生字符串event,msgCount为产生数量,msgSize为串长度

    synthrndsize(msgCount,minSize,maxSize)

    同上,minSize – maxSize

    nonlsynth(msgCount,msgSize)

     

    asciisynth(msgCount,msgSize)

    Ascii码字符

    twitter("username","pw"[,"url"])

    尼玛twitter的插件啊

    irc("server",port, "nick","chan")

     

    scribe[(+port)]

    Scribe插件

    report[(periodMillis)]

    生成所有physical node报告为事件源

    Flume Sinks

        

    1、Flume’s CollectorTier Event Sinks

    collectorSink( "fsdir","fsfileprefix",rollmillis)

    collectorSink,数据通过collector汇聚之后发送到hdfs, fsdir 是hdfs目录,fsfileprefix为文件前缀码

        

    2、Flume’s Agent TierEvent Sinks

    agentSink[("machine"[,port])]

    Defaults to agentE2ESink,如果省略,machine参数,默认使用flume.collector.event.host与flume.collector.event.port作为默认collecotr(以下同此)

    agentE2ESink[("machine"[,port])]

    执着的agent,如果agent发送event没有收到collector成功写入的状态码,该event将被agent重复发送,直到接到成功写入的状态码

    agentDFOSink[("machine" [,port])]

    本地热备agent,agent发现collector节点故障后,不断检查collector的存活状态以便重新发送event,在此间产生的数据将缓存到本地磁盘中

    agentBESink[("machine"[,port])]

    不负责的agent,如果collector故障,将不做任何处理,它发送的数据也将被直接丢弃

    agentE2EChain("m1[:_p1_]" [,"m2[:_p2_]"[,…]])

    指定多个collector提高可用性。 当向主collector发送event失效后,转向第二个collector发送,当所有的collector失败后,它会非常执着的再来一遍...

    agentDFOChain("m1[:_p1_]"[, "m2[:_p2_]"[,…]])

    同上,当向所有的collector发送事件失效后,他会将event缓存到本地磁盘,并检查collector状态,尝试重新发送

    agentBEChain("m1[:_p1_]"[, "m2[:_p2_]"[,…]])

    同上,当向所有的collector发送事件失效后,他会将event丢弃

    autoE2EChain

    无需指定collector, 由master协调管理event的流向

    autoDFOChain

    同上

    autoBEChain

    同上

       

    3、Flume’s Logical Sinks

    logicalSink("logicalnode")

     

       

    4、Flume’s BasicSinks

    在不使用collector收集event的情况下,可将source直接发向basic sinks

    null

    null

    console[("formatter")]

    转发到控制台

    text("txtfile" [,"formatter"])

    转发到文本文件

    seqfile("filename")

    转发到seqfile

    dfs("hdfspath")

    转发到hdfs

    customdfs("hdfspath"[, "format"])

    自定义格式dfs

    +escapedCustomDfs("hdfspath", "file", "format")

     

    rpcSink("host"[, port])

    Rpc框架

    syslogTcp("host"[,port])

    发向网络地址

    irc("host",port, "nick", "chan")

     

     

    展开全文
  • 关于flume配置文件,命令讲解

    千次阅读 2018-11-28 09:45:20
    1.flume是可靠地,稳定的,但是有一定的前提条件:数据的传输数据是70MB/S以下,数据的请求次数是25万到50万QPS以内,是稳定可靠地,超出这两个阈值flume就开始大量丢包 2.怎样把yum下载下来的安装包离线出来: cat /etc/...

    1.flume是可靠地,稳定的,但是有一定的前提条件:数据的传输数据是70MB/S以下,数据的请求次数是25万到50万QPS以内,是稳定可靠地,超出这两个阈值flume就开始大量丢包

    2.怎样把yum下载下来的安装包离线出来:
    cat /etc/yum.conf
    有两个参数:keepcache=0和cachedir=/var/cache/yum/$basearch/$releasever,意思是当用yum安装完成后,会删除下载的源文件,将默认值0改为1即可,源文件的路径为cachedir

    3.flume的配置文件
    # Describe the sink
    a1.sinks.k1.type = logger 在日志中输出

    # Use a channel which buffers events in memory
    a1.channels.c1.type = memory
    a1.channels.c1.capacity = 1000    大小是1000
    a1.channels.c1.transactionCapacity = 100    每次传输的大小是100

    # Bind the source and sink to the channel
    a1.sources.r1.channels = c1    把sources和channel绑定,注意,一个source可以绑定多个channel
    a1.sinks.k1.channel = c1    把sink和channel绑定,注意,此处的channel没有加s,因为一个sink只能绑定一个channel

    4.flume的启动命令
    $ bin/flume-ng agent    \    ------调用flume-ng脚本的agent命令
     --conf conf/    \    ------指定当前flume的配置文件的目录
     --name a1 \    ------指定此次job的agent的名称
     --conf-file job/job_flume_netcat.conf \    ------指定此次job的配置文件
     -Dflume.root.logger==INFO,console    ------flume日志的输出级别和输出位置
     
    5.flume命令讲解
     telnet localhost 44444    -----用telnet连接localhost的44444端口

     6.要学会根据自己的目录和版本查找 jar 包
     查找方式: find ./ -name 'jar包名称' ------  ./ 指定在哪个目录查找

    7.启动hive的命令
    nohup bin/hiveserver2 1>/dev/null 2>&1 &
    bin/beeline -u jdbc:hive2://mini1:10000 -n root 
     
    8.实时查看文件:    tail -F (如果连接失败,会再次连接;用-f的话,一次连接失败就不会再次连接)

    9.hive.log的位置:/tmp/root/hive.log
    HIVE默认log文件保存的地方
    /tmp/<user.name>文件夹的hive.log文件中,全路径就是/tmp/当前用户名/hive.log。

    每个job执行后都会产生Query ID,在hive.log中搜索关键字。确认时间一致后,之后的log就是当前job的信息。
    Query ID = root_20171108160217_d51b321f-1902-4353-ae5b-2ebe5227f82f

    如何查看更多的错误信息
    在默认的日志级别情况下,是不能将DEBUG信息输出,这样一来出现的各种详细的错误信息都是不能数错的。
    但是我们可以通过以下两种方式修改log4j输出的日志级别,从而利用这些调试日志进行错误定位,具体做法如下:
    $ hive --hiveconf hive.root.logger=DEBUG,console (hive启动时用该命令替代)
    或者在${HIVE_HOME}/conf/hive-log4j.properties文件中找到hive.root.logger属性,并将其修改为下面的设置
    hive.root.logger=DEBUG,console

    10.查找文件: find / -name hive.log

    11.收集日志的时候,尽量在文件大小达到127M左右的时候创建一个新的文件,具体的多少时间单位创建一个新的文件,根据实际的业务来定,看每秒收集多少条日志,每条日志的大小是多少
    日志滚动的设置有按照时间,文件大小和日志的个数

    12.判断 44444 端口是否被占用
    $ netstat -tunlp | grep 44444

    13.flume有一个缺陷,不擅长上传大的单个文件,只适合上传小尔多的集中在某一个文件夹中的数据

    14.分业务管理flume的job文件
    job的配置文件和conf中的配置文件处理的业务是不一样的,所以最好不要讲job文件夹放在conf中,在job中,也要根据业务场景,分类管理配置文件,不要所有的文件都集中在一个文件夹中

    15.flume收集数据的顺序问题:
    多 Flume 汇总数据到单 Flume,数据的收集是交叉的,
    如果多方收集的数据根据业务场景需要严格按照顺序的话,就不适用于这个场景
    有的数据字段是自带时间戳的,即使收集的时候是无序的,但是在进行数据分析的时候会进行排序,所以多 Flume 汇总数据到单 Flume,数据的收集是交叉的也不会有影响
    另外,也可以用kafka收集数据,它是严格按照时间队列来收集数据的

    16.Flume 监控之 Ganglia
    Ganglia框架可以监控flume发了多少信息,成功接收了多少数据,丢失了多少数据
    Ganglia是分布式部署的,有主节点和从节点,当需要在哪台机器上监控节点信息,就在那台机器上安装部署Ganglia,并启动ganglia-gmond,所有的ganglia-gmond节点都会向ganglia-gmetad汇报信息,ganglia-web是展示ganglia-gmetad收到的信息

    展开全文
  • Flume配置文件

    2018-10-11 17:16:00
    使用flume的关键就是写配置文件 A)配置source B)配置channel C)配置sink D)把三个组件串起来 a1:agent名称 r1:source名称 k1:sink名称 c1:channel名称 Name the components on this agent a1.sources = r1 a1.sinks ...

    使用flume的关键就是写配置文件

    A)配置source
    B)配置channel
    C)配置sink
    D)把三个组件串起来
    a1:agent名称
    r1:source名称
    k1:sink名称
    c1:channel名称

    Name the components on this agent

    a1.sources = r1
    a1.sinks = k1
    a1.channels = c1

    Describe/configure the source

    a1.sources.r1.type = netcat
    a1.sources.r1.bind = zoujc01
    a1.sources.r1.port = 44444

    Describe the sink

    a1.sinks.k1.type = logger

    Use a channel which buffers events in memory

    a1.channels.c1.type = memory

    Bind the source and sink to the channel

    a1.sources.r1.channels = c1
    a1.sinks.k1.channel = c1

    其他的配置可以看官网:flume.apache.org

    展开全文
  • flume配置文件

    2018-12-17 18:14:18
    1.Sink-ES #------agent----- agent.sources=agentSource agent.channels=agentChannel agent.sinks=agentSink #-------- agentSource---------...agent.sources.agentSource.type=org.apache.flume.source.kafka....

    1.Sink-ES

    #------agent-----
    agent.sources=agentSource
    agent.channels=agentChannel
    agent.sinks=agentSink

    #-------- agentSource-----------
    agent.sources.agentSource.type=org.apache.flume.source.kafka.KafkaSource
    agent.sources.agentSource.zookeeperConnect=IP:2181
    agent.sources.agentSource.topic=TopicName
    agent.sources.agentSource.groupId=Flume
    agent.sources.agentSource.batchSize=1000
    agent.sources.agentSource.kafka.consumer.timeout.ms=3000

    #------- agentChannel-----------
    agent.channels.agentChannel.type=file
    agent.channels.agentChannel.checkpointDir=/mnt/data/flume/checkpoint
    agent.channels.agentChannel.dataDirs=/mnt/data/flume
    agent.channels.agentChannel.capacity=100000
    agent.channels.agentChannel.transactionCapacity= 1000
    agent.channels.agentChannel.keep-alive=100
    agent.sources.agentSource.channels=agentChannel
    agent.sinks.agentSink.channel=agentChannel

    #---------agentSink ------------
    agent.sinks.agentSink.type=elasticsearch
    agent.sinks.agentSink.hostNames=hostIp:12300
    agent.sinks.agentSink.clusterName=es
    agent.sinks.agentSink.indexName=indexName
    agent.sinks.agentSink.indexType=indexType
    agent.sinks.agentSink.idName=ID
    agent.sinks.agentSink.batchSize=1000

     

    2.Sink-HBase

    #------agent-----
    agent.sources=agentSource
    agent.channels=agentChannel
    agent.sinks=agentSink

    #-------- agentSource-----------
    agent.sources.agentSource.type=org.apache.flume.source.kafka.KafkaSource
    agent.sources.agentSource.zookeeperConnect=IP:2181
    agent.sources.agentSource.topic=TopicName
    agent.sources.agentSource.groupId=Flume
    agent.sources.agentSource.batchSize=1000
    agent.sources.agentSource.kafka.consumer.timeout.ms=3000

    #------- agentChannel-----------
    agent.channels.agentChannel.type=file
    agent.channels.agentChannel.checkpointDir=/mnt/data/flume/checkpoint
    agent.channels.agentChannel.dataDirs=/mnt/data/flume
    agent.channels.agentChannel.capacity=100000
    agent.channels.agentChannel.transactionCapacity= 1000
    agent.channels.agentChannel.keep-alive=100
    agent.sources.agentSource.channels=agentChannel
    agent.sinks.agentSink.channel=agentChannel

    #---------agentSink-------------------
    agent.sinks.agentSink.type=hbase
    agent.sinks.agentSink.zookeeperQuorum=ip:2181
    agent.sinks.agentSink.table=tableName
    agent.sinks.agentSink.tableType=table
    agent.sinks.agentSink.columnFamily=d
    agent.sinks.agentSink.serializer=org.apache.flume.sink.hbase.RegexHbaseEventSerializer
    agent.sinks.agentSink.serializer.colNames=RowKey
    agent.sinks.agentSink.serializer.rowKeyIndex=0
    agent.sinks.agentSink.batchSize=1000

    3.Sink-HDFS

    #------agent-----
    agent.sources=agentSource
    agent.channels=agentChannel
    agent.sinks=agentSink

    #-------- agentSource-----------
    agent.sources.agentSource.type=org.apache.flume.source.kafka.KafkaSource
    agent.sources.agentSource.zookeeperConnect=IP:2181
    agent.sources.agentSource.topic=TopicName
    agent.sources.agentSource.groupId=Flume
    agent.sources.agentSource.batchSize=1000
    agent.sources.agentSource.kafka.consumer.timeout.ms=3000

    #------- agentChannel-----------
    agent.channels.agentChannel.type=file
    agent.channels.agentChannel.checkpointDir=/mnt/data/flume/checkpoint
    agent.channels.agentChannel.dataDirs=/mnt/data/flume
    agent.channels.agentChannel.capacity=100000
    agent.channels.agentChannel.transactionCapacity= 1000
    agent.channels.agentChannel.keep-alive=100
    agent.sources.agentSource.channels=agentChannel
    agent.sinks.agentSink.channel=agentChannel

    #---------agentSink------------------
    agent.sinks.agentSink.type=hdfs
    agent.sinks.agentSink.hdfs.path =/data/flume/partitionday=%Y%m%d/partitionhour=%Y%m%d%H
    agent.sinks.agentSink.hdfs.filePrefix=fileName_%Y%m%d%H
    agent.sinks.agentSink.hdfs.timeZone=Asia/Shanghai
    agent.sinks.agentSink.hdfs.fileType=DataStream
    agent.sinks.agentSink.hdfs.batchSize=1000
    agent.sinks.agentSink.hdfs.rollCount=0
    agent.sinks.agentSink.hdfs.rollInterval=600
    agent.sinks.agentSink.hdfs.rollSize=134217728
    agent.sinks.agentSink.hdfs.callTimeout=7200000

     

    展开全文
  • Flume学习7_Flume配置文件内容详解

    千次阅读 2015-09-16 19:00:20
    对 (CentOS6.5下,Flume安装及配置详细教程) ...中的配置文件进行解释: a1.sources = r1 a1.sinks = k1 a1.channels = c1 该配置文件中 配置了一个代理a1   在代理agent中配置了一个
  • Flume的常用配置项1、Source配置项(常见配置项)1.1 Avro Source1.2 NetCat Source1.3 Exec Source1.4 Spooling Directory Source1.5 Taildir Source1.6 Thrift Source1.7 Kafka Source1.8 Sequence Generator Source...
  • Flume配置文件总结

    千次阅读 2018-08-04 10:41:07
    无论是怎么配置在开头出都要进行命名 组件命名一:单个source和sink用这个 # Name the components on this agent a1.sources = r1 a1.sinks = k1 a1.channels = c1 组件命名二:单个source,多个sink用这个,...
  • flume常用配置文件

    2019-07-13 08:53:15
    文章目录kafka-hdfs.confflume-kafka.confflume-hdfs.confflume_pull_streaming.confflume_push_streaming.conf kafka-hdfs.conf #定义agent名, source、channel、sink的名称 a1.channels = c1 ...
  • Flume常用配置参数

    2020-09-23 14:14:27
    Flume常用配置参数 概述 本篇文章是根据Flume官网对Flume组件(Source,Channel,Sink)的常用配置参数做一个主要介绍,如有表达意思错误希望不吝指出。 Sources Flume中常用的Source有NetCat,Avro,Exec,...
  • flume agent收集数据 一个源对于两个sink 同时输出到hdfs和kafka 的配置文件,注意其中的 source绑定channel时候 channel1 channel2 不能分开写,该配置文件已经过集群实验成功收集到数据的
  • CDH配置启动flume

    千次阅读 2020-05-18 23:25:24
    目录:一、如何使用flume二、进入配置管理三、关于配置文件———————————————————————————-请提前参考我的Flume博客:http://blog.csdn.net/silentwolfyh/article/category/6186343一、...
  • 创建符合条件的flume配置文件 执行配置文件,开启监控 向目录中添加文件,被监控的目录/opt/module/flume/upload 查看HDFS上数据 查看/opt/module/flume/upload目录中上传的文件是否已经标记为.COMPLETED结尾;.tmp...
  • 配置文件是从一个服务引出,然后客户端监听服务端变化,实时重启自身加载最新配置,这样,我们就不用维护每个独立的客户端配置,更新也变得非常简单,而flume,显然意识到了这一个巨大的实惠,他是支持配置文件交由...
  • Flume 案例实操 - 多数据源汇总案例

    万次阅读 2019-05-19 20:41:50
    hadoop103上的flume-1监控文件/opt/module/datas/flume_tmp.log hadoop104上的flume-2监控某一个端口的数据流 flume-1与flume-2将数据发送给hadoop102上的flume-3,flume-3将最终数据打印到控制台 实现步骤 准备...
  • 创建负责条件的flume配置文件 启动flume,应用配置文件,开启监控 模拟日志产生,日志文件/opt/module/datas/flume_tmp.log 查看HDFS上的数据 实现步骤 拷贝相关Hadoop 包到 Flume lib 目录 Flume要想将数据输出到...
  • Flume读取日志文件数据写入到Kafka

    千次阅读 2018-10-15 17:59:12
    只是为了实现从flume采集的数据写到kafka中 所以采集的数据使用伪数据 ...先进去flume下的配文件夹里面 (此处我的配置文件夹名字为:myconf) 编写构建agent的配置文件(命名为:flume2kafka.conf) flume2kafk...
  • 问题重现:1、创建flume配置文件flume-env.sh,:flume配置文件如下(根据自身需要修改): 因为flume可以配置多种采集方式,每种采集方式对应一个agent配置文件,flume即通过运行agent完成采集工作,这里为了方便...
  • Flume采用zookeeper管理配置

    千次阅读 2019-01-28 23:13:31
    配置文件必须先上传到zookeeper中。以下Agent在Zookeeper节点树的结构:   - /flume |- /a1 [Agent配置文件] |- /a2 [Agent配置文件] 处理配置文件的类:     org.apache.flume.node.PollingZooKeepe....
  • Flume监控目录并读取新添加的文件

    千次阅读 2015-08-28 20:14:34
     使用spoolDirectory作为agent的source可以让flume自从监控指定的spoolDir目录,一旦有新文件生成就读取它并将它发送出去,已经读取过的文件会打上.COMPLETE后缀,不会重复发送。具体配置在官方文档中讲解
  • Flume

    万次阅读 2018-11-21 02:25:57
    应用场景 按照搭建hadoop完全分布式集群博文搭建完hadoop集群后,发现hadoop完全分布式集群自带了HDFS,MapReduce,Yarn等基本的服务,一些其他的服务组件需要自己重新安装,比如Hive,Hbase,sqoop,... Flume
1 2 3 4 5 ... 20
收藏数 21,918
精华内容 8,767
关键字:

flume配置文件