首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Flume 整体介绍

    Flume 数据采集         概述:             Flume 是一个数据采集工具,主要可以理解为对日志数据或者其他数据的采集。可以对例如日志数据进行采集传输到我们想要传输的地方,比如从本地文件系统采集数据到HDFS的HIVE目录下获取HDFS的其他目录,提供HIVE进行数据分析。             Flume运行方式为Agent Flume,如果有多个数据源,并且文件系统,则需要启动多个Agent Flume 进行数据采集。         组成:             Flume有三大组件:Source,Channel,Sink,             Source:指定采集数据源,类型:spooldir(本地系统),MySql,                 Source 不仅仅可以定义数据源信息,还可以定义检索文件类型,或者自定义文件获取方式             Channel:通道,通过Channel连接Source和Sink,中间作缓冲,提供适配,类型:Memery,File,JDBC                 Channel 还可以指定文件缓存大小             Sink:指定数据输出目标系统,类型:HDFS,Hive,HBase                 如果Sink输出为HDFS,Hive,则还可以指定文件大小,文件前后缀,文件读写周期等。         安装:             1. 解压Flume安装包             2. 配置系统配置文件 flume-site.xml(FADOOP_HOME,HDFS_HOME,ZooKeeper_HOME),之所以分开是因为Flume是Cloudra提供的,他把HDFS与MapReduce分开了,他提供了整合了的HADDOOP 大数据平台运行框架,更加方便部署。也有可能需要指定HBASE,HIVE等。             3. 配置数据采集业务配置文件  ***.xml             4. 启动Flume         运行机制:Flume通过Agent 方式运行数据采集,可以部署在多台机器,主要根据数据源存储形态来具体决定,如果数据源为多个文件系统,则需要运行多套Agent来采集,如果数据源为Mysql,则一个Agent就够了。Flume通过配置文件定义数据的采集-Source阶段,数据缓存-Channel阶段,及数据发送-Sink阶段。首先Source读取数据文件到Channel,Channel缓存起来,达到触发条件(触发条件自己定义或者默认)则会发动到Sink端进行保存,Sink端对发送的数据也定义定,包括存储文件大小,名称,前后缀等。         重点:             业务配置文件 ***.xml : 一个xml文件里面可以定制多套 FCS流程,即在定义时可以同时存在几套FCS流程在XML文件中,我们在启动Flume时需要指定FCS流程的名称来区分             多级Agent:我们可以指定多个Agent进行关联操作,即一个Agent的Sink输出为另一个Agent的Source输入。             比如Agent1为Agent2 提供输入,则Agent1 输出类型为:Avro Source,Qgent1的输入类型可以为任何允许的输出,Agent2的 输入类型为 :Avro SinK,Agent2的输出类型为允许的任何输出。             Flume是基于事务的,可以保证数据的传输时发送与接受的一致性。         Sample:

    01

    csc命令帮助

    C:/>csc /help |more Microsoft (R) Visual C# 编译器版本7.00.9254 [CLR version v1.0.2914] 版权所有 (C) Microsoft Corp 2000-2001。保留所有权利。                       Visual C# 编译器选项                         - 输出文件 - /out:<文件>             输出文件名(如果未指定,则从第一个源文件派生) /target:exe             生成控制台可执行文件(默认) (缩写: /t:exe) /target:winexe          生成 Windows 可执行文件 (缩写: /t:winexe) /target:library         生成库 (缩写: /t:library) /target:module          生成能添加到其他程序集的模块 (缩写: /t:module) /define:<符号列表>      定义条件编译符号 (缩写: /d) /doc:<文件>             要生成的 XML 文档文件                         - 输入文件 - /recurse:<通配符>       根据通配符规范,包括当前目录和子目录下的所有文件 /reference:<文件列表>   从指定的程序集文件引用元数据 (缩写: /r) /addmodule:<文件列表>   将指定的模块链接到此程序集中                         - 资源 - /win32res:<文件>        指定 Win32 资源文件 (.res) /win32icon:<文件>       使用该图标输出 /resource:<资源信息>    嵌入指定的资源 (缩写: /res) /linkresource:<资源信息>将指定的资源链接到此程序集中 (缩写: /linkres)                         - 代码生成 - /debug[+|-]             发出调试信息 /debug:{full|pdbonly}   指定调试类型(“full”是默认类型,可以将调试程序 附加到正 在运行的程序) /optimize[+|-]          启用优化 (缩写: /o) /incremental[+|-]       启用增量编译 (缩写: /incr)                         - 错误和警告 - /warnaserror[+|-]       将警告视为错误 /warn:               设置警告等级 (0-4) (缩写: /w) /nowarn:<警告列表>      禁用指定的警告信息 /reference:<文件列表>   从指定的程序集文件引用元数据 (缩写: /r) /addmodule:<文件列表>   将指定的模块链接到此程序集中                         - 资源 - /win32res:<文件>        指定 Win32 资源文件 (.res) /win32icon:<文件>       使用该图标输出 /resource:<资源信息>    嵌入指定的资源 (缩写: /res) /linkresource:<资源信息>将指定的资源链接到此程序集中 (缩写: /linkres)                         - 代码生成 - /debug[+|-]             发出调试信息 /debug:{full|pdbonly}   指定调试类型(“full”是默认类型,可以将调试程序 附加到正 在运行的程序) /optimize[+|-]          启用优化 (缩写: /o) /incremental[+|-]       启用增量编译 (缩写: /incr)                         - 错误和警告 - /warnaserror[+|-]       将警告视为错误 /warn:               设置警告等级 (0-4) (缩写: /w) /nowarn:<警告列表>      禁用指定的警告信息                         - 语言 - /checked[+|-]           生成溢出检查 /unsafe[+|-]            允许“不安全”代码

    02
    领券