首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

NIFI文档更新日志

2019-11-30 新增NIFI扩展系列:JOLT 详解,对使用JoltTransformJSON 还有疑惑的同学的解药 由上面翻译过来的英文简易版JOLT教程Json Jolt Tutorial...2019-10-20 更新日志单独做出页面 已有的模板demo.xml文件 由百度云盘下载改为直接使用GitHub 浏览器点击下载 编辑管理员指南文档格式(还未修订) 2019-11-19 修复扩展开发...:流属性转JSON ConvertJSONToAvro:将 JSON数据转成AVRO格式 CryptographicHashAttribute:哈希流属性 DistributeLoad:数据分发 EvaluateJsonPath...:提取json内容到流属性 ExecuteGroovyScript:执行Groovy脚本 ExecuteSQL:执行SQL ExtractText:提取text内容到流属性 FlattenJson:“压平...:根据流内容路由流 SplitAvro:切分avro数据 SplitJson:切分json数组 UpdateAttribute:更改流属性 General 概览 入门 用户指南 NIFI 源码系列 NIFI-NAR

2.3K20

大数据NiFi(六):NiFi Processors(处理器)

NiFi Processors(处理器)为了创建高效的数据流处理流程,需要了解可用的处理器(Processors )类型,NiFi提供了大约近300个现成的处理器。...一、数据提取GetFile:将文件内容从本地磁盘(或网络连接的磁盘)流式传输到NiFi,然后删除原始文件。...GetKafka:从Apache Kafka获取消息,封装为一个或者多个FlowFile。二、数据转换ReplaceText:使用正则表达式修改文本内容。...SelectHiveQL:对Apache Hive执行HQL SELECT命令,将结果写入Avro或CSV格式的FlowFile。...五、提取属性EvaluateJsonPath:用户提供JSONPath表达式,这个表达式将对Json内容操作,将表达式计算的结果值替换FlowFile内容或将结果值提取到用户自己命名的Attribute

2.2K122
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    PutHiveStreaming

    描述 该处理器使用Hive流将流文件数据发送到Apache Hive表。传入的流文件需要是Avro格式,表必须存在于Hive中。有关Hive表的需求(格式、分区等),请参阅Hive文档。...分区值是根据处理器中指定的分区列的名称,然后从Avro记录中提取的。注意:如果为这个处理器配置了多个并发任务,那么一个线程在任何时候只能写入一个表。写入同一表的其他任务将等待当前任务完成对表的写入。...需要在nifi.properties中设置nifi.kerberos.krb5.file支持表达式语言:true(只用于变量注册表) true false 标志,指示是否应该自动创建分区Max Open...应用场景 该处理器用于向hive表写 数据,数据要求 是avro格式,要求使用者熟练使用hive。...示例说明 1:从数据库读取数据写入hive表(无分区),Apache NIFI 1.8 - Apache hive 1.2.1 建表语句: hive表只能是ORC格式; 默认情况下(1.2及以上版本)建表使用

    1K30

    Apache NiFi安装及简单使用

    NIFI简单使用 不理解NIFI是做什么的,看一个简单的例子(同步文件夹)吧,帮助理解 1、从工具栏中拖入一个Processor,在弹出面板中搜索GetFIle,然后确认 ? ?...表达式(与用于XML解析/提取的XPath类似),然后根据JSON内容评估这些表达式,以替换FlowFile内容或将该值提取到用户命名的属性中。...GetSFTP:通过SFTP将远程文件的内容下载到NiFi中。 GetJMSQueue:从JMS队列中下载消息,并根据JMS消息的内容创建一个FlowFile。也可以将JMS属性复制为属性。...这通常与ListenHTTP一起使用,以便在不能使用Site to Site的情况下(例如,当节点不能直接访问,但能够通过HTTP进行通信时)在两个不同的NiFi实例之间传输数据)。...GetSQS:从Amazon Simple Queuing Service(SQS)中提取消息,并将消息的内容写入FlowFile的内容。

    7.2K21

    大数据NiFi(十八):离线同步MySQL数据到HDFS

    ​离线同步MySQL数据到HDFS 案例:使用NiFi将MySQL中数据导入到HDFS中。...该查询被构建成子查询,设置后不会从其他属性构建SQL查询。自定义SQL不支持Order by查询。...该查询被构建成子查询,设置后不会从其他属性构建SQL查询。自定义SQL不支持Order by查询。...通过以上配置好连接mysql如下: 配置其他属性如下: 二、​​​​​​​配置“ConvertAvroToJSON”处理器 此处理器是将二进制Avro记录转换为JSON对象,提供了一个从Avro字段到...如果想要存入HDFS文件为多行而不是一行,可以将“CovertAvroToJson”处理器属性“JSON container options”设置为none,直接解析Avro文件得到一个个json数据,

    4.9K91

    使用Apache NiFi 2.0.0构建Python处理器

    无论是扩展以利用单台机器的全部功能,还是使用零领导者集群模型进行扩展,NiFi 都可以适应任何规模的数据处理任务。 数据来源是另一个关键特性,它允许用户跟踪数据从其开始到最终目的地的旅程。...例如,你可以使用 Python 从文本文件中提取特定信息,对文本数据执行情感分析或者在进行进一步分析之前对图像进行预处理。...NiFi 提供了广泛的处理器,用于处理 CSV、JSON、Avro 等结构化数据格式,以及用于与数据库、API 和其他企业系统进行交互。...当你需要与 AI 模型或 Milvus 等其他外部系统进行交互时,Python 处理器提供了一种便捷的方式,可以将此功能集成到你的 NiFi 数据流中。...DetectObjectInImage:此处理器似乎利用深度学习技术进行 图像中的对象检测,使用户能够分析图像数据并提取有价值的见解。

    39110

    大数据流处理平台的技术选型参考

    在做技术选型时,需要选择适合需求、适合项目类型、适合团队的技术。这是实用主义的判断,而非理想主义的追捧。若是在实用的技术选型中,再能点燃一些些技术上的情怀,那就perfect了!...属性矩阵(Attributes Matrix) 我在《Apache下流处理项目巡览》一文中翻译了Janakiram的这篇文章,介绍了Apache基金会下最主流的流处理项目。...数据流模型 在进行流数据处理时,必然需要消费上游的数据源,并在处理数据后输出到指定的存储,以待之后的数据分析。站在流数据的角度,无论其对数据的抽象是什么,都可以视为是对消息的生产与消费。...内建的Source支持: Avro Thrift JMS Taildir Exec Spooling Directory Twitter Kafka NetCat Sequence Generator...除了可以用Java编写之外,还可以使用JavaScript、Python、R和Ruby。 NiFi NiFi对流模型的主要抽象为Processor,并且提供了非常丰富的数据源与数据目标的支持。 ?

    1.3K50

    为什么建议使用NIFI里的Record

    引子 许多第一次接触使用NIFI的同学在同步关系型数据库的某一张表的时候,可能会拖拽出类似于下面的一个流程。 ?...为什么建议使用NIFI里的Record 首先,NIFI是在框架的基础上,作为扩展功能,为我们提供了面向record数据、处理record数据的能力。...avro?xml?等等),我们在处理这些数据的时候,都可以使用一套通用的格式或者说规则,即record。 那么使用record有什么好处呢?...,我们只需关心数据从哪里来,到哪里去就可以了。...,而是类似于我们常见的ResultSet一样有个游标,可以一条一条返回record,这样的话,我们使用Record方式去处理一个json数组直接next()循环读取,进行处理,使用对应的RecordSetWriter

    1.8K20

    ExecuteSQL

    描述: 该处理器执行SQL语句,返回avro格式数据。处理器使用流式处理,因此支持任意大的结果集。处理器可以使用标准调度方法将此处理器调度为在计时器或cron表达式上运行,也可以由传入的流文件触发。...简单来说,数据库有自己的数据类型,avro格式数据也有自己的数据类型,两方的数据类型有些是能直接映射的,有些是需要转换的,文档中所说的DECIMAL/NUMBER, DATE, TIME 和TIMESTAMP...这些来源数据的类型在avro中就无法直接映射类型;这里提供了两种解决方法,第一种是上述类型统一转成字符串类型,具体值不变;另一种是转换成avro Logical Types,但数据值会变动转换。...按我使用一般这个属性设置为false,十进制/数字、日期、时间和时间戳列就写成字符串。最大的好处就是值不变(如下) ?...然后可以使用ConvertJsonToSql(从目标表获取元数据信息)或者写临时表,外部表等等,最后也会有很多方法成功写入到目标库。 ?

    1.5K10

    通过Kafka, Nifi快速构建异步持久化MongoDB架构

    如图所示,主要分为4个流程: 1.消费kafka topic数据 -> 2.从数据中提取出入库及路由等信息 -> 3.根据属性值进行路由 -> 4.写入MongoDB 消费Kafka数据 (ConsumeKafka...这里假设业务写到kafka的是json格式的数据,使用EvaluateJsonPath进行提取。...但是基于性能考虑,如果能区分insert和update,建议直接使用insert和update,这样入库的效率会比不加区分的使用upsert好很多。 ?...下面介绍其中几个主要配置: Mongo URI:mongos或mongod的连接串(uri) Mongo Database Name:填写要插入的数据库名,可以直接填写数据库名,也可以使用表达式语言。...NIFI提供了表达式语言的支持,这里${db}表示通过表达式语言取上一步传递下来的数据库属性信息。

    3.7K20

    大数据NiFi(十九):实时Json日志数据导入到Hive

    如果要Tail的文件是定期"rolled over(滚动)"的(日志文件通常是这样),则可以使用可选的"Rolling Filename Pattern"从已滚动的文件中检索数据,NiFi未运行时产生的滚动文件在...,支持${filename}属性指定模式。如果NiFi重启,已经滚动的文件也能从停止的位置监控到。 Base directory (基本目录) 用于查找需要tail的文件的基本目录。...当处理器从文件中提取数据后,处理器将从上一次接收数据的最位置继续tail数据。...示例说明: 提取流文件json内容,作为输出流的属性。...这里我们使用“ReplaceText”处理器将上个处理器“EvaluateJsonPath”处理后的每个FlowFile内容替换成自定义的内容,这里自定义内容都是从FlowFile的属性中获取的值,按照

    2.4K91

    Provenance存储库原理

    这样做是因为,如果还发送了属性本身,那么准确地知道发送了什么信息就很重要。 在运行NiFi时,会有16个Provenance日志文件的滚动组。...然后,可以选择对文件进行压缩(由nifi.provenance.repository.compress.on.rollover属性确定)。最后,使用Lucene对事件进行索引并使其可用于查询。...其次,如果我们知道每个分片的时间范围,则可以轻松地使用多个线程进行搜索。而且,这种分片还允许更有效的删除。NiFi会等到计划删除某个分片中的所有事件,然后再从磁盘删除整个分片。...这不仅使我们能够根据需要更改架构,而且还避免了将Provenance Event转换为中间数据结构(例如Avro Record)的开销,这样就可以将其序列化到磁盘上,然后执行反序列化时也是一样。...然后,一个单独的线程将从队列中提取此信息,并在Lucene中对数据进行索引。

    98220

    大数据NiFi(十七):NiFi术语

    二、FlowFile FlowFile代表NiFi中的单个数据。FlowFile由属性(attribute)和内容(content)组成。...内容是FlowFile表示的数据,属性由键值对组成,提供有关数据的信息或上下文的特征。所有FlowFiles都具有以下标准属性: uuid:一个通用唯一标识符,用于区分各个FlowFiles。...三、Processor 处理器是NiFi组件,用于监听传入数据、从外部来源提取数据、将数据发布到外部来源、路由,转换或从FlowFiles中提取信息。...六、Controller Service 控制器服务是扩展点,在用户界面中由DFM添加和配置后,将在NiFi启动时启动,并提供给其他组件(如处理器或其他控制器服务)需要的信息。...此外,NiFi在更新时会自动备份此文件,您可以使用这些备份来回滚配置,如果想要回滚,先停止NiFi,将flow.xml.gz替换为所需的备份,然后重新启动NiFi。

    1.7K11

    Apache Nifi的工作原理

    Apache Nifi鸟瞰视图-Nifi从多个数据源中提取数据,对其进行充实并转换以填充到键值存储。 易于使用 处理器- 通过连接器连接的框- 箭头创建了流程。N iFi提供基于流的编程 体验。...另外,在操作之前是否需要进行多次清洁操作? NiFi无缝地从多个数据源中提取数据,并提供了处理数据中不同模式的机制。因此,当数据种类繁多时,它会很有优势。 如果数据准确性不高,则Nifi尤其有价值。...你应该使用NiFi吗? NiFi品牌本身就易于使用。尽管如此,它还是一个企业数据流平台。它提供了一套完整的功能,您可能只需要其中的一部分即可。将新工具添加到堆栈中不是良性的。...如果您是从头开始并管理来自受信任数据源的一些数据,那么最好设置“提取转换和加载-ETL”管道。您可能只需要从数据库中捕获更改数据 和一些数据准备脚本即可。...但是,如果您必须使用NiFi,则可能需要更多地了解其工作原理。 在第二部分中,我将说明使用模式的Apache NiFi的关键概念。此后的黑匣子模型将不再是您的黑匣子。

    4K10

    了解NiFi内容存储库归档怎样工作

    nifi.properties文件中有三个属性涉及 NiFi 内容存储库中内容的存档。...配置的 max usage percentage 会告诉NiFi它应该在什么时候开始清除已归档的内容声明,以使整体磁盘使用率保持在或低于所配置的值。 以上两个属性是使用or策略强制执行的。...在nifi.properties文件中可以找到控制内容声明构建方式的属性。...配置的max appendable size 会告诉NiFi NiFi在开始新声明之前应在什么时候停止将附加内容附加到现有内容声明中。 这并不意味着NiFi提取的所有内容都必须小于10 MB。...如果只处理很小的数据或非常大的数据,则使用默认值。 如果您要处理的数据范围从非常小到非常大,则可能需要max appendable size和max flow file设置。

    2K00
    领券