首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Kettle构建Hadoop ETL实践(七):定期自动执行ETL作业

工作流作业是由一系列动作构成的有向无环图(DAGs),协调器作业是按时间频率周期性触发Oozie工作流的作业,Bundle管理协调器作业。...第二版Oozie是一个基于协调器引擎的服务器,按时间和数据触发工作流执行。它可以基于时间(如每小时执行一次)或数据可用性(如等待输入数据完成后再执行)连续运行工作流。...Oozie协调器系统允许用户定义周期性执行的工作流作业,还可以定义工作流之间的依赖关系。和工作流作业类似,定义协调器作业也要创建配置文件和属性文件。...,并给协调器作业定义文件中的形参赋值。...Oozie是一个管理Hadoop作业、可伸缩、可扩展、可靠的工作流调度系统,它内部定义了三种作业:工作流作业、协调器作业和Bundle作业。 Oozie的工作流定义中包含控制节点和动作节点。

6.4K54

针对 Hadoop 的 Oozie 工作流管理引擎的实际应用

该框架(如图 1 所示)使用 Oozie协调器促进了相互依赖的重复工作之间的协调,您可以使用预定的时间或数据可用性来触发 Apache Oozie。...作为本练习的一部分,Oozie 运行了一个 Apache Sqoop 作业,以便在 MySQL数据库中的数据上执行导入操作,并将数据传输到 Hadoop 分布式文件系统 (HDFS) 中。...同理,可执行 Java操作来更新 Sqoop 作业所需的 MySQL 数据库中的元数据。 图 1. Oozie 编排架构 ?...您可以配置一个 Sqoop 操作(如清单12 所示)来删除 HDFS 上的文件和目录,然后再启动 Sqoop 作业。...Apache Oozie工作流促进了数据逻辑流程的设计、错误处理、故障转移机制等。您可以配置 Oozie协调器或捆绑的应用程序来有效地管理工作流,不过,关于这些主题的讨论已超出了本文的讨论范围。

1.1K30
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    基于Hadoop生态圈的数据仓库实践 —— ETL(三)

    Oozie简介 (1)Oozie是什么 Oozie是一个管理Hadoop作业、可伸缩、可扩展、可靠的工作流调度系统,其工作流作业是由一系列动作构成的有向无环图(DAGs),协调器作业是按时间频率周期性触发的...第一版Oozie是一个基于工作流引擎的服务器,通过执行Hadoop Map/Reduce和Pig作业的动作运行工作流作业。第二版Oozie是一个基于协调器引擎的服务器,按时间和数据触发工作流执行。...它可以基于时间(如每小时执行一次)或数据可用性(如等待输入数据完成后再执行)连续运行工作流。第三版Oozie是一个基于Bundle引擎的服务器。它提供更高级别的抽象,批量处理一系列协调器应用。...Oozie协调程序让我们可以以谓词的方式对工作流执行触发器进行建模,那可以指向数据、事件和(或)外部事件。工作流作业会在谓词得到满足的时候启动。...Oozie协调程序支持创建这样的数据应用管道。 (4)CDH 5.7.0中的Oozie 2.

    1K20

    【20】进大厂必须掌握的面试题-50个Hadoop面试

    使用方法set Partitioner将自定义分区程序添加到作业中,或将自定义分区程序作为配置文件添加到作业中。 32.什么是“合并器”? “组合器”是执行本地“减少”任务的微型“减少器”。...区域服务器将一组区域提供给客户端。 HMaster\:它协调和管理区域服务器(类似于NameNode在HDFS中管理DataNode)。...ZooKeeper\:Zookeeper充当HBase分布式环境中的协调者。通过会话进行通信,有助于维护群集内的服务器状态。 43.区域服务器的组成部分是什么?...每个运动员都在等待最后一个运动员完成比赛的地方。 Oozie协调器\:这些是Oozie作业,这些作业在数据可用时触发。将此视为我们体内的反应刺激系统。...以同样的方式,当我们对外部刺激做出响应时,Oozie协调员会对数据的可用性做出响应,而其他情况则不然。 50.如何在Hadoop中配置“ Oozie”作业?

    1.9K10

    HAWQ取代传统数仓实践(五)——自动调度工作流(Oozie、Falcon)

    一、Oozie简介         Oozie是一个管理Hadoop作业、可伸缩、可扩展、可靠的工作流调度系统,它内部定义了三种作业:工作流作业、协调器作业和Bundle作业。...工作流作业是由一系列动作构成的有向无环图(DAGs),协调器作业是按时间频率周期性触发Oozie工作流的作业,Bundle管理协调器作业。...为什么使用Oozie         使用Oozie主要基于以下两点原因: 在Hadoop中执行的任务有时候需要把多个MapReduce作业连接到一起执行,或者需要多个作业并行处理。...Oozie可以把多个MapReduce作业组合到一个逻辑工作单元中,从而完成更大型的任务。...Oozie协调程序让我们可以用谓词的方式对工作流执行触发器进行建模,谓词可以是时间条件、数据条件、内部事件或外部事件。工作流作业会在谓词得到满足的时候启动。

    2K60

    OushuDB入门(六)——任务调度篇

    一、Oozie简介 Oozie是一个管理Hadoop作业、可伸缩、可扩展、可靠的工作流调度系统,它内部定义了三种作业:工作流作业、协调器作业和Bundle作业。...工作流作业是由一系列动作构成的有向无环图(Directed Acyclic Graph,DAG),协调器作业是按时间频率周期性触发Oozie工作流的作业,Bundle管理协调器作业。...Oozie可以把多个MapReduce作业组合到一个逻辑工作单元中,从而完成更大型的任务。...当前运行的工作流实例,包括实例的状态和变量。 Oozie工作流是放置在DAG中的一组动作,例如,Hadoop的Map/Reduce作业、Pig作业等。...Oozie协调程序让我们可以用谓词的方式对工作流执行触发器进行建模,谓词可以是时间条件、数据条件、内部事件或外部事件。工作流作业会在谓词得到满足的时候启动。

    73910

    hadoop记录

    区域服务器为客户端提供一组区域。 HMaster:它协调和管理Region Server(类似于NameNode 管理HDFS 中的DataNode)。...ZooKeeper:Zookeeper 就像 HBase 分布式环境中的协调器。它有助于通过会话进行通信来维护集群内的服务器状态。 要了解更多信息,您可以浏览此HBase 架构博客。...Oozie 和 ZooKeeper 面试问题 49. Apache ZooKeeper 和 Apache Oozie 是什么? Apache ZooKeeper 协调分布式环境中的各种服务。...Apache Oozie 是一个调度程序,它调度 Hadoop 作业并将它们作为一个逻辑工作绑定在一起。有两种 Oozie 作业: Oozie 工作流:这些是要执行的顺序操作集。您可以将其视为接力赛。...以同样的方式,当我们对外部刺激做出反应时,Oozie 协调器会对数据的可用性做出反应,否则就会休息。 50. 如何在 Hadoop 中配置“Oozie”作业?

    96730

    hadoop记录 - 乐享诚美

    区域服务器为客户端提供一组区域。 HMaster:它协调和管理Region Server(类似于NameNode 管理HDFS 中的DataNode)。...ZooKeeper:Zookeeper 就像 HBase 分布式环境中的协调器。它有助于通过会话进行通信来维护集群内的服务器状态。 要了解更多信息,您可以浏览此HBase 架构博客。...Oozie 和 ZooKeeper 面试问题 49. Apache ZooKeeper 和 Apache Oozie 是什么? Apache ZooKeeper 协调分布式环境中的各种服务。...Apache Oozie 是一个调度程序,它调度 Hadoop 作业并将它们作为一个逻辑工作绑定在一起。有两种 Oozie 作业: Oozie 工作流:这些是要执行的顺序操作集。您可以将其视为接力赛。...以同样的方式,当我们对外部刺激做出反应时,Oozie 协调器会对数据的可用性做出反应,否则就会休息。 50. 如何在 Hadoop 中配置“Oozie”作业?

    22830

    Oozie 快速入门

    简介 Oozie是一个基于工作流引擎的服务器,可以在上面运行Hadoop的Map Reduce和Pig任务。...它其实就是一个运行在Java Servlet容器(比如Tomcat)中的Javas Web应用。...对于Oozie来说,工作流就是一系列的操作(比如Hadoop的MR,以及Pig的任务),这些操作通过有向无环图的机制控制。...总结来说 Oozie是管理Hadoop作业的工作流调度系统 Oozie的工作流是一系列的操作图 Oozie协调作业是通过时间(频率)以及有效数据触发当前的Oozie工作流程 Oozie是针对Hadoop...开发的开源工作流引擎,专门针对大规模复杂工作流程和数据管道设计 Oozie围绕两个核心:工作流和协调器,前者定义任务的拓扑和执行逻辑,后者负责工作流的依赖和触发。

    1.1K80

    进击大数据系列(十一)Hadoop 任务调度框架 Oozie

    Oozie的特点 Oozie 是管理hadoop作业的调度系统 Oozie 的工作流作业是一系列动作的有向无环图(DAG) Oozie 协调作业是通过时间(频率)和有效数据触发当前的Oozie工作流程...运行环境: Oozie的action主要运行在hadoop中而Azkaban的actions运行在Azkaban的服务器中。...Coordinator Coordinator 将多个工作流 Job 组织起来,称为 Coordinator Job,并指定触发时间和频率,还可以配置数据集、并发数等,类似于在工作流外部增加了一个协调器来管理这些工作流的工作流...的所有配置,可以使用如下命令运行oozie(注意,启动之前必须先启动hadoop): bin/oozied.sh start 启动之后,可以在浏览器中通过11000端口访问oozie前端控制台,如下图所示...定时任务/循环任务 分步实现: 1)配置Linux时区以及时间服务器 2)检查系统当前时区: # date -R 注意:如果显示的时区不是+0800,删除localtime文件夹后,再关联一个正确时区的链接过去

    71520

    Hadoop的生态系统介绍

    2.2 Yarn(集群资源管理和调度系统) YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,...Tez是Apache最新的支持DAG作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能。...最终,处理过的数据可以被推送到文件系统,数据库和HDFS。 2.23 Oozie(作业流调度系统) Oozie是一个用于管理Apache Hadoop作业的工作流调度程序系统。...Oozie与Hadoop技术栈的项目集成,支持多种类型的Hadoop作业(例如Java map-reduce,Streaming map-reduce,Pig,Hive,Sqoop和Spark)以及系统特定的工作...2.24 Zookeeper(分布式协调服务系统) ZooKeeper是一个开放源码的分布式协调服务,它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。

    1.2K40

    如何使用Oozie API接口向非Kerberos环境的CDH集群提交Spark作业

    作业的方式有多种,前面Fayson介绍了Livy相关的文章主要描述如何在集群外节点通过RESTful API接口向CDH集群提交Spark作业,本篇文章我们借助于oozie-client的API接口向非...Livy相关文章: 《Livy,基于Apache Spark的开源REST服务,加入Cloudera Labs》 《如何编译Livy并在非Kerberos环境的CDH集群中安装》 《如何通过Livy的RESTful...API接口向非Kerberos环境的CDH集群提交作业》 《如何在Kerberos环境的CDH集群部署Livy》 《如何通过Livy的RESTful API接口向Kerberos环境的CDH集群提交作业...] 可以看到作业已运行成功,到此已完成了通过OozieAPI接口创建workflow并运行的示例演示。...对象将K,V值存储并传入oozieClient.run(properties)中。

    1.5K70

    如何使用Oozie API接口向Kerberos环境的CDH集群提交Spark作业

    作业的方式有多种,前面Fayson介绍了Livy相关的文章主要描述如何在集群外节点通过RESTful API接口向CDH集群提交Spark作业以及《如何使用Oozie API接口向非Kerberos环境的...CDH集群提交Spark作业》,本篇文章主要介绍使用Oozie的API接口向Kerberos集群提交Spark作业。...Livy相关文章: 《Livy,基于Apache Spark的开源REST服务,加入Cloudera Labs》 《如何编译Livy并在非Kerberos环境的CDH集群中安装》 《如何通过Livy的RESTful...API接口向非Kerberos环境的CDH集群提交作业》 《如何在Kerberos环境的CDH集群部署Livy》 《如何通过Livy的RESTful API接口向Kerberos环境的CDH集群提交作业...在指定HDFS上运行的jar或workflow的路径时需要带上HDFS的路径,否则默认会找到本地的目录 向Kerberos集群提交作业需要在程序中加载JAAS配置 Oozie-client提供了Kerberos

    2K70

    Hadoop数据分析平台实战——180Oozie工作流使用介绍离线数据分析平台实战——180Oozie工作流使用介绍

    Sub-workflow节点 sub-workflow 该节点会调用一个子workflow Kill节点 kill 该节点会是oozie服务器杀死当前的workflow作业 Workflow默认支持的...异步 Shell动作 shell 运行一个shell作业 同步 Email动作 email 发送一个email邮件 同步 SSH动作 ssh 调用oozie服务器上的指定shell脚本 同步 Sqoop...动作 sqoop 运行一个sqoop作业 异步 Distcp动作 distcp 该动作运行一个分布式复制作业 异步 Workflow异步操作 Workflow中的所有异步操作(action)都需要在hadoop...oozie提供这两种方式来控制任务,将资源密集型的任务放到服务节点之外,使oozie节约服务器资源,确保单个oozie服务器可以支持上千个作业。...定义fs动作,判断文件夹存在,就删除,如果不存在,不进行任何操作。 定义shell动作,在服务器的tmp目录下创建一个文件夹。 定义hive动作,执行sql脚本,将数据导入到hive中的表中。

    1.1K50

    初识大数据与Hadoop

    在整个 Hadoop 架构中,计算框架(如 MapReduce、Tez 等)起到承上启下的作用,一方面可以操作 HDFS 中的数据,另一方面可以被封装,以方便上层组件(如 Hive、Pig 等)调用。...并且,在 NameNode 的统一调度下进行数据块的创建、删除和复制。...在 MapReduce 中,一个准备提交执行的应用程序称为 “作业(job)”,而从一个作业划分出的运行于各个计算节点的工作单元称为 “任务(task)”。...举个官方提供的 WordCount 例子,如下图。 ? 在 WordCount 程序中,MapReduce 会对输入的作业(job)先进性切分,这一步其实就是分治算法中 “分” 的过程。...Hive 的核心是驱动引擎,它由四部分组成:解释器、编译器、优化器、执行器。 (4)元数据存储系统 Hive 中的元数据一般包括:数据库的基本信息、表的基本信息等。

    55710

    CDH——Cloudera’s Distribution Including Apache Hadoop

    通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据。 例如操作HDFS上的数据、运行Hive脚本、管理Oozie任务等等。...,报表生成 通过web调试和开发impala交互式查询 spark调试和开发 Pig开发和调试 oozie任务的开发,监控,和工作流协调调度 Hbase数据查询和修改,数据展示 Hive的元数据(metastore...Impala 使用 Impala 的使用 SQL 与 Hive 的使用类似,但是不支持 Hive 一些特殊操作,如: UDF等。...Impala 与 HBase 整合 与 Hive 和 HBase 整合类似 安装OOZIE Oozie 是用于 Hadoop 平台的开源的工作流调度引擎, 用来管理 Hadoop 作业 属于...注意:如果出现了错误信息, 也是通过这样的方式进行追错!!! 使用Oozie 图形化编辑器执行(Workflow 工作流) ?

    1.5K30
    领券