开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

在shell oozie操作中读取python脚本中的hive表

，可以通过以下步骤实现：

首先，确保已经安装了Python和Oozie，并且配置了正确的环境变量。
创建一个shell脚本，用于执行Python脚本并读取hive表。脚本内容如下：

#!/bin/bash

# 执行Python脚本
python your_python_script.py

# 读取hive表
hive -e "SELECT * FROM your_hive_table;"

在Oozie中创建一个workflow，用于调度执行上述shell脚本。workflow的XML配置文件如下：

<workflow-app xmlns="uri:oozie:workflow:0.5" name="shell-oozie-workflow">
    <start to="shell-node"/>
    <action name="shell-node">
        <shell xmlns="uri:oozie:shell-action:0.3">
            <job-tracker>${jobTracker}</job-tracker>
            <name-node>${nameNode}</name-node>
            <exec>your_shell_script.sh</exec>
            <file>${workflowAppUri}/your_shell_script.sh#your_shell_script.sh</file>
        </shell>
        <ok to="end"/>
        <error to="fail"/>
    </action>
    <kill name="fail">
        <message>Shell action failed, error message[${wf:errorMessage(wf:lastErrorNode())}]</message>
    </kill>
    <end name="end"/>
</workflow-app>

在Oozie中创建一个coordinator，用于调度执行上述workflow。coordinator的XML配置文件如下：

<coordinator-app xmlns="uri:oozie:coordinator:0.5" name="shell-oozie-coordinator" frequency="${coord:days(1)}" start="${start_time}" end="${end_time}" timezone="UTC">
    <controls>
        <timeout>60</timeout>
        <concurrency>1</concurrency>
        <execution>FIFO</execution>
    </controls>
    <datasets>
        <dataset name="input" frequency="${coord:days(1)}" initial-instance="${start_time}" timezone="UTC">
            <uri-template>your_input_path</uri-template>
        </dataset>
    </datasets>
    <input-events>
        <data-in name="input_data" dataset="input">
            <instance>${coord:current(0)}</instance>
        </data-in>
    </input-events>
    <action>
        <workflow>
            <app-path>${workflowAppUri}/your_workflow.xml</app-path>
        </workflow>
    </action>
</coordinator-app>

请注意，上述配置文件中的${jobTracker}、${nameNode}、${workflowAppUri}、${start_time}、${end_time}、your_python_script.py、your_hive_table、your_input_path等需要根据实际情况进行替换。

以上是在shell oozie操作中读取python脚本中的hive表的步骤。在实际应用中，可以根据具体需求进行调整和优化。

相关搜索:Shell脚本在目录中查找文件，如何传入python脚本从shell脚本中的Python脚本创建文件使用oozie的shell脚本中的echo map reduce输出使用python脚本中的参数执行shell脚本使用shell脚本读取html文件中的值使用SSH在shell中启动Python脚本在docker容器中输入的Shell脚本在shell中连接到FTP的脚本在shell脚本中的一行中编写多行python代码在windows shell中多次运行python脚本。

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Hadoop离线数据分析平台实战——430MR和Hive任务Oozie部署Hadoop离线数据分析平台实战——430MR和Hive任务Oozie部署

Hadoop离线数据分析平台实战——430MR和Hive任务Oozie部署参考：oozie\package-info.java 项目进度模块名称完成情况用户基本信息分析(MR)� 完成浏览器信息分析(MR) 完成地域信息分析(MR) 完成外链信息分析(MR) 完成用户浏览深度分析(Hive) 完成订单分析(Hive) 完成事件分析(Hive) 完成 MR程序Oozie workflow部署 MR程序有两种方式进行oozie部署，第一种就是使

09

Hue中使用Oozie创建Shell工作流在脚本中切换不同用户

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github：https://github.com/fayson/cdhproject 1.文档编写目的前面Fayson讲过《Hue中使用Oozie创建Ssh工作流时sudo命令执行失败问题分析》，如果不在Shell脚本中使用sudo命令该如何切换到其它呢？本篇文章主要讲述如何Hue中使用Oozie创建Shell工作流在脚本中切换用户执行Hadoop命令。本文脚本中的主要流程如下：内容概述 1.编写测试shell脚本 2.准备

09

Hue中使用Oozie创建Shell工作流在脚本中切换不同用户

前面Fayson讲过《Hue中使用Oozie创建Ssh工作流时sudo命令执行失败问题分析》，如果不在Shell脚本中使用sudo命令该如何切换到其它呢？本篇文章主要讲述如何Hue中使用Oozie创建Shell工作流在脚本中切换用户执行Hadoop命令。本文脚本中的主要流程如下：

05

CDH——Cloudera’s Distribution Including Apache Hadoop

补充: 为什么在 Hadoop 2.x 中 HDFS 中有 ZKFC 进程，而 yarn 却没有？在 Hadoop 1.x 升级到 Hadoop 2.x 的过程中，考虑到向下兼容的问题， NameNode 进程没有嵌入 ZKFC 中的代码，而另外开辟一个进程 ZKFC 。再者由于 Hadoop 1.x 中没有 yarn 组件，Hadoop 2.x 中才出现的 yarn 组件，所以 yarn 不用考虑向下兼容的问题，即 ResourceManager 进程就直接嵌入 ZKFC 中的代码，只运行一个进程。

03

大数据学习之路（持续更新中...）

在16年8月份至今，一直在努力学习大数据大数据相关的技术，很想了解众多老司机的学习历程。因为大数据涉及的技术很广需要了解的东西也很多，会让很多新手望而却步。所以，我就在自己学习的过程中总结一下学到的内容以及踩到的一些坑，希望得到老司机的指点和新手的借鉴。前言在学习大数据之前，先要了解他解决了什么问题，能给我们带来什么价值。一方面，以前IT行业发展没有那么快，系统的应用也不完善，数据库足够支撑业务系统。但是随着行业的发展，系统运行的时间越来越长，搜集到的数据也越来越多，传统的数据库已经不能支撑全量数

08

针对 Hadoop 的 Oozie 工作流管理引擎的实际应用

Apache Oozie 是用于 Hadoop 平台的一种工作流调度引擎。该框架（如图 1 所示）使用 Oozie协调器促进了相互依赖的重复工作之间的协调，您可以使用预定的时间或数据可用性来触发 Apache Oozie。您可以使用 Oozie bundle系统提交或维护一组协调应用程序。作为本练习的一部分，Oozie 运行了一个 Apache Sqoop 作业，以便在 MySQL数据库中的数据上执行导入操作，并将数据传输到 Hadoop 分布式文件系统 (HDFS) 中。可以利用导入的数据集执行 Sqoop合并操作，从而更新较旧的数据集。通过利用 UNIX shell 操作，可从 MySQL 数据库中提取用来执行 Sqoop 作业的元数据。同理，可执行 Java操作来更新 Sqoop 作业所需的 MySQL 数据库中的元数据。

03

Azkaban介绍

● 一个完整的数据分析系统通常都是由大量任务单元组成： shell脚本程序，java程序，mapreduce程序、hive脚本等 ● 各任务单元之间存在时间先后及前后依赖关系 ● 为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行；

02

660-6.2.0-无法在启用Sentry的集群中使用TRANSFORM问题分析

Hive的TRANSFORM关键字提供了在SQL中调用自写脚本的功能。在不想写Hive UDF的情况下，可以通过使用Python脚本来实现UDF功能。

02

Hadoop数据分析平台实战——180Oozie工作流使用介绍离线数据分析平台实战——180Oozie工作流使用介绍

离线数据分析平台实战——180Oozie工作流使用介绍 Oozie工作流介绍 Oozie的四大组件服务分别是: workflow, coordinator, bundle和sla。其中sla是作为监控服务协议的一个组件， workflow定义oozie的基本工作流， coordinator定义定时(或者是根据其他资源指标)运行的workflow任务， bundle是将多个coordinator作为一个组件一起管理。也就是说workflow是oozie中最基本的一个服务组件。三大服务的的关系

05

OushuDB入门（六）——任务调度篇

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/80408771

01

Azkaban快速入门系列(1) | Azkaban的简单介绍

例如，我们可能有这样一个需求，某个业务系统每天产生20G原始数据，我们每天都要对其进行处理，处理步骤如下所示：

01

Oozie多任务串联和定时任务执行？看这篇就懂了!

写在前面：博主是一名大数据的初学者，昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白，写博客一方面是为了记录自己的学习历程，一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限，博客中难免会有一些错误，有纰漏之处恳请各位大佬不吝赐教！个人小站:http://alices.ibilibili.xyz/ , 博客主页:https://alice.blog.csdn.net/ 尽管当前水平可能不及各位大佬，但我还是希望自己能够做得更好，因为一天的生活就是一生的缩影。

03

Kettle构建Hadoop ETL实践（七）：定期自动执行ETL作业

一旦数据仓库开始使用，就需要不断从源系统给数据仓库提供新数据。为了确保数据流的稳定，需要使用所在平台上可用的任务调度器来调度ETL定期执行。调度模块是ETL系统必不可少的组成部分，它不但是数据仓库的基本需求，也对项目的成功起着举足轻重的作用。

05

Ambari自定义服务干货

“ ambari自定义服务干货，非常干的那种”

04

如何使用Hue上创建一个完整Oozie工作流

在使用CDH集群中经常会有一些特定顺序的作业需要在集群中运行，对于需要多个作业顺序执行的情况下，如何能够方便的构建一个完整的工作流在CDH集群中执行，前面Fayson也讲过关于Hue创建工作流的一系列文章具体可以参考《如何使用Hue创建Spark1和Spark2的Oozie工作流》、《如何使用Hue创建Spark2的Oozie工作流（补充）》、《如何在Hue中创建Ssh的Oozie工作流》。本篇文章主要讲述如何使用Hue创建一个以特定顺序运行的Oozie工作流。本文工作流程如下：

06

什么是Oozie？如何使用Oozie？蒟蒻博主带你快速上手Oozie!

本篇博客，博主为大家介绍的是Oozie，一种运行在hadoop平台上的工作流调度引擎。如果看完后有点收获，不妨给博主一个大大的赞|ू･ω･` )

02

在Kerberos环境使用Hue通过Oozie执行Sqoop作业报错异常分析

关于Sqoop抽取Hive Parquet表数据到MySQL可以参考Fayson前面的文章《Sqoop抽取Hive Parquet表数据到MySQL异常分析》。

04

使用Spark读取Hive中的数据

在默认情况下，Hive使用MapReduce来对数据进行操作和运算，即将HQL语句翻译成MapReduce作业执行。而MapReduce的执行速度是比较慢的，一种改进方案就是使用Spark来进行数据的查找和运算。Hive和Spark的结合使用有两种方式，一种称为Hive on Spark：即将Hive底层的运算引擎由MapReduce切换为Spark，官方文档在这里：Hive on Spark: Getting Started。还有一种方式，可以称之为Spark on Hive：即使用Hive作为Spark的数据源，用Spark来读取HIVE的表数据（数据仍存储在HDFS上）。

06

一起揭开 PySpark 编程的神秘面纱

在开始讲解PySpark程序启动原理之前，我们先来了解一下Spark的一些概念和特性。

01

一起揭开 PySpark 编程的神秘面纱

Spark 是 UC Berkeley AMP lab 开发的一个集群计算的框架，类似于 Hadoop，但有很多的区别。最大的优化是让计算任务的中间结果可以存储在内存中，不需要每次都写入 HDFS，更适用于需要迭代的 MapReduce 算法场景中，可以获得更好的性能提升。例如一次排序测试中，对 100TB 数据进行排序，Spark 比 Hadoop 快三倍，并且只需要十分之一的机器。Spark 集群目前最大的可以达到 8000 节点，处理的数据达到 PB 级别，在互联网企业中应用非常广泛。

02

【Spark数仓项目】需求八：MySQL的DataX全量导入和增量导入Hive

本需求将模拟从MySQL中向Hive数仓中导入数据，数据以时间分区。测试两种导入场景，一种是将数据全量导入，即包含所有时间分区；另一种是每天运行调度，仅导入当天时间分区中的用户数据。

01

基于Hadoop生态圈的数据仓库实践 —— ETL（三）

三、使用Oozie定期自动执行ETL 1. Oozie简介（1）Oozie是什么 Oozie是一个管理Hadoop作业、可伸缩、可扩展、可靠的工作流调度系统，其工作流作业是由一系列动作构成的有向无环图（DAGs），协调器作业是按时间频率周期性触发的Oozie工作流作业。Oozie支持的作业类型有Java map-reduce、Streaming map-reduce、Pig、 Hive、Sqoop和Distcp，及其Java程序和shell脚本等特定的系统作业。第一版Oozie是一个基于工作流引擎的服务器，通过执行Hadoop Map/Reduce和Pig作业的动作运行工作流作业。第二版Oozie是一个基于协调器引擎的服务器，按时间和数据触发工作流执行。它可以基于时间（如每小时执行一次）或数据可用性（如等待输入数据完成后再执行）连续运行工作流。第三版Oozie是一个基于Bundle引擎的服务器。它提供更高级别的抽象，批量处理一系列协调器应用。用户可以在bundle级别启动、停止、挂起、继续、重做协调器作业，这样可以更好地简化操作控制。（2）为什么需要Oozie

02

Python执行hive sql

该python脚本是用于执行hive脚本的，需要设置hive的可执行环境变量，其实质转化为shell下命令 hive -e 'sql语句’ 的方式执行，然后把结果重定向到控制台显示。注：由于该脚本是直接调用shell中的hive命令，所以需要在安装hive的服务器上执行。

01

使用Spark进行数据统计并将结果转存至MSSQL

在使用Spark读取Hive中的数据中，我们演示了如何使用python编写脚本，提交到spark，读取并输出了Hive中的数据。在实际应用中，在读取完数据后，通常需要使用pyspark中的API来对数据进行统计或运算，并将结果保存起来。本节将演示这一过程。

02

Python在HiveQL中的运用

在写HiveQL的时候，往往发现内置函数不够用，Hive支持用户自定义函数UDF，使用Java进行开发。很多时候这显得过于繁重。因而Hive中提供了Transform机制（基于hadoop streaming），这种机制相当于提供了一个脚本程序的入口，因此我们可以很方便的使用shell、perl、python等语言进行开发。

04

HAWQ取代传统数仓实践（五）——自动调度工作流（Oozie、Falcon）

一旦数据仓库开始使用，就需要不断从源系统给数据仓库提供新数据。为了确保数据流的稳定，需要使用所在平台上可用的任务调度器来调度ETL定期执行。调度模块是ETL系统必不可少的组成部分，它不

06

大数据学习路线是什么，小白学大数据学习路线

大数据这个话题热度一直高居不下，不仅是国家政策的扶持，也是科技顺应时代的发展。想要学习大数据，我们该怎么做呢？大数据学习路线是什么？先带大家了解一下大数据的特征以及发展方向。

03

一键式完全删除CDH 6.3.1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

03

大数据架构师从入门到精通学习必看宝典

经常有初学者在博客和QQ问我，自己想往大数据方向发展，该学哪些技术，学习路线是什么样的，觉得大数据很火，就业很好，薪资很高。如果自己很迷茫，为了这些原因想往大数据方向发展，也可以，那么我就想问一下，你

03

大数据初学者该如何快速入门？

很多人都知道大数据很火，就业很好，薪资很高，想往大数据方向发展。但该学哪些技术，学习路线是什么样的呢？用不用参加大数据培训呢？如果自己很迷茫，为了这些原因想往大数据方向发展，也可以，那么大讲台老师就想问一下，你的专业是什么，对于计算机/软件，你的兴趣是什么？是计算机专业，对操作系统、硬件、网络、服务器感兴趣？是软件专业，对软件开发、编程、写代码感兴趣？还是数学、统计学专业，对数据和数字特别感兴趣。

06

初识大数据与Hadoop

在大数据时代，基于大数据技术的职位更有钱途，因此成为很多人的职业首选。在大数据技术中，大家常常听到 Hadoop，很多刚开始接触的人会问，什么是 Hadoop？它有什么作用？下面笔者就跟大家唠叨唠叨。

01

[源码解析]Oozie来龙去脉之提交任务

Oozie是由Cloudera公司贡献给Apache的基于工作流引擎的开源框架，是Hadoop平台的开源的工作流调度引擎，用来管理Hadoop作业。本文是系列的第一篇，介绍Oozie的任务提交阶段。

03

写给大数据开发初学者的话 | 附教程

公众号开了快一年了，名字叫学一学大数据。但是一直没有分享关于大数据的文章，如是就抽出时间来给大家分享下大数据整理的技术路线及生态全景。先扯一下大数据的4V特征：数据量大，TB->PB 数据类型繁多，结构化、非结构化文本、日志、视频、图片、地理位置等；商业价值高，但是这种价值需要在海量数据之上，通过数据分析与机器学习更快速的挖掘出来；处理时效性高，海量数据的处理需求不再局限在离线计算当中。现如今，正式为了应对大数据的这几个特点，开源的大数据框架越来越多，越来越强，先列举一些常见的：文件存储：Had

04

大数据-Azkaban介绍

各任务单元之间存在时间先后及前后依赖关系, 为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行；

02

如何卸载CDH7.1.1

在主节点使用命令：systemctl stop cloudera-scm-server 停止服务

02

如何在Oozie中创建有依赖的WorkFlow

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在使用Hue创建WorkFlow时，单个WorkFlow中可以添加多个模块的依赖，使各个模块之间在WorkFlow内产生依赖关系，如果对于一个WorkFlow被其它多个WorkFlow依赖（如：AWorkFlow执行成功后，BWorkFlow和CWorkFlow依赖AWorkFl

09

客快物流大数据项目（七十八）：Hue简介

HUE是一个开源的Apache Hadoop UI系统，早期由Cloudera开发，后来贡献给开源社区。该web应用的后台采用python编程语言编写的。通过使用Hue我们可以通过浏览器方式操纵Hadoop集群进行交互来分析处理数据。

05

如何在HUE上通过oozie调用Hive SQL工作流

执行Hive SQL脚本查询mytable表数据前10条，field以”\t”分割，并输出到hdfs指定路径。

02

0818-7.1.1-如何卸载CDP

以上三种方法也可以只使用于关键数据，具体使用哪种方法，可以根据自己集群的规模和数据量大小具体选择。

03

写给大数据开发初学者的话

导读：第一章：初识Hadoop 第二章：更高效的WordCount 第三章：把别处的数据搞到Hadoop上第四章：把Hadoop上的数据搞到别处去第五章：快一点吧，我的SQL 第六章：一夫多妻制第七章：越来越多的分析任务第八章：我的数据要实时第九章：我的数据要对外第十章：牛逼高大上的机器学习经常有初学者在博客和QQ问我，自己想往大数据方向发展，该学哪些技术，学习路线是什么样的，觉得大数据很火，就业很好，薪资很高。如果自己很迷茫，为了这些原因想往大数据方向发展，也可以，那么我就想问一下，你

08

进击大数据系列（十一）Hadoop 任务调度框架 Oozie

Oozie 是一个用来管理 Hadoop 生态圈 job 的工作流调度系统。由 Cloudera公司贡献给 Apache。

02

如何读懂大数据平台—写给大数据开发初学者的话 | 附教程

本文介绍了大数据平台在机器学习方面的应用，包括数据存储、数据处理、数据建模、模型验证、模型部署、数据服务、数据治理等方面。同时，还介绍了机器学习框架和算法，以及如何在大数据平台上实现机器学习。

07

如何友好的把Python和Bash结合在一起

随着Linux社区对命令行的依赖不断增长，UNIX shell（如bash和zsh）已发展成为极其强大的工具，可以补充UNIX shell的经验。使用bash和其他类似的shell，可以使用许多强大的功能，例如管道，文件名通配符以及从称为脚本的文件中读取命令的功能。

01

写给大数据开发初学者的话 | 附教程

其实这就是想告诉你的大数据的三个发展方向，平台搭建/优化/运维/监控、大数据开发/设计/架构、数据分析/挖掘。请不要问我哪个容易，哪个前景好，哪个钱多。导读：第一章：初识Hadoop 第二章：更高

08

Hue中使用Oozie创建Ssh工作流时sudo命令执行失败问题分析

在使用Hue创建Ssh的Oozie工作流，在Shell脚本中执行sudo命令失败，异常如下：

05

大数据调度平台分类大对比(Oozie/Azkaban/AirFlow/XXL-Job/DolphinScheduler)

大数据调度系统，是整个离线批处理任务和准实时计算计算任务的驱动器。这里我把几个常见的调度系统做了一下分类总结和对比。

02

【学习】应该在什么时候使用Hadoop？

有人问我，“你在大数据和Hadoop方面有多少经验？”我告诉他们，我一直在使用Hadoop，但是我处理的数据集很少有大于几个TB的。他们又问我，“你能使用Hadoop做简单的分组和统计吗？”我说当然可以，我只是告诉他们我需要看一些文件格式的例子。他们递给我一个包含600MB数据的闪盘，看起来这些数据并非样本数据，由于一些我不能理解的原因，当我的解决方案涉及到pandas.read_csv文件，而不是Hadoop，他们很不愉快。 Hadoop实际上是有很多局限的。Hadoop允许你运行一个通用的计算，

05

腾讯云 EMR 常见问题100问（持续更新）

Hadoop 目前是数据处理的标准工具，其核心组件包含了HDFS（分布式文件系统）、YARN(资源调度平台)、

04

Bug死磕之hue集成的oozie+pig出现资源任务死锁问题

这两天，打算给现有的Apache Hadoop2.7.1的集群装个hue，方便业务人员使用hue的可视化界面，来做一些数据分析任务，这过程遇到不少问题，不过大部分最终都一一击破，收获经验若干，折腾的过程，其实也是一个学习的过程，一个历练的过程，我相信优秀的人，都是经历过无数磨难成就的，并且有着坚持不放弃的心态，迎接各种挑战，如果你总是遇到困难就放弃，那么你永远也不能成为最优秀的人，废话不多说了，下面开始进入正题：框架版本如下： Centos6.5 Apache Hadoop2.7.1 Apac

06

基于Azkaban的任务定时调度实践

Azkaban是LinkedIn开源的任务调度框架，类似于JavaEE中的JBPM和Activiti工作流框架。

09

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭