首页
学习
活动
专区
圈层
工具
发布

使用 Livy Rest API 提交 spark 批量任务 (jar,Python, streaming)

Livy是一个开源的REST 接口,用于与Spark进行交互,它同时支持提交执行代码段和完整的程序。 ? image.png Livy封装了spark-submit并支持远端执行。...启动服务器 执行以下命令,启动livy服务器。 ./bin/livy-server 这里假设spark使用yarn模式,所以所有文件路径都默认位于HDFS中。...如果是本地开发模式的话,直接使用本地文件即可(注意必须配置livy.conf文件,设置livy.file.local-dir-whitelist = directory,以允许文件添加到session)...directory /tmp/spark-6e362908-465a-4c67-baa1-3dcf2d91449c" ], "state": "success" } 此外,还可以通过下面的api...,获取日志信息: curl localhost:8998/batches/0/log | python -m json.tool % Total % Received % Xferd Average

3.4K30

Apache Livy 实现思路及模块概述

第一步:要将任务从用户的手里发送给 livy server,任务可以是代码片段(Scala、Python,R)的形式或可执行程序的形式(Jar)。...、获取运行结果、共享 SparkContext 以及被正常停止等能力 第六步:一个 livy server 管理着众多 sessions、batches,需要维护大量相关信息并且在 livy server...livy 模块概述.png 2.1、Client Client 并不算 livy 的模块,也很简单,在此略过 2.2、router 我们知道,livy server 提供的 api 是 rest api...建立连接,向其发送创建、查看状态结果日志、修改statement、job 等请求并获取响应 2.5、交互式 Driver 需要注意的是,该模块仅对于 session 任务有,batch 并没有。...另外,SessionStore 继承了该类提供高阶 Api 来进行 sessions 的存储和恢复 总结 上述的整体思路和模块概述让我们大致了解了 livy 是怎么玩的,接下来会针对各个模块进行更深入的展开

2K50
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    开源数据质量解决方案——Apache Griffin入门宝典

    一、数据质量 数据质量管理(Data Quality Management),是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动...但现实是,数据往往存在很多问题: 数据无法匹配 数据不可识别 时效性不强 数据不一致 。。。。 那么,解决数据质量要达到什么目标呢? 总结来说就是可信和可用。...和measure-0.6.0.jar两个jar,将这两个jar分别拷贝到服务器目录下。...1、使用如下命令将measure-0.4.0.jar这个jar上传到HDFS的/griffin文件目录里: #改变jar名称mv measure-0.6.0.jar griffin-measure.jar...相关技术问题以及安装包可以联系笔者独孤风加入相关技术交流群讨论获取。

    3.6K40

    0867-7.1.6-Hue中Spark Notebook与Livy集成问

    1.文档编写目的 本篇文章主要介绍如何使用解决CDP7.1.6的Hue中的Spark Notebook与Livy无法进行集成的问题。...的配置 在Livy的配置页面搜索livy_spnego_enabled,关闭Livy的HTTP Kerberos 3.启用Livy的用户模拟功能 在Livy的配置页面搜索livy.impersonation.enabled...10090 #security_enabled=true [notebook] show_notebooks=true enable_external_statements=true enable_batch_execute...[[[jar]]] name=Spark Submit Jar interface=livy-batch 6.修改Hue的配置 在Hue的配置中搜索hive-site.xml...再去让Livy模拟用户,这样就会导致一个问题, Livy只会认为你是Hue用户,而又要让Hue用户去模拟其他的用户,最终提示模拟不了的问题,所以要关闭Livy的HTTP Kerberos认证。

    1.2K20

    Livy:基于Apache Spark的REST服务

    Spark集群上编译并执行; 批处理会话(batch session),用户可以通过Livy以批处理的方式启动Spark应用,这样的一个方式在Livy中称之为批处理会话,这与Spark中的批处理是相同的...为此Livy提供了一套编程式的API供用户使用,用户可以像使用原生Spark API那样使用Livy提供的API编写Spark作业,Livy会将用户编写的Spark作业序列化并发送到远端Spark集群中执行...表1就是使用Spark API所编写PI程序与使用Livy API所编写的程序的比较。 ?...在默认情况下这个Spark集群的用户是livy。这会带来访问权限的问题:用户tom无法访问其拥有权限的资源,而相对的是他却可以访问用户livy所拥有的资源。...图3 Livy端到端安全机制 这样构成了Livy完整的端到端的安全机制,确保没有经过认证的用户,匿名的连接无法与Livy服务中的任何一个环节进行通信。

    4.4K80

    鸿蒙NEXT-API19获取上下文,在class中和ability中获取上下文,API迁移示例-解决无法在EntryAbility中无法使用最新版API获取上下

    使用最新API获取UIContext,上下文 鸿蒙发展很快,转眼API16,modelVersion5.1.1就已经到来了。...很多API在18被废弃了,接下来我们看看有哪些 getContext(this)(已经被废弃了) 我们需要使用UIContext获取UIContext实例进而得到上下文。...请使用上面作者使用的方法,即可(避免报错无法运行程序) 2.其他API迁移示例 1. promptAction.showToast(),API在最新版中已经废弃了,使用下面示例API即可 //旧版API...message: '请授予应用基础权限,否则应用可能无法正常启动', buttons: [{ text: '确定', color: '...getPromptAction().showDialog({ message: '请授予应用基础权限,否则应用可能无法正常启动', buttons: [{

    48510

    如何通过Livy的RESTful API接口向非Kerberos环境的CDH集群提交作业

    ,基于Apache Spark的开源REST服务,加入Cloudera Labs》和《如何编译Livy并在非Kerberos环境的CDH集群中安装》,Livy提供了两种类型的API(编程API和RESTful...API接口),本篇文章主要介绍如何使用java代码调用Livy提供的RESTful API接口向非Kerberos环境的CDH集群提交Spark作业操作。...---- 1.我们将作业运行的jar包上传到HDFS目录 [d28qosirkp.jpeg] 这里Fayson使用的Spark自带的示例来测试。...; /** * package: com.cloudera * describe: 通过Java代码调用Livy的RESTful API实现向非Kerberos的CDH集群作业提交 * creat_user...", headers, submitJob); //通过提交作业返回的SessionID获取具体作业的执行状态及APPID HttpUtils.getAccess(LIVY_HOST

    2.7K70

    如何使用Oozie API接口向非Kerberos环境的CDH集群提交Spark作业

    相关的文章主要描述如何在集群外节点通过RESTful API接口向CDH集群提交Spark作业,本篇文章我们借助于oozie-client的API接口向非Kerberos集群提交Spark作业。...Livy相关文章: 《Livy,基于Apache Spark的开源REST服务,加入Cloudera Labs》 《如何编译Livy并在非Kerberos环境的CDH集群中安装》 《如何通过Livy的RESTful...API接口向非Kerberos环境的CDH集群提交作业》 《如何在Kerberos环境的CDH集群部署Livy》 《如何通过Livy的RESTful API接口向Kerberos环境的CDH集群提交作业...e.printStackTrace(); } } }.start(); //根据workflow id获取作业运行情况...oozieClient.getJobInfo(jobid); System.out.println(oozieClient.getJobLog(jobid)); //获取

    1.7K70

    Spark实战系列4:Spark周边项目Livy简介

    YARN-Cluster,Local模式 一般就是在本地运 行Spark任务,需要Spark环境的,Standalone模式是Spark 自 身的 一种调度模式,也是需要Spark环境,YARN模式中,其实是将Spark JAR...包提交到YARN上 面,由YARN去开启Contioner然后去执 行Spark的作业,这个其实只需要上传Spark Jar包和 一些依赖包。...不需要在部署Spark环境(充当 一个Submit的功能,还占 用节点资源) 首先,将Spark jar包和 工程的build之后的jar以及 工程依赖的jar包上传到HDFS上 面,通过本地可以直接运...服务器,以实现良好的容错性和并发性 作业可以作为预编译的jar,代码 片段或通过java / scala客户端API提交 通过安全的认证通信确保安全 4 Livy官网结构 Livy的安装运 行 至少是基于...在运 行多个Livy服务器的时候不会导致机器过载 5 配置Livy Livy在配置 目录下使 用 一些配置 文件,默认情况下是Livy安装下的conf目录。

    1.8K10

    如何在Hue中添加Spark Notebook

    在前面Fayson也介绍了《Livy,基于Apache Spark的开源REST服务,加入Cloudera Labs》、《如何编译Livy并在非Kerberos环境的CDH集群中安装》、《如何通过Livy...的RESTful API接口向非Kerberos环境的CDH集群提交作业》、《如何在Kerberos环境的CDH集群部署Livy》、《如何通过Livy的RESTful API接口向Kerberos环境的...CDH集群提交作业》、《如何打包Livy和Zeppelin的Parcel包》和《如何在CM中使用Parcel包部署Livy及验证》,本篇文章Fayson主要介绍如何在Hue中添加Notebook组件并集成...=true enable_batch_execute=true (可左右滑动) ?...2.创建Spark Notebook则需要依赖Livy服务,需要在集群中部署Livy服务并在Hue中配置Livy环境。

    8.6K30

    【详解】HadoopMapReduceJob的几种启动方式

    使用Java API对于需要更灵活控制MapReduce作业的情况,可以直接使用Hadoop的Java API编写代码来提交作业。这种方式提供了更多的配置选项,适合复杂的业务场景。...使用 Java API 启动你也可以在 Java 代码中直接启动 MapReduce 作业。...使用 Apache Livy REST API 启动Livy 是一个用于与 Apache Spark 交互的 REST 服务,但也可以用于提交 Hadoop MapReduce 作业。...以下是一个使用 Livy 提交 MapReduce 作业的 Python 示例:import requestsimport json# Livy 服务器地址livy_url = "http://livy-server...Java程序直接调用Hadoop API通过编写Java程序直接调用Hadoop API来启动MapReduce作业,这种方式提供了更多的灵活性和控制能力。

    13610
    领券