开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

是否可以在不创建作业的情况下在databricks中运行"spark-submit“？如果是的话！有什么可能性，

在Databricks中可以在不创建作业的情况下运行"spark-submit"命令。Databricks是一个基于Apache Spark的云原生分析平台，提供了一种无服务器的方式来运行Spark作业。

"spark-submit"是Spark的命令行工具，用于提交Spark应用程序到集群中运行。在Databricks中，可以通过Databricks CLI或Databricks REST API来提交Spark应用程序，而无需创建作业。

使用Databricks CLI提交Spark应用程序的步骤如下：

安装Databricks CLI并配置访问密钥。
在本地开发环境中编写和打包Spark应用程序。
使用Databricks CLI的databricks runs submit命令提交应用程序，指定应用程序的主类、依赖项、参数等信息。

使用Databricks REST API提交Spark应用程序的步骤如下：

获取Databricks工作区的访问令牌。
构建REST API请求，包括应用程序的主类、依赖项、参数等信息。
发送POST请求到Databricks REST API的/api/2.0/jobs/runs/submit端点，提交应用程序。

通过以上方式，可以在Databricks中直接使用"spark-submit"命令来运行Spark应用程序，无需创建作业。这种方式适用于需要灵活控制和管理Spark应用程序的场景，例如需要自定义参数、依赖项等。

腾讯云的相关产品和产品介绍链接地址：

Databricks产品介绍：https://cloud.tencent.com/product/databricks
Databricks CLI文档：https://docs.databricks.com/dev-tools/cli/index.html
Databricks REST API文档：https://docs.databricks.com/dev-tools/api/latest/index.html

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Pyspark学习笔记（二）--- spark部署及spark-submit命令简介

Pyspark学习笔记（二）--- spark部署及spark-submit命令简介

01

Spark-Submit 和 K8S Operation For Spark

本文翻译自 Lightbend 的一篇文章，文章日期还比较新，2019/02/26。文章分为两部分，翻译也将分为两个部分。附上文章链接如下:

02

Apache Zeppelin 中 Spark 解释器

概述 Apache Spark是一种快速和通用的集群计算系统。它提供Java，Scala，Python和R中的高级API，以及支持一般执行图的优化引擎。Zeppelin支持Apache Spark

Apache Spark 2.3 加入支持Native Kubernetes及新特性文档下载

问题导读 1.什么是Kubernetes？ 2.在Kubernetes集群尝试新功能，该如何实现？ 3.观看群集上创建的Spark资源，该如何操作？在开始之前我们需要知道什么是Kubernetes Kubernetes（通常写成“k8s”）是最开始由google设计开发最后贡献给Cloud Native Computing Foundation的开源容器集群管理项目。它的设计目标是在主机集群之间提供一个能够自动化部署、可拓展、应用容器可运营的平台。Kubernetes通常结合docker容器工具工

04

SeaTunnel 连接器V1到V2的架构演进与探究

整个SeaTunnel设计的核心是利用设计模式中的控制翻转或者叫依赖注入，主要概括为以下两点：

01

Spark快速大数据分析

1.Spark是一个用来实现快速而通用的集群计算的平台，扩展了MapReduce计算模型，支持更多计算模式，包括交互式查询和流处理

02

StreamingPro使用教程

准备工作下载Spark 1.6.2 下载StreamingPro 我们假设你下载的StreamingPro包在/tmp目录下。复制如下模板 { "esToCsv": { "desc": "测试", "strategy": "streaming.core.strategy.SparkStreamingStrategy", "algorithm": [], "ref": [], "compositor": [ { "name": "st

03

StreamingPro 支持多输入，多输出配置

最近正好有个需求，就是从不同的数据库以及表里拉出数据，经过一定的处理放到ES里供查询，最好还能放个到parquet里，这样可以支持更复杂的SQL。之前StreamingPro是只能配置一个数据源的，所以做了些改造，方便配置多个数据源，以及多个写出。

02

读书 | Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL

周末的任务是更新Learning Spark系列第三篇，以为自己写不完了，但为了改正拖延症，还是得完成给自己定的任务啊 = =。这三章主要讲Spark的运行过程（本地+集群），性能调优以及Spark SQL相关的知识，如果对Spark不熟的同学可以先看看之前总结的两篇文章： Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令Learning Spark (Python版) 学习笔记(二)----键值对、数据读取与保存、共享特性第七章主要讲了Spark的运行架构以

06

TensorFlow On Spark 开源项目分析

原文：http://sparkdata.org/?p=423&utm_source=tuicool&utm_medium=referral 作者：京东大数据技术保障团队概述自Google发布Ten

06

Spark on Yarn资源调优

Spark是专为大规模数据处理而设计的快速通用的计算引擎，具有速度快、支持多语言、移植性高的特点。而移植性高的体现就在于Spark的部署方式有多种模式，如：本地local、Standalone、Apache Mesos、Hadoop YARN、EC2、Mesos、K8S等等。

04

Spark Operator 是如何提交 Spark 作业

本文将 Spark 作业称为 Spark Application 或者简称为 Spark App 或者 App。目前我们组的计算平台的 Spark 作业，是通过 Spark Operator 提交给 Kubernetes 集群的，这与 Spark 原生的直接通过 spark-submit 提交 Spark App 的方式不同，所以理解 Spark Operator 中提交 Spark App 的逻辑，对于用户来说是非常有必要的。本文将就其具体的提交逻辑，介绍一下。

03

spark-submit介绍

spark-submit脚本通常位于/usr/local/spark/bin目录下，可以用which spark-submit来查看它所在的位置，spark-submit用来启动集群中的应用，它使用统一的提交接口支持各种类型的集群服务器。为了将应用发布到集群中，通常会将应用打成.jar包，在运行spark-submit时将jar包当做参数提交。

01

【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL

周末的任务是更新Learning Spark系列第三篇，以为自己写不完了，但为了改正拖延症，还是得完成给自己定的任务啊 = =。这三章主要讲Spark的运行过程（本地+集群），性能调优以及Spark SQL相关的知识，如果对Spark不熟的同学可以先看看之前总结的两篇文章：【原】Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令【原】Learning Spark (Python版) 学习笔记(二)----键值对、数据读取与保存、共享特性 #####我是

Spark性能调优篇七之JVM相关参数调整

由于Spark程序是运行在JVM基础之上的，所以我们这一篇来讨论一下关于JVM的一些优化操作。在开始JVM调优操作之前，我们先通过一张图看一下JVM简单的内存划分情况。

01

【Spark研究】Spark之工作原理

基本概念理解Spark的运行模式涉及一系列概念：（1）Cluster Manager：在集群上获取资源的外部服务。目前有三种类型：1. Standalone, Spark原生的资源管理；2. Apache Mesos, 和Hadoop Mapreduce兼容性良好的资源调度框架；3. Hadoop Yarn, 主要指YARN中的ResourceManager. （2）Application: 用户编写的应用应用程序。（3）Driver: Application中运行main函数并创建的SparkC

05

Spark性能优化 (4) | JVM 调优

根据 Spark 静态内存管理机制，堆内存被划分为了两块，Storage 和 Execution。

03

Spark部署模式与作业提交

需要注意的是：在集群环境下，application-jar 必须能被集群中所有节点都能访问，可以是 HDFS 上的路径；也可以是本地文件系统路径，如果是本地文件系统路径，则要求集群中每一个机器节点上的相同路径都存在该 Jar 包。

03

PySpark源码解析，教你用Python调用高效Scala接口，搞定大规模数据分析

众所周知，Spark 框架主要是由 Scala 语言实现，同时也包含少量 Java 代码。Spark 面向用户的编程接口，也是 Scala。然而，在数据科学领域，Python 一直占据比较重要的地位，仍然有大量的数据工程师在使用各类 Python 数据处理和科学计算的库，例如 numpy、Pandas、scikit-learn 等。同时，Python 语言的入门门槛也显著低于 Scala。

04

StreamingPro 简化流式计算配置

前些天可以让批处理的配置变得更优雅StreamingPro 支持多输入，多输出配置，现在流式计算也支持相同的配置方式了。

02

Spark学习之在集群上运行Spark（6）

Spark学习之在集群上运行Spark（6）

热度再起：从Databricks融资谈起

就在本周一，大数据初创公司Databricks在官网宣布他们完成了10亿美元的G轮融资，对公司的估值为280亿美元。作为同类公司，之前Snowflake的IPO就引发资本的热捧，此次Databricks的融资也印证了这点。为什么资本对数据平台公司如此关注？正如之前我的一篇《当红炸子鸡Snowflake》中谈到，“云计算+大数据”催收了无限遐想空间。下面就让我们来看看这个独角兽Databricks的情况。本文内容部分摘自Databricks官网。

01

Spark生态系统的顶级项目

Spark开发了一个丰富的生态系统，包括le 官方和第三方工具。我们来看看5个以不同方式加强了Spark的第三方项目。

02

Spark on YARN基础

不管使用哪种模式，Spark应用程序的代码是一模一样的，只需要在提交的时候通过--master参数来指定我们的运行模式即可

02

Spark 性能调优之资源调优

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更快、性能更高。

03

Spark性能调优01-资源调优

在开发完Spark作业之后，就该为作业配置合适的资源了。 Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。

02

Spark资源调优

Spark 作者：章华燕编辑：龚赛概述 1 在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源，作业运行会极其缓慢；或者设置的资源过大，队列没有足够的资源来提供，进而导致各种异常。总之，无论是哪种情况，都会导致Spark作业的运行效

07

hudi 异步clustering

在之前的一篇文章中，我们引入了一种新的名为clustering的表服务，它可以重组数据，从而在不影响写入速度的情况下提高查询性能。我们学习了如何设置inline clustering。在这篇文章中，我们将讨论自那以后发生的变化，并看看如何使用HoodieClusteringJob和DeltaStreamer实用工具来设置异步clustering。

02

Spark新愿景：让深度学习变得更加易于使用

01 前言 Spark成功的实现了当年的承诺，让数据处理变得更容易，现在，雄心勃勃的Databricks公司展开了一个新的愿景：让深度学习变得更容易。当然牛好吹，也是要做些实际行动的，所有便有了spark-deep-learning（https://github.com/databricks/spark-deep-learning）项目。这件事情已经有很多人尝试做了，但显然太浅了，DB公司则做的更深入些。 02 原理要做深度学习，肯定不能离开TensorFlow, MXNet之类的。 spark

05

Python大数据之PySpark(四)SparkBase&Core

在哪个文件下面更改？spark-env.sh中增加YARN_CONF_DIR的配置目录

04

Spark从集群环境搭建到运行第一个案例超详细教程！！

Apache Spark是一个快速的，多用途的集群计算系统，相对于Hadoop MapReduce将结果保存在磁盘中，Spark使用了内存保存中间结果，支持迭代计算，能在数据尚未写入磁盘时在内存中进行运算。

01

01-Spark的Local模式与应用开发入门

Spark 运行模式之一，用于在本地机器上单机模拟分布式计算的环境。在 local 模式下，Spark 会使用单个 JVM 进程来模拟分布式集群行为，所有 Spark 组件（如 SparkContext、Executor 等）都运行在同一个 JVM 进程中，不涉及集群间通信，适用本地开发、测试和调试。

00

Spark 源码（5） - 从 SparkSubmit 开始看任务提交

上次我们已经说完了 Spark Standalone 的 Master 和 Worker 的启动流程，本次我们从一个提交 Spark 作业的命令开始阅读 Spark 任务提交的源码。

03

Apache Spark 2.2.0 中文文档 - Submitting Applications | ApacheCN

Spark源码分析-作业提交(spark-submit)

前面提到，spark向yarn提交作业的client类是org.apache.spark.deploy.yarn.YarnClusterApplication

03

StreamingPro 基于Spark 2.1.1版本支持Spark Streaming

很多人吐槽StreamingPro构建实在太麻烦了。看源码都难。然后花了一天时间做了比较大重构，这次只依赖于ServiceFramework项目。具体构建方式如下：

02

Spark on K8S 在有赞的实践

随着近几年业务快速发展与迭代，大数据的成本也水涨船高，如何优化成本，建设低成本高效率的底层服务成为了有赞数据基础平台2020年的主旋律。本文主要介绍了随着云原生时代的到来，经历7年发展的有赞离线计算平台如何拥抱云原生，通过容器化改造、弹性伸缩、大数据组件的错峰混部，做到业务成倍增长的情况下成本负增长。

01

Spark 在Yarn上运行Spark应用程序

在 YARN 中，每个应用程序实例都有一个 ApplicationMaster 进程，该进程是为该应用程序启动的第一个容器。应用程序负责从 ResourceManager 上请求资源。一旦分配了资源，应用程序将指示 NodeManagers 启动容器。ApplicationMasters 消除了对活跃客户端的依赖：启动应用程序的进程可以终止，并且从在集群上由 YARN 管理的进程继续协作运行。

01

Spark的那些外部框架

要使用Spark库，你首先必须了解的东西是Spark package。它有点像Spark的包管理器。当你给Spark集群提交job时，你可以到存放Spark package的网站下载任何package。所有package都存放在这个站点。

01

【Spark】Spark之how

Java中，函数需要作为实现了Spark的org.apache.spark.api.java.function包中的任一函数接口的对象来传递。（Java1.8支持了lamda表达式）

02

我学习的Spark都在学些什么

---- 最近工作中，接触到最有用的“玩具”就是Spark了，在cpu密集型业务驱动下，提升CPU处理效率，高效的利用内存是最优先的事务，所以有个好的计算工具太重要了，这也是促使我去寻找各种分布式计算工具的动力。初次接触Spark是在参与公司的一个日志系统项目了解的，当时就觉得Spark是个内存计算，支持hive sql 的利器，而且调用api非常简单、好用。当时使用的是Spark1.3 的版本，虽然功能还不太完善但是已经初见威力。后来闲下来就打算深入研究一下Spark，这个研究持续近1年

05

StreamingPro 再次支持 Structured Streaming

之前已经写过一篇文章，StreamingPro 支持Spark Structured Streaming，不过当时只是玩票性质的，因为对Spark 2.0+ 版本其实也只是尝试性质的,重点还是放在了spark 1.6 系列的。不过时间在推移，Spark 2.0+ 版本还是大势所趋。所以这一版对底层做了很大的重构，StreamingPro目前支持Flink,Spark 1.6+, Spark 2.0+ 三个引擎了。

03

Spark优化(二)----资源调优、并行度调优

在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源，作业运行会极其缓慢；或者设置的资源过大，队列没有足够的资源来提供，进而导致各种异常。总之，无论是哪种情况，都会导致Spark作业的运行效率低下，甚至根本无法运行。因此我们必须对Spark作业的资源使用原理有一个清晰的认识，并知道在Spark作业运行过程中，有哪些资源参数是可以设置的，以及如何设置合适的参数值。

02

Spark2.3.0 使用spark-submit部署应用程序

Spark的 bin 目录中的 spark-submit 脚本用于在集群上启动应用程序。可以通过一个统一的接口使用 Spark 所有支持的集群管理器，因此不必为每个集群管理器专门配置你的应用程序。

04

取代而非补充，Spark Summit 2014精彩回顾

Apache Spark开源生态系统在2014上半年大幅增长，已迅速成为大数据领域中最活跃的开源项目，HDFS位列第二，其代码变动次数（commits）和行数仅仅有Spark的一半：有超过50个机构250个工程师贡献过代码和去年六月相比，代码行数几乎扩大三倍。随着1.0版本于5月30日推出，Spark提供了一个稳定的API，开发人员可以依靠它来保证代码的兼容性。所有主流的Hadoop发行商，包括Hortonworks、IBM、Cloudera、MapR和Pivotal都提供了Spark的包装和技术支持

07

Spark 查看某个正在执行的或已结束的任务中executor与driver日志

如果运行在 YARN 模式，可以在 ResourceManager 节点的 WEB UI 页面根据任务状态、用户名或者 applicationId Search 到应用。

04

深度对比delta、iceberg和hudi三大开源数据湖方案

目前市面上流行的三大开源数据湖方案分别为：delta、Apache Iceberg和Apache Hudi。其中，由于Apache Spark在商业化上取得巨大成功，所以由其背后商业公司Databricks推出的delta也显得格外亮眼。Apache Hudi是由Uber的工程师为满足其内部数据分析的需求而设计的数据湖项目，它提供的fast upsert/delete以及compaction等功能可以说是精准命中广大人民群众的痛点，加上项目各成员积极地社区建设，包括技术细节分享、国内社区推广等等，也在逐步地吸引潜在用户的目光。Apache Iceberg目前看则会显得相对平庸一些，简单说社区关注度暂时比不上delta，功能也不如Hudi丰富，但却是一个野心勃勃的项目，因为它具有高度抽象和非常优雅的设计，为成为一个通用的数据湖方案奠定了良好基础。

03

Spark性能优化 (1) | 常规性能调优

Spark 性能调优的第一步，就是为任务分配更多的资源，在一定范围内，增加资源的分配与性能的提升是成正比的，实现了最优的资源配置后，在此基础上再考虑进行后面论述的性能调优策略。

01

深度对比 Delta、Iceberg 和 Hudi 三大开源数据湖方案

目前市面上流行的三大开源数据湖方案分别为：Delta、Apache Iceberg 和 Apache Hudi。其中，由于 Apache Spark 在商业化上取得巨大成功，所以由其背后商业公司 Databricks 推出的 Delta 也显得格外亮眼。Apache Hudi 是由 Uber 的工程师为满足其内部数据分析的需求而设计的数据湖项目，它提供的 fast upsert/delete 以及 compaction 等功能可以说是精准命中广大人民群众的痛点，加上项目各成员积极地社区建设，包括技术细节分享、国内社区推广等等，也在逐步地吸引潜在用户的目光。Apache Iceberg 目前看则会显得相对平庸一些，简单说社区关注度暂时比不上 Delta，功能也不如 Hudi 丰富，但却是一个野心勃勃的项目，因为它具有高度抽象和非常优雅的设计，为成为一个通用的数据湖方案奠定了良好基础。

01

Spark Streaming入门

本文将帮助您使用基于HBase的Apache Spark Streaming。Spark Streaming是Spark API核心的一个扩展，支持连续的数据流处理。

09

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭