无法在spark中的Zeppelin上将文件写入远程hdfs

在Spark中的Zeppelin上将文件写入远程HDFS的问题，可以通过以下步骤解决：

确保Spark集群和HDFS集群之间的网络连接正常，并且Zeppelin服务器可以访问到HDFS集群。
在Zeppelin中使用Spark的API来将文件写入HDFS。首先，需要创建一个SparkSession对象，然后使用该对象来读取文件并将其写入HDFS。以下是一个示例代码：

import org.apache.spark.sql.SparkSession

val spark = SparkSession.builder()
  .appName("Write to HDFS")
  .master("local[*]")  // 这里的master地址需要根据实际情况进行修改
  .getOrCreate()

val data = Seq(("John", 25), ("Alice", 30), ("Bob", 35))
val df = spark.createDataFrame(data).toDF("Name", "Age")

df.write
  .format("parquet")
  .mode("overwrite")
  .save("hdfs://<HDFS_MASTER>:<HDFS_PORT>/path/to/output")  // 这里的HDFS_MASTER和HDFS_PORT需要替换为实际的地址和端口

在上述代码中，我们使用了SparkSession对象创建了一个DataFrame，并将其写入HDFS。需要注意的是，这里的路径需要指定为HDFS的路径，格式为hdfs://<HDFS_MASTER>:<HDFS_PORT>/path/to/output。

推荐的腾讯云相关产品是腾讯云的云服务器CVM和对象存储COS。腾讯云的CVM提供了强大的计算能力，可以作为Spark集群的节点来执行计算任务。而腾讯云的COS是一种高可用、高可靠、低成本的对象存储服务，可以用来存储和管理大规模的数据。

腾讯云云服务器CVM产品介绍：https://cloud.tencent.com/product/cvm

腾讯云对象存储COS产品介绍：https://cloud.tencent.com/product/cos

请注意，以上答案仅供参考，具体的解决方案可能因实际情况而异。

无法在spark中的Zeppelin上将文件写入远程hdfs

、、、、

如何在spark中将文件保存在hdfs服务器上以下是我的代码 csv_file.write.mode('overwrite').parquet('hdfs:///data/ifckp/docs/csv_files/cs') 下面是我的错误： Py4JJavaError: An error occurred while calling o3621.parquet. : org.a

浏览 25提问于2020-02-01得票数 0

1回答

为什么齐柏林飞艇不支持--py-文件？

、、

Acc到齐柏林文档，要将此包传递给齐柏林星火解释器，您可以通过conf/zeppelin-env.sh中的SPARK_SUBMIT_OPTIONS中的--file选项导出它。我对此有以下问题：在pyspark中，与-py- file一起提供的.egg文件正在工作(例如，我能够在pyspark中导入包中的模块)，而同一个带有-- .egg选项

浏览 3提问于2017-01-31得票数 7

1回答

如何根据HDFS中的数据创建外部星表

、

我已经将HDFS中的一个拼花表加载到一个DataFrame中：现在我想将这个表公开给Spark，但是这必须是一个持之以恒的表，因为我想通过JDBC连接或其他Sessions来访问它。快速的方法可以是调用df.write.saveAsTa

浏览 1提问于2018-04-26得票数 5

1回答

我可以通过齐柏林飞艇将文件从本地驱动器导入到VMWare HDP2.5沙盒中使用吗？

、、、

我想在我的Spark程序中使用本地文本文件，该程序是在VMWare的HDP2.5Sandbox中运行的。2)可以使用Zeppelin导入吗？如果是，那么如何获取在Spark中使用它的绝对路径(位置)？ 3)还有其他方法吗？如果是，是什么以及如何实现？

浏览 0提问于2016-11-16得票数 0

1回答

Zeppelin Null指针异常

、

我在我的zeppelin笔记本上写了这个简单的代码val sqlConext = new SQLContext(sc)早些时候，它无法找到spark-csv。因此，我将其作为依赖项添加到spark1和spark2解释器中。$1.run(FIFOScheduler.java:139) 这个文

浏览 93提问于2018-05-29得票数 0

回答已采纳

9回答

在Zeppelin0.7.1中运行Spark代码时获取NullPointerException

、

当我尝试执行示例spark程序(在Zeppelin Tutorial notebook中提供)时，我得到了以下错误 at org.apache.zeppelin.spark.Utils.invokeMethodjava.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) at java.lang.Thread.run(Thread.

浏览 2提问于2017-04-08得票数 17

1回答

在外部EC2上运行齐柏林飞艇以连接到Amazon EMR

、、

我想分享我在EC2上设置齐柏林飞艇服务器的经验，并将其连接到电子病历以利用其计算能力。Zeppelin 0.7.3与spark 2.3.0不兼容，但当您通过向导选项设置EMR时，您可以将两者放在一起。主要步骤记录在此链接中：然而，本教程是针对旧版本的zeppelin和spark的，它们工作得很好，但当涉及到spark和zeppelin的新版本时，事情就有点棘手了。我尝试在

浏览 4提问于2018-08-17得票数 2

回答已采纳

1回答

星火星团模式下运行齐柏林飞艇

、、、、

我正在使用本教程启动齐柏林飞艇在火花集群中的纱线模式。然而，我仍然停留在第4步，在我的码头容器中找不到conf/zeppelin-env.sh来进行进一步的配置。我试着放这些齐柏林飞艇的conf文件夹，但现在成功了。除此之外，齐柏林飞艇笔记本电脑也没有在本地主机上运行:9001。我是一个非常新的分布式系统，如果有人能帮助我启动齐柏林飞艇星火星团在纱线模

浏览 2提问于2017-09-11得票数 2

回答已采纳

1回答

如何合并SPARK* data frame创建的文件夹中的所有零件文件并在scala中重命名为文件夹名*

、、、、

嗨，我有我的火花数据框的输出，它创建文件夹结构和创建所以可能的零件文件。现在，我必须合并文件夹中的所有零件文件，并将其中一个文件重命名为文件夹路径名。/output")hdfs:///user/zeppelin/FinancialLi

浏览 2提问于2017-10-18得票数 2

1回答

通过Zeppelin访问HDFS数据

、、、

我正在尝试使用Spark解释器通过Zeppelin访问HDFS数据。下面是我的代码： s(5).replaceAll("\"", "").toInt

浏览 22提问于2018-08-20得票数 0

1回答

通过zeppelin从docker-hadoop-spark--workbench访问hdfs

、、、、

/bin/zeppelin.sh startmaster:从local[*]更新到spark://localhost:8080import org.apache.hadoop.fs.( x => println(x.getPath )) 我在

浏览 1提问于2017-12-16得票数 6

回答已采纳

1回答

在Kerberos环境下在Yarn上用sftp模式编写csv文件的尝试

、、、、

我正在尝试将Dataframe写入csv文件，并将此csv文件放入远程计算机。Spark作业在Yarn上运行到Kerberos集群中。下面是当作业试图在远程计算机上写入csv文件时遇到的错误：诊断: User类抛出异常: org.apache.hadoop.security.AccessControlException:权限被拒绝/_temporary/0&

浏览 0提问于2018-08-02得票数 2

3回答

apache zeppelin: java.lang.NullPointerException

、、

当在齐柏林飞艇中运行任何类型的命令时，我都会得到一个"java.lang.NullPointerException“错误--甚至像sc.appName这样的简单东西。的某些东西，但我在zeppelin-env.sh中正确设置了位置：我修改的其他字段如下所示： export HADOOP_CONF_DIR安装没有"c

浏览 6提问于2017-05-19得票数 5

1回答

如果hadoop (HDP)集群已经使用了AD/LDAP，我为什么要对它进行Kerberise呢？

、、、

更具体地说，在用户提供正确的用户名/密码组合后，我们使用Ranger限制对HDFS目录、Hive表和Yarn队列的访问。我的任务是实现集群的Kerberise，这非常容易，这要感谢Ambari中的“按下按钮和跳过”选项。我们开发了一个测试集群。虽然与Hive的交互不需要对集群机器上的现有脚本进行任何修改，但是很难找到最终用户从集群外部与Hive交互的方法(PowerBI、DbVisualizer、PHP应

浏览 3提问于2020-07-27得票数 0

回答已采纳

1回答

重新启动Zeppelin解释器并保存其参数时出错

我已经安装了Zeppelin 0.7.2并连接到Spark 2.1.1独立集群。它已经运行了很长一段时间，直到我更改了Spark workers的设置，使workers的内核和执行器内存加倍。我还尝试更改zeppelin-env.sh上的参数SPARK_SUBMIT_OPTIONS和ZEPPELIN_JAVA_OPTS，使其在Spark worker上请求更多的“每个节点

浏览 9提问于2017-08-28得票数 0

1回答

在火花放电中执行NLTK

、、

我对pyspark非常陌生，我已经开发了一个在HDFS文件上执行NLTK的程序，下面是这方面的步骤。8.我希望将所有文件数据保存在一个文件中，所以我要将输出与旧的fil合并。9.现在将整个合并的输出写入HDFS11.我这样做是为了所有的bigram和trigram文

浏览 1提问于2020-05-24得票数 0

回答已采纳

2回答

Apache Zeppelin可以在一段时间后自动关闭SparkContext并重新打开它吗？

、、

我在独立模式下设置了一个简单的Spark集群，并希望使用Apache Zeppelin作为交互式Spark "scratchpad“。不幸的是，当SparkContext启动时，它会占用我的实验集群上的所有内核。我知道有一个名为“动态分配”的新功能，但它只适用于纱线。我在这个集群上没有YARN，我也不想运行一个成熟的Hadoop堆栈，因为我想使用Cassandra作为数据后端。在不使用纱

浏览 3提问于2015-09-06得票数 1

1回答

无法与卡夫卡连接蜂箱

、、、、

我有一个项目，其中包括培训一个模型，然后存储的结果，在蜂巢使用卡夫卡主题最好的模型。这是使用的坞-撰写文件。:7077" - CORE_CONF_fs_defaultFS=hdfs://namenode:8020 links: - spark-mast

浏览 14提问于2022-11-29得票数 0

1回答

使用Scala将文件写入HDFS

、、

我试图使用将一个文件写入HDFS，在客户端和hadoop日志上获得以下错误：在执行google错误后，我已经尝试过停止所有服务、格式化namenode和启

浏览 0提问于2018-03-19得票数 2

2回答

火花独立+齐柏林飞艇+码头:如何设置SPARK_HOME

、、

我使用脚本构建了一个独立的星火集群。java.lang.RuntimeException: SPARK_HOME is not specified in interpreter-settingfor non-local mode, if you specify it in zeppelin-env.sh, please move that

浏览 6提问于2019-08-21得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

无法在spark中的Zeppelin上将文件写入远程hdfs

相关·内容

无法在spark中的Zeppelin上将文件写入远程hdfs

为什么齐柏林飞艇不支持--py-文件？

如何根据HDFS中的数据创建外部星表

我可以通过齐柏林飞艇将文件从本地驱动器导入到VMWare HDP2.5沙盒中使用吗？

Zeppelin Null指针异常

在Zeppelin0.7.1中运行Spark代码时获取NullPointerException

在外部EC2上运行齐柏林飞艇以连接到Amazon EMR

星火星团模式下运行齐柏林飞艇

如何合并SPARK* data frame创建的文件夹中的所有零件文件并在scala中重命名为文件夹名*

通过Zeppelin访问HDFS数据

通过zeppelin从docker-hadoop-spark--workbench访问hdfs

在Kerberos环境下在Yarn上用sftp模式编写csv文件的尝试

apache zeppelin: java.lang.NullPointerException

如果hadoop (HDP)集群已经使用了AD/LDAP，我为什么要对它进行Kerberise呢？

重新启动Zeppelin解释器并保存其参数时出错

在火花放电中执行NLTK

Apache Zeppelin可以在一段时间后自动关闭SparkContext并重新打开它吗？

无法与卡夫卡连接蜂箱

使用Scala将文件写入HDFS

火花独立+齐柏林飞艇+码头:如何设置SPARK_HOME

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐