开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >在spark本地模式下从内部worker写入文件不能写入吗？

问在spark本地模式下从内部worker写入文件不能写入吗？
EN

Stack Overflow用户

提问于 2017-03-05 23:29:28

回答 3查看 1.2K关注 0票数 3

在yarn集群中运行之前，对于我在pyspark中的应用程序开发，我想在本地模式下测试它。为此，我需要从工作节点内部显式地写入一些数据，我认为我可以使用hadoop rest api在集群模式下运行时将文件写入hdfs。但是，当在本地模式下运行代码时，我如何从worker任务内部写入文件？

例如：

 sparkConf = SparkConf().setAppName("testing").setMaster("local[*]")
 sc= SparkContext(conf=sparkConf)

 rdd = sc.textFile("file://path to file")
 rdd.map(lambda x:x.split("\t")[0],1).reduce(func_to_reduce);

 def func_to_reduce(a,b):
    //how can i write value of a and b to a file from here
    return a+b;

需要说明的是:如果我在驱动程序端代码中使用open()方法写入文件，它就会起作用，但如果我使用相同的方法从reduce函数内部写入文件，则不起作用。任何方向或帮助都是非常感谢的！

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2017-03-08 21:30:57

我之所以提出这个问题，是因为在reduceByKey()函数中，使用os模块创建目录和使用open()方法写入文件是不起作用的。当我在本地模式下运行时，我假设它应该可以访问我的驱动程序的本地路径，并像运行普通的python脚本一样执行这些函数。之所以不是这样，是因为我完全忘记了这样一个事实: reduceByKey更像是一种转换，而不是一种操作，因此reduceByKey()中的代码实际上并没有按照Spark的惰性求值设计运行。因此，我使用collect()对该引用调用了一个操作。现在它启动了reduce功能，并且可以很好地写入文件。感谢大家的帮助！

票数 0

EN

Stack Overflow用户

发布于 2017-03-05 23:44:11

您必须实际调用一个保存方法，就像您通过textFile调用一个加载方法一样。像saveAsTextFile(path)这样的东西

票数 0

EN

Stack Overflow用户

发布于 2017-03-06 02:22:42

请参阅rdd.reduce(f)源码

Spark在使用rdd.reduce()时调用python内置函数reduce两次:一次是通过rdd.mapPartitions()在worker节点中调用，另一次是在rdd.collect()之后的driver节点中调用。

因此，您不能在rdd.reduce函数中写入数据

您似乎想要将数据保存在工作节点的本地路径上？

票数 0

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/42615324

复制

相关文章

python开发_搜索本地文件信息写入文件

=======================================================

Hongten

2018/09/13

1.7K0

python开发_搜索本地文件信息写入文件

nodejs写入json文件_json文件可以删除吗

json node.js https 网络安全数据库

哈喽！nodejs的文件系统，接触过node的对node的文件系统肯定不会陌生，这两天我就在思考一个问题，我是否可以在本地操作我的本地json文件，这样一个本地的文本数据库就有了，如果是便签之类，记录的软件，我完全可以不用连后台的数据库，我可以自己操作本地的json文件，自己用node写后台，答案是肯定的，下面我们就一起来实现一下吧，对本地json文件的增、删、改、查

全栈程序员站长

2022/11/04

3K0

nodejs写入json文件_json文件可以删除吗

java写入文件

java https 网络安全

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/106359.html原文链接：https://javaforall.cn

全栈程序员站长

2022/06/30

2K0

lua文件写入

mode 作用 r 读，文件不存在则报错 w 写，若文件存在则覆盖重写，若文件不存在则新建 a 写,若文件不存在，则新建；如果文件存在，则在文件尾追加要写的内容 r+ 读写，文件不存在则报错 w+ 读写，若文件存在则覆盖重写，若文件不存在则新建 a+ 读写,若文件不存在，则新建；如果文件存在，则在文件尾追加要写的内容 b 以二进制模式打开文件 file=io.open("/test.txt","r") io.input(file)-- 设置默认输入文件 print(io.read()) io.close(

司夜

2023/03/31

2.2K0

文件操作——写入

vba 编程算法

前面我们说到了文件的读取，读取的文件是我们手动创建的txt文本文档，VBA也是可以对文件进行写操作的。

xyj

2020/07/28

3K0

Jmeter写入文件

文件存储编程算法

一. 场景之前我们推文讨论过如何使用jmeter读取文件, 比如csv, txt文件读取, 只要配置csv数据文件, 即可非常容易的从文件中读取想要的数据, 但是如果数据已经从API或者DB中获取

louiezhou001

2019/07/25

2.4K0

Spark 如何写入HBase/Redis/MySQL/Kafka

spark hbase 云数据库 Redis®云数据库 SQL Server

一个partition 对应一个task,一个task 必定存在于一个Executor,一个Executor 对应一个JVM.

用户2936994

2018/08/27

6580

scanf从文件中读入，printf写入到文件

重定向方式读写文件 #include <stdio.h> #define LOCAL int main() { #ifdef LOCAL freopen("input.txt","r",stdin); //使得scanf从文件input.txt读入 //r只读，如果文件不存在，出错 freopen("output.txt","w",stdout); //使得printf写入文件output.txt //w只写，如果文件不存在，建立新文件 #en

谙忆

2021/01/19

7670

Redo 日志从产生到写入日志文件

buffer sys tail 日志

对于这样的剧情，想必大家不会陌生：美国大片中拯救世界的英雄，平时看起来跟普通人没啥区别，甚至还可能会有点让人看不上。

csch

2022/09/05

4950

Redo 日志从产生到写入日志文件

实战|使用Spark Streaming写入Hudi

spark 大数据

传统数仓的组织架构是针对离线数据的OLAP（联机事务分析）需求设计的，常用的导入数据方式为采用sqoop或spark定时作业逐批将业务库数据导入数仓。随着数据分析对实时性要求的不断提高，按小时、甚至分钟级的数据同步越来越普遍。由此展开了基于spark/flink流处理机制的（准）实时同步系统的开发。

ApacheHudi

2021/04/13

2.3K0

文件的读取写入

java 编程算法 c#面向对象编程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

bering

2019/12/03

2.8K0

.Net Core Logger 实现log写入本地文件系统

.net core 自带一个基础的logger框架Microsoft.Extensions.Logging。

旺财的城堡

2018/11/20

4.4K0

spark streaming写入kafka性能优化

本文原文（点击下面阅读原文即可进入） https://blog.csdn.net/xianpanjia4616/article/details/81432869

大数据技术架构

2019/08/16

1.6K0

文件读取和写入

从文件a.txt中读取三个整数，然后把这三个整数保存到b.txt中，两整数之间一个空格。

小Bob来啦

2020/12/15

2.3K0

MySQL读取写入文件

数据库云数据库 SQL Server sql

MySQL读取和写入文件在ctf或者awd中，常用于读取flag或者写入一个一句话木马，通过特定函数将其写入

vFREE

2022/08/08

5.5K0

Python将数据写入txt文件_python将内容写入txt文件

node.js https 网络安全编程算法

readlines() 会把每一行的数据作为一个元素放在列表中返回，读取所有行的数据

全栈程序员站长

2022/11/11

12.7K0

Spark DataFrame写入HBase的常用方式

Spark是目前最流行的分布式计算框架，而HBase则是在HDFS之上的列式分布式存储引擎，基于Spark做离线或者实时计算，数据结果保存在HBase中是目前很流行的做法。例如用户画像、单品画像、推荐系统等都可以用HBase作为存储媒介，供客户端使用。因此Spark如何向HBase中写数据就成为很重要的一个环节了。本文将会介绍三种写入的方式，其中一种还在期待中，暂且官网即可... 代码在spark 2.2.0版本亲测 1. 基于HBase API批量写入第一种是最简单的使用方式了，就是基于RDD的分区

用户1154259

2018/03/28

4.3K0

Spark DataFrame写入HBase的常用方式

点击加载更多

相似问题

在集群模式下用Spark将文件写入本地系统

48

在群集模式SPARK中写入本地文件系统

112

在'w‘模式下csv文件不能写入

14

Pyspark在纱线集群模式下将文件写入本地

112

Spark从本地读取文件并在hdfs中写入

146

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例