首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >在spark本地模式下从内部worker写入文件不能写入吗?

在spark本地模式下从内部worker写入文件不能写入吗?
EN

Stack Overflow用户
提问于 2017-03-05 23:29:28
回答 3查看 1.2K关注 0票数 3

在yarn集群中运行之前,对于我在pyspark中的应用程序开发,我想在本地模式下测试它。为此,我需要从工作节点内部显式地写入一些数据,我认为我可以使用hadoop rest api在集群模式下运行时将文件写入hdfs。但是,当在本地模式下运行代码时,我如何从worker任务内部写入文件?

例如:

代码语言:javascript
运行
AI代码解释
复制
 sparkConf = SparkConf().setAppName("testing").setMaster("local[*]")
 sc= SparkContext(conf=sparkConf)

 rdd = sc.textFile("file://path to file")
 rdd.map(lambda x:x.split("\t")[0],1).reduce(func_to_reduce);

 def func_to_reduce(a,b):
    //how can i write value of a and b to a file from here
    return a+b;

需要说明的是:如果我在驱动程序端代码中使用open()方法写入文件,它就会起作用,但如果我使用相同的方法从reduce函数内部写入文件,则不起作用。任何方向或帮助都是非常感谢的!

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2017-03-08 21:30:57

我之所以提出这个问题,是因为在reduceByKey()函数中,使用os模块创建目录和使用open()方法写入文件是不起作用的。当我在本地模式下运行时,我假设它应该可以访问我的驱动程序的本地路径,并像运行普通的python脚本一样执行这些函数。之所以不是这样,是因为我完全忘记了这样一个事实: reduceByKey更像是一种转换,而不是一种操作,因此reduceByKey()中的代码实际上并没有按照Spark的惰性求值设计运行。因此,我使用collect()对该引用调用了一个操作。现在它启动了reduce功能,并且可以很好地写入文件。感谢大家的帮助!

票数 0
EN

Stack Overflow用户

发布于 2017-03-05 23:44:11

您必须实际调用一个保存方法,就像您通过textFile调用一个加载方法一样。像saveAsTextFile(path)这样的东西

票数 0
EN

Stack Overflow用户

发布于 2017-03-06 02:22:42

请参阅rdd.reduce(f)源码

Spark在使用rdd.reduce()时调用python内置函数reduce两次:一次是通过rdd.mapPartitions()在worker节点中调用,另一次是在rdd.collect()之后的driver节点中调用。

因此,您不能在rdd.reduce函数中写入数据

您似乎想要将数据保存在工作节点的本地路径上?

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/42615324

复制
相关文章
python开发_搜索本地文件信息写入文件
=======================================================
Hongten
2018/09/13
1.7K0
python开发_搜索本地文件信息写入文件
nodejs写入json文件_json文件可以删除吗
哈喽!nodejs的文件系统,接触过node的对node的文件系统肯定不会陌生,这两天我就在思考一个问题,我是否可以在本地操作我的本地json文件,这样一个本地的文本数据库就有了,如果是便签之类,记录的软件,我完全可以不用连后台的数据库,我可以自己操作本地的json文件,自己用node写后台,答案是肯定的,下面我们就一起来实现一下吧,对本地json文件的增、删、改、查
全栈程序员站长
2022/11/04
3K0
nodejs写入json文件_json文件可以删除吗
java写入文件
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/106359.html原文链接:https://javaforall.cn
全栈程序员站长
2022/06/30
2K0
lua文件写入
mode 作用 r 读,文件不存在则报错 w 写,若文件存在则覆盖重写,若文件不存在则新建 a 写,若文件不存在,则新建;如果文件存在,则在文件尾追加要写的内容 r+ 读写,文件不存在则报错 w+ 读写,若文件存在则覆盖重写,若文件不存在则新建 a+ 读写,若文件不存在,则新建;如果文件存在,则在文件尾追加要写的内容 b 以二进制模式打开文件 file=io.open("/test.txt","r") io.input(file)-- 设置默认输入文件 print(io.read()) io.close(
司夜
2023/03/31
2.2K0
文件操作——写入
前面我们说到了文件的读取,读取的文件是我们手动创建的txt文本文档,VBA也是可以对文件进行写操作的。
xyj
2020/07/28
3K0
文件操作——写入
Jmeter写入文件
一. 场景 之前我们推文讨论过如何使用jmeter读取文件, 比如csv, txt文件读取, 只要配置csv数据文件, 即可非常容易的从文件中读取想要的数据, 但是如果数据已经从API或者DB中获取
louiezhou001
2019/07/25
2.4K0
Jmeter写入文件
Spark 如何写入HBase/Redis/MySQL/Kafka
一个partition 对应一个task,一个task 必定存在于一个Executor,一个Executor 对应一个JVM.
用户2936994
2018/08/27
6580
scanf从文件中读入,printf写入到文件
重定向方式读写文件 #include <stdio.h> #define LOCAL int main() { #ifdef LOCAL freopen("input.txt","r",stdin); //使得scanf从文件input.txt读入 //r只读,如果文件不存在,出错 freopen("output.txt","w",stdout); //使得printf写入文件output.txt //w只写,如果文件不存在,建立新文件 #en
谙忆
2021/01/19
7670
Redo 日志从产生到写入日志文件
对于这样的剧情,想必大家不会陌生:美国大片中拯救世界的英雄,平时看起来跟普通人没啥区别,甚至还可能会有点让人看不上。
csch
2022/09/05
4950
Redo 日志从产生到写入日志文件
实战|使用Spark Streaming写入Hudi
传统数仓的组织架构是针对离线数据的OLAP(联机事务分析)需求设计的,常用的导入数据方式为采用sqoop或spark定时作业逐批将业务库数据导入数仓。随着数据分析对实时性要求的不断提高,按小时、甚至分钟级的数据同步越来越普遍。由此展开了基于spark/flink流处理机制的(准)实时同步系统的开发。
ApacheHudi
2021/04/13
2.3K0
文件的读取写入
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
bering
2019/12/03
2.8K0
.Net Core Logger 实现log写入本地文件系统
.net core 自带一个基础的logger框架Microsoft.Extensions.Logging。
旺财的城堡
2018/11/20
4.4K0
spark streaming写入kafka性能优化
本文原文(点击下面阅读原文即可进入) https://blog.csdn.net/xianpanjia4616/article/details/81432869
大数据技术架构
2019/08/16
1.6K0
文件读取和写入
从文件a.txt中读取三个整数,然后把这三个整数保存到b.txt中,两整数之间一个空格。
小Bob来啦
2020/12/15
2.3K0
文件读取和写入
MySQL读取写入文件
MySQL读取和写入文件在ctf或者awd中,常用于读取flag或者写入一个一句话木马,通过特定函数将其写入
vFREE
2022/08/08
5.5K0
Python将数据写入txt文件_python将内容写入txt文件
readlines() 会把每一行的数据作为一个元素放在列表中返回,读取所有行的数据
全栈程序员站长
2022/11/11
12.7K0
Spark DataFrame写入HBase的常用方式
Spark是目前最流行的分布式计算框架,而HBase则是在HDFS之上的列式分布式存储引擎,基于Spark做离线或者实时计算,数据结果保存在HBase中是目前很流行的做法。例如用户画像、单品画像、推荐系统等都可以用HBase作为存储媒介,供客户端使用。 因此Spark如何向HBase中写数据就成为很重要的一个环节了。本文将会介绍三种写入的方式,其中一种还在期待中,暂且官网即可... 代码在spark 2.2.0版本亲测 1. 基于HBase API批量写入 第一种是最简单的使用方式了,就是基于RDD的分区
用户1154259
2018/03/28
4.3K0
Spark DataFrame写入HBase的常用方式
点击加载更多

相似问题

在集群模式下用Spark将文件写入本地系统

48

在群集模式SPARK中写入本地文件系统

112

在'w‘模式下csv文件不能写入

14

Pyspark在纱线集群模式下将文件写入本地

112

Spark从本地读取文件并在hdfs中写入

146
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档