腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
Spark
将
多个
目录
读入
多个
数据
帧
、
、
、
、
我在S3上有一个
目录
结构,如下所示: |-base |-01 |-part1.orc, part2这意味着对于
目录
foo,我在基于作业时间戳的给定路径中有
多个
输出表,如base、A、B等。类似这样的代码
浏览 0
提问于2017-02-06
得票数 2
1
回答
将不同的表从
目录
中读取到一个单独的
数据
格式数组中
、
我在一个
目录
中有几个CSV文件(表)(所有表都有不同的模式),并且希望循环这些文件,并将每个表
读入
一个单独的dataframe。在Python/Pandas中有任何方法可以将不同的表
读入
数据
数组中吗?如何
将
多个
表(具有不同模式)导入
多个
单独的
数据
帧
?
浏览 4
提问于2013-08-08
得票数 0
回答已采纳
11
回答
将
多个
CSV文件
读入
不同的
数据
帧
、
、
、
假设我们在
目录
C:\R\Data中有文件file1.csv、file2.csv、.和file100.csv,并且希望将它们全部
读入
单独的
数据
帧
(例如file1、file2、.和file100)。我可以使用lapply,但这会返回一个包含100个
数据
帧
的列表。相反,我希望这些
数据
帧
在全球环境中。 如何
将
多个
文件直接
读入
全局环境?或者,我如何
将
数据
帧
浏览 12
提问于2011-03-16
得票数 43
回答已采纳
1
回答
使用scala
将
json
读入
多个
spark
数据
帧
、
、
http://gender-balance.org/" }, "events": [],} 我想把帖子读到一个
数据
帧
中meta“json对象中的"sources”数组应该被
读入
另一个
数据
帧
。 有没有办法用
spark
scala来实现这一点。 任何帮助都是非常感谢的。 提前感谢Shakti
浏览 6
提问于2019-03-02
得票数 0
回答已采纳
1
回答
如何
将
文件夹中的
多个
ann文件(从brat注解)读取到一个pandas
数据
帧
中?
、
、
、
、
我可以
将
一个ann文件
读入
pandas dataframe,如下所示: df = pd.read_csv('something/something.ann', sep='^([^\s]*)\s', engine='python', header=None).drop(0, axis=1) df.head() 但我不知道如何
将
多个
ann文件读取到一个pandas
数据
帧
中。如何
将
多个
an
浏览 6
提问于2021-08-16
得票数 0
回答已采纳
2
回答
是否有可能将具有相同或不同顺序的相同头或头子集的
多个
csv文件
读入
火花
数据
帧
?
、
、
、
我有许多csv文件在一个文件夹中,要加载到火花
数据
帧
。它们都有相同的标头或一个标头,这是最长标头的子集,但顺序不同。我试着用 .format("com.databricks.
spark
.csv") .option("header","true")是否有可能将具有相同或不同顺序的相同头或头
浏览 7
提问于2016-11-16
得票数 4
1
回答
如何在星火中从S3路径读取文件数
、
、
、
因此,我在使用
Spark
中最通用的S3读取代码,它将指定
目录
中的
多个
文件
读入
单个
数据
文件: .option("inferSchema
浏览 2
提问于2021-03-15
得票数 0
回答已采纳
1
回答
多个
kafka集群的
Spark
结构化流
我正在尝试从不同集群的
多个
主题中获取一些关于
spark
结构化流媒体和阅读的基本信息。我找到了一些教程,这些教程展示了如何从同一集群上的
多个
kafka主题中拉出
数据
,但如果这些主题位于不同的集群中呢?如何
将
多个
kafka集群中的主题
读入
spark
?
浏览 14
提问于2018-07-18
得票数 0
回答已采纳
2
回答
读入
多个
.csv文件
、
我想从特定位置
读入
csv.文件。如何一次
将
多个
文件
读入
全局环境?如何
将
数据
帧
列表中的内容解压到其中,反之亦然?
浏览 20
提问于2021-06-29
得票数 2
回答已采纳
1
回答
使用AWS Glue ETL python
spark
(pyspark)
将
多个
拼图文件合并到单个拼图文件中的亚马逊S3
、
、
、
我每15分钟运行一次AWS Glue ETL Job,每次在S3中生成1个拼图文件。 我需要创建另一个作业来运行每小时结束,以合并所有4个拼图文件在S3到一个单一的拼图文件使用AWS胶水ETL pyspark代码。 有人试过吗?建议和最佳实践? 提前感谢!
浏览 12
提问于2020-03-24
得票数 1
1
回答
更改
spark
_temporary
目录
路径,避免删除parquets
、
、
当两个或
多个
Spark
作业具有相同的输出
目录
时,相互删除文件将不可避免。我正在使用
spark
2.4.4在append模式下写入一个
数据
帧
,我想在
spark
的tmp
目录
中添加一个时间戳,以避免这些删除。示例:使用其他
数据
调用相同的
spark
作业,并在hdfs:/out
浏览 20
提问于2020-03-19
得票数 1
1
回答
使用r
将
多个
文本文件读取到
数据
帧
中
我尝试使用R
将
多个
文本文件读取到它们各自的
数据
帧
中 我试过files <- (Sys.glob("*.txt")) listOfFiles <- lapply(files, function(x) read.table有没有一个函数可以把它们
读入
多个
数据
帧
?
浏览 0
提问于2017-04-07
得票数 1
1
回答
火花
数据
帧
、
、
星火
数据
帧
和Pandas
数据
帧
的区别是什么?我的理解是,Pandas
数据
框架主要用于
将
CSV
数据
读入
DF,在DF中,
Spark
数据
帧
用于
将
弹性分布式
数据
( RDD )加载到
数据
帧
中,并且可以操作
数据
帧
。请分享你的反馈
浏览 6
提问于2020-09-01
得票数 0
回答已采纳
1
回答
将
数据
帧
写入现有csv文件scala
、
、
、
我有以下包含
数据
的
数据
框|sport |value ||table tennis |12 |我想把这个
数据
帧
写到一个现有的finalEmojiAnalyzedDataFrame = emojiRdd.toDF("spo
浏览 20
提问于2021-02-25
得票数 0
1
回答
从
多个
文件读取
Spark
数据
帧
、
、
假设您有两个s3存储桶,您想要从中读取
spark
数据
帧
。对于在
spark
数据
帧
中读取的一个文件,将如下所示: file_1 = ("s3://loc1/") df =
spark
.read.option("MergeSchema","True").load(file_1) 如果我们有两个文件: file_1 = ("s3://loc1/&
浏览 9
提问于2021-10-18
得票数 0
回答已采纳
2
回答
在Pandas中将
多个
csv读取到单独的
数据
帧
中
、
、
我有一个很长的csv文件列表,我想以
数据
帧
的形式读取这些文件,并按文件名命名它们。例如,我想
读入
文件status.csv,并为其
数据
帧
指定名称status。看看this,它允许我
将
多个
csv读取到一个
数据
帧
中,而不是
多个
。
浏览 38
提问于2019-03-20
得票数 1
回答已采纳
2
回答
将
多个
文件
读入
多个
数据
帧
、
、
dta、data_aa_3.dta data_bb_1.dta、data_bb_2.dta、data_bb_3.dta、data_cc_1.dta……我想转换这些文件,并获得与R中的dta文件一样多的
数据
帧
浏览 0
提问于2012-06-27
得票数 3
回答已采纳
1
回答
如何在for循环中重命名
数据
帧
、
我对R编程非常陌生,但我正在尝试
读入
一个
目录
的
多个
文件,并为每个文件指定一个唯一的名称。我正在使用R中的树状年代学程序库(软件包dpIR)和read.tucson函数读取文件。虽然我使用的是特定的包,但我认为我的问题是相当笼统的: 在循环中,我希望通过
将
"t"与每个单独的文件名连接起来来创建文件。因此,如果我的
目录
中有一个名为"2503"的文件,我想在R中创建一个名为"t2503"的
数据
帧
。接下来,我想使用r.
浏览 0
提问于2012-12-19
得票数 18
回答已采纳
1
回答
PathNotFound错误消息: openFileForRead必须与文件而不是
目录
一起使用
、
、
、
、
我使用下面的代码来使用读取excel文件: .read \ .option#.withColumn("SourceFile",F.input_file_name()) PathNotFound错误消息: openFileForRead必须与文件而不是
目录
一起使用
浏览 4
提问于2021-09-06
得票数 2
回答已采纳
1
回答
通过在不同线程中执行
多个
查询来触发
数据
帧
缓存
、
我想知道
spark
中的
数据
帧
缓存是否是线程安全的。在我们的一个用例中,我从一个hive-table创建一个dataframe,然后通过不同的线程在同一个dataframe上运行
多个
SQL。由于我们的存储和计算是解耦的,而且由于某些原因读取非常慢,我在考虑
将
数据
帧
缓存到内存中,并将缓存的
数据
帧
用于所有查询。
数据
帧
缓存是线程安全的吗?这样做还有其他的陷阱吗?我的计算集群中有足够的内存(磁盘和内存)来缓存
浏览 17
提问于2020-03-10
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
将多个Excel工作表合并到一个Pandas数据帧中
如何将多个Lightroom目录合并为一个
如何按照 Excel 中的目录,从多个工作表中查找出完整数据?
如何快速的将EXCEL表格数据拆分成多个文件?
如何将寺库网多个商品图片一键分类保存到一个目录
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券