腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Spark
中
的
Parquet
字节
数据
帧
到
UTF-8
、
、
、
、
我试图用python
中
的
Spark
从拼图文件
中
读取
数据
帧
,但我
的
数据
帧
是
字节
编码
的
,所以当我使用
spark
.read.
parquet
,然后使用df.show()时,它看起来如下所示: +---20 2D 2D]| 0| | 3|[43 6F 6D]| 0| +---+------
浏览 57
提问于2019-10-02
得票数 2
回答已采纳
1
回答
如果您将DataFrame保存到磁盘,如果您在脚本中使用较低DataFrame,
Spark
是否会加载该
数据
?
、
、
、
、
如果您加载一些
数据
,计算一个DataFrame,将其写入磁盘,然后稍后使用DataFrame ...假设它不是仍然缓存在内存
中
(假设没有足够
的
缓存),
Spark
是否足够聪明,可以从磁盘加载
数据
,而不是从原始
数据
重新计算例如: df1 =
spark
.read.
parquet
('data/df1.
parquet
') df2 =
spark
.read.
parquet
(
浏览 19
提问于2019-07-01
得票数 2
回答已采纳
1
回答
尝试在
Spark
中
读取拼花时出错
、
、
我使用
的
是Python
Spark
2.4.3df.write.
parquet
("result_
parquet
") parquetFile =
spark
.r
浏览 10
提问于2019-07-20
得票数 1
3
回答
阻止DataFrame.partitionBy()从架构
中
删除已分区
的
列
、
我按如下方式对DataFrame进行分区:代码给出了预期
的
结果(即按类型和类别划分
的
数据
但是,"type“和"category”列将从
数据
/模式
中
删除。有没有办法防止这种行为?
浏览 3
提问于2016-03-23
得票数 20
回答已采纳
1
回答
如何使用
Spark
Map Reduce将一堆镶木地板文件合并在一起?
、
、
、
、
我在代表相同
数据
模式
的
不同表
的
目录中有大量
的
拼图文件,我想将它们合并到一个大
的
RDD
中
。理想情况下,我想做一个map reduce,映射器发出小
的
RDD,reducer合并它们。下面的第一行生成目录
中
的
文件列表,第二行应该生成完整
的
RDD。但是,它给出了一个unable to serialize错误,因为我认为您不能在map实例
中
创建RDD。arr = map(lambda x: ["
浏览 1
提问于2017-09-06
得票数 1
1
回答
Spark
dataframe CSV vs
Parquet
、
、
我是
Spark
的
初学者,正在尝试理解
spark
数据
帧
的
机制。当从csv加载
数据
时,我正在比较
spark
sql dataframe上sql查询
的
性能。我
的
理解是,一旦
数据
被加载到
spark
数据
帧
中
,那么
数据
来自哪里(csv或
parquet
)就不再重要了。然而,我看到了两者之间
的</em
浏览 2
提问于2018-02-11
得票数 1
1
回答
如何在Python
中
读取多个文件夹
中
的
多个文件
、
、
、
我必须读取一个位于不同年份
的
多个文件夹
中
的
‘’.parket‘’文件。当是一年或两年
的
时候,这不是问题,但是当超过两年
的
时候,事情就变得复杂了,因为我必须阅读每个月对应
的
12个子目录。步骤1:读取文件df_2019_01=
spark
.read.
parquet
('/2019/01/name.
parquet
/') df_2019_02=
spark
.
浏览 2
提问于2021-06-29
得票数 0
1
回答
Spark
Dataframe正在丢失分区
、
、
、
、
我在读取
spark
数据
帧
时发现了这个奇怪
的
问题。我将
数据
帧
重新划分为50k个分区。但是,当我读取
数据
帧
并对其执行计数操作时,我发现当我使用
spark
2.0时,底层rdd只有2143个分区。因此,我转到保存重新分区
的
数据
的
路径,发现50476 因此,它在保存
数据
的
浏览 11
提问于2017-08-11
得票数 4
回答已采纳
1
回答
使用SparkR创建
的
数据
帧
和使用Sparklyr创建
的
数据
帧
有什么区别?
、
、
、
、
我正在Azure databricks
中
读取一个拼图文件:使用SparkR > read.
parquet
()使用Sparklyr >
spark
_read_
parquet
()这两个
数据
帧
是不同
的
,有没有办法将SparkR
数据
帧
转换为sparklyr
数据
帧
,反之亦然?
浏览 11
提问于2020-08-18
得票数 0
回答已采纳
2
回答
Spark
是否在read上维护拼花地板分区?
、
、
、
我很难找到这个问题
的
答案。假设我向
parquet
编写了一个
数据
帧
,并结合使用repartition和partitionBy来获得一个分区良好
的
parquet
文件。如下所示:现在,稍
浏览 5
提问于2018-06-13
得票数 15
1
回答
当我退出
spark
shell时,所有的
数据
帧
数据
都消失了。这是正常
的
吗?
、
、
我正在将CSV
数据
加载到
数据
帧
中
。这可能需要大约5分钟(大量
数据
)。当我退出
spark
-shell并重新登录到
spark
-shell时,
数据
就消失了。这是正常行为吗?我在文档
中
找不到任何关于这方面的东西。如何在会话之间持久化
数据
?
浏览 11
提问于2017-06-22
得票数 0
回答已采纳
1
回答
当显式给定s3路径时,模式合并不起作用
、
、
、
当显式地指定s3路径来读取不在同一目录
中
的
parquet
文件时,不会推断分区方案,因此我无法在我
的
spark
数据
帧
中
获得已分区
的
列。,'s3://bucket/folder2/col=val2/f
浏览 12
提问于2019-10-10
得票数 0
2
回答
在
Spark
java中使用Dataframe合并两个拼图文件
、
、
、
我有两个模式相同
的
拼图文件。我想用
Spark
java
中
的
Dataframe合并第二个文件和第一个文件,没有任何重复
的
数据
。该怎么做呢? 提前谢谢。
浏览 0
提问于2017-08-14
得票数 0
1
回答
我们如何保存一个巨大
的
pyspark
数据
帧
?
、
、
我有一个很大
的
pyspark Dataframe,我想把它保存在myfile (.tsv)
中
以备将来使用。csv_file.flush() 1.Worker: Executor app-20190722085320-0000/14 finished with state KILLED exitStatus 1432-在作业执行日志
中
:请注意,在小
数据
上,执行是可以
的
,但在大
数据
上则不是。 另外,请告诉我保
浏览 20
提问于2019-07-23
得票数 7
1
回答
使用pyspark将拼图文件(在亚马逊s3
中
)存储
到
spark
数据
框架
中
、
、
、
、
我正在尝试从我
的
s3存储桶
中
的
特定文件夹读取
数据
。这些
数据
是拼图格式
的
。为此,我使用了data = wr.s3.read_
parquet
("s3://bucket-name/folder/with/
parquet
/files/", dataset = True) 这将返回一个pandas
浏览 9
提问于2021-06-10
得票数 0
回答已采纳
1
回答
在df.toPandas().to_csv('mycsv.csv')之后,
数据
在重新读取时会被混淆
、
、
我有一张名叫result_25
的
桌子。我使用此代码成功地将
数据
导出到磁盘上
的
csv。result_25.toPandas().to_csv('mycsv.csv')rr =
spark
.read.csv('mycsv.csv',inferSchema=True, header=True) 我查了
数据
,看上去很好。但是,当我用.describe() .describe().show()检查我
的
.
浏览 3
提问于2018-10-01
得票数 2
回答已采纳
1
回答
如何共享全局
spark
会话?
实际上,我在一个项目中工作,其中包括一个由多个任务和单个任务组成
的
多个组件组成
的
工作流程。例如。在join
中
,我们需要4个组件。因此,流程类似于,使用
spark
submit为join创建一个
spark
会话,将输出保存在hdfs
中
,并关闭当前
spark
会话。对于排序,使用
spark
创建另一个会话,并通过join任务获取存储在hdfs
中
的
输出以进行排序。 但问题是,从hdfs获取
数据
会产生开销。那么有
浏览 30
提问于2019-07-19
得票数 1
2
回答
创建星火中小于100行组大小
的
拼花文件。
、
、
我有一个火花
数据
帧
,有少量
的
字段。其中一些字段是巨大
的
二进制小块。整行
的
大小约为50 MB。只要
parquet
.block.size
的
大小足以容纳100多行,就可以正常工作。是否有不同
的<
浏览 2
提问于2018-01-09
得票数 11
回答已采纳
1
回答
使用partitionBy写入现有目录Dataframe
、
在下面的代码
中
,我无法将
数据
帧
写入
到
现有目录
中
,它只是从
spark
submit job.Is
中
退出,我可以将其写入现有目录而不是创建新目录?在这里,测试是一个
数据
帧
test.repartition(100).write.partitionBy("date").
parquet
(hdfslocation)
浏览 0
提问于2017-08-03
得票数 2
回答已采纳
2
回答
如何解压拼图文件?
、
、
、
、
我有一个大小约为60MB
的
test.
parquet
文件。使用下面的脚本,我发现拼图文件
的
列压缩是GZIP。import pyarrow.
parquet
as pqprint(
parquet
_file.metadata.row_group_
parquet
.ColumnChu
浏览 29
提问于2021-07-02
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark SQL在字节跳动数据仓库领域的优化实践
Spark中的数据缓存和数据持久化机制。
tcp/ip模型中,帧是第几层的数据单元?
大画 Spark :: 网络(7)-Spark网络中的“四次握手”Executor注册到Driver过程中的TransportClient与细节过程
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券