腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(1256)
视频
沙龙
2
回答
Spark
输出
JSON
与
Parquet
文件大小
差异
apache-spark
、
parquet
这里是
Spark
的新用户。我通过
Spark
找不到任何关于同一个dataFrame的
JSON
和拼图
输出
的
文件大小
比较的信息。但是执行df.write.
parquet
会创建105个文件,每个文件的大小约为1.1kb。为什么在这种情况下,使用
parquet
的总
文件大小
要比使用
JSON
大得多? 提前感谢
浏览 20
提问于2018-08-14
得票数 2
1
回答
使用空数据集的星火SQL联接会导致更大的
输出
文件大小
。
apache-spark
、
apache-spark-sql
、
parquet
我遇到了一个问题,很明显,在
Spark
中使用一个空表执行一个完整的外部联接,所导致的
文件大小
比简单地从其他数据集中选择列而不进行联接要大得多。我在许多不同的数据集上尝试过这一点,并得到了相同的结果。在查看数据时: 抽查数据看起来是一样的,在这
浏览 0
提问于2017-04-13
得票数 1
回答已采纳
1
回答
Spark
1.5中DataFrames的不一致持久化
apache-spark
、
parquet
最近,我们从1.4.1转向
Spark
1.5.0,并注意到在持久化DataFrames方面存在一些不一致的行为。df1 = sqlContext.read.
parquet
("df1.
parquet
") join_
parquet
= sqlCont
浏览 3
提问于2015-10-26
得票数 2
1
回答
如何使用Apache
Spark
将
JSON
文件转换为
parquet
?
json
、
apache-spark
、
apache-spark-sql
、
parquet
我是Apache
Spark
1.3.1的新手。如何将
JSON
文件转换为
Parquet
?
浏览 2
提问于2016-01-12
得票数 10
回答已采纳
1
回答
<星火Dataframe>.write.
parquet
(<directory>)和<火花Dataframe>.write.
parquet
(<file name>.
parquet
)的区别
pyspark
、
parquet
我意识到,在运行
spark
时,最好有至少
与
内核一样多的地板文件(分区),以便尽可能充分地利用
spark
。但是,制作一个大的拼花文件和几个较小的拼花文件来存储数据有什么好处/缺点?作为一个测试,我使用这个数据集: import pyspark .master("local[*]") \ .appName('te
浏览 7
提问于2022-06-03
得票数 0
回答已采纳
1
回答
火星雨-胶3.0版,更新星火3.0 : 1582-10-15之前的阅读日期或1900年前的时间戳-01-01T00:00:00Z
pyspark
、
aws-glue
、
aws-glue3.0
由于
Spark
3.0的升级,您可能会得到不同的结果:从
Parquet
文件读取1582-10-15之前的日期或1900-01-01T00:00:00Z之前的时间戳可能是模棱两可的,因为这些文件可能是由
Spark
2.x或传统版本的Hive编写的,后者使用的遗留混合日历
与
Spark
3.0+的支持性公历不同。您可以将
spark
.sql.legacy.
parquet
.datetimeRebaseModeInRead设置为“旧式”,以重新建立日期时间值w.r.t。阅读期间的日历<e
浏览 32
提问于2022-05-12
得票数 0
1
回答
获取增量/拼花表各列的大小
databricks
、
parquet
我想检查每一列的拼花数据如何贡献总
文件大小
/总表大小。 我查看了
Spark
/Databricks命令、
parquet
-cli、
parquet
-tools,不幸的是,它们似乎都没有直接提供这样的信息。到目前为止,我得到的最接近的是运行
parquet
-tools meta,按列总结文件中每一行组的详细信息,然后对表中的所有文件进行聚合。这意味着迭代所有的
parquet
文件并对
输出
进行繁琐的解析。
浏览 9
提问于2022-10-31
得票数 0
回答已采纳
3
回答
随着分区的增加,
spark
拼接写入变慢
apache-spark
、
partitioning
、
parquet
stripMargin).coalesce(1).write.mode(SaveMode.Append).partitionBy("event_date", "event_hour","verb").
parquet
(Config.eventsS3Path)sparkConf.set("
spark
.sql.hive.convertMetastore
浏览 3
提问于2016-09-16
得票数 15
1
回答
要在python中这样做,
输出
应该
与
scala
输出
相同。
python-3.x
、
pyspark
在scala中,代码给出了一个字符串数组,但是在python中,我想要相同的
输出
,就像scala:代码在Scala:中一样 .master("local[*]") val sc =
spark
.sparkContext("
Parquet
") val rdd =
浏览 2
提问于2019-11-25
得票数 0
回答已采纳
1
回答
通过
spark
更快地从blob存储读取数据
azure
、
apache-spark
、
pyspark
我目前有一个由4个工作节点和2个头节点组成的
spark
集群。我在blob存储中有一个1.5 GB的CSV文件,我可以从其中一个头节点访问它。我发现使用PySpark加载并缓存这些数据需要相当长的时间。
浏览 0
提问于2016-11-26
得票数 1
1
回答
AWS胶-书写文件需要很长时间
apache-spark
、
pyspark
、
aws-glue
、
aws-glue-spark
、
aws-glue3.0
我正在使用Glue version 3.0、3和
Spark
版本3.1。 ('
spark
.sql.legacy.
parquet
.int96RebaseModeInRead', 'CORRECTED'), ('
spark
.sql.legacy.
parquet
.int96RebaseModeInWrite
浏览 6
提问于2022-03-29
得票数 2
1
回答
在星火中将拼花文件加载到案例类中的性能
scala
、
apache-spark
、
apache-spark-sql
、
parquet
我正在评估不同方式在星火中加载
Parquet
文件的性能,
差异
是惊人的。因此,我对从
Parquet
文件加载case类的不同方法进行了基准测试,并使用
Spark
1.6和2.0对字段进行了求和。() // 63.169s df.toJSON.flatMap(s => Try(
Json
.parse(s).as[A]).toOption)另一方面,我对Data
浏览 2
提问于2016-08-24
得票数 7
2
回答
如何控制
Spark
job在写入时创建的
输出
部品文件的数量?
apache-spark
、
hive
、
apache-spark-sql
、
parquet
我有几个
Spark
作业,每天处理数千个文件。
文件大小
可能从MB到GB不等。/path/in/hdfs"); OR
Spark
job在最终
输出
目录中创建了大量的小零件文件。据我所知,
Spark<
浏览 4
提问于2015-07-06
得票数 2
回答已采纳
1
回答
使用filter和basePath+full-filter-path读取
spark
数据集有区别吗?
apache-spark
、
partitioning
关于按列划分的数据集的读取效率,是否存在以下
差异
: // (1) read all dataset then filter
spark
.read.option("basePath",
浏览 23
提问于2020-09-25
得票数 0
回答已采纳
2
回答
Azure Data Google BigQuery复制数据活动不返回嵌套列名
azure
、
google-bigquery
、
azure-data-factory
、
azure-data-factory-2
、
azure-databricks
我有一个复制活动在Azure数据工厂
与
谷歌BigQuery的来源。我需要导入整个表(其中包含嵌套字段-BigQuery中的记录)。还考虑过查询列的子集,并在需要时使用UNNEST,但不希望这样做,因为
Parquet
同时处理数组和地图类型。 以前有人遇到过这种情况/你做了什么?
浏览 4
提问于2021-09-15
得票数 2
回答已采纳
2
回答
通过python将int96时间戳转换为日期时间/日期
python
、
apache-spark
、
casting
、
timestamp
、
parquet
背景C:\Research> java -jar
parquet
-tools-1.8.2.jar cat --
json
original-file.snappy.
parquet
>
parquet
-output.
json
{...,"timestamp":"ACIE4NxJAAAKhSUA"} 我已经确定
浏览 2
提问于2020-03-15
得票数 3
回答已采纳
1
回答
具有Struct列类型的读/写部分
apache-spark
、
pyspark
、
apache-spark-sql
、
pyarrow
、
fastparquet
我想给
Parquet
写一个这样的Dataframe:|-----|-------------------|我希望在(py)
Spark
中加载
Parquet
,并使用
Spark
查询数据,例如: df =
spark
.read.
parquet
("/m
浏览 8
提问于2020-02-14
得票数 4
回答已采纳
2
回答
大型python字典。存储、加载和写入
python
、
json
、
performance
、
dictionary
、
graph-theory
我有一个很大的python值字典(大约50 GB),并将其存储为
JSON
文件。当涉及到打开文件和写入文件时,我遇到了效率问题。
浏览 1
提问于2018-12-25
得票数 6
2
回答
拼花
文件大小
,消防软管
与
火花
apache-spark
、
parquet
、
amazon-kinesis-firehose
、
pyarrow
我确实注意到了一些模式和元数据的
差异
,当我使用Pyarrow加载它们时:>>>
spark
= pq.ParquetFile('<
spark
object name>.gz.
parquet
')<pyarrow.: BYTE_ARRAY UTF8 uuids.bag.array_element:
浏览 1
提问于2019-06-28
得票数 5
回答已采纳
2
回答
有没有办法改变每个分区文件夹的
输出
行数?
python
、
dataframe
、
pyspark
当我通过分区直接写入时,每个分区具有
与
spark
.sql.shuffle.partitions相同数量的文件。这会导致拥挤分区中的每个文件都非常大(以GB为单位),但在其他一些分区中,
文件大小
实际上很小(甚至以KB为单位)。有没有办法改变每个分区的文件数?| C |如果我这样做了:文件夹"
浏览 2
提问于2018-12-05
得票数 0
点击加载更多
相关
资讯
Spark之SparkSQL
Spark SQL,DataFrames 以及 Datasets 编程指南
斯坦福开源数据解析引擎Sparser:解析速度提升22倍
数据湖中的数据格式?
如何在Spark中处理结构化流式数据,如日志文件或传感器数据?
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券