腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(433)
视频
沙龙
2
回答
使用
to_parquet
()
将
dask
dataframe
写入
parquet
会
导致
"
RuntimeError
:
文件
元
数据
仅在
writer
关闭
后
可用
“
、
、
、
、
我正在尝试在拼图
文件
中
使用
store
Dask
dataframe
。我已经安装了pyarrow库。import numpy as npimport
dask
.
dataframe
as dd 685 if self.file
浏览 60
提问于2021-10-03
得票数 0
2
回答
是否有一种
使用
带分区的熊猫
to_parquet
覆盖现有
数据
的方法?
、
、
我
使用
熊猫来
使用
带分区的
to_parquet
函数编写一个拼花
文件
。示例:问题是每次我运行代码。它在分区中添加了一个新的
parquet
文件
,当您读取
数据
时,每次运行脚本时都会得到所有
数据
。从本质上说,
数据
每次都会追加。 有没有办法在每
浏览 19
提问于2022-02-17
得票数 3
2
回答
分区取水
数据
源
、
、
我有一个大型的每日
文件
数据
集,位于/some/data/{YYYYMMDD}.
parquet
(也可以是smth类似于/some/data/{YYYY}/{MM}/{YYYYMMDD}.
parquet
)我
将
mycat.yaml
文件
中的
数据
源描述为: source_paritioned: engine: pyarrow urlp
浏览 9
提问于2021-11-09
得票数 2
1
回答
dask
.read_
parquet
导致
OOM错误
、
、
我一直在
使用
dask
对多个csv
文件
执行
数据
清理。import Client cols_to_keep = ["barcode", "salesdate", "storecode", "quantity在
使用
pandas的
to_parquet
()方法
将
csv
文件
转换为.
parquet
浏览 7
提问于2018-08-08
得票数 1
回答已采纳
3
回答
Dask
DataFrame
.to_
parquet
在读重分区
写入
操作中失败
、
、
、
、
df df =
dask
.
dataframe
.from_delayed但是,最后的
to_parquet
调用
将
永远挂起。在
dask
仪表板上,没有任何活动。当df.visualize()中有236个
文件
被重新划分为41个分区时,files_list ()如下所示: 如果有10k
文件
,您知道是什么原因<e
浏览 12
提问于2022-03-15
得票数 2
回答已采纳
1
回答
保存到拼图会在
Dask
.
dataframe
中抛出错误
、
、
在执行以下操作时:
Dask
.
dataframe
.to_
parquet
(data),如果通过
Dask
读取具有给定分区数量的data,并且您在移除一些列
后
尝试将其保存为
parquet
格式,则会失败,并显示以下错误: FileNotFoundError: [Errno 2] No such file or directory: part.0.
parquet
' 有人遇到过同样的问题吗?下面是一个最小的例子--请注意,方法1按预期工作,而方法2则不是: import n
浏览 19
提问于2021-03-25
得票数 1
回答已采纳
1
回答
Dask
无法
使用
连接的
数据
写入
拼图
、
、
我正在尝试做以下几件事:
使用
pandas读取.dat
文件
,将其转换为
dask
数据
帧,并将其连接到我从拼图
文件
中读取的另一个
dask
数据
帧,然后输出到新的拼图
文件
。当我在python脚本中这样做时,脚本完成了,但是整个组合
文件
并没有被写出来(我知道因为它的大小- CSV是140MB,
parquet
文件
大约是1 1GB
to_parquet
的输出只有20MB)。在某些情况下,这是一个
浏览 26
提问于2020-06-13
得票数 1
3
回答
带有pyarrow内存的
dask
read_
parquet
发生故障
、
、
我正在
使用
dask
来写和读拼花。我
使用
快速拼接引擎进行写作,
使用
pyarrow引擎进行阅读。我的worker有1 gb的内存。对于fastparquet,内存
使用
率很好,但当我切换到pyarrow时,它就会崩溃,并
导致
worker重新启动。我有一个可重现的例子,在一个1 1gb内存限制的worker上,pyarrow失败了。任务: 0.17.1快速镶木地板: 0.1.3 import
dask
.
dataframe</
浏览 0
提问于2018-06-15
得票数 3
1
回答
从spark插入到群集配置单元表
、
、
我正在尝试对
数据
存储进行一些性能优化。这个想法是
使用
配置单元的分组法/集群来存储
可用
的设备(基于列id)。我目前的方法是根据拼接
文件
将
外部表中的
数据
插入到表中。因此,它应用了分组法。;仍然
会
导致
不同的
浏览 0
提问于2018-02-27
得票数 2
1
回答
dataframe
连接和重新分区大
文件
,用于时间序列和相关性。
、
、
、
在此之后,我尝试了
后
一种解决方案,并做到了:df = dd.read_
parquet
("/blah/
parquet
/",/SDO/AIA/
parquet
/combined") 但在第二步,达斯克炸毁了我的记忆,我的内核
关闭
。由于
Dask
非常关注处理比内存更大的
数据
,
浏览 29
提问于2022-06-20
得票数 1
1
回答
用Python和(或)熊猫制作的人造板柱
、
、
、
、
('original.csv')df3 = df2.to_dict('records')pd.
DataFrame
(df3).
to_parquet
(&
浏览 0
提问于2021-02-27
得票数 1
回答已采纳
3
回答
使用
Spark在s3上通过s3a编写一个拼花
文件
是非常慢的
、
、
、
、
我正在尝试
使用
parquet
将
一个Amazon S3
文件
写入
Amazon S3。我正在生成的小
parquet
是曾经编写的~2GB,所以它不是那么多
数据
。我试图证明Spark是我可以
使用
的平台。这些
数据
来自一个供应商提供的csv
文件
,我正在
使用
Spark作为一个ETL平台。我目前在ec2(r3.2xlarge)中有一个3节点集群,所以执行器和16个核心上的内存120GB总计。输入
文件
浏览 0
提问于2016-04-29
得票数 22
1
回答
Impala 2.7无法从用Tez创建的蜂巢中读取任何
数据
、
、
我正在
使用
一个
使用
多个union操作符的查询来填充一个分区的Hive表。
使用
Tez执行查询,默认设置
会
导致
多个并发的Tez编写器创建HDFS结构,其中
parquet
文件
位于分区
文件
夹下的子
文件
夹中(
文件
夹名为Tez写器ID )。例如/apps/hive/warehouse/scratch.db/test_table/part=p1/8/0
浏览 1
提问于2017-11-08
得票数 0
回答已采纳
2
回答
是否有Pandas的
数据
集
文件
格式可以在多个列上索引(即“
数据
库-索引”)和/或可以廉价更新?
、
我正在为内存更大的
数据
集构建一个交互式浏览器和编辑器,稍后将
使用
Pandas进行处理。因此,我需要对
数据
集进行交互排序或过滤的几个列上索引(
数据
库索引,而不是Pandas索引),我希望dataset
文件
格式支持廉价编辑,而无需重写大部分
文件
。就像
数据
库一样,我只希望能够在之后以与Pandas兼容的格式发送
文件
,而不需要导出。 可以选择在多个列上构建
数据
库索引(用于排序和筛选)。如果没
浏览 1
提问于2018-03-02
得票数 2
5
回答
如何在
写入
csv时保留空值
、
、
、
我
使用
Python的csv模块
将
数据
从sql服务器
写入
csv
文件
,然后
使用
copy命令
将
csv
文件
上传到postgres
数据
库。问题是Python的csv编写器
会
自动
将
Nulls转换为空字符串"“,而且当列是int或float
数据
类型时,它会失败,并且它试图插入这个”当它应该是空值或空值时“。示例:42.313270000 -71.1162400
浏览 7
提问于2019-02-21
得票数 13
回答已采纳
1
回答
用L2存储L2刻度
数据
、
序言: dtype=object) Numpy不喜欢数组的锯齿状,虽然我很高兴(足够)
使用
np.pad
将
时间
浏览 3
提问于2020-07-19
得票数 0
1
回答
Dask
:在大
数据
文件
上设置索引
会
导致
处理过程中高磁盘空间的
使用
。
、
、
、
我正在处理一个大型
数据
集(22万行,~25 of作为csv
文件
),该
数据
集存储为几个csv
文件
。我已经成功地用
Dask
读取了这些csv,并将
数据
保存为一个带有以下内容的拼花
文件
:from
dask
.distributed import Client然而,这个
数据
浏览 7
提问于2021-03-02
得票数 0
5
回答
读取地块
文件
时刷新
Dataframe
的
元
数据
、
、
、
我正在尝试
将
拼图
文件
作为
数据
帧读取,它将定期更新(路径为/folder_name。每当有新
数据
到来时,旧的地块
文件
路径(/folder_name)将被重命名为临时路径,然后我们合并新
数据
和旧
数据
并将其存储在旧路径(/folder_name)中。读取
数据
,但由于更新,
文件
名发生了更改,我遇到了以下问题 java.io.FileNotFoundException:
文件
不存在:hdfs:
浏览 1
提问于2019-11-08
得票数 4
12
回答
向熊猫
DataFrame
添加元信息/
元
数据
、
能为熊猫
DataFrame
添加一些
元
信息/
元
数据
吗?一种解决方法是
使用
该信息创建一个列,但是在每一行中存储一条信息似乎是浪费的!
浏览 5
提问于2013-02-04
得票数 137
回答已采纳
5
回答
为什么FileInputStream read()没有阻塞?
、
、
、
我有一个
Writer
程序,它将一行文本
写入
文件
,然后等待用户点击返回,然后再
写入
另一行,然后退出。只有在此之后,
文件
才会
关闭
。如果还没有
可用
的输入,则此方法
将
阻止。Via: 但是ReaderFIS是在阅读“你好世界”之后立即完成的,并且显然看到了一个EOF!所以它做的是而不是块!available()、
使用
缓冲区尝试read()、尝试readLine()、在
文件
中连续
写入
一个字符,每次
写入
浏览 2
提问于2010-09-09
得票数 6
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark SQL,DataFrames 以及 Datasets 编程指南
Spark之SparkSQL
Python辐射校正遥感图像并以一列的形式导出Excel
简化TensorFlow和Spark互操作性的问题:LinkedIn开源Spark-TFRecord
Python 开发中如何进行文件读写操作
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券