腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(6578)
视频
沙龙
1
回答
将Python系列转换为list或
Dask
DataFrame
or for循环
、
、
、
我正在使用Pandas中
的
代码,该代码涉及读取大量文件,然后对循
环中
的
每个文件执行各种操作(循环遍历文件列表)。我正在尝试将此转换为基于
Dask
的
方法,而不是基于Pandas
的
方法,到目前为止,我尝试了以下
的
尝试--我对
Dask
还不熟悉,需要询问这是否是一种合理
的
方法。这将允许在for循
环中
构建
Dask
。在此之后(在循环之外),我可以很容易地水平地将构建
的
Dask
浏览 1
提问于2017-05-03
得票数 1
回答已采纳
2
回答
如何提高python中多个csv文件
的
读取速度
、
、
、
、
这是我第一次创建一个代码来处理包含大量数据
的
文件,所以我被困在这里了。# CsvList: [File Path, Change Date, File size, File Name] for x, file in enumerate(CsvList我用
的
是
dask
.
dataframe
浏览 7
提问于2022-03-08
得票数 0
回答已采纳
0
回答
循
环中
的
DASK
Dataframe
、
我在尝试在
Dask
中实现循环时遇到了一些问题。).compute()==0:df = df.drop(cols_constant,axis=1)我不能使用e.persist(),因为我们打算在多个worker系统上进行
浏览 5
提问于2017-06-08
得票数 1
1
回答
对
DASK
中
的
列中
的
每个值运行mysql查询
、
、
我有一个包含用户id
的
CSV文件。此CSV文件作为
dask
-
dataframe
导入。进入数据帧后,我需要为id列中
的
每个条目获取该user-id,并在其上运行一个SQL查询来获取该user -id
的
用户名,并将其添加到新列中
的
dataframe
。我有几个这样
的
列需要获取。我不确定对
DASK
数据帧中
的
值运行select查询
的
dask
方法是什么。我该怎么做呢?我不想走命令式路线,并使用
浏览 26
提问于2020-03-18
得票数 1
回答已采纳
2
回答
Pandas
DataFrame
没有属性“is_monotonic_increasing”
、
、
、
我有一个作为Pandas
DataFrame
读入
的
.csv文件。然后,我尝试将其转换为
dask
dataframe
,但这会导致错误'Index' object has no attribute 'is_monotonic_increasing'。import pandas as pddf = pd.read_csv('s3://my-bucket/da
浏览 1
提问于2019-12-12
得票数 1
1
回答
将
dask
_cudf分区加载到GPU内存中时,每个分区
的
开销是多少?
、
、
在直接使用cuDF时,我可以高效地将单个大型数据块移动到单个
DataFrame
中。 当使用
dask
_cudf对我
的
DataFrames进行分区时,是否一次一个地将分区复制到GPU内存中?一批一批?如果是这样,多个拷贝操作而不是单个较大
的
拷贝是否会产生显著
的
开销?
浏览 74
提问于2019-02-15
得票数 2
4
回答
如何读取一个非常大
的
CSV
的
一小部分行。熊猫-时间序列-大型数据集
、
、
、
我在一个大
的
文本文件中有一个时间序列。该文件超过4GB。df = pandas.read_csv('super_size_file.log',我可能想要一个块一个块地加载,并重新整理每一块。但在我看来效率很低。 任何想法都欢迎。;)
浏览 0
提问于2019-05-23
得票数 2
回答已采纳
1
回答
从
dask
dataframe
提供程序收集属性
、
、
TL;DR:我如何从分布式读取中收集元数据(解析期间
的
错误)到
dataframe
集合中。 目前,我有一种专用
的
文件格式,用于输入
dask
.
DataFrame
。我有一个函数,它接受一个文件路径并返回一个pandas.
DataFrame
,
dask
.
DataFrame
成功地在内部使用该函数将多个文件加载到同一个
dask
.
DataFrame
。直到最近,我还在使用自己
的
代码将几个pandas.DataFram
浏览 7
提问于2016-01-26
得票数 2
回答已采纳
2
回答
无法在google上安装
dask
、
、
、
下面是我得到
的
代码错误 Requirement already up-to-date:
dask
[
dataframe
]1.16; extra == "
dataframe
" in /usr/local/lib/python3.7/dist-packages (from
dask
[
datafram
浏览 4
提问于2021-03-27
得票数 1
1
回答
如何从
dask
Dataframe
中仅提取50行?
、
、
、
我只想从
Dask
dataframe
中提取50行,但我不能。最后,我想创建一个新
的
Dataframe
,每个类有50行。当我运行这段代码时, import
dask
.
dataframe
as dd classes = train_csv.landmark_id.unique我想索引可能是wrong.so运行这段代码, import
dask
.
dataframe</em
浏览 15
提问于2019-04-30
得票数 0
1
回答
从字典创建
dask
数据帧
、
我有一本这样
的
字典: d = {'Caps': 'cap_list', 'Term': 'unique_tokens', 'LocalFreq': 'local_freq_list','CorpusFreq': 'corpus_freq_list'} 我想从它创建一个
dask
数据帧。通常,在Pandas中,可以通过以下方式轻松地将is导入Pandas df: df = pd.
DataFrame
浏览 28
提问于2019-12-17
得票数 3
1
回答
无法从本地计算机访问文件时使用
dask
.
dataframe
读取
、
我有一台功能强大
的
机器(远程机器),可以通过SSH访问。我
的
数据存储在远程机器上。 我想运行并访问远程机器上
的
数据。为此,我在远程机器上运行了一个
dask
-scheduler &一个
dask
-worker。然后,我在我
的
笔记本电脑(本地机器)上运行了一个jupyter笔记本电脑,使用
的
是client=Client(‘schedular ip:8786’),但它仍然引用本地机器上
的
数据,而不是远程机器上
的
数据如何从运行在本地计算
浏览 31
提问于2021-09-26
得票数 2
1
回答
Lambda作为
dask
数据挖掘
的
应用功能
我正在尝试使用lambdas作为函数,在for循
环中
应用于
dask
dataframe
,创建一个
dataframe
列表。当我计算每个
dataframe
时,它们都使用最后一个lambda表达式,而不是在循
环中
签名
的
表达式。示例:columns=['group',
浏览 1
提问于2017-11-17
得票数 1
回答已采纳
1
回答
使用
dask
.bag和pandas.
DataFrame
将字典
的
dask
.delayed转换为
dask
.
dataframe
、
我正在努力将字典
的
dask
.bag转换为
dask
.delayed pandas.DataFrames,使之成为最终
的
dask
.
dataframe
到目前为止,我一直在使用
dask
.delayed对象来加载、转换和附加所有工作正常
的
数据(参见下面的示例)。但是
浏览 3
提问于2019-03-22
得票数 5
回答已采纳
1
回答
.join在dataframes中
的
结果似乎取决于该方法,生成了
dataframe
、
、
在将join应用于.from_delayed方法生成
的
dask
数据文件时,我得到了意想不到
的
结果。我想通过下面的示例演示这一点,该示例由三个部分组成。通过from_delayed方法生成
dataframe
,并将其与通过from_pandas生成
的
dataframe
连接 将通过from_delayed方法生成
的
dask
数据转换为使用compute生成
的
熊猫。之后
浏览 0
提问于2016-07-17
得票数 2
回答已采纳
1
回答
使用
Dask
并行化读取
的
JSON ->保存部分
、
、
、
我想使用
Dask
摄取一个大
的
(>2GB,> 1M行)行分隔
的
JSON,并将其保存为一批Parquet文件。我正在我
的
个人电脑上进行这些实验,所以这个文件比可用
的
内存还要大。使用Pandas,我可以使用read_json()创建一个JsonReader对象,然后在for循
环中
遍历块: reader = pd.read_json(file, orient='records',,并产生预期
的
拼花文件集合。根据我对
的
理解,我编写
浏览 9
提问于2022-09-01
得票数 0
1
回答
如何从亚马逊s3导入多个文件
、
我当前
的
代码没有返回任何内容。bucket = s3.Bucket('databucket') prefix_df = pd.
DataFrame
浏览 15
提问于2021-06-04
得票数 0
1
回答
加快数据匹配
的
速度
、
、
我
的
数据在管道中运行,我希望确保输入与输出匹配--确保管道中
的
任何内容都不会导致数据更改。为此,我使用
Dask
比较数据格式,因为源包含超过200万行。我用来比较数据格式
的
代码如下: input_df = dd.read_sql_table(input_table, con=input_engine.url我研究了
dask
的
延迟使用,但在进行比较之前,我不认为它适用于为数据文件提取数据时。正如你所
浏览 1
提问于2022-03-17
得票数 0
1
回答
达克:写/读后
的
不同意指标
、
、
、
我有一只熊猫
DataFrame
,df,我把它变成了
DataFrame
,
dask
_dfimport
dask
.
dataframe
as dd
dask
_df = dd.from_pandas(df, npartitions=1) 当我把
dask
_df<
浏览 1
提问于2019-09-16
得票数 1
1
回答
在任务数据帧中使用map_partitions获取目录名
、
、
、
我正在寻找一些关于
dask
数据帧结果
的
帮助。我有一个
dask
数据帧,其中包含来自144个csv文件
的
144个数据帧。我想从这些数据帧中
的
一列中获取最大值并返回它,以及它所属
的
文件夹
的
名称。我一直在使用map_patitions来获得我正在寻找
的
结果,但是,没有与分区结果相关联
的
标识符,所以很难将结果应用于其他用途。任何帮助都将不胜感激!下面是我使用
的
代码示例: ddf = dd.read_csv(f'{di
浏览 23
提问于2020-03-21
得票数 1
点击加载更多
相关
资讯
DataFrame的数据处理
Python的DataFrame切片大全
python关于dataframe的小练习
为什么需要Pandas的DataFrame类型
Python基础教程 循环中的 else 子句
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券