腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
Pandas
减少
循环
处理
100万组
数据
的
时间
?
、
、
、
我在一个csv文件中
的
一列中有将近一百万行
数据
。如果我绘制这一百万组
数据
,它将是一种包含5个峰值
的
波形函数。所以我做
的
第一件事就是将这个csv文件导入到
pandas
dataframe中。我所能想到
的
就是我
使用
了太多
的
for
循环
,因此迭代
数据
需要太多
的
时间
。下面是一个示例代码。(请注意,虽然这只是一个示例代码,但它应该足够清晰,以显示我所
使用
<e
浏览 9
提问于2017-06-28
得票数 0
1
回答
pandas
是否缩短了运行
时间
?
、
、
我有一个用python编写
的
代码,其中包含不同
的
矩阵和for
循环
来更改矩阵元素。但是它需要很长
时间
才能运行。现在
的
问题是,如果我将矩阵改为
pandas
、DataFrames和series,是否会
减少
运行
时间
?
浏览 20
提问于2020-04-28
得票数 0
回答已采纳
1
回答
如何
让
Pandas
数据
帧在多核上运行?
、
、
我在
pandas
dataframe中
处理
了大约500万行
数据
&大约45 minutes.There是多列,
数据
转换涉及到将一些列复制到新列,根据给定
的
逻辑更改某些列中
的
值,以及许多这样
的
转换。由于
pandas
一次只在一个核心上运行,我
的
其他节点仍然处于空闲状态。
如何
让
pandas
利用所有可用节点并
减少
总
的
转换
时间
?
浏览 52
提问于2021-01-12
得票数 0
1
回答
优化
循环
、
数据
帧分区
、
、
、
我正在制作一种二进制分类中
的
特征选择算法,它通过np.array或pd.series以贪婪
的
方式找到具有良好目标划分
的
区间。import
pandas
as pd df = pd.DataFrame([[51, 35, 1], [52, 3, 1], [53, 11, 1], [61, 8,
浏览 0
提问于2021-01-12
得票数 0
2
回答
Python
Pandas
:
如何
使用
CSV文件为每第n行获取一个
数据
?
、
数据
文件太大了,我只想在特定
的
时间
间隔接收它,以
减少
解释
时间
。我
使用
的
是
pandas
.read_csv。
如何
才能使每n行只有一行?
浏览 4
提问于2020-12-11
得票数 1
回答已采纳
1
回答
Pandas
中
的
慢日期
时间
解析
、
、
、
、
这些关于
pandas
.read_csv()中日期
时间
解析
的
问题都是相关
的
。默认情况下,参数infer_datetime_format为False。把它设置成真的安全吗?换句话说,
Pandas
能准确地推断日期格式吗?任何对其算法
的
洞察力都会有所帮助。然而,如果两者都是假
的
,则花费了10分钟。 为什么和都必须是True才能加快日期
时间
解析?如果一个是假
的
,而不是另一个,难道不应该花20秒到10分钟
的
时间
浏览 3
提问于2017-03-28
得票数 1
2
回答
比csv和
pandas
更快
的
替代品
、
、
我有
数据
增强代码,需要追加到csv文件。
数据
是以百万为单位
的
。需要2-3天。有没有更快
的
替代方案?当我们需要数百万级
的
追加操作时,HDF5
的
速度有多快?output_csv,mode = 'a', index = False, header=False)这段代码只是对正在发生
的
事情略知一二
浏览 2
提问于2020-02-19
得票数 0
1
回答
执行并行代码顺序部分(大型操作+写入文件)
的
有效方法?
、
我有一个
使用
mpi
的
C++代码,并以顺序并行顺序模式执行.上述模式在
时间
循环
中重复。在用串行代码验证代码
的
同时,我可以得到并行部分
的
时间
缩减,实际上,
减少
与
处理
器
的
no几乎是线性
的
。我面临
的
问题是,当
使用
较高
的
处理
器no时,顺序部分所需
的
时间
也会大大增加。 与整个程序
的
总时序
浏览 3
提问于2011-07-28
得票数 3
2
回答
优化PySpark与
pandas
DataFrames之间
的
转换
、
、
、
、
我有一个13M行
的
pyspark
数据
帧,我想把它转换成
pandas
数据
帧。然后,将根据其他参数以不同
的
频率(例如1秒、1分钟、10分钟)对
数据
帧进行重新采样以进行进一步分析。从文献[,]中,我发现
使用
以下任何一行都可以加快pyspark到
pandas
数据
帧之间
的
转换: spark.conf.set("spark.sql.execution.arrow.pyspark.enabled", "
浏览 11
提问于2021-11-19
得票数 0
3
回答
Python:在不加载剩余
数据
的
情况下加载excel头
、
、
我正在
处理
非常大
的
Excel文件,用Python加载
Pandas
需要很长
时间
。在
处理
数据
之前,用户必须选择与
数据
相关
的
许多选项,这些选项只需要每个
数据
集中
的
每个列
的
名称。用户不得不等待几分钟,直到
数据
加载,才能选择必要
的
选项,然后让程序再进行几分钟
的
实际
处理
,这是非常不方便
的
。 因此,我
的
问题
浏览 1
提问于2020-06-17
得票数 1
回答已采纳
1
回答
带计数器
的
嵌套
循环
的
多
处理
、
、
、
、
我正在寻找简单
的
解决方案,可以帮助我
使用
我
的
个人电脑
的
全部力量,以
处理
我
的
数据
。我认为,将任务划分到不同
的
核心上有助于
减少
处理
时间
,但我不知道该
如何
做,我已经搜索过类似的问题,但没有任何解决方案可以解决我
的
问题。我正在
处理
大约长度为3000
的
数据
,因为我
使用
嵌套
的
for<em
浏览 1
提问于2021-05-18
得票数 0
回答已采纳
1
回答
如何
避免在
pandas
.read_excel中读取空行
、
我有一个包含一百万行
的
excel表格。只有前一百行左右才有
数据
。其余行为空。
pandas
.read_excel在内部
使用
xlrd读取
数据
。反过来,xlrd读取整个工作表并花费大量
时间
(大约65秒)。但不能
减少
阅读
时间
。pd.read_excel(file_path, sheetname=sheetname,nrows=1000, skiprows=1, header=None) 我在装有Windows 10操作系统
的
机器上有一个8 8
浏览 193
提问于2019-12-05
得票数 4
1
回答
是否可以直接访问multimap中
的
位置(而不是键)
、
、
问题:,您
如何
在没有
循环
的
情况下访问键范围中指定位置
的
值? 我所知道
的
获取这个
数据
的
唯一可能
的
方法是增加迭代器,但是这个位置在键范围
的
开始或结束
的
时候也有很多次。编辑我不愿意
使用
循环
的
原因是当索引中
的
值位置已知时,通过获取想要
的
值来
减少
处理
时间
。
浏览 2
提问于2013-12-17
得票数 2
回答已采纳
3
回答
嵌套Foreach
循环
花费了太多
时间
、
、
、
、
我
使用
嵌套Foreach
循环
将
数据
存储在mysql中。但
处理
时间
太长了。
如何
减少
最大执行
时间
。
浏览 4
提问于2016-08-03
得票数 1
回答已采纳
1
回答
提高大熊猫群
的
性能
、
我有一个用Python编写
的
机器学习应用程序,其中包括一个
数据
处理
步骤。当我编写它时,我最初在
Pandas
DataFrames上进行了
数据
处理
,但是当这导致了糟糕
的
性能时,我最终用普通
的
Python重写了它,
使用
的
是for
循环
,而不是矢量化
的
操作,列表和切分,而不是DataFrames令我惊讶
的
是,用vanilla编写
的
代码
的
浏览 1
提问于2017-11-20
得票数 37
回答已采纳
1
回答
python ProcessPoolExecutor内存问题
、
、
、
、
我
使用
ProcessPoolExecutor来加快大型
数据
文件列表
的
处理
速度,但是由于它们都在每个进程中被复制,所以内存不足。我该
如何
解决这个问题?我
的
代码如下所示: # do some work on a single
pandas
DataFrame # dfs is a list of 10
浏览 20
提问于2022-02-17
得票数 1
回答已采纳
1
回答
从c#中
的
馈送器接收高容量tcp套接字财务
数据
的
最佳方式?
、
、
、
、
我正在开发一个C#窗口服务,它将从一个
使用
TCP
的
馈送器接收财务报价。我
的
项目必须接收和
处理
大量
数据
,因为我将跟踪140种不同
的
资产,这些资产用于每秒更新SQL
数据
库。我正在
使用
一个
循环
在BackgroundWork线程中从套接字中汇集
数据
: { if (!} {
浏览 1
提问于2013-11-15
得票数 1
1
回答
python中不规则高频
时间
序列
数据
的
预
处理
、
、
、
、
最初在...posted中
使用
的
StackOverflow (可能更适合这里)我正在
处理
不规则
的
、高频
的
时间
序列
数据
.在一秒钟内,我可以有多个
数据
点,如下面的timestamp字段所示,这样我就可以
减少
数据
点
的
数量,并在不丢失信息或引入任何偏见
的
情况下标准化
时间
步骤。到目前为止,我只在我们
数据
的
一小部分(5天
浏览 0
提问于2018-07-06
得票数 1
1
回答
使用
Marshmallow等其他解决方案
的
序列化优化
、
、
、
、
为此,我尝试
使用
以下简单
的
Marshmallow模式: sid = fields.Int()schema = TestSchema我假设Marshmallow可以
处理
元组列表,因为在序列化方法下
的
marshaling.py文档中,它说:“获取原始
数据
( dict、list或其他对象)和.
的
数据
块。”否则,我喜欢Marshmallow,并希望
使用
它作为一个优化,而不是
使
浏览 2
提问于2016-02-02
得票数 0
回答已采纳
1
回答
如何
有效地将大量
数据
装入大熊猫?
、
、
我正在
处理
一个非常宽
的
数据
集(1005行* 590,718列,1.2G)。将如此大
的
数据
集加载到熊猫
数据
集中会导致代码失败,这完全是由于内存不足造成
的
。我知道Spark可能是
处理
大型
数据
集
的
Pandas
的
一个很好
的
替代方案,但是在
Pandas
中有什么合适
的
解决方案来在加载大
数据
的
同时
减
浏览 0
提问于2018-02-26
得票数 4
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何使用Pandas处理超过内存容量的大规模数据?
使用 Pandas resample填补时间序列数据中的空白
如何处理从数据库取得的时间的显示格式
我这有个数据集,想取出每天每个国家确诊数量前30的数据,使用Pandas如何实现?
【玖越机器人】如何减少数据迁移期间的停机时间和成本?
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券