如何使用Pandas减少循环处理100万组数据的时间？

、、、

我在一个csv文件中的一列中有将近一百万行数据。如果我绘制这一百万组数据，它将是一种包含5个峰值的波形函数。所以我做的第一件事就是将这个csv文件导入到pandas dataframe中。我所能想到的就是我使用了太多的for循环，因此迭代数据需要太多的时间。下面是一个示例代码。(请注意，虽然这只是一个示例代码，但它应该足够清晰，以显示我所使用<e

浏览 9提问于2017-06-28得票数 0

1回答

pandas是否缩短了运行时间？

、、

我有一个用python编写的代码，其中包含不同的矩阵和for循环来更改矩阵元素。但是它需要很长时间才能运行。现在的问题是，如果我将矩阵改为pandas、DataFrames和series，是否会减少运行时间？

浏览 20提问于2020-04-28得票数 0

回答已采纳

1回答

如何让Pandas数据帧在多核上运行？

、、

我在pandas dataframe中处理了大约500万行数据&大约45 minutes.There是多列，数据转换涉及到将一些列复制到新列，根据给定的逻辑更改某些列中的值，以及许多这样的转换。由于pandas一次只在一个核心上运行，我的其他节点仍然处于空闲状态。如何让pandas利用所有可用节点并减少总的转换时间？

浏览 52提问于2021-01-12得票数 0

1回答

优化循环、数据帧分区

、、、

我正在制作一种二进制分类中的特征选择算法，它通过np.array或pd.series以贪婪的方式找到具有良好目标划分的区间。import pandas as pd df = pd.DataFrame([[51, 35, 1], [52, 3, 1], [53, 11, 1], [61, 8,

浏览 0提问于2021-01-12得票数 0

2回答

Python Pandas:如何使用CSV文件为每第n行获取一个数据？

、

数据文件太大了，我只想在特定的时间间隔接收它，以减少解释时间。我使用的是pandas.read_csv。如何才能使每n行只有一行？

浏览 4提问于2020-12-11得票数 1

回答已采纳

1回答

这些关于pandas.read_csv()中日期时间解析的问题都是相关的。默认情况下，参数infer_datetime_format为False。把它设置成真的安全吗？换句话说，Pandas能准确地推断日期格式吗？任何对其算法的洞察力都会有所帮助。然而，如果两者都是假的，则花费了10分钟。为什么和都必须是True才能加快日期时间解析？如果一个是假的，而不是另一个，难道不应该花20秒到10分钟的时间

浏览 3提问于2017-03-28得票数 1

2回答

比csv和pandas更快的替代品

、、

我有数据增强代码，需要追加到csv文件。数据是以百万为单位的。需要2-3天。有没有更快的替代方案？当我们需要数百万级的追加操作时，HDF5的速度有多快？output_csv,mode = 'a', index = False, header=False)这段代码只是对正在发生的事情略知一二

浏览 2提问于2020-02-19得票数 0

1回答

执行并行代码顺序部分(大型操作+写入文件)的有效方法？

、

我有一个使用mpi的C++代码，并以顺序并行顺序模式执行.上述模式在时间循环中重复。在用串行代码验证代码的同时，我可以得到并行部分的时间缩减，实际上，减少与处理器的no几乎是线性的。我面临的问题是，当使用较高的处理器no时，顺序部分所需的时间也会大大增加。与整个程序的总时序

浏览 3提问于2011-07-28得票数 3

2回答

优化PySpark与pandas* DataFrames之间的转换*

、、、、

我有一个13M行的pyspark数据帧，我想把它转换成pandas数据帧。然后，将根据其他参数以不同的频率(例如1秒、1分钟、10分钟)对数据帧进行重新采样以进行进一步分析。从文献[，]中，我发现使用以下任何一行都可以加快pyspark到pandas数据帧之间的转换： spark.conf.set("spark.sql.execution.arrow.pyspark.enabled", "

浏览 11提问于2021-11-19得票数 0

3回答

Python:在不加载剩余数据的情况下加载excel头

、、

我正在处理非常大的Excel文件，用Python加载Pandas需要很长时间。在处理数据之前，用户必须选择与数据相关的许多选项，这些选项只需要每个数据集中的每个列的名称。用户不得不等待几分钟，直到数据加载，才能选择必要的选项，然后让程序再进行几分钟的实际处理，这是非常不方便的。因此，我的问题

浏览 1提问于2020-06-17得票数 1

回答已采纳

1回答

带计数器的嵌套循环的多处理

、、、、

我正在寻找简单的解决方案，可以帮助我使用我的个人电脑的全部力量，以处理我的数据。我认为，将任务划分到不同的核心上有助于减少处理时间，但我不知道该如何做，我已经搜索过类似的问题，但没有任何解决方案可以解决我的问题。我正在处理大约长度为3000的数据，因为我使用嵌套的for<em

浏览 1提问于2021-05-18得票数 0

回答已采纳

1回答

、、、、

我正在开发一个C#窗口服务，它将从一个使用TCP的馈送器接收财务报价。我的项目必须接收和处理大量数据，因为我将跟踪140种不同的资产，这些资产用于每秒更新SQL数据库。我正在使用一个循环在BackgroundWork线程中从套接字中汇集数据： { if (!} {

浏览 1提问于2013-11-15得票数 1

1回答

python中不规则高频时间序列数据的预处理

、、、、

最初在...posted中使用的StackOverflow (可能更适合这里)我正在处理不规则的、高频的时间序列数据.在一秒钟内，我可以有多个数据点，如下面的timestamp字段所示，这样我就可以减少数据点的数量，并在不丢失信息或引入任何偏见的情况下标准化时间步骤。到目前为止，我只在我们数据的一小部分(5天

浏览 0提问于2018-07-06得票数 1

1回答

使用Marshmallow等其他解决方案的序列化优化

、、、、

为此，我尝试使用以下简单的Marshmallow模式： sid = fields.Int()schema = TestSchema我假设Marshmallow可以处理元组列表，因为在序列化方法下的marshaling.py文档中，它说：“获取原始数据( dict、list或其他对象)和.的数据块。”否则，我喜欢Marshmallow，并希望使用它作为一个优化，而不是使

浏览 2提问于2016-02-02得票数 0

回答已采纳

1回答

如何有效地将大量数据装入大熊猫？

、、

我正在处理一个非常宽的数据集(1005行* 590,718列，1.2G)。将如此大的数据集加载到熊猫数据集中会导致代码失败，这完全是由于内存不足造成的。我知道Spark可能是处理大型数据集的Pandas的一个很好的替代方案，但是在Pandas中有什么合适的解决方案来在加载大数据的同时减

浏览 0提问于2018-02-26得票数 4

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

pandas是否缩短了运行时间？

如何让Pandas数据帧在多核上运行？

优化循环、数据帧分区

Python Pandas:如何使用CSV文件为每第n行获取一个数据？

Pandas中的慢日期时间解析

比csv和pandas更快的替代品

执行并行代码顺序部分(大型操作+写入文件)的有效方法？

优化PySpark与pandas* DataFrames之间的转换*

Python:在不加载剩余数据的情况下加载excel头

带计数器的嵌套循环的多处理

如何避免在pandas.read_excel中读取空行

是否可以直接访问multimap中的位置(而不是键)

嵌套Foreach循环花费了太多时间

提高大熊猫群的性能

python ProcessPoolExecutor内存问题

从c#中的馈送器接收高容量tcp套接字财务数据的最佳方式？

python中不规则高频时间序列数据的预处理

使用Marshmallow等其他解决方案的序列化优化

如何有效地将大量数据装入大熊猫？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐