我试图加速一些用来计算熊猫时间延迟、索引数据格式的代码。dataframe包含由ID列标识的200 k时态序列。我试过达斯克,但没有得到任何改善(比熊猫本身花费的时间更长)。
下面是一个可以生成具有可比较大小的虚拟数据的示例:
import itertools as it
import numpy as np
import pandas as pd
np.random.seed(1)
#Series for ID
ID_data = pd.Series(np.arange(0,200000), name='ID')
#Array of data - create panda
我正在尝试使用Pandas评估Power Query/M以进行一些可重复的转换。到目前为止一切都很好,但我在Pandas中遇到了下面的场景,如果有人指出(我想)我做错了什么,我将非常感激。
我有一个DataFrame,它看起来像:
sales rep quarter result value
0 adam q1 target 3000
1 ben q1 target 3200
2 cal q1 target 2900
3 dan q1 target 340
首先我是第一次接触熊猫,但我已经爱上它了。我正在尝试实现与Oracle中的Lag函数等效的功能。
假设您有这样的DataFrame:
Date Group Data
2014-05-14 09:10:00 A 1
2014-05-14 09:20:00 A 2
2014-05-14 09:30:00 A 3
2014-05-14 09:40:00 A 4
2014-05-14 09:50:00 A 5