我正在数据中的两列之间做交叉列表。下面是列中的一个示例:
column_1 column_2
A -8
B 95
A -93
D 11
C -62
D -14
A -55
C 66
B 76
D -49
我正在寻找一个代码,它返回A、B、C和D的小计。例如,对于A,小计将是-156 (-8-93-55 = -156)。
我试着用panda
在尝试调试groupby函数应用程序时,我使用一个虚拟函数来为每个组“查看传递给函数的内容”的。当然,我在玩游戏:
import numpy as np
import pandas as pd
np.random.seed(0) # so we can all play along at home
categories = list('abc')
categories = categories * 4
data_1 = np.random.randn(len(categories))
data_2 = np.random.randn(len(categories))
df
我在Pandas dataframe中有两个字符串列。Column1有数千个不同的值,但是column2有五个字符串之一,比如A、B、C、D和E。
我想检查的是,如果column2的值在column1中是相同的,那么它们是否具有相同的值,如果它们是不同的,则识别行的索引。
idx col1 col2
1 X A
2 Y B
3 Y B
4 X A
5 Z C
6 X B
在上面的代码中,第2行和第3行在column1中具有相同的值,列中的值是相同的。所以没问题。对于第1、第4和第6行,A列中通常为X,但co
我有这样的数据:
nt
12062 Python Pandas: Create new column out of other columns where value is not null
12063 Python Pandas Create New Column with Groupby().Sum()
12064
12065 Python - Pandas - create “first fail” column from other column data
12066
12067
12068 Creating new column in
我有下面的数据框架。 Column_1 Column_2
Name Xxxx
Age 28
Gender M
Name yyyy
Age 26
Gender F 我的预期输出是 Name Age Gender
Xxxx 28 M
yyyy 26 F 我尝试过df.T(),但它将每个姓名、年龄和性别写到单独的列中。 如何在python/pandas中实现上述输出。
u'가' u'나'
0
1
...
A B
0
1
...
上面有两只熊猫,分别叫“左”和“右”。我试着像下面的代码一样合并。
result = pandas.merge(left, right, how='left', left_on=[u'가'], right_on=['A'])
但不幸的是,出现了错误。熊猫合并left(right)_on=key功能似乎无法识别unicode列名。
File "?.py", line ?, in
我有以下数据帧my_df
name date A_score B_score
------------------------------------------
John 2017-01-01 5 6
John 2017-01-10 10 8
John 2017-02-04 3 5
Andy 2017-01-25 8 9
Andy 2017 02-05 7 1
Andy 2017-02-1
我有一个大数据集(450万行,35列)。感兴趣的列是company_id (字符串)和company_score (浮点数)。大约有10,000个独特的company_id's。
company_id company_score date_submitted company_region
AA .07 1/1/2017 NW
AB .08 1/2/2017 NE
CD .0003 1/18/20
我有一个名为df的Pandas DataFrame,如下所示:
Date String
2016-08-01 a
2016-08-01 b
2016-08-01 c
2016-06-30 d
2016-06-30 e
2016-06-30 f
我试着获得:
Date Column1 Column2 Column3
2016-08-01 a b c
2016-06-30 d
我知道有一些关于这个主题的问题(比如Pandas: Cumulative sum of one column based on value of another),但是它们都不能满足我的要求。 假设我有一个像这样的数据帧 ? 。 我想按月计算成本分组的累积和,避免考虑当前值,以便使用groupby和cumsum获得所需的column.By。我获得列CumSum ? 。 生成数据帧的DDL是 df = pd.DataFrame({'Month': [1,1,1,2,2,1,3],
'Cost': [5,8,10,1,
我想对dask数据的单个列进行频率计数。代码可以工作,但是我收到一个warning抱怨meta没有定义。如果我试图定义meta,就会得到一个错误AttributeError: 'DataFrame' object has no attribute 'name'。对于这个特殊的用例,我似乎不需要定义meta,但是我想知道如何做这件事,以供将来参考。
虚拟数据和列频率
import pandas as pd
from dask import dataframe as dd
df = pd.DataFrame([['Sam', 'Alex
我要做的是将这段SQL代码复制到Python中: select column_1, column_2, column_3,
sum(column_4) as sum_column_4, sum(column_5) as sum_column_5
from df
group by 1,2,3; 换句话说,我需要制作这个数据框架: column_1 column_2 colunn_3 column_4 column_5
AA BB CC 5 3
AA BB CC