python groupby_Python Groupby和计数_groupby，filter，summarise in python？ - 腾讯云开发者社区

、

我不能做一个熊猫系列的对象群。DataFrames很好，但我似乎不能用系列赛来做群比。有人能让这件事成功吗？ >>> import pandas as pd >>> a = pd.Series([1,2,3,4], index=[4,3,2,1]) >>> a 4 1 3 2 2 3 1 4 dtype: int64 >>> a.groupby() Traceback (most recent call last): File "<stdin>", line 1, i

浏览 7提问于2013-07-29得票数 10

回答已采纳

2回答

dask.dataframe.groupby.DataFrameGroupBy错误

、、、、

我在两个列上使用了groupby ( df有大约70列，除日期时间外，所有列都是浮动的)来获得dask数据文件： result_ddf = base_ddf.groupby(["firts_integer_column","second_integer_column"]) 我不能使用结果，因为它是以某种奇怪的格式： dask.dataframe.groupby.DataFrameGroupBy 如何将结果作为dataframe使用，因为当我尝试.head()或.compute()时，我会得到错误。代码1 result_ddf.get_partition(1)

浏览 3提问于2021-01-26得票数 1

回答已采纳

3回答

Python元组操作

、、

我在Python里有这样一个元组- a = ((-,-,x), (-,-,x), (-,-,y), (-,-,z), (-,-,z), (-,-,z)) 现在，我想用相同的第三个元素对元组进行分组。我必须把这个元组，a转换成 b = (((-,-,x), (-,-,x)), ((-,-,y)), ((-,-,z), (-,-,z), (-,-,z))) 我如何编写Python代码呢？将a转换为b？因为元组是不可变的，所以我无法成功地编写代码。

浏览 0提问于2018-11-08得票数 2

回答已采纳

2回答

在空的dataframe中保留组后的列

、、、、

dataframe是query.when groupby之后的一个空df，引发运行时警告，然后获得另一个没有columns.How的空数据raise来保留列？ df = pd.DataFrame(columns=["PlatformCategory","Platform","ResClassName","Amount"]) print df 结果： Empty DataFrame Columns: [PlatformCategory, Platform, ResClassName, Amount] Index: [] 然后分组讨论

浏览 5提问于2017-09-07得票数 9

回答已采纳

5回答

Python用相同的键在Dataframe中总结行

、、、、

我想在具有相同行键的dataframe中总结行。其目的是缩小数据集的大小。例如，如果数据框架如下所示。 Fruit Count Apple 10 Pear 20 Apple 5 Banana 7 Banana 12 Pear 8 Apple 10 我想让最后的数据看起来像这样。 Fruit Count Apple 25 Pear 28 Banana 19 我正在使用Pytho

浏览 2提问于2019-02-05得票数 3

回答已采纳

1回答

如何在python中创建一个带有上一个周期值的diff列？

我只是尝试在我的数据框中创建一个列，其中包含列值与上个月的相同列的差值。如果上个月不存在，不要计算差额。 df_ranking['cat_race'] = df_ranking.groupby(df_ranking['ID'], df_ranking['DATE'])['POINTS'].shift(1) 但是我得到的错误信息是： Traceback (most recent call last): File "C:/Users/jhoyo/PycharmProjects/Tennis-Ranking/venv/ra

浏览 9提问于2019-08-22得票数 0

回答已采纳

1回答

对Pandas Dataframe中的组计数非零值和零值

、

我有如下所示的数据集： docs language instance example 1 python 25 example 2 JS 15 example 3 python 0 example 4 JS 34 example 5 python 0 example 6 JS 0 我试图按语言对它们进行分组，然后使用以下代码从列'instance‘中计数非零值： df['language'].groupby(df['inst

浏览 6提问于2022-08-07得票数 0

回答已采纳

2回答

如何选择每一只大熊猫的最后5行记录

、、

使用python 3尝试对列'Name‘中的每个uniqe行从'Number’获取最后5个记录。如何在python中做到这一点呢？我的df看起来如下： Name Number a 5 a 6 b 7 b 8 a 9 a 10 b 11 b 12 a 9 b 8 我在SQL中看到了相同的实例(比如这个 )，但是这很费时，我想学习如何在python中完成它。我的预期输出df如下所示： Name 1 2 3 4 5 a 5 6 9 10 9 b 7 8 11 12 8

浏览 1提问于2019-06-27得票数 5

回答已采纳

2回答

在dataframe Python中组合相同的字符串

、、、

我们有下面的数据帧 d1 = {'data': ['python','Python','PYTHON','conda', 'COnda', 'CONDA', ], 'Value': [50,25,30,25,40,25] } df = pd.DataFrame(d1, columns = ['data', 'Value']) data Value 0 python 50 1 Pyth

浏览 7提问于2020-05-26得票数 0

回答已采纳

1回答

连接每个组中的字符串并分配回原始DataFrame

、、、、

我有包含两列的dataframe：user和lang。每个用户都知道一种或多种语言： lang user 0 Python Mike 1 Scala Mike 2 R John 3 Julia Michael 4 Java Michael 我需要为user中的每一行获取他/她知道的所有语言。我可以这样做： df.groupby('user')['lang'].apply(lambda x:', '.join(x)).reset_index() 但我得到的是： u

浏览 16提问于2018-12-13得票数 1

回答已采纳

1回答

模式聚合在熊猫中不起作用(必须产生聚合值)

、、、

运行此程序时： import pandas as pd df = pd.DataFrame(dict(x=[1, 1, 2, 2, 3, 3], group=["a", "a", "a", "a", "b", "b"])) df.groupby(["group"]).agg({ "x": [pd.Series.mode, "sum"] }) 返回此错误： ValueError Tr

浏览 9提问于2022-08-31得票数 0

回答已采纳

1回答

统计pandas数据帧中子元素的出现次数

、

我有一个熊猫数据框 Tag ----- c#|.net javascript|html|React python|docker 我需要按groupby_tags={'c#','.net','python'}计数我怎么用python来做呢？谢谢。

浏览 0提问于2020-08-13得票数 0

2回答

键入提示Pandas DataFrameGroupBy

、、

我应该如何在熊猫DataFrameGroupBy对象Python中输入提示呢？我应该用pd.DataFrame作为普通熊猫的数据吗？我没有找到任何其他的解决方案

浏览 9提问于2021-12-27得票数 4

回答已采纳

2回答

如何解决>ValueError<与熊猫系列和巨蟒？

、、、

我正在使用python (3.7.4)和 (0.25.0)，并希望在一个系列中使用value_counts()。在执行语句时，我得到了一个ValueError。有什么建议来解决这个错误吗？ import pandas as pd series = pd.Series([1, 2], index=pd.DatetimeIndex(['2019-09-22', '2019-09-24'])) series.groupby(pd.Grouper(freq='D')).value_counts() 堆栈跟踪： Traceback (most rece

浏览 2提问于2019-09-22得票数 2

2回答

检查GROUP BY和列之间的值

、、、

我有一个这样的数据帧 df = pd.DataFrame({'Name': ['Bob', 'Fob', 'Lob', 'Joe', 'Roe', 'Qoe'], 'Country': [US,UK,UK,DE,US,AU], 'Languages Known': ["Python, Java, C++","Java","Python",&

浏览 0提问于2020-10-22得票数 2

1回答

使用python中的describe()获取具有(分析)权重的描述性统计数据

、、、、

我试着把代码从Stata翻译成Python Stata中的原始代码： by year, sort : summarize age [aweight = wt] 通常，一个简单的describe()函数就可以了 dataframe.groupby("year")["age"].describe() 但是我找不到一种方法将aweight选项翻译成Python语言，即在分析/方差加权下给出数据集的描述性统计数据。在python中生成数据集的代码： dataframe = {'year': [2016,2016,2020, 2020], 'a

浏览 134提问于2020-07-04得票数 0

5回答

PySpark中的Panda的value_counts()的等价物是什么？

、、、

我有以下python/pandas命令： df.groupby('Column_Name').agg(lambda x: x.value_counts().max() 我在这里获取DataFrameGroupBy对象中所有列的值计数。如何在PySpark中执行此操作？

浏览 1提问于2018-06-27得票数 32

1回答

如何使字典/ collections.counter考虑到Python中的索引？

、、、

我知道Python中的字典和collection.Counters。我的问题是，如何使之考虑到字符串的索引？例如，对于这个字符串: aaabaaa，我想要创建一个包含每个字符串的元组，跟踪从左到右的计数，并在找到新的字母数字之后重新设置计数。例如，我喜欢看到这样的输出：(a，3)，(b，1)，(a，3) 是否知道如何使用字典/计数器/或是否有其他数据结构内置在Python中，我可以使用？问候

浏览 0提问于2018-10-25得票数 0

回答已采纳

1回答

按列计算组值之和

、、、

我面临一个问题，就是要把我所做的每一栏的所有值加在一起。 df2 = df.groupby(['Courses','Duration'])['Fee'].sum() print(df2) 然后我得到了低于输出。 Courses Duration Hadoop 35days 25000 55days 23000 Pandas 60days 26000 PySpark 50days 25000 Python 40days 24000 50days

浏览 1提问于2022-03-03得票数 0

2回答

熊猫根据重复的列名加和

、、

下面的dataframe df Filename Language Repo/Repo_3/.travis.yml YAML 20 Repo/Repo_3/backup_automater_services.py Python 18 Repo/Repo_3/batch_file_rename.py Python 33 Repo/Repo_3/cbd_pennies. C

浏览 1提问于2018-07-28得票数 0

回答已采纳

1回答

将数组从DatafFame传递到函数，并对数组进行分组和展平

、、、、

我有一个数据帧，其中包含数百名参与者的X位置数据，以及三个分组变量(每个参与者的X数据长度为1000个点)。数据帧预览： X Z participantNum obsScenario startPos targetPos 16000 -16.0 -5.0 6950203 2 2 3 16001 -16.0 -5.0 6950203 2 2 3 16002 -16.0 -5.0 6950203

浏览 15提问于2021-02-05得票数 2

回答已采纳

1回答

熊猫群的混乱--难以驾驭的类型

、、、、

使用Pandas数据帧按特性分组，我希望按列c_b分组，并计算列c_a和列c_c的唯一计数。我的预期结果是，预期结果， c_b,c_a_unique_count,c_c_unique_count python,2,2 c++,2,2 遇到关于unhashable type的奇怪错误，有人有什么想法吗？谢谢。输入文件， c_a,c_b,c_c,c_d hello,python,numpy,0.0 hi,python,pandas,1.0 ho,c++,vector,0.0 ho,c++,std,1.0 go,c++,std,0.0 源代码 sample = pd.read_csv('

浏览 1提问于2016-08-27得票数 0

回答已采纳

2回答

Python:如何通过下一个项值将元组链接到列表中

、

如何从Python3中的元组列表中获得预期结果？ [('I', 'N'),('love', 'V'),('Miley', 'N'),('Cyrus', 'N'),('but', 'ADV'),('hate', 'V'),('Liam', 'N'),('Hemsworth', 'N')] 预期成果： ['I', 'lov

浏览 2提问于2020-03-19得票数 4

回答已采纳

3回答

熊猫.groupby将返回一个地址

、、

我真的不明白为什么在为“课程”创建一个带有groupby的Dataframe时，我会得到一个入口位置输出？代码： import pandas as pd technologies = ({ 'Courses':["Spark","PySpark","Hadoop","Python","Pandas","Hadoop","Spark","Python","NA"], 'Fee' :[22000,250

浏览 22提问于2022-10-22得票数 0

回答已采纳

2回答

如何与groupby一起使用numpy函数？

、、、

我有一个函数，它接受dataframe列并根据特定条件返回一个布尔掩码： def is_downtrending(close): out = np.full(close.shape, False) for i in range(close.shape[0]): # if we've had two consecutive red days if (close[i] < close[i - 1]) and (close[i - 1] < close[i - 2]): out[i] = True

浏览 1提问于2022-10-19得票数 0

3回答

移除Python中具有连续部分重复项的元素

、、

我的问题是，但我想从python中的列表中删除连续的部分“副本”，而不是删除完整的副本。对于我的特定用例，我希望从列表中删除以相同字符开始的连续单词，并且我希望能够定义该字符。对于本例，它是#，所以 ['#python', 'is', '#great', 'for', 'handling', 'text', '#python', '#text', '#nonsense', '#morenonsense', '.']

浏览 21提问于2018-07-17得票数 5

回答已采纳

1回答

python pandas中的展平索引

、、

我是python的新手，我一直在使用Panda dataframe，但是当我使用groupby时，我不再能够使用标签迭代dataframe。能帮我点忙吗？ newDF=df[df['Currency'].str.contains(currency)&df['Description'].str.contains('fx')] newDF=newDF.rename(index=str, columns={ "Paid": "Withdrawn"}) moneyWithdrawnByUserDF=pd.Dat

浏览 2提问于2017-07-27得票数 0

1回答

Dask agg函数pickle错误

、、

我有以下dask数据帧 @timestamp datetime64[ns] @version object dst object dst_port object host object http_req_header_contentlength o

浏览 0提问于2017-11-10得票数 3

1回答

在df.pivot Python中自定义列名

、、

我想按下面的方式来分析一个dataframe df，其中Id作为索引，Value作为值，以及自定义的[x0, x1, x2]列。 df Id Date Value 9129 10 2021-01-01 00:00:00 10 9130 10 2021-01-01 00:01:00 15 9131 10 2021-01-01 00:02:00 20 1972 13 2021-01-01 00:00:00 125.0 1973 13 2021-01-01

浏览 3提问于2021-11-17得票数 2

回答已采纳

2回答

python Selenium选项下拉

、

我对蟒蛇很陌生。我在R中有一个代码，我试图用python脚本替换它。我遇到了让python从下拉菜单中选择一个值的问题。这是R中的代码，起作用了： remDr$findElement(using = 'xpath', "//select[@id = 'groupby1']/option[@value = 'ReportDate']")$clickElement() 这是HTML代码： select style="" class="dropdown" name="groupby1"

浏览 2提问于2016-04-06得票数 0

回答已采纳

2回答

sum()得到一个意外的关键字参数'axis‘

、

clean_df = clean_df.groupby(by=index_keys).sum(axis=1, numeric_only=True) 抛出 sum() got an unexpected keyword argument 'axis' 我从相关问题中了解到，这与更新软件包有关。如何找出哪个包裹有问题？ $ pip show pandas Name: pandas Version: 1.2.0 >python -m pip check No broken requirements found.

浏览 18提问于2021-01-03得票数 1

回答已采纳

1回答

分类数据分离方法

、

嗨，我对Python有点陌生，我认为最好的学习方法是尝试我的大学，SAS和Python的R项目。然而，我很难获得分类数据的汇总统计数据，，我正试图使用'WREN_AVG =df‘’WREN‘. find ()之类的方法为每一个物种获得不同的统计数据，但这不起作用，而且我似乎找不到解决办法。我目前正在使用numpy，matplotlib，熊猫和海运。

浏览 4提问于2020-08-07得票数 0

回答已采纳

1回答

可变索引？Python Pandas Dataframe ValueError:无法从重复轴重新编制索引

、、、

我有一个包含多个重复值作为索引的dataframe，例如：我需要将350包含的值拆分为351,352,353等等...我想要更改索引的值，以便为它们提供唯一的值，以便对它们进行唯一的操作。我尝试更改索引，但得到以下错误：我的代码的目的是重新建立索引，并只获取列表中的值。做这件事最好的方法是什么？有没有办法改变索引值，这样我就可以处理数据框了？ my_finallist = [1,2,3,4,5,6,7] data_backup.reindex(my_finallist) ------------------------------------------------------

浏览 3提问于2021-06-22得票数 1

2回答

计算大熊猫中匹配元素的数量

、

如何计算与Python和熊猫中的任意值对应的元素数？我指的是R和plyr中的以下代码： ddply(df, .(group), summarise, x=sum(ifelse(y==1, 1, 0))) 那么，我要写的是以下缺失的部分呢？ df.groupby(["groupA", "groupB"]).apply(lambda x: ....?) 谢谢。

浏览 4提问于2013-11-07得票数 2

回答已采纳

2回答

删除列表中的特定项

我正在尝试使用python删除列表中的一些特定的“”。列表是1、“”、“2”、“3”。我只想删除两个值之间的一个“”。这意味着我想要的输出是1，'',2，''，'',3。 for j in range (len(lst)): if len(lst[j]) == 1: lst.remove(lst[j+1])

浏览 1提问于2019-06-18得票数 0

3回答

如何对python嵌套列表中的数据进行分类

、

我需要将python嵌套列表分类如下。 [ ['amal', 20], ['kamal', 25], ['amal', 30] ] 答案应该是， [amal,20,30] [kamal,25]

浏览 25提问于2019-05-25得票数 2

回答已采纳

1回答

Jinja2按月/年分组

下面是我现在掌握的代码： {% for group in EventsList|groupby('date') %} {{group.grouper}} {% for event in group.list %} {{event.title}} {% endfor %} {% endfor %} 但问题是，它目前是按特定日期分组的。我想按月/年分组(即2011年1月、2011年2月等)。用Pytho

浏览 2提问于2012-10-07得票数 9

回答已采纳

1回答

将熊猫DataFrame转换为裁剪和保存重复索引

、、、

vagrant@ubuntu-xenial:~/lb/f5/v12$ python Python 2.7.12 (default, Nov 12 2018, 14:36:49) [GCC 5.4.0 20160609] on linux2 Type "help", "copyright", "credits" or "license" for more information. >>> import pandas as pd >>> data = [{'name': 'b

浏览 0提问于2019-01-10得票数 6

回答已采纳

1回答

python中groupby的代码优化

、、

我希望优化一些python代码，但我不确定如何处理这个问题，因为我使用python主要是为了分析数据，而且硬编码技能有限，所以欢迎任何意见。我的数据如下所示： X Y Stock Number A 10-20 id1 5 A 30-40 id2 7 A 0-10 id3 18 B 30-40 id4 3 B 10-20 id5 9 C 10-2

浏览 17提问于2021-10-22得票数 1

回答已采纳

2回答

根据字数将列拆分为未知数量的列- Pandas

、

我有一个pandas数据框，它的一个列包含一些字符串。我想根据字数将该列拆分成未知数量的列。假设我有DataFrame df： Index Text 0 He codes 1 He codes well in python 2 Python is great language 3 Pandas package is very handy 现在，我想将text列划分为多个列，每个列包含2个单词。 Index 0 1 2 0

浏览 17提问于2020-06-29得票数 3

回答已采纳

1回答

对udf函数调用.agg时抛出错误

、、

我正在尝试将LinearRegression应用于已生成的设置箱。包含bin的DataFrame目前看起来像DataFramefeatures: vector，trip_duration: int，prediction: double。该存储箱被标记为预测。目前，我的代码如下所示 predictions = crossval.fit(trainingData).transform(trainingData) ''' DataFrame[features: vector, trip_duration: int, prediction: doub

浏览 63提问于2019-10-07得票数 0

回答已采纳

1回答

如何根据第二列中的值计算一列的平均值？

、、

我有2列在一个DataFrame，我正在寻找以下解决方案在Python. 我的Dataframe当前如下所示： columns: INDUSTRY Revenue Service 100 Manufacturing 50 Service 200 Manufacturing 100 Public 60 我想要的是DataFrame中每个行业类型的平均值： columns: INDUSTRY Revenue

浏览 17提问于2019-07-04得票数 1

2回答

如何合并数据中的一些数据

、

我需要在dataframe中合并一些数据，因为我将在python中编写顺序关联规则。如何合并数据以及在python中应该使用什么算法？先天的？FP增长？在python中，我无法使用apriori找到顺序关联规则。他们使用R 参观地点有250个。唯一标识号为116807，行总数为170万。而且，每个id都有country_code(111个国家，但我会把它们分类为10个国家)。所以我再把他们合并一次。先前数据 index date_ymd id visit_nm country 1 20170801 123123 seoul

浏览 0提问于2019-03-27得票数 0

回答已采纳

2回答

如何在python pandas中使用groupby连接字符串？

、、

我目前在顶部有数据帧。有没有办法使用groupby函数来获取另一个数据帧来对数据进行分组，并将单词连接成下面使用python pandas的格式？谢谢 [

浏览 0提问于2016-06-30得票数 8

回答已采纳

2回答

Python数据帧数据分析组按第n列

我正在研究python数据分析。第一。这是原始数据我想得到这样的结果我的代码就像 df_sellout.groupby("Brand")[:,0:4].sum() 但这不管用。我想使用[:,0:4]，因为我有另一个庞大的数据，我不能写所有的列名。有人能帮我吗？

浏览 2提问于2022-10-12得票数 0

1回答

Python pandas清晰的groupby语法

、、、

我经常遇到这个问题，我不清楚为什么要运行下面的python代码 groups = session['time'].dt.total_seconds().groupby(session['user']) 但是这段python代码将不会运行。 groups = session['time'].dt.total_seconds().groupby(session[['user','date']]) or groups = session['time'].dt.total_seconds().group

浏览 18提问于2020-04-22得票数 0

1回答

python大熊猫做群比计数时出错

、、

当对多列进行groupby计数时，我会得到一个错误。这是我的dataframe，也是一个简单地标记不同的'b‘和'c’组的例子。 df = pd.DataFrame(np.random.randint(0,2,(4,4)), columns=['a', 'b', 'c', 'd']) df['gr'] = df.groupby(['b', 'c']).grouper.group_info[0] print df a b c

浏览 0提问于2013-07-02得票数 10

2回答

基于逻辑条件的Pandas DataFrame切片？

、、

我有一个名为data的数据帧： Subjects Professor StudentID 8 Chemistry Jane 999 1 Chemistry Jane 3455 0 Chemistry Joseph 1234 2 History Jane 3455 6 History Smith 323 7 History Smith 999 3 Mathematics

浏览 13提问于2016-09-23得票数 1

2回答

计算Apache Spark for Java中的不同字段

、

数据集：对于上面的数据集，我想计算第四列中不同条目的数量。我有Python代码，但不能使用Spark用Java实现它。 Python代码： user_data = sc.textFile(dataSet path) //counting number of occupations num_occupations = user_fields.map(lambda fields: fields[3]).distinct().count()

浏览 2提问于2017-07-25得票数 0

1回答

熊猫数据框架:在不给出值的情况下在数据框架上创建pivot_table

、、、、

我有一个文本文件，其中包含以下格式的数据 101.223.129.4 918801641445^0^paus 101.223.129.4 918801641445^0^german 101.223.129.4 918801641445^0^photo 101.223.129.4 918801641445^0^polish 101.223.129.4 918801641445^0^find 101.223.129.4 918801641445^0^extra 101.223.129.4 918801641445^0^access 101.223.129.4 918801641445^0^priv

浏览 0提问于2015-10-08得票数 1

回答已采纳