首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

聚合函数到dataframe,同时保留Pandas中的行

聚合函数是一种用于对数据进行汇总和计算的函数。在数据分析和处理中,聚合函数常用于对数据进行统计、求和、平均值、最大值、最小值等操作。而dataframe是Pandas库中的一种数据结构,类似于表格,可以用于存储和处理二维数据。

在Pandas中,可以使用聚合函数对dataframe进行操作,并保留原始dataframe的行。具体操作可以通过以下步骤实现:

  1. 导入Pandas库并创建dataframe:
代码语言:txt
复制
import pandas as pd

data = {'Name': ['John', 'Emma', 'Mike', 'Emily'],
        'Age': [25, 28, 30, 27],
        'Salary': [5000, 6000, 5500, 7000]}
df = pd.DataFrame(data)
  1. 使用聚合函数对dataframe进行操作,例如计算平均值和总和:
代码语言:txt
复制
average_age = df['Age'].mean()
total_salary = df['Salary'].sum()
  1. 保留原始dataframe的行,可以使用groupby函数进行分组操作,并将结果重新赋值给新的dataframe:
代码语言:txt
复制
grouped_df = df.groupby('Name').agg({'Age': 'mean', 'Salary': 'sum'}).reset_index()

在上述代码中,groupby函数将dataframe按照'Name'列进行分组,然后使用agg函数对'Age'列计算平均值,对'Salary'列计算总和。最后,使用reset_index函数将结果重新赋值给新的dataframe,并保留原始dataframe的行。

对于Pandas中的行保留问题,可以通过使用reset_index函数来重新设置行索引,以保留原始dataframe的行。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

pythonpandasDataFrame和列操作使用方法示例

pandasDataFrame时选取或列: import numpy as np import pandas as pd from pandas import Sereis, DataFrame...'w'列,使用类字典属性,返回是Series类型 data.w #选择表格'w'列,使用点属性,返回是Series类型 data[['w']] #选择表格'w'列,返回DataFrame...下面是简单例子使用验证: import pandas as pd from pandas import Series, DataFrame import numpy as np data = DataFrame...(1) #返回DataFrame第一 最近处理数据时发现当pd.read_csv()数据时有时候会有读取到未命名列,且该列也用不到,一般是索引列被换掉后导致,有强迫症看着难受,这时候dataframe.drop...github地址 到此这篇关于pythonpandasDataFrame和列操作使用方法示例文章就介绍到这了,更多相关pandasDataFrame行列操作内容请搜索ZaLou.Cn以前文章或继续浏览下面的相关文章希望大家以后多多支持

13.4K30
  • Pandas Cookbook》第04章 选取数据子集1. 选取Series数据2. 选取DataFrame3. 同时选取DataFrame和列4. 用整数和标签选取数据5. 快速选取标量6

    ---- 第01章 Pandas基础 第02章 DataFrame运算 第03章 数据分析入门 第04章 选取数据子集 第05章 布尔索引 第06章 索引对齐 第07章 分组聚合、过滤、转换...选取DataFrame # 还是读取college数据集 In[14]: college = pd.read_csv('data/college.csv', index_col='INSTNM')...同时选取DataFrame和列 # 读取college数据集,给索引命名为INSTNM;选取前3和前4列 In[23]: college = pd.read_csv('data/college.csv...# 选取两列所有的 In[25]: college.iloc[:, [4,6]].head() Out[25]: ?...和Series,也不能同时选取和列。

    3.5K10

    python数据科学系列:pandas入门详细教程

    所以从这个角度讲,pandas数据创建一种灵活方式就是通过字典或者嵌套字典,同时也自然衍生出了适用于series和dataframe类似字典访问接口,即通过loc索引访问。...这里提到了index和columns分别代表标签和列标签,就不得不提到pandas另一个数据结构:Index,例如series中标签列、dataframe中行标签和列标签均属于这种数据结构。...检测各行是否重复,返回一个索引bool结果,可通过keep参数设置保留第一/最后一/无保留,例如keep=first意味着在存在重复多行时,首被认为是合法而可以保留 删除重复值,drop_duplicates...;sort_values是按值排序,如果是dataframe对象,也可通过axis参数设置排序方向是还是列,同时根据by参数传入指定或者列,可传入多行或多列并分别设置升序降序参数,非常灵活。...2 分组聚合 pandas另一个强大数据分析功能是分组聚合以及数据透视表,前者堪比SQLgroupby,后者媲美Excel数据透视表。

    13.9K20

    Pandas进阶|数据透视表与逆透视

    在实际数据处理过程,数据透视表使用频率相对较高,今天云朵君就和大家一起学习pandas数据透视表与逆透视使用方法。...数据基本情况 groupby数据透视表 使用 pandas.DataFrame.groupby 函数,其原理如下图所示。...使用车辆数据集统计不同性别司机平均年龄,聚合后用二维切片可以输出DataFrame数据框。...可以使任何对groupby有效函数 fill_value 用于替换结果表缺失值 dropna 默认为True margins_name 默认为'ALL',当参数margins为True时,ALL和列名字...如果指定了聚合函数则按聚合函数来统计,但是要指定values值,指明需要聚合数据。 pandas.crosstab 参数 index:指定了要分组列,最终作为

    4.2K11

    数据分析之Pandas VS SQL!

    相关语法如下: loc,基于列label,可选取特定(根据index) iloc,基于/列位置 ix,为loc与iloc混合体,既支持label也支持position at,根据指定index...WHERE(数据过滤) 在SQL,过滤是通过WHERE子句完成: ? 在pandasDataframe可以通过多种方式进行过滤,最直观是使用布尔索引: ?...宝器带你画重点: subset,为选定列做数据去重,默认为所有列; keep,可选择{'first', 'last', False},保留重复元素第一个、最后一个,或全部删除; inplace ,...这是因为count()将函数应用于每个列,返回每个列非空记录数量。具体如下: ? 还可以同时应用多个函数。例如,假设我们想要查看每个星期中每天小费金额有什么不同。 SQL: ?...Pandas: ? 总结: 本文从Pandas里面基本数据结构Dataframe固定属性开始介绍,对比了做数据分析过程一些常用SQL语句Pandas实现。

    3.2K20

    Pandas0.25来了,别错过这10大好用新功能

    Groupby 命名聚合(Named Aggregation) 这可是个新功能,能直接为指定聚合输出列命名。先创建一个 DataFrame 示例。...精简显示 Series 与 DataFrame 超过 60 Series 与 DataFramepandas 会默认最多只显示 60 (见 display.max_rows 选项)。...因此,0.25 版引入了 display.min_rows 选项,默认只显示 10 : 数据量小 Series 与 DataFrame, 显示 max_row 行数据,默认为 60 ,前 30 与后...30 ; 数据量大 Series 与 DataFrame,如果数据量超过 max_rows, 只显示 min_rows ,默认为 10 ,即前 5 与后 5 。...缺失值排序,groupby保留类别数据数据类型等,如需了解,详见官方文档 What's new in 0.25.0。

    2.2K30

    Pandas_Study02

    pandas 数据清洗 1. 去除 NaN 值 在Pandas各类数据Series和DataFrame里字段值为NaN为缺失数据,不代表0而是说没有赋值数据,类似于pythonNone值。...dropna() 删除NaN 值 可以通过 dropna 方法,默认按扫描(操作),会将每一有NaN 值那一删除,同时默认是对原对象副本操作,不会对原对象产生影响,也可以通过inplace 指示是否直接在原对象上操作...,how 原理同上 # 同时可以添加条件删除 print(df.dropna(axis = 1, thresh = 2)) # axis=1按列操作,thresh 指示这一列或中有两个或以上非NaN...值或列被保留 通过布尔判断,也是可以实现删除 NaN 功能。...,last同时保留最后一次出现重复数据,false 不保留 使用如上。

    20310

    Pandas数据分析

    () # 通过分组将每年数据放一块,再把相同年份imdb_score聚合max 通过排序筛选评分最高: movie2:DataFrame = movie[['movie_title','title_year...库函数,用于删除DataFrame重复。...,也可以通过pd.merge命令组合数据,merge更灵活,如果想依据索引来合并DataFrame可以考虑使用join函数 how = ’left‘ 对应SQL left outer 保留左侧表所有...key how = ’right‘ 对应SQL right outer 保留右侧表所有key how = 'outer' 对应SQL full outer 保留左右两侧侧表所有key...) merge: DataFrame方法 只能水平连接两个DataFrame对象 对齐是靠被调用DataFrame列或索引和另一个DataFrame列或索引 默认是内连接(也可以设为左连接、

    11310

    Pandas图鉴(三):DataFrames

    创建一个DataFrame 用已经存储在内存数据构建一个DataFrame竟是如此超凡脱俗,以至于它可以转换你输入任何类型数据: 第一种情况,没有标签,Pandas用连续整数来标注。...垂直stacking 这可能是将两个或多个DataFrame合并为一个最简单方法:你从第一个DataFrame中提取,并将第二个DataFrame附加到底部。...同时保持了左边DataFrame索引值和顺序不变。...合并丢弃左边DataFrame索引,连接保留它; 默认情况下,merge执行是内连接,join执行是左外连接; 合并不保留顺序,连接保留它们(有一些限制); join是merge一个别名,...与Series相比,该函数可以访问组多个列(它被送入一个子DataFrame作为参数),如下图所示: 注意,不能在一个命令结合预定义聚合和几列范围自定义函数,比如上面的那个,因为aggreg只接受一列范围用户函数

    40020

    Pandas常用数据处理方法

    本文Pandas知识点包括: 1、合并数据集 2、重塑和轴向旋转 3、数据转换 4、数据聚合 1、合并数据集 Pandas合并数据集有多种方式,这里我们来逐一介绍 1.1 数据库风格合并 数据库风格合并指根据索引或某一列值是否相等进行合并方式...2、重塑和轴向旋转 在重塑和轴向旋转,有两个重要函数,二者互为逆操作: stack:将数据列旋转为 unstack:将数据旋转为列 先来看下面的例子: data = pd.DataFrame...4、数据聚合 4.1 数据分组 pandas数据分组使用groupby方法,返回是一个GroupBy对象,对分组之后数据,我们可以使用一些聚合函数进行聚合,比如求平均值mean: df = pd.DataFrame...4.2 数据聚合操作 特定聚合函数 我们可以像之前一样使用一些特定聚合函数,比如sum,mean等等,但是同时也可以使用自定义聚合函数,只需将其传入agg方法即可: df = pd.DataFrame...可以同时使用多个聚合函数,此时得到DataFrame列就会以相应函数命名: grouped = tips.groupby(['sex','smoker']) grouped_pct = grouped

    8.4K90

    2020年入门数据分析选择Python还是SQL?七个常用操作对比!

    而在pandas,我们可以通过将列名列表传递给DataFrame来完成列选择 ?...在SQL,进行选择同时还可以进行计算,比如添加一列 SELECT *, tip/total_bill as tip_rate FROM tips LIMIT 5; ?...而在pandas,按照条件进行查找则可以有多种形式,比如可以将含有True/FalseSeries对象传递给DataFrame,并返回所有带有True ?...> 9; 在pandas,我们选择应保留,而不是删除它们 tips = tips.loc[tips['tip'] <= 9] 五、分组 在pandas,使用groupby()方法实现分组。...groupby()通常是指一个过程,在该过程,我们希望将数据集分为几组,应用某些功能(通常是聚合),然后将各组组合在一起。 常见SQL操作是获取整个数据集中每个组记录数。

    3.6K31

    pandas中使用数据透视表

    经常做报表小伙伴对数据透视表应该不陌生,在excel利用透视表可以快速地进行分类汇总,自由组合字段聚合计算,而这些只需要拖拉拽就能实现。...格式数据 values:需要汇总计算列,可多选 index:分组键,一般是用于分组列名或其他分组键,作为结果DataFrame索引 columns:列分组键,一般是用于分组列名或其他分组键,...作为结果DataFrame列索引 aggfunc:聚合函数或函数列表,默认为平均值 fill_value:设定缺失替换值 margins:是否添加行列总计 dropna:默认为True,如果列所有值都是...注意,在所有参数,values、index、columns最为关键,它们分别对应excel透视表值、、列: ?...总结 本文介绍了pandas pivot_table函数使用,其透视表功能基本和excel类似,但pandas聚合方式更加灵活和多元,处理大数据也更快速,大家有兴趣可探索更高级用法。

    2.8K40

    pandas中使用数据透视表

    经常做报表小伙伴对数据透视表应该不陌生,在excel利用透视表可以快速地进行分类汇总,自由组合字段聚合计算,而这些只需要拖拉拽就能实现。...格式数据 values:需要汇总计算列,可多选 index:分组键,一般是用于分组列名或其他分组键,作为结果DataFrame索引 columns:列分组键,一般是用于分组列名或其他分组键,...作为结果DataFrame列索引 aggfunc:聚合函数或函数列表,默认为平均值 fill_value:设定缺失替换值 margins:是否添加行列总计 dropna:默认为True,如果列所有值都是...NaN,将不作为计算列,False时,被保留 margins_name:汇总行列名称,默认为All observed:是否显示观测值 注意,在所有参数,values、index、columns最为关键...,它们分别对应excel透视表值、、列: 参数aggfunc对应excel透视表值汇总方式,但比excel聚合方式更丰富: 如何使用pivot_table?

    3K20

    整理了 25 个 Pandas 实用技巧,拿走不谢!

    从多个文件构建DataFrame 假设你数据集分化为多个文件,但是你需要将这些数据集读到一个DataFrame。 举例来说,我有一些关于股票小数聚集,每个数据集为单天CSV文件。...将DataFrame划分为两个随机子集 假设你想要将一个DataFrame划分为两部分,随机地将75%给一个DataFrame,剩下25%给另一个DataFrame。...或者你想要舍弃那么缺失值占比超过10%列,你可以给dropna()设置一个阈值: ? len(ufo)返回总行数,我们将它乘以0.9,以告诉pandas保留那些至少90%值不是缺失值列。...你可以看到,每个订单总价格在每一显示出来了。 这样我们就能方便地甲酸每个订单价格占该订单总价格百分比: ? 20. 选取和列切片 让我们看一眼另一个数据集: ?...set_option()函数第一个参数为选项名称,第二个参数为Python格式化字符。可以看到,Age列和Fare列现在已经保留小数点后两位。

    3.2K10
    领券