首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Pandas速查卡-Python数据科学

如果你对pandas的学习很感兴趣,你可以参考我们的pandas教程指导博客(http://www.dataquest.io/blog/pandas-python-tutorial/),里面包含两大部分的内容...用于测试的代码 pd.DataFrame(np.random.rand(20,5)) 5、20的随机浮动 pd.Series(my_list) 从可迭代的my_list创建一维数组 df.index...(均值可以用统计部分中的几乎任何函数替换) s.astype(float) 将数组的数据类型转换为float s.replace(1,'one') 将所有等于1的值替换为'one' s.replace(...df.groupby([col1,col2]) 从多返回一组对象的值 df.groupby(col1)[col2] 返回col2中的值的平均值,按col1中的值分组(平均值可以用统计部分中的几乎任何函数替换...) df.pivot_table(index=col1,values=[col2,col3],aggfunc=max) 创建一个数据透视表,按col1分组计算col2和col3的平均值 df.groupby

9.2K80
您找到你想要的搜索结果了吗?
是的
没有找到

30 个小例子帮你快速掌握Pandas

选择特定的 3.读取DataFrame的一部分行 read_csv函数允许按读取DataFrame的一部分。有两种选择。第一个是读取前n。...这些方法根据索引或标签选择。 loc:带标签选择 iloc:用索引选择 先创建20个随机indices。...符合指定条件的值将保持不变,而其他值将替换为指定值。 20.排名函数 它为这些值分配一个等级。让我们创建一个根据客户余额对客户进行排名的。...Geography的内存消耗减少了近8倍。 24.替换替换函数可用于替换DataFrame中的值。 ? 第一个参数是要替换的值,第二个参数是值。 我们可以使用字典进行多次替换。 ?...25.绘制直方图 Pandas不是数据可视化库,但用它创建一些基本图形还是非常简单的。 我发现使用Pandas创建基本图比使用其他数据可视化库更容易。 让我们创建Balance的直方图。

10.7K10

Pandas必会的方法汇总,建议收藏!

一、Pandas两大数据结构的创建 序号 方法 说明 1 pd.Series(对象,index=[ ]) 创建Series。...对象可以是列表\ndarray、字典以及DataFrame中的某一或某一 2 pd.DataFrame(data,columns = [ ],index = [ ]) 创建DataFrame。...columns和index为指定的索引,并按照顺序排列 举例:用pandas创建数据表: df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006...重排Series和DataFrame索引,会创建一个对象,如果某个索引值当前不存在,就引入缺失值。...或DataFrame),表示哪些值是缺失的 举例:查看数据表基本信息(维度、列名称、数据格式等等) df.info() 十、数据转换 序号 方法 说明 1 .replace(old, new) 用的数据替换老的数据

4.7K40

Pandas必会的方法汇总,数据分析必备!

今天来分享一些Pandas必会的用法,让你的数据分析水平更上一层楼。 一、Pandas两大数据结构的创建 序号 方法 说明 1 pd.Series(对象,index=[ ]) 创建Series。...对象可以是列表\ndarray、字典以及DataFrame中的某一或某一 2 pd.DataFrame(data,columns = [ ],index = [ ]) 创建DataFrame。...columns和index为指定的索引,并按照顺序排列 举例:用pandas创建数据表: df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006...重排Series和DataFrame索引,会创建一个对象,如果某个索引值当前不存在,就引入缺失值。...或DataFrame),表示哪些值是缺失的 举例:查看数据表基本信息(维度、列名称、数据格式等等) df.info() 十、数据转换 序号 方法 说明 1 .replace(old, new) 用的数据替换老的数据

5.9K20

针对SAS用户:Python数据分析库pandas

解决缺失数据分析的典型SAS编程方法是,编写一个程序使用计数器变量遍历所有使用IF/THEN测试缺失值。 这可以沿着下面的输出单元格中的示例行。...在这种情况下,"d"被删除,因为它只包含3个非空值。 ? ? 可以插入或替换缺失值,而不是删除。.fillna()方法返回替换空值的Series或DataFrame。...NaN被上面的“下”替换为相邻单元格。下面的单元格将上面创建的DataFrame df2与使用“前向”填充方法创建的数据框架df9进行对比。 ? ?...NaN被上面的“上”替换为相邻单元格。下面的单元格将上面创建的DataFrame df2与使用“后向”填充方法创建的数据框架df10进行对比。 ? ?...在删除缺失之前,计算在事故DataFrame中丢失的记录部分创建于上面的df。 ? DataFrame中的24个记录将被删除。

12.1K20

如何用 Python 执行常见的 Excel 和 SQL 任务

使用一代码,我们已经将这些数据分配保存到 Pandas dataframe 中 - 事实证明是这种情况,字典是要转换为 dataframe 的完美数据格式。 ?...在 Pandas 中,这样做的方式是rename 方法。 ? 在实现上述方法时,我们将使用标题 「gdppercapita」 替换标题「US $」。...我们将使用正则表达式来替换 gdppercapita 中的逗号,以便我们可以更容易地使用该。 ? re.sub 方法本质上是使用空格替换逗号。以下教程详细介绍了 re库的各个方法。...我们为一个的 dataframe 分配一个布尔索引的过滤器,这个方法基本上就是说「创建一个人均 GDP 超过 50000 的 dataframe」。现在我们可以显示gdp50000。 ?...选择属于以 s 开头的国家的。 现在可以显示一个 dataframe,其中只包含以 s 开头的国家。使用 len 方法快速检查(一个用于计算 dataframe 中的行数的救星!)

10.8K60

(数据科学学习手札72)用pdpipe搭建pandas数据分析流水线

pandas as pd import pdpipe # 读入tmdb_5000_movies.csv数据集查看前3 data = pd.read_csv('tmdb_5000_movies.csv...、丢掉vote_average小于等于7,且original_language不为en的 4、求得genres对应电影类型的数量保存为genres_num,删除原有的genres 5、丢掉...型,决定是否在计算完成后把旧删除,默认为True,即对应列的计算结果直接替换掉对应的旧 suffix:str型,控制后缀名,当drop参数设置为False时,结果的列名变为其对应列+suffix...图19 ApplyToRows:   这个类用于实现pandas中对的apply操作,传入的计算函数直接处理每一,主要参数如下: func:传入需要计算的函数,对每一进行处理 colname...:str或list,与columns参数一一对应的结果列名称,当你想要自定义结果列名称时这个参数就变得非常有用,默认为None,即直接替换原始 drop:bool型,用于决定是否删除替换前的原始

1.4K10

用Python执行SQL、Excel常见任务?10个方法全搞定!

使用一代码,我们已经将这些数据分配保存到 Pandas dataframe 中 —— 事实证明是这种情况,字典是要转换为 dataframe 的完美数据格式。 ?...在 Pandas 中,这样做的方式是rename 方法。 ? 在实现上述方法时,我们将使用标题 「gdp_per_capita」 替换标题「US $」。...我们将使用正则表达式来替换 gdp_per_capita 中的逗号,以便我们可以更容易地使用该。 ? re.sub 方法本质上是使用空格替换逗号。以下详细介绍了 re库 的各个方法。...我们为一个的 dataframe 分配一个布尔索引的过滤器,这个方法基本上就是说「创建一个人均 GDP 超过 50000 的 dataframe」。现在我们可以显示gdp50000。 ?...选择属于以 s 开头的国家的。 现在可以显示一个 dataframe,其中只包含以 s 开头的国家。使用 len 方法快速检查(一个用于计算 dataframe 中的行数的救星!)

8.2K20

Python数据分析之数据预处理(数据清洗、数据合并、数据重塑、数据转换)学习笔记

inner:使用两个 DataFrame键的交集,类似SQL的内连接  ​ 在使用 merge()函数进行合并时,默认会使用重叠的索引做为合并键,采用内连接方式合并数据,即取索引重叠的部分。  ​...注意:使用combine_first()方法合并两个DataFrame对象时,必须确保它们的索引和索引有重叠的部分  3....3.2.1 pivot()方法  index:用于创建 DataFrame对象的索引。...columns:用于创建 DataFrame对象的索引 values:用于填充 DataFrame对象中的值。  4....4.1.1 rename()方法  index,columns:表示对索引名或索引名的转换。  inplace:默认为False,表示是否返回Pandas对象。

5.3K00

案例 | 用pdpipe搭建pandas数据分析流水线

pandas as pd import pdpipe # 读入tmdb_5000_movies.csv数据集查看前3 data = pd.read_csv('tmdb_5000_movies.csv...进行小写化处理 3、丢掉vote_average小于等于7,且original_language不为en的 4、求得genres对应电影类型的数量保存为genres_num,删除原有的genres... 5、丢掉genres_num小于等于5的 上述操作直接使用pandas并不会花多少时间,但是想要不创造任何中间临时结果一步到位产生所需的数据框子集,并且保持代码的可读性不是一件太容易的事,但是利用...,用于指定对哪些进行计算 func:传入需要计算的函数 drop:bool型,决定是否在计算完成后把旧删除,默认为True,即对应列的计算结果直接替换掉对应的旧 suffix:str型,控制后缀名...:str或list,与columns参数一一对应的结果列名称,当你想要自定义结果列名称时这个参数就变得非常有用,默认为None,即直接替换原始 drop:bool型,用于决定是否删除替换前的原始

80110

Numpy和pandas的使用技巧

() 创建指定行列的随机矩阵,元素为0到1之间 np.random.rand(10, 10) 创建指定形状(示例为1010)的随机数组(范围在0至1之间) np.random.uniform...0,大于80,替换为90 print(b) 指定轴求和 np.sum(参数1: 数组; 参数2: axis=0/1,0表示1表示) 指定轴最大值np.max(参数1: 数组;...; 参数2: axis=0/1,0表示1表示) 最小值索引np.argmin(参数1: 数组; 参数2: axis=0/1,0表示1表示) 指定轴平均值mean(参数1: 数组...△ np.r_[] 按上下连接两个矩阵 6、NumPy 数组操作 △ n.reshape(arr,newshape,order=)数组,形状,"C"-按、"F"-按、"A"-原顺序、"k"-元素在内存中痴线顺序...#运行当前代码块选中下一个代码块(没有就创建),Shift+Enter 清除缓存kernel -> restart Jupyter的优点是允许将变量放到内存中,可以直接进行类型推断

3.5K30

Pandas全景透视:解锁数据科学的黄金钥匙

它由两部分组成:索引(Index) 和 值(Values)。 索引(Index): 索引是用于标识每个元素的标签,可以是整数、字符串、日期等类型的数据。...具体来说,map()函数可以接受一个字典或一个函数作为参数,然后根据这个字典或函数对 Series 中的每个元素进行映射或转换,生成一个的 Series,返回该 Series。...举个例子import pandas as pd# 创建一个 Seriess = pd.Series(['apple', 'banana', 'cherry'])# 定义一个字典,用于替换元素replacement_dict...定义了填充空值的方法, pad / ffill表示用前面/的值,填充当前行/的空值; backfill / bfill表示用后面/的值,填充当前行/的空值。axis:轴。...0或’index’,表示按删除;1或’columns’,表示按删除。inplace:是否原地替换。布尔值,默认为False。如果为True,则在原DataFrame上进行操作,返回值为None。

10110

20个能够有效提高 Pandas数据分析效率的常用函数,附带解释和例子

where函数首先根据指定条件定位目标数据,然后替换为指定的数据。...对于标签,如果我们不分配任何特定的索引,pandas默认创建整数索引。因此,标签是从0开始向上的整数。与iloc一起使用的位置也是从0开始的整数。...df.year.nunique() 10 df.group.nunique() 3 我们可以直接将nunique函数应用于dataframe,查看每中唯一值的数量: ?...我们要创建一个,该显示“person”中每个人的得分: df['Person_point'] = df.lookup(df.index, df['Person']) df ? 14....Replace 顾名思义,它允许替换dataframe中的值。第一个参数是要替换的值,第二个参数是值。 df.replace('A', 'A_1') ? 我们也可以在同一个字典中多次替换

5.6K30

超全的pandas数据分析常用函数总结:上篇

文章中的所有代码都会有讲解和注释,绝大部分也都会配有运行结果,这样的话,整篇总结篇幅量自然不小,所以我分成了上下两篇,这里是上篇,下篇在次条。 1....创建数据集读取 2.1 创建数据集 我构造了一个超市购物的数据集,该数据集属性包括:订单ID号(id)、订单日期(date)、消费金额(money)、订单商品(product)、商品类别(department...# 某一的数据类型 data.ndim # 数据维度 data.index # 索引 data.columns # 索引 data.values...# 对象值 3.2 数据集整体情况查询 data.head() # 显示头部几行(默认5) data.tail() # 显示末尾几行(默认5) data.info...= 'American'] #去掉origin为American的 data1 data2=data[(data !

3.6K31

Pandas 学习手册中文第二版:1~5

如果可能,最好执行返回带有Series中表示的修改的Series的操作。 但是,如果需要,可以更改值就地添加/删除。 通过为尚不存在的index标签分配值,可以在序列中添加一。...具体而言,在本章中,我们将介绍: 重命名列 使用[]和.insert()添加 通过扩展添加 使用连接添加 重新排序列 替换的内容 删除 添加 连接 通过扩展添加和替换行 使用.drop...替换的内容 通过使用[]运算符将的Series分配给现有,可以替换DataFrame的内容。 以下演示了用rounded_price中的Price替换Price。...如果标签确实存在,则将替换指定中的值。...此外,我们看到了如何替换特定中的数据。 在下一章中,我们将更详细地研究索引的使用,以便能够有效地从 pandas 对象内检索数据。

8.2K10
领券