首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Pandas 2.2 中文官方教程和指南(十六)

逻辑操作 对于逻辑操作,NA 遵循 三逻辑(Kleene 逻辑,类似于 R、SQL 和 Julia)。这种逻辑意味着只有在逻辑上需要时才传播缺失。...例如,对于逻辑“”操作(|),如果操作数之一是True,我们已经知道结果将是True,无论另一个是什么(因此无论缺失是True还是False)。...当在if语句中使用SeriesDataFrame对象时,会出现类似情况,请参阅在 pandas 中使用 if/truth 语句。...算术和比较操作中的传播 一般来说,在涉及NA的操作中,缺失会传播。...逻辑操作 对于逻辑操作,NA遵循三逻辑(Kleene 逻辑,类似于 R、SQL 和 Julia)。这种逻辑意味着只在逻辑上需要时传播缺失

16610
您找到你想要的搜索结果了吗?
是的
没有找到

Pandas 2.2 中文官方教程和指南(九·三)

这将导致在将来版本中出现歧义错误。...例如,只有少数几种方法可以原地修改 DataFrame: 插入、删除修改列。 分配给indexcolumns属性。 对于同质数据,可以通过values属性高级索引直接修改。...但是,如果errors='coerce',这些错误将被忽略,pandas 将把有问题的元素转换为pd.NaT(对于日期时间和时间增量)np.nan对于数值)。...float64 dtype: object 默认 默认情况下,整数类型为int64,浮点数类型为float64,不受平台(32 位 64 位)影响。...但是,如果errors='coerce',这些错误将被忽略,pandas 将把有问题的元素转换为pd.NaT(对于日期时间和时间间隔)np.nan对于数值)。

22900

数据科学 IPython 笔记本 7.7 处理缺失数据

'' 在数组中使用 Python 对象也意味着,如果你在一个带有None的数组中执行sum()min()之类的聚合,你通常会得到错误: vals1.sum() ''' --------------...无论操作如何,NaN的算术结果都是另一个NaN: 1 + np.nan # nan 0 * np.nan # nan 请注意,这意味着的聚合是定义良好的(即,它们不会导致错误),但并不总是有用..., 2, None]) ''' 0 1.0 1 NaN 2 2.0 3 NaN dtype: float64 ''' 对于没有可用标记的类型,当存在 NA 时,Pandas...转换为float64 np.nan boolean 转换为object Nonenp.nan 请记住,在 Pandas 中,字符串数据始终与object dtype一起存储。...data.fillna(method='bfill') ''' a 1.0 b 2.0 c 2.0 d 3.0 e 3.0 dtype: float64 ''' 对于DataFrame

4K20

数据科学 IPython 笔记本 7.6 Pandas 中的数据操作

这意味着,保留数据的上下文并组合来自不同来源的数据 - 这两个在原始的 NumPy 数组中可能容易出错的任务 - 对于 Pandas 来说基本上是万无一失的。...California 90.413926 New York NaN Texas 38.018740 dtype: float64 ''' 所得数组包含两个输入数组的索引的并集...对于 Python 的任何内置算术表达式,索引匹配是以这种方式实现的;默认情况下,任何缺失都使用NaN填充: A = pd.Series([2, 4, 6], index=[0, 1, 2]) B =...pd.Series([1, 3, 5], index=[1, 2, 3]) A + B ''' 0 NaN 1 5.0 2 9.0 3 NaN dtype: float64...中的数据操作将始终维护数据上下文,这可以防止在处理原始 NumPy 数组中的异构和/未对齐数据时,可能出现的愚蠢错误

2.7K10

用Pandas处理缺失

在标签方法中, 标签可能是具体的数据(例如用 -9999 表示缺失的整数) , 也可能是些极少出现的形式。另外, 标签还可能是更全局的, 比如用 NaN(不是一个数) 表示缺失的浮点数。...dev. of 7 runs, 100 loops each) 使用 Python 对象构成的数组就意味着如果你对一个包含 None 的数组进行累计操作, 如 sum() 或者 min(), 那么通常会出现类型错误..., 2, None]) 0 1.0 1 NaN 2 2.0 3 NaN dtype: float64 Pandas 会将没有标签的数据类型自动转换为 NA。...: float64 除了将整型数组的缺失强制转换为浮点数, Pandas 还会自动将 None 转换为 NaN。...强制转换为 float64 np.nan floating 浮点型 无变化 np.nan boolean 布尔类型 强制转换为 object None np.nan 需要注意的是, Pandas

2.8K10

Python数据科学手册(六)【Pandas 处理丢失的数据】

Pandas中的数据丢失 Pandas中处理数据丢失的方法受制于Numpy,尽管Numpy提供了掩码机制,但是在存储、计算和代码维护来说,并不划算,所以Pandas使用哨兵机制来处理丢失的数据。...pd.Series([1, np.nan, 2, None]) 结果为: 0 1.0 1 NaN 2 2.0 3 NaN dtype: float64 对于某些不支持哨兵的数据类型...how的默认为any, 也就是说任意行或者列只要出现NA就删除,如果修改为all,则只有所有都为NA的时候才会删除。...1.0 b 1.0 c 2.0 d 2.0 e 3.0 dtype: float64 还可以使用后一个来填充: # back-fill data.fillna(method='...bfill') 结果为: a 1.0 b 2.0 c 2.0 d 3.0 e 3.0 dtype: float64 对于DataFrame,可以指定填充的轴: df.fillna

2.3K30

Pandas 2.2 中文官方教程和指南(九·一)

对于非数字 Series 对象,describe() 将提供关于唯一数量和最频繁出现值的简单摘要: In [101]: s = pd.Series(["a", "a", "b", "b", "a",...: int64 类似地,您可以获取 Series DataFrame 中值的最频繁出现(即众数): In [125]: s5 = pd.Series([1, 1, 3, 3, 3, 5, 5,...例如,只有少数几种方法可以原地更改 DataFrame: 插入、删除修改列。 分配给indexcolumns属性。 对于同质数据,可以通过values属性高级索引直接修改。...C uint8 dtype: object 默认 默认情况下,整数类型为int64,浮点类型为float64,不受平台(32 位 64 位)影响。...但是,如果errors='coerce',这些错误将被忽略,pandas 将把有问题的元素转换为pd.NaT(对于日期时间和时间间隔)np.nan对于数值)。

8300

Python Pandas 的使用——Series

: int64 由原先的 [‘b’, ‘a’, ‘c’] 变成了指定的 [‘a’,‘b’,‘c’],对于指定索引names未出现的index ’d’ ,则自动过滤掉了,若names中出现dict中没有的索引...(5, index=['a', 'b', 'c']) series7 = pd.Series(5.0, index=['a', 'b', 'c']) # 对于创建float64来说,可缩写标量,eg:...No.2     Kim No.3    Andy No.4     填充值 dtype: object   method参数      ffillpad:前向填充,即将缺失的前一个索引的填充在缺失位置上...bfillbackfill:后向(进位)填充,即将缺失的后一个索引的填充在缺失位置上  s = pd.Series(['Tom', 'Kim', 'Andy'], index=['No.1',...的作为填充值 dtype: object     rs2 No.0    Tom No.1    Tom     No.4    NaN     # 取No.5的作为填充值,即NaN No.5

92500

简单概括精髓,pandas必知必会

0.609003 dtype: float64 数据的统计分析 在pandas当中用describe()方法来对表格中的数据做一个概括性的统计分析,例如 series2.describe() output...: float64 对于离散型的数据来说,describe()方法给出的结果则会简洁很多 s = pd.Series(["a", "a", "b", "b", "a", "a", "d", "c", "...()方法 pandas当中的value_counts()方法主要用于数据表的计数以及排序,用来查看表格当中,指定列有多少个不同的数据并且计算不同在该列当中出现的次数,先来看一个简单的例子 df =...: int64 可以看到北京出现了3次,上海出现了2次,并且默认采用的是降序来排列的,下面我们来看一下用升序的方式来排列一下收入这一列 df["收入"].value_counts(ascending=True...50 0.1 43 0.1 34 0.1 40 0.1 45 0.1 32 0.1 25 0.4 Name: 年龄, dtype: float64

29820
领券