首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据科学 IPython 笔记本 7.7 处理缺失数据

在整本书中,我们缺失数据称为空NaN。 缺失数据惯例中的权衡 许多方案已经开发出来,来指示表格DataFrame中是否存在缺失数据。..., 2, None]) ''' 0 1.0 1 NaN 2 2.0 3 NaN dtype: float64 ''' 对于没有可用标记的类型,当存在 NA 时,Pandas...dtype: int64 ''' x[0] = None x ''' 0 NaN 1 1.0 dtype: float64 ''' 请注意,除了整数数组转换为浮点数外,Pandas...转换为float64 np.nan boolean 转换为object Nonenp.nan 请记住,在 Pandas 中,字符串数据始终与object dtype一起存储。...默认情况下,dropna()删除包含的所有行: df.dropna() 0 1 2 1 2.0 3.0 5 或者,你可以沿不同的轴删除 NA ; axis = 1删除包含的所有列: df.dropna

4K20

Pandas 2.2 中文官方教程和指南(二十四)

相反,您可以这些对象视为“压缩的”,其中任何与特定匹配的数据(NaN / 缺失,尽管可以选择任何,包括 0)都被省略。压缩的实际上并未存储在数组中。...在这种情况下,将使用默认填充值(对于 NumPy dtypes,通常是该 dtype 的“缺失”)。...传递 memory_usage='deep' 启用更准确的内存使用报告,考虑到所包含对象的完整使用情况。这是可选的,因为进行这种更深层次的内省可能很昂贵。...NumPy 类型的 NA 类型提升 通过 reindex() 其他方式 NA 引入现有的 Series DataFrame 时,布尔和整数类型将被提升为不同的 dtype 以存储 NA。...NumPy 类型的NA类型提升 当通过 reindex() 其他方式 NAs 引入现有的 Series DataFrame 时,布尔和整数类型将被提升为不同的数据类型以存储 NA。

39300
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Python 数据分析(PYDA)第三版(二)

    NumPy 操作在整个数组上执行复杂计算,无需 Python for循环,对于大型序列来说,这可能会很慢。...虽然对于许多数据分析应用程序来说,深入了解 NumPy 并不是必需的,但精通面向数组的编程和思维是成为科学 Python 大师的关键步骤。...在大多数情况下,它们直接映射到底层磁盘内存表示,这使得可以数据的二进制流读写到磁盘,并连接到用低级语言(如 C FORTRAN)编写的代码。...首先,对于大数组来说速度不会很快(因为所有工作都是在解释的 Python 代码中完成的)。其次,它不适用于多维数组。...2.60 c 0.00 d -0.55 dtype: float64 当整行整列包含所有 NA 时,总和为 0,而如果任何不是 NA,则结果为 NA。

    28000

    数据科学 IPython 笔记本 7.6 Pandas 中的数据操作

    Pandas 包含一些有用的调整,但是:对于一元操作,如取负和三角函数,这些ufunc保留输出中的索引和列标签,对于二元操作,如加法和乘法,将对象传递给ufunc时,Pandas 将自动对齐索引。...这意味着,保留数据的上下文并组合来自不同来源的数据 - 这两个在原始的 NumPy 数组中可能容易出错的任务 - 对于 Pandas 来说基本上是万无一失的。...38.018740 dtype: float64 ''' 所得数组包含两个输入数组的索引的并集,可以使用这些索引上的标准 Python 集合算法来确定: area.index | population.index...对于 Python 的任何内置算术表达式,索引匹配是以这种方式实现的;默认情况下,任何缺失都使用NaN填充: A = pd.Series([2, 4, 6], index=[0, 1, 2]) B =...pd.Series([1, 3, 5], index=[1, 2, 3]) A + B ''' 0 NaN 1 5.0 2 9.0 3 NaN dtype: float64

    2.8K10

    《利用Python进行数据分析·第2版》第5章 pandas入门5.1 pandas的数据结构介绍5.2 基本功能5.3 汇总和计算描述统计5.4 总结

    : float64 还可以Series看成是一个定长的有序字典,因为它是索引到数据的一个映射。...a -5.3 b 7.2 c 3.6 d 4.5 e NaN dtype: float64 对于时间序列这样的有序数据,重新索引时可能需要做一些插处理。...obj < 2] Out[124]: a 0.0 b 1.0 dtype: float64 利用标签的切片运算与普通的Python切片运算不同,其末端是包含的: In [125]: obj...我们有包含0,1,2的索引,但是引入用户想要的东西(基于标签位置的索引)很难: In [144]: ser Out[144]: 0 0.0 1 1.0 2 2.0 dtype: float64...后面的频率是每个列中这些的相应计数。 5.4 总结 在下一章,我们讨论用pandas读取(加载)和写入数据集的工具。

    6.1K70

    tf.math

    digamma(...): 计算导数绝对的对数divide(...): 计算Python风格的x除以y的除法。divide_no_nan(...): 计算一个不安全的除法,如果y为零,该除法返回0。...multiply_no_nan(...): 计算x和y的乘积,如果y是0,即使x是NaN无穷大,返回0。negative(...): 计算数值负值元素。...round(...): 元素方面,张量的舍入到最近的整数。rsqrt(...): 计算x元素平方根的倒数。scalar_mul(...): 标量乘以张量索引切片对象。...请注意np.mean有一个dtype参数,可用于指定输出类型。默认情况下,这是dtype=float64。...参数:input:一维更高张量,最后维数至少为k。k: 0-D int32张量。要沿着最后一个维度查找的顶部元素的数量(对于矩阵,沿着每一行查找)。

    2.6K10

    10 Minutes to pandas

    进行排序 df.sort_values(by='B') # 按照列B的升序排序 选择-Selection 虽然标准的Python/Numpy的选择和设置表达式都能够直接派上用场,但是作为工程使用的代码...在pandas中,使用np.nan来代替缺失,这些默认不会包含在计算中,详情请参阅:Missing Data Section。...# 2013-01-04 0.721555 -0.706771 -1.039575 5 3.0 NaN 去掉包含缺失的行 df1.dropna(how='any') #...rval # 0 foo 1 4 # 1 foo 1 5 # 2 foo 2 4 # 3 foo 2 5 Append Append 一行连接到一个...”group by”操作,我们通常是指以下一个多个操作步骤: (Splitting)按照一些规则将数据分为不同的组; (Applying)对于每组数据分别执行一个函数; (Combining)结果组合到一个数据结构中

    72030

    Pandas 2.2 中文官方教程和指南(十六)

    这些类型保持数据的原始数据类型。对于类型应用程序,请使用api.types.NAType。...逻辑操作 对于逻辑操作,NA 遵循 三逻辑(Kleene 逻辑,类似于 R、SQL 和 Julia)。这种逻辑意味着只有在逻辑上需要时才传播缺失。...例如,对于逻辑“”操作(|),如果操作数之一是True,我们已经知道结果将是True,无论另一个是什么(因此无论缺失是True还是False)。...算术和比较操作中的传播 一般来说,在涉及NA的操作中,缺失会传播。...逻辑操作 对于逻辑操作,NA遵循三逻辑(Kleene 逻辑,类似于 R、SQL 和 Julia)。这种逻辑意味着只在逻辑上需要时传播缺失

    28610

    NumPy 1.26 中文文档(四十二)

    如果这是一个整数元组,将在多个轴上执行方差,而不是以前的单个轴所有轴。 dtype数据类型,可选 用于计算方差的类型。对于整数型数组,默认float64对于浮点类型数组,它与数组类型相同。...默认是计算平均值的扁平数组。 dtype数据类型,可选 用于计算平均值的类型。对于整数输入,默认float64对于非精确输入,与输入 dtype 相同。...返回: mndarray,见上面的 dtype 参数 如果out=None,返回包含平均值的新数组,否则返回对输出数组的引用。对于包含 NaN 的切片,返回 NaN。...对于所有包含全为 NaN 自由度为零的切片,都会返回 NaN 并引发RuntimeWarning。 新版本 1.8.0 中更新。 参数: aarray_like 计算非 NaN 的标准差。...对于所有为 NaN 的片段自由度为零的片段,返回 NaN,并引发RuntimeWarning。 新特性在版本 1.8.0 中添加。 参数: aarray_like 包含所需方差的数字的数组。

    18910

    Pandas 2.2 中文官方教程和指南(七)

    / NumPy 表达式对于交互式工作来说直观且方便,但对于生产代码,我们推荐优化的 pandas 数据访问方法,DataFrame.at(),DataFrame.iat(),DataFrame.loc...: float64 与具有不同索引列的另一个SeriesDataFrame进行操作将使结果与索引列标签的并集对齐。...: float64 对于具有MultiIndex作为index的“堆叠”DataFrame Series,stack()的逆操作是unstack(),默认情况下取消堆叠最后一级: In [98]:...: float64 对于“堆叠”的 DataFrame Series( MultiIndex 作为 index),stack() 的逆操作是 unstack(),默认情况下会展开最后一个级别:...: float64 对于“堆叠”的 DataFrame Series( MultiIndex 作为 index),stack() 的逆操作是 unstack(),默认情况下会展开最后一个级别:

    39100
    领券