首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

通宵翻译Pandas官方文档,写了这份Excel万字肝货操作!

Series 序列是表示 DataFrame 的一列的数据结构。使用序列类似于引用电子表格的列。 4. Index 每个 DataFrame 和 Series 都有一个索引,它们是数据行上的标签。...索引值也是持久的,所以如果你对 DataFrame 中的行重新排序,特定行的标签不会改变。 5. 副本与就地操作 大多数 Pandas 操作返回 Series/DataFrame 的副本。...CSV 让我们从 Pandas 测试中加载并显示提示数据集,这是一个 CSV 文件。在 Excel 中,您将下载并打开 CSV。...tips[tips["total_bill"] > 10] 结果如下: 上面的语句只是将一系列 True/False 对象传递给 DataFrame,返回所有带有 True 的行。...提取第n个单词 在 Excel 中,您可以使用文本到列向导来拆分文本和检索特定列。(请注意,也可以通过公式来做到这一点。)

19.6K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    PySpark SQL——SQL和pd.DataFrame的结合体

    最大的不同在于pd.DataFrame行和列对象均为pd.Series对象,而这里的DataFrame每一行为一个Row对象,每一列为一个Column对象 Row:是DataFrame中每一行的数据抽象...中的drop_duplicates函数功能完全一致 fillna:空值填充 与pandas中fillna功能一致,根据特定规则对空值进行填充,也可接收字典参数对各列指定不同填充 fill:广义填充 drop...),第二个参数则为该列取值,可以是常数也可以是根据已有列进行某种运算得到,返回值是一个调整了相应列后的新DataFrame # 根据age列创建一个名为ageNew的新列 df.withColumn('...基础上增加或修改一列,并返回新的DataFrame(包括原有其他列),适用于仅创建或修改单列;而select准确的讲是筛选新列,仅仅是在筛选过程中可以通过添加运算或表达式实现创建多个新列,返回一个筛选新列的...是spark中的action算子,即会真正执行计算并返回结果;而前面的很多操作则属于transform,仅加入到DAG中完成逻辑添加,并不实际执行计算 take/head/tail/collect:均为提取特定行的操作

    10K20

    最全面的Pandas的教程!没有之一!

    构建一个 DataFrame 对象的基本语法如下: 举个例子,我们可以创建一个 5 行 4 列的 DataFrame,并填上随机数据: 看,上面表中的每一列基本上就是一个 Series ,它们都用了同一个...比如尝试获取上面这个表中的 name 列数据: ? 因为我们只获取一列,所以返回的就是一个 Series。可以用 type() 函数确认返回值的类型: ?...如果获取多个列,那返回的就是一个 DataFrame 类型: ? 向 DataFrame 里增加数据列 创建一个列的时候,你需要先定义这个列的数据和索引。举个栗子,比如这个 DataFrame: ?...交叉选择行和列中的数据 我们可以用 .xs() 方法轻松获取到多级索引中某些特定级别的数据。比如,我们需要找到所有 Levels 中,Num = 22 的行: ?...于是我们可以选择只对某些特定的行或者列进行填充。比如只对 'A' 列进行操作,在空值处填入该列的平均值: ? 如上所示,'A' 列的平均值是 2.0,所以第二行的空值被填上了 2.0。

    26K64

    python数据科学系列:pandas入门详细教程

    例如,当标签列类型(可通过df.index.dtype查看)为时间类型时,若使用无法隐式转换为时间的字符串作为索引切片,则引发报错 ? 切片形式返回行查询,且为范围查询 ?...isin/notin,条件范围查询,即根据特定列值是否存在于指定列表返回相应的结果 where,仍然是执行条件查询,但会返回全部结果,只是将不满足匹配条件的结果赋值为NaN或其他指定值,可用于筛选或屏蔽值...lookup,loc的一种特殊形式,分别传入一组行标签和列标签,lookup解析成一组行列坐标,返回相应结果: ?...bool结果,可通过keep参数设置保留第一行/最后一行/无保留,例如keep=first意味着在存在重复的多行时,首行被认为是合法的而可以保留 删除重复值,drop_duplicates,按行检测并删除重复的记录...;sort_values是按值排序,如果是dataframe对象,也可通过axis参数设置排序方向是行还是列,同时根据by参数传入指定的行或者列,可传入多行或多列并分别设置升序降序参数,非常灵活。

    15K20

    直观地解释和可视化每个复杂的DataFrame操作

    融合二维DataFrame可以解压缩其固化的结构并将其片段记录为列表中的各个条目。 Explode Explode是一种摆脱数据列表的有用方法。...要记住:从外观上看,堆栈采用表的二维性并将列堆栈为多级索引。 Unstack 取消堆叠将获取多索引DataFrame并对其进行堆叠,将指定级别的索引转换为具有相应值的新DataFrame的列。...在列表索引中,索引为-1将返回最后一个元素。这与水平相同。级别-1表示将取消堆叠最后一个索引级别(最右边的一个)。...合并不是pandas的功能,而是附加到DataFrame。始终假定合并所在的DataFrame是“左表”,在函数中作为参数调用的DataFrame是“右表”,并带有相应的键。...记住:如果您使用过SQL,则单词“ join”应立即与按列添加相联系。如果不是,则“ join”和“ merge”在定义方面具有非常相似的含义。

    13.3K20

    Pandas知识点-连接操作concat

    这些方法都可以将多个Series或DataFrame组合到一起,返回一个新的Series或DataFrame。每个方法在用法上各有特点,可以适用于不同的场景,本系列会逐一进行介绍。...concat是英文单词concatenate(连接)的缩写,concat()方法用于将Series或DataFrame连接到一起,达到组合的功能,本文介绍concat()方法的具体用法。...根据上面的三个例子(例1~例3),可以总结连接的原理为(按行连接,按列同理): 第一步,将数据按行拼接起来,如果有行索引相等的行,行索引会重复多行。...join: join参数默认为outer,前面的三个例子中都是默认取并集,如果将join参数设置为inner,则连接时取交集。 按行连接时,列取被连接数据的交集,只保留被连接数据中都有的列,原理如下。...如果取的是并集,修改行索引的过程为:先按取并集的方式连接,然后去掉结果中比修改的索引多出的行。

    2.6K50

    Pandas 不可不知的功能(一)

    首先我们先介绍一些简单的概念 DataFrame:行列数据,类似 Excel 的 sheet,或关系型数据库的表 series:单列数据 axis:0:行,1:列 shape:DataFrame...选择特定列加载 ? 时间转换加载 ? ? 分批加载     有时我们可能需要加载的 csv 太大,可能会导致内存爆掉,这时候,我们就需要分批加载数据进行分析、处理 ? 2....在 DataFrame 中增加列 在 DataFrame 中添加新列的操作很简单,下面介绍几种方式 简单方式     直接增加新列并赋值     df['new_column'] = 1 计算方式...,[列名数组]] iloc 根据索引选取     df.iloc[行索引开始位置:行索引结束位置,列索开始位置:列索引结束位置] 选取行数据 df.loc[[行索引数组]],df.iloc...注意: 索引开始位置:闭区间 索引结束位置:开区间 loc 和 iloc 选取整列数据的时候,看上去与 df[列名数组] 的方式一致,但是其实前者返回的仍然是 DataFrame,后者返回的是

    1.6K60

    手把手教你做一个“渣”数据师,用Python代替老情人Excel

    5、略过行和列 默认的read_excel参数假定第一行是列表名称,会自动合并为DataFrame中的列标签。...1、从“头”到“脚” 查看第一行或最后五行。默认值为5,也可以自定义参数。 ? 2、查看特定列的数据 ? 3、查看所有列的名字 ? 4、查看信息 查看DataFrame的数据属性总结: ?...5、返回到DataFrame ? 6、查看DataFrame中的数据类型 ?...2、查看多列 ? 3、查看特定行 这里使用的方法是loc函数,其中我们可以指定以冒号分隔的起始行和结束行。注意,索引从0开始而不是1。 ? 4、同时分割行和列 ? 5、在某一列中筛选 ?...有四种合并选项: left——使用左侧DataFrame中的共享列并匹配右侧DataFrame,N/A为NaN; right——使用右侧DataFrame中的共享列并匹配左侧DataFrame,N/A为

    8.4K30
    领券