前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >读 DataFrame 不只是读 DataFrame ,还能读出这么多信息

读 DataFrame 不只是读 DataFrame ,还能读出这么多信息

作者头像
用户4945346
发布2024-05-27 20:20:15
460
发布2024-05-27 20:20:15
举报
文章被收录于专栏:pythonista的日常pythonista的日常

前面写了两篇 pandas 的入门,分别是Python 中的 pandas 快速上手之:概念初识pandas 快速上手系列:自定义 dataframe,没看过的可以点对应的文章链接查看。

你是否觉得 pandas 中读取 DataFrame 就是简单的读读写写?其实不然,DataFrame 在读取时还隐藏着不少好用的"秘密功能",让我们一起来探索一下!

首先,读取后的 DataFrame 可以一眼看出它的全貌,包括行数、列数、占用内存等概览信息,就像招手让一位新朋友先行了解。

除了整体概况,我们还能查阅 DataFrame 的"家底":所有列名、列数据类型等细节一览无余。

有时你可能只想窥探一角,可以查看前/后 n 行数据吧,这可比遍览全文轻松多了。

总之,pandas 为 DataFrame 开启了全方位的"x光视角",不仅仅是简单读写,还有更多有趣的"副业"等你探索。下面来详细看下具体的使用方法吧!

shape - 返回 DataFrame 的形状(行数,列数)

代码语言:javascript
复制
In [1]: import pandas as pd
   ...:
   ...: df = pd.read_csv("ins_can_000000_gaspedel.csv")
   ...: print(df.shape)
(10764, 2)

输出显示这个 df 有 10764 行,2 列

columns - 返回列名列表

代码语言:javascript
复制
In [2]: print(df.columns)
Index(['timestamp', 'gas_pedal'], dtype='object')

dtypes - 返回各列的数据类型

代码语言:javascript
复制
In [3]: print(df.dtypes)
timestamp      int64
gas_pedal    float64
dtype: object

info() - 打印 DataFrame 的概要信息(索引数据类型、列数据类型、内存使用等)

代码语言:javascript
复制
In [4]: df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10764 entries, 0 to 10763
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype
---  ------     --------------  -----
 0   timestamp  10764 non-null  int64
 1   gas_pedal  10762 non-null  float64
dtypes: float64(1), int64(1)
memory usage: 168.3 KB

head(n) - 查看 DataFrame 的前 n 行

代码语言:javascript
复制
In [5]: df.head(3)
Out[5]:
             timestamp  gas_pedal
0  1687160644552313854        0.0
1  1687160644552368280        0.0
2  1687160644552419868        0.0

tail(n) - 查看 DataFrame 的最后n行

代码语言:javascript
复制
In [6]: df.tail(5)
Out[6]:
                 timestamp  gas_pedal
10759  1687160857514424803        NaN
10760  1687160857534642423    22.0472
10761  1687160857554423051    22.0472
10762  1687160857617684338    22.0472
10763  1687160857617750929        NaN

values - 返回 DataFrame 的数据部分(纯数据,无索引和列名)

代码语言:javascript
复制
In [7]: df.values
Out[7]:
array([[1.68716064e+18, 0.00000000e+00],
       [1.68716064e+18, 0.00000000e+00],
       [1.68716064e+18, 0.00000000e+00],
       ...,
       [1.68716086e+18, 2.20472000e+01],
       [1.68716086e+18, 2.20472000e+01],
       [1.68716086e+18,            nan]])

index - 返回行索引/行标签

代码语言:javascript
复制
In [8]: df.index
Out[8]: RangeIndex(start=0, stop=10764, step=1)
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 pythonista的日常 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档