pandas.DataFrame
是 Python 中一个非常强大且灵活的数据结构,用于处理和分析结构化数据。它是 pandas 库的核心组件之一。以下是关于 pandas.DataFrame
的基础概念、优势、类型、应用场景以及常见问题的解答。
DataFrame
是一个二维表格型数据结构,包含行和列。每一列可以是不同的数据类型(如整数、浮点数、字符串等),而每一行则是一个记录。DataFrame
支持多种索引方式,包括行索引和列索引。
int64
float64
object
datetime64
bool
import pandas as pd
data = {
'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print(df)
df = pd.read_csv('path_to_your_file.csv')
# 检查缺失值
print(df.isnull().sum())
# 填充缺失值
df.fillna(value=0, inplace=True) # 用 0 填充
# 或者删除含有缺失值的行
df.dropna(inplace=True)
# 按某一列升序排序
df.sort_values(by='Age', ascending=True, inplace=True)
# 按多列排序
df.sort_values(by=['City', 'Age'], ascending=[True, False], inplace=True)
grouped = df.groupby('City')
result = grouped['Age'].mean() # 计算每个城市的平均年龄
print(result)
apply
函数或自定义函数进行处理。通过以上内容,你应该对 pandas.DataFrame
有了全面的了解,并能够应对常见的使用场景和问题。
领取专属 10元无门槛券
手把手带您无忧上云