Pandas 是一个强大的 Python 数据分析库,提供了大量用于数据操作和分析的工具。百分位数是一种统计量,用于表示在一组数据中某个值以下的数据所占的百分比。例如,第 50 百分位数(中位数)表示有一半的数据小于或等于这个值。
Pandas 支持多种类型的百分位数计算,包括:
百分位数在数据分析中有广泛应用,例如:
以下是一个使用 Pandas 计算给定列百分位数的示例代码:
import pandas as pd
# 创建一个示例数据集
data = {
'A': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
'B': [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
}
df = pd.DataFrame(data)
# 计算列 'A' 的第 25 百分位数
percentile_25_A = df['A'].quantile(0.25)
print(f"Column 'A' 的第 25 百分位数是: {percentile_25_A}")
# 计算列 'B' 的第 75 百分位数
percentile_75_B = df['B'].quantile(0.75)
print(f"Column 'B' 的第 75 百分位数是: {percentile_75_B}")
# 计算多列的百分位数
percentiles = df.quantile([0.25, 0.5, 0.75])
print("多列的百分位数统计:")
print(percentiles)
NaN
值原因:数据中存在缺失值(NaN
),导致无法计算百分位数。
解决方法:
通过以上方法,可以有效解决计算百分位数时遇到的 NaN
值问题。
领取专属 10元无门槛券
手把手带您无忧上云