Pandas 是一个强大的数据处理和分析库,广泛应用于数据科学领域。它提供了丰富的数据结构和数据分析工具,包括 DataFrame 和 Series 等。在处理字符串数据时,Pandas 提供了多种方法来提取和操作字符串中的信息。
str.contains
、str.extract
等,方便从字符串中提取特定信息。在 Pandas 中,字符串操作主要通过 Series.str
访问器来实现。常用的字符串操作方法包括:
str.contains
:检查字符串是否包含特定子串。str.extract
:使用正则表达式从字符串中提取匹配的内容。str.replace
:替换字符串中的特定子串。str.split
:拆分字符串。从 Pandas 中的字符串中提取带小数的数字,常见于处理财务报表、科学数据、日志文件等场景。例如,从一个包含价格信息的 CSV 文件中提取所有价格数据。
假设我们有一个 DataFrame,其中某一列包含混合了文本和数字的字符串,我们需要从中提取带小数的数字。可以使用 str.extract
方法结合正则表达式来实现。
import pandas as pd
# 创建示例 DataFrame
data = {
'text': ['Price: $12.34', 'Discount: 10%', 'Amount: 56.78', 'Other: abc']
}
df = pd.DataFrame(data)
# 使用正则表达式提取带小数的数字
df['numbers'] = df['text'].str.extract(r'(\d+\.\d+)')
print(df)
text numbers
0 Price: $12.34 12.34
1 Discount: 10% NaN
2 Amount: 56.78 56.78
3 Other: abc NaN
r'(\d+\.\d+)'
是一个正则表达式,用于匹配带小数的数字。\d+
表示一个或多个数字,\.
表示小数点。str.extract
方法会返回一个包含匹配结果的 DataFrame,如果没有匹配到,则返回 NaN。通过上述方法和示例代码,你可以轻松地从 Pandas 中的字符串中提取带小数的数字。
领取专属 10元无门槛券
手把手带您无忧上云