使用pandas统计数据帧中的标记化字数可以通过以下步骤实现:
import pandas as pd
import re
data = {'文本': ['这是一段示例文本。', '这是另一段示例文本。', '这是最后一段示例文本。']}
df = pd.DataFrame(data)
def count_tokens(text):
tokens = re.findall(r'\w+', text) # 使用正则表达式提取单词
return len(tokens)
df['标记化字数'] = df['文本'].apply(count_tokens)
print(df)
输出结果:
文本 标记化字数
0 这是一段示例文本。 4
1 这是另一段示例文本。 4
2 这是最后一段示例文本。 5
在这个例子中,我们使用pandas库创建了一个包含示例文本的数据帧。然后,我们定义了一个函数count_tokens
,该函数使用正则表达式提取文本中的单词,并返回单词的数量。最后,我们将该函数应用到数据帧的文本
列上,并将结果存储在新的标记化字数
列中。
领取专属 10元无门槛券
手把手带您无忧上云