Jupyter Notebook 是一个开源的 Web 应用程序,允许用户创建和共享包含实时代码、方程、可视化和解释性文本的文档。Python 是一种高级编程语言,广泛用于数据分析、机器学习、Web 开发等领域。CSV(Comma-Separated Values)是一种常见的数据交换格式,每行代表一条记录,字段之间用逗号分隔。
pandas
库。假设我们有一个 CSV 文件 data.csv
,内容如下:
id,name,description
1,Alice,likes to code in Python
2,Bob,enjoys hiking
3,Charlie,loves playing guitar
我们希望从这个文件中提取所有提到 "Python" 的记录。
import pandas as pd
# 读取 CSV 文件
df = pd.read_csv('data.csv')
# 提取包含 "Python" 的记录
filtered_df = df[df['description'].str.contains('Python')]
print(filtered_df)
原因:CSV 文件可能使用了不同的字符编码。
解决方法:指定正确的编码格式。
df = pd.read_csv('data.csv', encoding='utf-8')
原因:某些字段可能为空。
解决方法:在字符串操作前检查空值。
filtered_df = df[df['description'].notnull() & df['description'].str.contains('Python')]
原因:文件路径不正确或文件不存在。
解决方法:确保文件路径正确,并且文件存在。
import os
if os.path.exists('data.csv'):
df = pd.read_csv('data.csv')
else:
print("文件不存在")
通过以上方法,你可以有效地从 CSV 文件中提取特定文本,并解决常见的读取和处理问题。
领取专属 10元无门槛券
手把手带您无忧上云