BeautifulSoup是一个Python库,用于从HTML或XML文档中提取数据。它提供了一种简单而灵活的方式来遍历解析文档树,并提供了许多方法来搜索、导航和修改文档。
对于提取<li>
和<ul>
标签并将结果写入CSV,可以按照以下步骤进行:
from bs4 import BeautifulSoup
import csv
with open('example.html', 'r') as file:
html = file.read()
这里假设HTML文档的文件名为example.html
,你可以根据实际情况进行修改。
soup = BeautifulSoup(html, 'html.parser')
这里使用了html.parser
作为解析器,你也可以选择其他解析器,如lxml
。
find_all()
方法找到所有的<li>
和<ul>
标签:li_tags = soup.find_all('li')
ul_tags = soup.find_all('ul')
with open('output.csv', 'w', newline='') as file:
writer = csv.writer(file)
writer.writerow(['<li> Tags'])
for li_tag in li_tags:
writer.writerow([li_tag.text])
writer.writerow(['<ul> Tags'])
for ul_tag in ul_tags:
writer.writerow([ul_tag.text])
这里假设CSV文件的文件名为output.csv
,并且将<li>
标签的内容和<ul>
标签的内容分别写入两个不同的列中。
以上是使用BeautifulSoup提取<li>
和<ul>
标签并将结果写入CSV的基本步骤。关于BeautifulSoup的更多用法和功能,你可以参考BeautifulSoup官方文档。
腾讯云相关产品和产品介绍链接地址:
请注意,以上链接仅供参考,具体产品选择应根据实际需求和情况进行。
领取专属 10元无门槛券
手把手带您无忧上云