,可以通过以下步骤实现:
from bs4 import BeautifulSoup
html_doc = """
<html>
<head>
<title>示例页面</title>
</head>
<body>
<div class="content">
<h1>标题</h1>
<p>这是一个示例页面。</p>
<ul>
<li>列表项1</li>
<li>列表项2</li>
<li>列表项3</li>
</ul>
</div>
</body>
</html>
"""
soup = BeautifulSoup(html_doc, 'html.parser')
text_parts = soup.find_all(text=True)
text_parts = [part.strip() for part in text_parts if part.strip()]
for part in text_parts:
print(part)
以上代码将提取HTML文档中所有包含文本的部分,并打印输出。请注意,这里使用的是BeautifulSoup库的html.parser解析器,你也可以根据需要选择其他解析器。
关于bs4的更多信息和用法,你可以参考腾讯云的产品介绍链接地址:BeautifulSoup4
领取专属 10元无门槛券
手把手带您无忧上云