删除HTML标签是指从HTML文档中移除所有的标签,只保留纯文本内容。这在处理网页抓取、文本分析等场景中非常有用。
以下是使用BeautifulSoup库删除HTML标签的示例代码:
from bs4 import BeautifulSoup
def remove_html_tags(html_content):
soup = BeautifulSoup(html_content, 'html.parser')
return soup.get_text()
# 示例HTML内容
html_content = """
<html>
<head><title>示例网页</title></head>
<body>
<p>这是一个 <strong>示例</strong> 网页。</p>
<ul>
<li>列表项1</li>
<li>列表项2</li>
</ul>
</body>
</html>
"""
# 删除HTML标签
text_content = remove_html_tags(html_content)
print(text_content)
&
),在去除标签后需要进行转义处理。BeautifulSoup会自动处理这些特殊字符。通过上述方法,可以有效地删除HTML标签并提取纯文本内容,适用于各种文本处理和分析场景。