使用bs4从字符串中删除HTML标记可以通过以下步骤实现:
from bs4 import BeautifulSoup
def remove_html_tags(html_string):
soup = BeautifulSoup(html_string, 'html.parser')
text = soup.get_text()
return text
html_string = "<p>This is a <b>sample</b> HTML string.</p>"
text = remove_html_tags(html_string)
print(text)
输出结果:
This is a sample HTML string.
这个函数使用BeautifulSoup库的get_text()
方法来获取HTML字符串中的纯文本内容,从而删除了所有的HTML标记。这在处理爬取的网页内容、提取文本信息等场景中非常有用。
腾讯云相关产品和产品介绍链接地址:
领取专属 10元无门槛券
手把手带您无忧上云