从用BeautifulSoup抓取的列表中删除标签,可以通过以下步骤实现:
from bs4 import BeautifulSoup
html = '''
<html>
<body>
<ul>
<li><a href="https://www.example.com">Link 1</a></li>
<li><a href="https://www.example.com">Link 2</a></li>
<li><a href="https://www.example.com">Link 3</a></li>
</ul>
</body>
</html>
'''
soup = BeautifulSoup(html, 'html.parser')
<ul>
标签:ul_tag = soup.find('ul')
get_text()
方法获取标签的文本内容。例如,可以使用以下代码遍历列表中的每个<li>
标签,并获取其文本内容:for li_tag in ul_tag.find_all('li'):
text = li_tag.get_text()
print(text)
extract()
方法将标签从文档中删除。例如,可以使用以下代码删除列表中的所有<a>
标签:for a_tag in ul_tag.find_all('a'):
a_tag.extract()
完整代码示例:
from bs4 import BeautifulSoup
html = '''
<html>
<body>
<ul>
<li><a href="https://www.example.com">Link 1</a></li>
<li><a href="https://www.example.com">Link 2</a></li>
<li><a href="https://www.example.com">Link 3</a></li>
</ul>
</body>
</html>
'''
soup = BeautifulSoup(html, 'html.parser')
ul_tag = soup.find('ul')
for a_tag in ul_tag.find_all('a'):
a_tag.extract()
for li_tag in ul_tag.find_all('li'):
text = li_tag.get_text()
print(text)
这样,就可以从用BeautifulSoup抓取的列表中删除标签,并获取到纯文本内容。
领取专属 10元无门槛券
手把手带您无忧上云