从漂亮的汤中提取href是指从HTML文档中提取出所有的超链接地址。Beautiful Soup是一个Python库,用于从HTML或XML文件中提取数据。它提供了一种方便的方式来遍历解析树,并搜索、修改和提取HTML标签的内容。
在Beautiful Soup中,可以使用find_all()方法来查找所有的超链接标签,并通过获取标签的href属性值来提取超链接地址。以下是一个示例代码:
from bs4 import BeautifulSoup
# 假设html是一个HTML文档的字符串
html = """
<html>
<body>
<a href="https://www.example.com">Example Link 1</a>
<a href="https://www.example.com">Example Link 2</a>
<a href="https://www.example.com">Example Link 3</a>
</body>
</html>
"""
# 创建Beautiful Soup对象
soup = BeautifulSoup(html, 'html.parser')
# 查找所有的超链接标签
links = soup.find_all('a')
# 提取超链接地址
hrefs = [link['href'] for link in links]
# 打印提取的超链接地址
for href in hrefs:
print(href)
运行以上代码,将输出三个超链接地址:
https://www.example.com
https://www.example.com
https://www.example.com
领取专属 10元无门槛券
手把手带您无忧上云