是指使用BeautifulSoup库(bs4)来解析HTML文档,并提取其中标题标签(如h1、h2等)中的链接和标题信息。
具体步骤如下:
from bs4 import BeautifulSoup
html = '''
<html>
<head>
<title>网页标题</title>
</head>
<body>
<h1><a href="https://example.com">链接1</a></h1>
<h2><a href="https://example.com">链接2</a></h2>
</body>
</html>
'''
soup = BeautifulSoup(html, 'html.parser')
titles = soup.find_all(['h1', 'h2']) # 找到所有的h1和h2标签
for title in titles:
link = title.find('a')['href'] # 提取链接
text = title.find('a').text # 提取标题文本
print('链接:', link)
print('标题:', text)
以上代码会输出:
链接: https://example.com
标题: 链接1
链接: https://example.com
标题: 链接2
使用bs4提取标题标签中的链接和标题可以方便地从HTML文档中获取标题相关信息,适用于各种网页爬虫、数据分析等场景。
腾讯云相关产品和产品介绍链接地址:
领取专属 10元无门槛券
手把手带您无忧上云