从维基百科页面摘要中提取链接可以通过以下步骤实现:
<p>
标签。<a>
标签表示,可以通过匹配<a>
标签内的href
属性值来提取链接。以下是一个示例代码,使用Python语言和BeautifulSoup库来实现从维基百科页面摘要中提取链接的功能:
import requests
from bs4 import BeautifulSoup
import re
def extract_links_from_wikipedia_summary(url):
# 发送请求获取页面源代码
response = requests.get(url)
html = response.text
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(html, 'html.parser')
# 提取摘要内容
summary = soup.find('div', {'id': 'mw-content-text'}).find('p').text
# 提取链接
links = re.findall(r'<a\s+(?:[^>]*?\s+)?href="([^"]*)"', summary)
# 处理相对链接
base_url = 'https://zh.wikipedia.org'
absolute_links = [base_url + link if not link.startswith('http') else link for link in links]
return absolute_links
# 示例用法
wikipedia_url = 'https://zh.wikipedia.org/wiki/%E4%BA%91%E8%AE%A1%E7%AE%97'
links = extract_links_from_wikipedia_summary(wikipedia_url)
print(links)
请注意,以上代码仅为示例,实际应用中可能需要根据维基百科页面的结构和特点进行适当的调整。此外,为了遵守维基百科的使用条款,请确保你的爬虫行为符合相关规定,并尊重网站的使用限制。
领取专属 10元无门槛券
手把手带您无忧上云