从超文本标记语言(HTML)中提取链接通常涉及到网页抓取(Web Scraping)。在Python中,可以使用urllib.request
库来获取网页内容,然后使用正则表达式(Regular Expressions)来匹配和提取链接。
以下是一个简单的示例,展示如何使用urllib.request
获取网页内容,并用正则表达式提取链接:
import urllib.request
import re
# 网页URL
url = 'http://example.com'
# 获取网页内容
response = urllib.request.urlopen(url)
html_content = response.read().decode('utf-8')
# 正则表达式匹配链接
link_pattern = re.compile(r'<a\s+(?:[^>]*?\s+)?href="([^"]*)"')
links = link_pattern.findall(html_content)
# 打印提取的链接
for link in links:
print(link)
Content-Type
头部,使用正确的编码方式解码。请注意,进行网页抓取时应遵守目标网站的robots.txt
文件规定,并尊重版权和隐私政策。
领取专属 10元无门槛券
手把手带您无忧上云