在Python中爬行时,如果不能使用findALL
,可以使用re
模块来进行正则表达式匹配。正则表达式是一种强大的文本匹配工具,可以用于在字符串中查找特定模式的文本。
下面是一个示例代码,演示如何使用正则表达式在Python中进行爬行:
import re
import requests
# 发送HTTP请求获取网页内容
response = requests.get("https://example.com")
html_content = response.text
# 使用正则表达式匹配网页中的链接
pattern = r'<a href="(.*?)">'
links = re.findall(pattern, html_content)
# 打印匹配到的链接
for link in links:
print(link)
在上面的代码中,我们使用requests
库发送HTTP请求获取网页内容,然后使用正则表达式<a href="(.*?)">
匹配网页中的链接。re.findall
函数返回一个列表,包含所有匹配到的链接。最后,我们遍历列表并打印每个链接。
领取专属 10元无门槛券
手把手带您无忧上云