使用Xpath抓取Google URL可以通过以下步骤实现:
pip install lxml
。from lxml import etree
import requests
keyword = "关键词" # 替换为你要搜索的关键词
url = "https://www.google.com/search?q=" + keyword
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
}
response = requests.get(url, headers=headers)
html = response.text
tree = etree.HTML(html)
urls = tree.xpath('//div[@class="r"]/a/@href')
这里的Xpath表达式//div[@class="r"]/a/@href
表示选择所有class属性为"r"的div元素下的a元素的href属性。
for url in urls:
print(url)
以上就是使用Xpath抓取Google URL的基本步骤。根据具体需求,可以进一步优化代码,例如添加异常处理、使用代理等。
Xpath是一种用于在XML和HTML文档中定位元素的语言。它通过路径表达式在文档中进行导航,并提供了一些内置函数用于选择、过滤和提取元素。Xpath在Web数据抓取、数据挖掘和自动化测试等领域有广泛应用。
推荐的腾讯云相关产品:腾讯云爬虫托管服务。该服务提供了高性能、高可靠的分布式爬虫托管环境,可用于大规模数据抓取和处理任务。详情请参考腾讯云爬虫托管服务官方文档:腾讯云爬虫托管服务。
领取专属 10元无门槛券
手把手带您无忧上云