我想实现对一个网址的图片进行下载,然后对该网址里面所有a标签里面的链接的图片进行下载,以此类推,这是我写的代码,求教大佬怎么做到在spider里用循环实现自定义深度啊
# -*- coding: utf-8 -*-
import scrapy
from ..items import ImgspiderItem
full_img_list = []
class TestSpiderSpider(scrapy.Spider):
name = 'test_spider'
url = input("请输入要爬取的网址:")
start_urls = [url]
def parse(self, response):
img_list = response.xpath('//img/@src').extract()
a_list = response.xpath('//a/@href').extract()
if img_list:
item = ImgspiderItem()
for img in img_list:
if img is not None:
if img[0:4]!='http':
img = 'https:'+img
full_img_list.append(img)
elif img[0:5]!='https':
img = 'https:'+img.split(':',1)[1]
full_img_list.append(img)
else:
full_img_list.append(img)
item['image_urls'] = full_img_list
yield item
for a in a_list:
if a is not None:
if a[0:4]!='http':
a = 'https:'+a
elif a[0:5]!='https':
a = 'https:'+a.split(':',1)[1]
yield scrapy.Request(
a,
callback=self.parse
)
在用Scrapy做递归爬取时,控制爬取深度其实很常见。你可以通过meta参数在Request中传递当前深度,然后在parse方法里判断是否超过自定义的最大深度,从而灵活实现对爬取层数的控制。例如在yield scrapy.Request时加上meta={'depth': 当前深度+1},然后在parse方法获取depth并判断是否继续递归。这样不仅能防止爬虫陷入无限循环,还能让你灵活设定每个任务的最大爬取层级。如果你在实际爬取中因为IP频繁被封或数据抓取不稳定,也可以考虑用亮数据这样的专业数据采集平台,拥有全球1.5亿+高质量住宅IP和网页解锁API,能让你的Scrapy爬虫效率和成功率大大提升。遇到爬取深度、反爬机制等问题,不妨试试亮数据,让你的数据采集更简单高效。