我想实现对一个网址的图片进行下载,然后对该网址里面所有a标签里面的链接的图片进行下载,以此类推,这是我写的代码,求教大佬怎么做到在spider里用循环实现自定义深度啊
# -*- coding: utf-8 -*-
import scrapy
from ..items import ImgspiderItem
full_img_list = []
class TestSpiderSpider(scrapy.Spider):
name = 'test_spider'
url = input("请输入要爬取的网址:")
start_urls = [url]
def parse(self, response):
img_list = response.xpath('//img/@src').extract()
a_list = response.xpath('//a/@href').extract()
if img_list:
item = ImgspiderItem()
for img in img_list:
if img is not None:
if img[0:4]!='http':
img = 'https:'+img
full_img_list.append(img)
elif img[0:5]!='https':
img = 'https:'+img.split(':',1)[1]
full_img_list.append(img)
else:
full_img_list.append(img)
item['image_urls'] = full_img_list
yield item
for a in a_list:
if a is not None:
if a[0:4]!='http':
a = 'https:'+a
elif a[0:5]!='https':
a = 'https:'+a.split(':',1)[1]
yield scrapy.Request(
a,
callback=self.parse
)
简化:
静态链接:一个大的可执行文件
动态链接:一个小的可执行文件加上一个或多个库文件(Windows上的.dll文件,Linux上的.so或macOS上的.dylib)
共享库是.so(或Windows .dll或OS X .dylib)文件。所有与库相关的代码都在这个文件中,并且在运行时被程序使用。使用共享库的程序仅引用在共享库中使用的代码。
静态库是.a(或Windows .lib)文件。所有与库相关的代码都在这个文件中,并且在编译时直接链接到程序中。使用静态库的程序从静态库中获取使用的代码的副本,并将其作为程序的一部分。[Windows也有用于引用.dll文件的.lib文件,但它们的作用与第一个文件相同]。
每种方法都有优点和缺点。
共享库减少了每个使用该库的程序中重复的代码量,从而保持二进制文件的小型化。它也允许你用一个功能相同的替换共享对象,但是可能增加了性能,而不需要重新编译使用它的程序。然而,共享库的执行功能和运行时的加载成本只需很小的额外成本,因为库中的所有符号都需要连接到它们所使用的东西上。另外,共享库可以在运行时加载到应用程序中,这是实现二进制插件系统的一般机制。
静态库会增加二进制文件的整体大小,但这意味着您不需要携带正在使用的库的副本。由于代码在编译时连接,所以没有任何额外的运行时加载成本。代码就在那里。
就个人而言,我更喜欢共享库,但是在需要确保二进制文件没有很多可能难以满足的外部依赖性(如特定版本的C ++标准库或特定版本的Boost C ++库)时使用静态库。