tencent.com
它是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页,而CrawlSpider类定义了一些规则(rule)来提供跟进link的方便的机制,从爬取的网页中获取...callback: 从link_extractor中每获取到链接时,参数所指定的值作为回调函数,该回调函数接受一个response作为其第一个参数。...process_links:指定该spider中哪个的函数将会被调用,从link_extractor中获取到链接列表时将会调用该函数。该方法主要用来过滤。...规则
# 比如第一页: link = [0,1,2,3,4,1680]
# 比如第二页: link = [0,2,3,4,5,1680]
# 此时通过指纹判定是否请求已经发过...Spider和CrawlSpider的区别
Spider:广义爬取,需要自己设定URL的变化规则
CrawlSpider:深度爬取,只需要获取翻页的每个按钮的URL匹配规则就可以了