Scrapy返回原始的URL可能是因为以下几个原因:
REDIRECT_ENABLED
为False来禁用重定向,这样Scrapy就会返回原始的URL。response.request.url
来获取未经过规范化处理的URL。allowed_domains
属性来设置允许爬取的域名,如果URL不在该列表中,则会被过滤掉。如果你需要获取原始的URL,可以通过设置dont_filter
为True来禁用URL过滤,这样即使URL不在allowed_domains
中,也会被爬取并返回原始的URL。总结起来,如果Scrapy返回给你原始的URL,可能是由于重定向、域名规范化、URL过滤或请求处理中间件的原因。你可以根据具体情况调整Scrapy的配置或检查代码,以获取原始的URL。
没有搜到相关的沙龙
领取专属 10元无门槛券
手把手带您无忧上云