我试图用一个简单的抓取蜘蛛来跟踪一个链接列表,并从每个链接中删除数据,但我遇到了麻烦。在scrapy shell中,当我重新创建脚本时,它会发送新url的get请求,但是当我运行爬网时,我没有从链接中得到任何数据。我得到的唯一数据是从链接之前抓取的起始url。如何从链接中抓取数据?import scrapy
class QuotesSpider(scrapy.Spider
我试图从一个使用Scrapy的网站上获取每一个链接(没有其他数据)。我想这样做,从主页开始,从那里抓取所有的链接,然后为每个找到的链接,跟随链接和刮刮所有(唯一的)链接从该网页,并为所有找到的链接,直到没有更多的跟随。到目前为止,我有一只蜘蛛,它只给我在主页上的链接,但我似乎不明白为什么它不跟随链接和刮其他网页。这是我的蜘蛛
from e
以下用于返回医疗信息的拼凑代码确实返回了第一组返回的结果,但没有遵循链接。学习代码并在stackoverflow上检查类似的结果,但集成它们不起作用。是的,我正在学习。如有任何建议,我们将不胜感激。import urlparse
from scrapy.selector import Selector
from scrapy.http
我试图刮一个网站,但我不能让刮痕跟踪链接,我没有任何Python错误,我没有看到任何与Wireshark有关的事情。我认为这可能是正则表达式,但我尝试了".*“试图跟随任何链接,但它也不起作用。这是我的蜘蛛密码:from scrapy.contrib.linkextractors.sgmlimport SgmlLinkExtractor
from scrapy.c