CrawlSpider只获取第一页中匹配链接的一个子集，然后移动到第二页中的抓取链接

、

Crawlspider只获取清单第一页上匹配链接的一个子集。不久之后，它移动到第二个页面，在那里它成功地跟踪了所有匹配的链接，完全符合预期。如何让Crawlspider在进入第二个页面之前跟踪所有匹配的链接？我已经在第二个规则中</

浏览 17提问于2019-07-28得票数 1

1回答

简单抓取爬行器不跟随链接&刮擦

、、

基本上问题是在下面的链接每一页都有大约100个链接。http://www.consumercomplaints.in/lastcompanieslist/page/4 这是正则匹配规则然后创建一个</

浏览 1提问于2015-07-21得票数 1

回答已采纳

1回答

用Scrapy递归抓取网页

、、

"“from scrapy.log import *from crawler_bhinneka.itemsitems: print("my Url Link : ",complete_url(link)) 知道我能在我的第一页得到所有

浏览 0提问于2014-07-24得票数 0

1回答

如何通过函数自己的输出更新函数的输入

、

我正在用一个有多页的表格抓取一个网页。我有一个找到下一页按钮并点击它的函数。函数需要返回到主表页面才能做到这一点。我将指向那个主表页面的链接硬编码到一个变量中。一旦我移动到第2页，我如何将表格页面链接更新为新的页面链接？因此，一旦它在表的元素中完成，它将返回到第二</

浏览 6提问于2021-07-07得票数 0

1回答

如何在python中使用selenium或scrapy点击“下一步”按钮

、、、、

我正在尝试使用scrapy从flipkart.com中抓取一些数据。除了翻到下一页，我什么都拿到了。首先，我尝试使用scrapy，然后使用selenium。实际上，一个类有上一页和下一页的两个链接。使用scrapy:我无法获取任何结果。我得到的是空白输出。使用selenium:每当我尝试点击下一页时，从第一页到第二页都可以正

浏览 45提问于2021-02-10得票数 1

1回答

需要帮助循环浏览有关selenium的网页链接

、、、、

我想浏览this网页中的一些链接，但我不确定该怎么做。我想要获取链接的部分是这个部分： 📷 这基本上就是页脚。因此，为了简要描述我正在尝试做的事情，我想刮除表中列出的证券的所有链接，然后循环浏览页脚，这样我就可以更改页面，也可以刮掉其中的链接： 📷 所以目前这是第一页，我可以抓取我想要的

浏览 15提问于2020-11-04得票数 0

2回答

问:刮刮:下一页没有爬行，但爬虫似乎是下面的链接

、、、

它获取与xpath - //div[@class="info"]/h3/a/@href匹配的start中的所有链接，然后将这些链接传递给函数parse_dir_contents。我现在需要的是让爬虫移到下一页。我试图使用规则和链接提取器，但我似乎无法使它正常工作。我还尝试使用//a/@href作为解析

浏览 1提问于2016-02-04得票数 0

2回答

使用Scrapy从页面上项目列表的多个项目中提取信息

、、、

是否可以使用Scrapy从数据列表中的所有数据记录中提取一些数据，因此对于列表视图页面的每个链接，它打开链接(详细信息页面)，选择想要的信息，返回列表视图，选择下面的第一个项目(链接)，对所有项目和所有页面执行相同的工作(例如100页，每页有10条记录)。也就是说，如果我选择分页我有多个项目列表，爬虫需要进入每一个项目，打开详细信息视图抓取需要的信息，然后<

浏览 7提问于2019-08-26得票数 0

2回答

需要刷新jquery mobile中的页面

我正面临着一些jquery mobile的问题。当我从第一页移动到第二页时，它没有显示第二页，因为我每次都需要刷新页面。它最初似乎缺少一些CSS类。我不明白为什么会发生这种事。在同一页上，我有这个锚标签showText()方法不会第一次调用，并显示javascript错误showText

浏览 1提问于2012-01-04得票数 3

回答已采纳

1回答

在web服务器上跟踪旧的上传文件-您如何知道哪些文件不再使用？

、、

我想知道是否有人有跟踪孤立文件的想法。我的一些想法包括记录每一次上传，但文件通常是以html引用的，这不容易跟踪。我是不是就这样放弃让他们慢慢变老？

浏览 3提问于2010-05-10得票数 2

回答已采纳

1回答

加载后刷新jquery移动页

、、、、

我有两页，A和B：B->包含iScoll元素和“拉到重构”代码。<script src="Validate/jquery.validVal-4.3.3.js" type="text/javascript"></script>编辑：B.aspx的<

浏览 7提问于2013-05-07得票数 0

1回答

Boots.com -只返回第一页的结果

、、

我正在尝试从Boots.com护肤品类别页面：中刮取数据我已经成功地使用请求和BeautifulSoup在第一页上抓取了数据。link in item.find_all('a',href = True):但是，当我试图将刮板扩展到其他页面时，它只返回第一页的结果我试过使用循环，但它重复相同的产品url。

浏览 5提问于2022-07-17得票数 0

0回答

抓取分页的网站:抓取页面2返回页面1的结果

、、

我正在使用python中请求库的get方法从一个网站抓取信息，该网站被组织成页面(即在底部用数字分页)。第1页链接：我可以从第一页提取所需的数据，但当我将第二页的url提供给代码时，我会从第一页获得相同的数据。现在，在仔细分析了我的代码之后，我确信问题不在于我的代码逻辑，而在于第二个页面url的</e

浏览 9提问于2017-12-04得票数 0

回答已采纳

2回答

作为练习，我决定编写一个python脚本来获取指定用户的所有图像。我对Scrapy比较熟悉，这就是为什么我选择它作为抓取工具。目前，该脚本只能从第一页(最大12)下载图像。据我所知，instagram页面是由javascript生成的。Scrapy的response.body (类似于从Chrome上看到的源代码)不像Chrome的Inspector那样显示html结构。在Chrome浏览器中，在12张图片之后，底部

浏览 15提问于2016-07-19得票数 3

回答已采纳

3回答

只抓取1级的网站

、、

我使用刮除爬行在一个域下的所有网页。scrapy crawl sjsu2012-02-22 19:41:35-0800 [scrapy] INFO: Scrapy 0.14.1 started (bot: sjsucrawler[scrapy] INFO: Dumping global stats: {'memusage/max': 29663232, 'memusage&#x

浏览 1提问于2012-02-23得票数 3

回答已采纳

3回答

访问web控件值

、

我在ASP.NET 3.5中有两个页面，我需要从第一个页面但在第二个页面访问/读取web控件值。第二个页面只有一个链接，没有post事件或类似的东西。我想我应该使用ViewState，但是对于这个任务，它看起来太复杂了，所以请告诉我一个更好的实现方法。附注:我使用的是C#和Visual Studio2010

浏览 4提问于2012-09-05得票数 0

回答已采纳

1回答

从具有多个选项卡的HTML页面中抓取数据

、、、、

我想从上抓取数据。页面加载时激活第一个选项卡。我在第一页(产品选项卡)上清除数据时没有问题。我需要能够抓取下一个选项卡上的数据，这是(描述选项卡)。如何以编程方式从第一个活动选项卡移动到第二个选项卡(说明选项卡)。我使用php获取url的html内容，然后使用regex获取所需的数据。下面是我如何从url获取html页面内容：

浏览 1提问于2017-11-30得票数 0

1回答

web爬虫如何构建URL目录以抓取所需内容

、、、

我在试着了解网络爬行是如何工作的。有三个问题：有没有用python编写的开源web爬虫？哪里是学习更多关于网络爬虫的最好的地方？

浏览 2提问于2018-10-11得票数 1

1回答

WP_Query中的“分页”返回0条帖子

、、、、

如果我不提供一个paged值(获取第一页)，它就能工作。但是，当我尝试通过做paged => 2获得下一页时，它什么也找不到，尽管有大量的帖子可以得到。在页面的顶部，您可以看到我传递给WP_Query的参数，用于调试。如您所见，在<

浏览 0提问于2013-06-26得票数 0

3回答

scrapy -解析已分页的项

、

我有一个如下形式的url：共53页，每页有~20行。 def parse(self, response): item = response.met

浏览 0提问于2012-10-12得票数 30

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

简单抓取爬行器不跟随链接&刮擦

用Scrapy递归抓取网页

如何通过函数自己的输出更新函数的输入

如何在python中使用selenium或scrapy点击“下一步”按钮

需要帮助循环浏览有关selenium的网页链接

问:刮刮:下一页没有爬行，但爬虫似乎是下面的链接

使用Scrapy从页面上项目列表的多个项目中提取信息

需要刷新jquery mobile中的页面

在web服务器上跟踪旧的上传文件-您如何知道哪些文件不再使用？

加载后刷新jquery移动页

Boots.com -只返回第一页的结果

抓取分页的网站:抓取页面2返回页面1的结果

我怎样才能转到下一页？

只抓取1级的网站

访问web控件值

从具有多个选项卡的HTML页面中抓取数据

web爬虫如何构建URL目录以抓取所需内容

WP_Query中的“分页”返回0条帖子

scrapy -解析已分页的项

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐