蜘蛛抓取vps_抓取蜘蛛不能正确抓取数据_cdn加速蜘蛛抓取 - 腾讯云开发者社区

、、、

当我插入我的网站URL在自由版本的尖叫青蛙，它也列出图片，CSS和JS文件。应该是这样的吗？

浏览 0提问于2020-02-26得票数 1

回答已采纳

1回答

在包含"sometext“的网页中获取链接的xpath

、、

我正在使用scrapy (网络爬行框架)。是否可以在网页中获取某个元素(包含"sometext")的xpath，以便提取具有类似xpath的元素？我不希望我的xpath被硬编码，因为我将爬行多个网站。

浏览 2提问于2016-01-16得票数 0

回答已采纳

1回答

web爬虫如何构建URL目录以抓取所需内容

、、、

我在试着了解网络爬行是如何工作的。有三个问题：

浏览 2提问于2018-10-11得票数 1

1回答

抓取错蜘蛛

、

在中，OP说 " name :定义此蜘蛛名称的字符串。蜘蛛名称是由Scrapy定位(并实例化)蜘蛛的方式，所以它必须是唯一的。但是，没有什么可以阻止您实例化同一蜘蛛</em

浏览 3提问于2017-03-02得票数 0

回答已采纳

1回答

抓取蜘蛛提取正确的url，但忽略url参数。

、、

我有一个抓取爬行器，它使用这样的规则使用SgmlLinkExtractor从图像地图中提取链接，提前谢谢。

浏览 3提问于2012-07-26得票数 0

1回答

Scrapy -类似rq worker的调度进程

、、

我需要安排不同时区的抓取蜘蛛。以前我在python脚本中使用了rq worker，它不支持scrapy spider。好心的任何人都可以提出计划抓取蜘蛛的想法。

浏览 17提问于2020-05-09得票数 0

1回答

刮取递归刮取无法爬行所有页。

、

我正在尝试递归地从一个中文网站上抓取数据。我让我的蜘蛛跟随“下一页”网址，直到没有“下一页”可用为止。下面是我的蜘蛛：from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml如果我们一次只能刮15页，有没有办法开始从某一页抓取，比如说，第16页？非常感谢！

浏览 2提问于2015-10-19得票数 0

回答已采纳

3回答

如何恢复一个爬虫，有能力重新开始它离开的地方off.using网络抓取和python

、

如何恢复一个蜘蛛，有能力重新启动它离开的地方off.using网络抓取和巨蟒。我不能重新启动蜘蛛。

浏览 5提问于2018-11-29得票数 0

1回答

刮痕:如何改变不同蜘蛛使用图像表存储图像的位置？

、、、

我有一个带有5个蜘蛛的Scrapy项目，每个蜘蛛都会抓取图像，并将其存储在路径在settings.py中指定的目录中。但是我想把这些图片存储在不同的位置，供不同的蜘蛛使用。是否有一种方法来指定蜘蛛内的路径？

浏览 0提问于2018-02-10得票数 0

1回答

使用网页触发刮伤外壳

、、、、

我已经编写了一个蜘蛛，它从命令行提取start_urls并开始抓取。在此之前，一切都很好。

浏览 2提问于2015-08-11得票数 2

回答已采纳

1回答

所有这些网站爬行都可以使用相同的蜘蛛，因为我不需要从它的正文页面中提取项目。我认为的方法是将要在蜘蛛文件中爬行的域参数化，并调用scrapy爬行命令，传递域并启动urls作为参数，这样我就可以避免为每个站点生成一个蜘蛛(站点列表将随着时间的推移而增加)。如果是的话，如果我用不同的参数调度同一个蜘蛛几次，那么是否存在并发问题？如果这不是最好的方法，最好是每个站点创建一个蜘蛛.我将不得不经常更新这个项目。项目更新会影响运行中的蜘蛛吗？

浏览 2提问于2014-07-01得票数 4

回答已采纳

2回答

抓取\蜘蛛保护

、、、、

我相信有许多现有的技术和框架可以执行一些智能抓取保护，所以我不需要重新发明轮子。我通过mod_wsgi使用Python和Apache。

浏览 5提问于2011-12-19得票数 1

1回答

如何仅从站点导出已使用的css？

、

没有灰蜘蛛。没有火虫。我已经做了一个项目，我只想导出在项目或页面中使用的CSS。我试过了，灰尘蜘蛛和萤火虫，但这些附加的抓取所有的CSS的项目！我只需要抓取已使用的CSS，并将其导出到另一个CSS文件。是否有这样的程序存在？

浏览 4提问于2014-01-28得票数 4

回答已采纳

1回答

将报头和有效负载导入Scrapy

、

我一直在使用firebug，我有下面的字典来查询api。'origin': "site.com",'user-agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWe

浏览 0提问于2016-05-25得票数 0

回答已采纳

2回答

刮伤机构或规则不起作用

、、、

这是我的蜘蛛from scrapy.linkextractors import LinkExtractor当我使用命令“”运行蜘蛛时:我得到了“解析！”，所以它只属于解析函数，而不是细节方法。

浏览 8提问于2017-08-01得票数 0

回答已采纳

1回答

Scrapy如何多次编写CSV文件

、、

我用抓取和python 2.7.9，我的蜘蛛可以正常地爬行数据。我该怎么做？我只能用“蜘蛛”来做吗？或者是在“管道”里？我的代码链接：

浏览 3提问于2015-03-13得票数 0

回答已采纳

1回答

Scrapy:网站正在减慢我的请求

、

我用scrapy写了一个蜘蛛。每次我尝试抓取一个特定的网站时，爬虫在一开始都运行得很好。但是当我下降到500-600个请求时，蜘蛛开始爬行得非常慢。我检查了内存和cpu设置，但这不是问题所在。如何调整scrapy以快速一致地抓取？

浏览 2提问于2020-07-30得票数 0

1回答

当指定了一个spider_idle时，会调用DOWNLOAD_DELAY吗？

我正在写一个蜘蛛，用于从一个汽车共享网站上抓取有关汽车的数据。目的是把我的蜘蛛分成两部分。首先，它收集可用汽车的数据，并将不可用的汽车放在一边。第二，一旦所有关于可用汽车的信息都被刮掉，因此在过程结束时，蜘蛛就会为不可用的汽车抓取额外的信息。对于第二部分，我在蜘蛛中添加了spider_idle方法。

浏览 6提问于2021-02-21得票数 1

回答已采纳

6回答

如何给抓取URL抓取抓取？

、

在中，可以给出蜘蛛的名称或URL，但是当我给出url时它会抛出一个错误：文件"/usr/local/lib/python2.7/dist-packages/Scrapy-0.14.1-py2.7.egg/scrapy/spidermanager.p

浏览 3提问于2012-03-13得票数 35

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

尖叫的青蛙爬行，图片，JS和CSS文件

在包含"sometext“的网页中获取链接的xpath

web爬虫如何构建URL目录以抓取所需内容

抓取错蜘蛛

抓取蜘蛛提取正确的url，但忽略url参数。

Scrapy -类似rq worker的调度进程

刮取递归刮取无法爬行所有页。

为什么部署腾讯云CDN加速以后，百度蜘蛛就抓取不了了？

如何恢复一个爬虫，有能力重新开始它离开的地方off.using网络抓取和python

刮痕:如何改变不同蜘蛛使用图像表存储图像的位置？

使用网页触发刮伤外壳

如何用刮擦爬行多个域

抓取\蜘蛛保护

如何仅从站点导出已使用的css？

将报头和有效负载导入Scrapy

刮伤机构或规则不起作用

Scrapy如何多次编写CSV文件

Scrapy:网站正在减慢我的请求

当指定了一个spider_idle时，会调用DOWNLOAD_DELAY吗？

如何给抓取URL抓取抓取？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐