腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何防止恶意
爬虫
抓取部署在Heroku上的rails应用程序?
、
、
我想
限制
爬虫
对我在Heroku上运行的rails应用程序的访问。如果我使用的是Apache或
nginX
,这将是一项简单的任务。由于该应用程序部署在Heroku上,因此我不确定如何在HTTP服务器级别
限制
访问。1) rails层中用于
限制
访问的before_filter。我想知道是否有更好的方法来处理这个问题。
浏览 0
提问于2011-04-21
得票数 4
回答已采纳
2
回答
AWS:动态分配和关联新的IP地址到EC2实例?
、
、
、
爬虫
从eCommerce网站抓取数据,但最近
爬虫
从网站中获得“超时错误”。根据我的IP地址,该网站可能
限制
了我的访问
频率
。分配一个新的弹性IP地址可以解决这个问题,但不会持续很长时间。
浏览 4
提问于2014-04-08
得票数 9
回答已采纳
1
回答
php如何禁止从url直接访问网站页面?
、
有些人会通过url直接访问文章页面进行抄袭,所以想禁止通过url直接访问网站的行为。过滤器和referer都有尝试,只不过不知道在哪里编辑和创建,对于网站目前尚有太多不知道的地方,万望会解答的大佬能详细告知步骤。 再次深表感谢!
浏览 317
提问于2023-02-24
2
回答
网页
爬虫
超载网站
、
目前,我们正在使用Nagios监视站点,当站点变得没有响应能力时,
nginx
就会重新启动
nginx
,但这似乎远远不够理想。运行
nginx
的Ubuntu服务器User-agent: *张贴在这里,以防有任何东西,我可以让我们的开发人员尝试。 谢谢
浏览 5
提问于2017-07-04
得票数 1
1
回答
无模式的URLS和行为不当的crwalers
我面临的问题是,很少有
爬虫
将它们作为相对urls来处理。我正在使用
Nginx
服务器,但我对
Nginx
相当陌生。 有可能重写吗?
浏览 3
提问于2014-04-08
得票数 0
回答已采纳
2
回答
防止自定义Web
爬虫
被阻塞
、
、
我正在创建一个新的网络
爬虫
使用C#来抓取一些特定的网站。一切都很顺利。但问题是,,一些网站是阻塞我的
爬虫
IP地址,后,一些请求。我试着在爬行请求之间使用时间戳。但没有起作用。有没有办法阻止网站阻塞我的
爬虫
?有些类似的解决方案会有所帮助(但我需要知道如何应用它们): 任何解决办法都会有帮助。
浏览 7
提问于2011-10-04
得票数 3
回答已采纳
3
回答
更新sitemap.xml有什么好处?
、
、
与
爬虫
做他们的工作相比,这样做有什么好处呢? 网站地图是一个简单的方式,让网站管理员告知搜索引擎的网页,在他们的网站上,可供爬行。最简单的形式是,Sitemap是一个XML文件,它列出站点的URL以及关于每个URL的附加元数据(最后一次更新它的时间、它通常更改的
频率
以及它相对于站点中其他URL的重要性),以便搜索引擎能够更智能地抓取站点目前,我们的系统还没有动态地提供站点地图,所以我们必须用
爬虫
创建一个站点地图,这不是一个很好的过程。
浏览 1
提问于2009-08-28
得票数 0
回答已采纳
3
回答
Bot调用我的php脚本太快了
、
我有一个爱好网站,其中一个php脚本显示一个html页面显示特定姓氏的信息。我有能力显示10万多个姓氏的信息。因此,脚本的调用如下所示,以生成http输出:脚本访问一个数据库来获取姓氏的一些数据。该脚本大约需要20 to才能执行。所以,我在日志里看到了这样的东西:/surname.php?surname=Jones 200 /surna
浏览 0
提问于2021-01-06
得票数 6
1
回答
用于
爬虫
应用的数据库系统
、
我在一个基于java的
爬虫
上工作。我想在我的
爬虫
恢复功能,用户可以在任何时候暂停
爬虫
,在他想要的情况下,
爬虫
崩溃的情况下,他应该能够开始从
爬虫
停止的点上一次爬行。我不确定哪个数据库是最好的这类系统,因为它需要非常快的插入和检索的链接从数据库和
频率
插入和检索将非常高。 很少有人建议我像mongodb那样使用no-sql,但我只想确保它是这类系统的最佳选择。
浏览 2
提问于2012-01-06
得票数 1
回答已采纳
1
回答
如何阻止Web
爬虫
下载文件
、
、
是否有可能阻止web
爬虫
在我的服务器上下载文件(如zip文件)?有可能阻止网络
爬虫
吗?或者,在下载最多3个文件后,是否还有其他选项可以将文件隐藏在web
爬虫
上?我可以很容易地创建一个PHP脚本,使用cookie强制访问者登录/注册,但是web
爬虫
呢? 顺便说一下,我用的是
nginx
和drupal CMS。如果这
浏览 0
提问于2013-07-27
得票数 1
1
回答
用于gwt应用程序的
爬虫
花费了太多时间
、
、
、
、
我有一个gwt应用程序,我需要为seo (为google抓取内容)进行优化,而且我一直在尝试许多解决方案,这些解决方案都不能满足我们的需求(返回html页面需要花费大量时间),试验如下: 一种技术,它包括在google请求之前爬行页面,然后在google请求时给出保存的快照(但是这个解决
浏览 3
提问于2013-10-31
得票数 0
1
回答
仅带prerender.io客户端的Prerender 7 SPA
、
、
、
、
我有一个Angular 7应用程序,我正在尝试预先渲染页面以支持网络
爬虫
/ SEO。我决定使用prerender.io来帮助这些
爬虫
预先渲染、缓存和提供静态超文本标记语言,但是我很难在我的Angular 7应用程序中安装它们的中间件。根据their docs的说法,我可以安装一个中间件,当网络
爬虫
发出页面请求时,它会检测到,并将请求重定向到预渲染服务器。然而,我发现的所有示例都涉及到修改一些后端节点服务器。
浏览 19
提问于2019-02-26
得票数 1
回答已采纳
2
回答
谷歌应该如何抓取我的博客?
、
我想知道我应该如何(或是否)引导Googlebot浏览我的博客。我应该只允许访问单个条目的页面,还是应该也爬行主页(也有完整的条目)?我担心的是,当我添加新帖子时,主页会发生变化,而google会在一段时间内保留旧版本。我还发现把人们引导到主页很烦人--在找到你感兴趣的帖子之前,你必须浏览所有的帖子。那么解决这个问题的正确方法是什么呢?
浏览 0
提问于2009-08-03
得票数 2
回答已采纳
3
回答
如何从网页中获取所有的单词和它们的
频率
?
、
、
、
我必须得到所有的词和他们的
频率
从一个网页和其他网页是链接的。我需要使用网络
爬虫
吗?有什么简单的开源解决方案吗?
浏览 1
提问于2011-02-08
得票数 0
1
回答
XML站点地图--视图上的最后修改日期
我正在工作的网站有一个头版图片库视图。 有任何方法来更新XMLSitemap文件中视图的最后修改日期吗?因为目前它只是空的。
浏览 0
提问于2015-05-12
得票数 1
回答已采纳
1
回答
谷歌如何频繁地抓取更新的网页?
我试图建立一个非常小的,利基搜索引擎,使用Nutch来抓取特定的网站。有些网站是新闻/博客网站。如果我爬行,比方说,techcrunch.com,并存储和索引他们的首页,那么在几个小时内,我的索引该页将过时。另外,如何在我自己的索引中处理这个问题?
浏览 0
提问于2012-04-26
得票数 2
2
回答
检查youtube链接的另一种方式?
、
、
、
我正在创建一个应用程序,将检查内容中的断开链接。在youtube中有没有不同的方式来检查断开的链接?try HttpWebRequest request = WebRequest.Create(match.Groups[1].ToString()) as HttpWebRequest;
浏览 0
提问于2020-06-18
得票数 1
2
回答
防止恶意
爬虫
/刮板和DDoS攻击的方法
、
、
基本上,
爬虫
在网站上运行的
频率
很高,导致负载增加。这会导致带宽消耗,从而给其他人带来糟糕的用户体验。我想知道像谷歌、亚马逊和电子海湾这样的网站是如何防止这些事情的: 它们如何区分有用的
爬虫
(google/yahoo/msn)和不遵循robots.txt和其他规则的恶意
爬虫
?
浏览 0
提问于2011-10-14
得票数 0
1
回答
将Crawler重定向到内部服务
、
、
、
我想要设置
nginx
,让某些
爬虫
从运行在端口9998上的内部服务获取数据。因此,例如,当浏览器请求www.mywebsite.com/ resource /1时,它将查看根文件夹,但当
爬虫
(例如FB
爬虫
)请求相同的资源时,它将得到服务返回的页面,为127.0.0.1:9998
浏览 3
提问于2015-03-12
得票数 0
回答已采纳
2
回答
使用
NGINX
& Lua
限制
每个IP的请求
频率
、
、
我的目标是防止基于用户IP的频繁请求,我在google上搜索openresty,发现它可以与Lua一起玩。所以我写了下面的脚本,我是Lua的新手,有人能给我一些关于这个脚本的建议,甚至纠正我。local limit_request_times = 3
浏览 1
提问于2015-07-31
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何合理设置爬取频率应对python爬虫速度限制
nginx请求连接限制笔记
Nginx 服务器之速率限制
服务器使用Nginx搭建HTTP爬虫代理
如何防止网络爬虫被限制?
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券