Facebook和Robots.txt中的Crawl-delay？

以下是关于Facebook和Robots.txt中的Crawl-delay的完善且全面的答案：

Facebook是一个全球知名的社交媒体平台，它允许用户创建个人资料、分享内容、与朋友互动等。Facebook通过其爬虫（Crawler）来抓取网站上的内容，并将其转换为结构化数据，以便在其平台上展示。

Robots.txt是一个文本文件，它告诉爬虫哪些页面可以抓取，哪些页面不可以抓取。其中，Crawl-delay指令用于告诉爬虫在抓取相同主机的两个页面之间等待的时间（以秒为单位）。这个指令可以帮助网站管理员防止爬虫过于频繁地抓取网站，从而对网站服务器造成不必要的压力。

Facebook的爬虫遵守Robots.txt文件中的Crawl-delay指令，以确保其抓取行为不会对网站服务器造成负担。

推荐的腾讯云相关产品：

腾讯云CDN：腾讯云CDN可以加速网站的访问速度，提高用户体验。
腾讯云云巢：腾讯云云巢是一个容器管理平台，可以帮助用户快速部署和管理容器化应用。
腾讯云对象存储：腾讯云对象存储可以存储和管理大量的非结构化数据，例如图片、视频、音频等。

产品介绍链接地址：

Facebook和Facebook robots.txt中的延迟？

、、、

Facebook的网络爬行机器人(例如脸书外挂/*)是否尊重robots.txt文件中的Crawl-delay:指令？

浏览 0提问于2011-10-10得票数 2

1回答

noindex在robots.txt中是否有效？

、

noindex是robots.txt文件中的可选指令，还是user-agent、disallow、allow和crawl-delay是唯一的选项？例如，这对robots.txt文件的内容有效吗？ user-agent: * disallow: / noindex: /

浏览 5提问于2011-08-26得票数 0

回答已采纳

2回答

我希望只允许目录/minsc的一个文件，但我想不允许该目录的其余部分。现在在robots.txt中是这样的： User-agent: * Crawl-delay: 10 # Directories Disallow: /minsc/ 我希望允许的文件是/minsc/menu-leaf.png 我害怕造成伤害，所以我不知道我是否必须使用： A) User-agent: * Crawl-delay: 10 # Directories Disallow: /minsc/ Allow: /minsc/menu-leaf.png 或 B) User-agent: * Crawl-delay: 10 #

浏览 3提问于2016-01-21得票数 2

回答已采纳

2回答

如何从robots.txt文件中读取站点地图url文本

、、、、

我想阅读robots.txt文件(www.abc d.com/robots.txt)的文本，其中包含来自我的C#应用程序的sitemap。如果robots.txt文件中有sitemap，我必须使用if来生成警报，然后它将显示是，并且它不包含sitemap，那么它将显示no。 Robots.txt文件文本如下所示： # Crawlers Setup User-agent: * Disallow: Crawl-delay: 10 # Website Sitemap Sitemap: http://www.abcd.com/sitemap.xml 如何从robots.txt文件中读取这个站点地图文

浏览 4提问于2013-09-16得票数 1

回答已采纳

1回答

有没有办法告诉网络爬虫/机器人每秒/分钟请求的数量限制

、、

我在想一种类似于robots.txt的方式，它被好的机器人在网站上爬行。在robots.txt中，我可以定义用户代理，允许和不允许。我的目标是将关于请求速率的消息传递给机器人，例如，它们不允许每秒超过xxx请求，等等。我知道如何设置一个严格的限制，但招聘的目标不是阻止他们。

浏览 0提问于2023-01-17得票数 0

回答已采纳

1回答

Robots.txt -对于多个用户代理来说，爬行延迟的合适格式是什么？

、、、

下面是一个示例robots.txt文件，它允许为每个用户代理提供多用户代理和多重爬行延迟。爬行延迟值是为了说明起见，在实际的robots.txt文件中是不同的。我在网上到处寻找合适的答案，但却找不到答案。有太多复杂的建议，我不知道哪种方法是正确的/正确的。问题： (1)每个用户代理是否都有自己的爬行延迟？(我想是的) (2)在允许/中断线之前或之后，您将每个用户代理的爬行延迟线放在哪里？ (3)每个用户代理组之间是否存在空白？参考文献：本质上，我希望了解最后的robots.txt文件应该如何使用下面示例中的值。提前谢谢。 # Allow only major search spi

浏览 6提问于2013-06-29得票数 20

回答已采纳

1回答

更改命令范围的非常基本的robots.txt中的项的顺序？

我为我维护的站点设置了一个非常简单的robots.txt文件。在ISP设置到爬行器的流量激增之后，他们建议我添加一个爬行延迟指令，这是相当公平的。所以我最终得到了这个文件 User-agent: * Disallow: /a-page-i-wanted-to-ignore Crawl-delay: 1 我仍然收到导致停机的交通高峰。ISP告诉我，关于我安装的机器人文件(如上文所示)，“爬行延迟只为‘/a-页-我想要忽略’页面，而不是为整个网站配置。” 我想检查一下，对吗？如果像爬行延迟这样的命令放置在“不允许”行下，那么它会被指定为“不允许”子句吗？

浏览 0提问于2020-11-21得票数 1

1回答

我可以将robots.txt中的Cawl延迟设置为小于1秒(比如0.1)吗？

、、

我想开始在robots.txt上使用爬行延迟，并看到值是以秒为单位的。有没有办法把它设置在1秒以下。可能是0.1？我的目标是允许爬虫每秒不超过10个请求，所以如果他们每0.1秒运行一个请求，这将满足我的要求。把它延长到1秒太慢了，就像在一个大型网站上必须做的那样。

浏览 0提问于2023-01-20得票数 2

1回答

不跟随robots.txt文件的机器人

、

似乎有些机器人没有遵循我的robots.txt文件，包括MJ12bot，它是来自majestic.com的，应该遵循说明。该文件如下所示： User-agent: google User-agent: googlebot Disallow: /results/ Crawl-Delay: 30 User-agent: * Disallow: /results/ Disallow: /travel/ Disallow: /viajar/ Disallow: /reisen/ Crawl-Delay: 30 我想告诉机器人的是：只有谷歌才能抓取任何包含/travel/、/viajar/或/

浏览 0提问于2018-07-09得票数 1

回答已采纳

3回答

阻止允许的内容之间的文件夹

、

我有一个网站的结构如下： http://www.example.com/folder1/folder2/folder3 我想禁止在folder1和folder2中建立索引。但我希望机器人对folder3下的所有内容进行索引。有没有办法用robots.txt做到这一点？对于我所读到的内容，我认为指定文件夹中的所有内容都是不允许的。下面的内容能达到我的目标吗？ user-agent: * Crawl-delay: 0 Sitemap: <Sitemap url> Allow: /folder1/folder2/folder3 Disallow: /folder1/folder

浏览 0提问于2011-05-14得票数 1

回答已采纳

2回答

限制除Googlebot和Yandexbot以外的所有机器人

、

我想让Googlebot访问我所有的页面爬行延迟。Yandexbot只访问index.html。宾博特访问/tools页面。所有其他的机器人都不能访问我的页面。这个robots.txt适合这个吗？ User-agent: Googlebot Crawl-delay: 300 User-agent: Yandex Allow: /index.html Disallow: / User-agent: bingbot Allow: /tools Disallow: / User-agent: * Disallow: /

浏览 0提问于2014-01-14得票数 2

1回答

块Yandex履带机

、

我们的网站在过去的几天里一直表现得很奇怪，很多的暂停等等。最后我认为我找到了原因，Yandex机器人每小时爬行大约1万页！我需要尽快停止它，我认为这是创造了大约50-100 50的带宽使用每天。阻止IP(通过https://myip.ms/info/bots/Google_必应_雅虎_Facebook_等_Bot_IP地址_Addresses.html)： 100.43.90.0/24、37.9.115.0/24、37.140.165.0/24、77.88.22.0/25、77.88.29.0/24、77.88.31.0/24、77.88.59.0/24、84.201.146.0/24、84

浏览 0提问于2017-02-07得票数 5

1回答

如何限制Googlebot的爬行率？

、、、

我的一台服务器出了问题。Google会打开与apache服务器的大量http连接，并且基本上会执行slowloris攻击。此netstat调用将产生以下输出 netstat -plant|grep :80|awk '{print $5}'|cut -d: -f1|sort|uniq -c|sort -n 11 209.85.227.93 14 209.85.227.190 30 209.85.229.118 494 209.85.229.141 所有这些ip都属于谷歌网络。我已经禁止谷歌访问通过robots.txt保存在服务器上的任何内容，但它对疯狂的连接量没有任何影

浏览 0提问于2011-07-03得票数 1

2回答

是否从外部源覆盖/注入robots.txt文件？

、

我们有几个Wordpress网站也有同样的问题。它们似乎有一个包含以下内容的"robots.txt“文件： User-Agent: * Crawl-Delay: 300 User-Agent: MJ12bot Disallow: / User-agent: MegaIndex.ru Disallow: / User-agent: megaindex.com Disallow: / 我们完全不知道这个robots.txt文件来自哪里。我们已经检查过了，在public_html根文件夹或任何我们可以看到的子文件夹中，肯定没有"robots.txt“文件。我们已经停用了网站上的每

浏览 14提问于2020-02-19得票数 0

回答已采纳

1回答

crawler4j:在20-30秒的爬行之后，网站禁止我的IP地址

、、

我尝试使用开源crawler4j在mystore411.com上爬行一个网站。爬虫可以在有限的时间内正常工作(比如20-30秒)，然后网站禁止我的地址几分钟，然后我才能再次爬行。我想不出可能的解决办法。我查看了它的robots.txt，下面是我从中得到的信息： User-agent: Mediapartners-Google Disallow: User-agent: * Disallow: /js/ Disallow: /css/ Disallow: /images/ User-agent: Slurp Crawl-delay: 1 User-agent: Baiduspider

浏览 1提问于2014-10-15得票数 1

回答已采纳

4回答

降低网站爬行速度

、、、

有没有办法迫使爬虫放慢对网站的爬行速度？可以放在headers或robots.txt中的内容吗？我想我记得我读过一些关于这是可能的东西，但现在找不到任何东西。

浏览 2提问于2010-01-30得票数 6

回答已采纳

2回答

在/`中，“robots.txt”中的“允许：”和“禁止”有什么区别？

、

下面的两个robots.txt文件有什么区别？ User-agent: * Allow: / 与 User-agent: * Disallow: 在上，它将后者作为示例列出在Examples部分下。但是，以后它的代码类似于第一个代码： User-agent: bingbot Allow : / Crawl-delay: 10

浏览 17提问于2022-01-04得票数 1

1回答

爬行延迟:X

、、

从以前阅读不同文章的研究中，我了解到robots.txt爬行延迟(如crawl-delay: 1 )允许给定的搜索引擎每一秒爬行几个网页，而不是停止，直到下一次。我的问题我不清楚from when→until when，它停止了(24小时？) 在我阅读了以下声明如下之后，我还不清楚它是做什么的：通过设置10秒的爬行延迟，您只允许这些搜索引擎每天访问8,640页。我的问题 crawl-delay: x：这里有人能理解数学是如何运作的吗？

浏览 0提问于2020-02-23得票数 1

回答已采纳

1回答

覆盖手动创建的robots.txt的Wordpress虚拟robots.txt

、、

我正在与一个可湿性粉剂3.9安装在一个管理托管计划运行脉冲新闻主题。我没有阻止搜索引擎索引这个网站的检查。我只安装了Yoast SEO插件作为SEO插件。robots.txt文件可以在YOAST SEO插件的Edit Files下编辑。如果您访问站点，您可以看到robots.txt是这样生成的： User-agent: * Disallow: / 在YOAST插件中，它将robots.txt显示为： User-agent: * Crawl-delay: 1 Disallow: /wp-content/plugins/ Disallow: /wp-includes/ Disallow: /wp

浏览 1提问于2014-05-09得票数 2

2回答

用PHP在robots.txt中搜索连续的“用户代理”指令

、、

使用PHP，我想检查(真/假)在robots.txt文件中是否有连续的“用户代理”指令。通过这个regexp，preg_match('~User-agent:\h*(?:\R|$)~i', $string)找到了所有的“用户代理：”行，但是我还没有找到如何检测连续行。 User-agent: # 'User-agent:' \h* # horizontal whitespace (0 or more times) (?: # group, but do not capture: \R #

浏览 1提问于2017-02-08得票数 1

回答已采纳

1回答

为什么必应和SEMRushBot忽略我的robots.txt文件中的爬行延迟？

、、、

我们托管了大量有大量目录页的站点。我们想放慢几个机器人的速度，因为这些机器人的流量太大了。具体来说，我们从BingBot和SEMRushBot获得了相当多的流量，我们想要放慢速度。两个机器人的信息页面都说它们遵守爬行延迟指令。然而，尽管对两者都改变了爬行延迟，但即使在几天后，我也没有看到交通的变化。我的档案有什么问题吗？(我在SEMRushBot延迟中输入了60，但我读到它们只延迟了10秒。在将它们添加到robots.txt文件后，我没有看到任何更改)。 User-agent: * Disallow: /nobots/ Disallow: /products/features/ Disallo

浏览 0提问于2020-07-02得票数 3

2回答

如何在Scrapy框架中使用RobotsTxtMiddleware？

、、

Scrapy框架有RobotsTxtMiddleware。它需要确保Scrapy尊重robots.txt。它需要在设置中设置ROBOTSTXT_OBEY = True，然后Scrapy将尊重robots.txt策略。我做了然后跑了蜘蛛。在调试中，我看到了对的请求。这是什么意思，它是如何工作的？我怎样才能配合回应？我如何从robot.txt中看到和理解规则？

浏览 0提问于2015-05-23得票数 6

回答已采纳

1回答

如何修复‘无法渲染卡片预览’twitter错误？

、、、

我正在尝试在我的网站上实现twitter分享。为此，我添加了以下meta标签： <meta property="twitter:card" content="summary_large_image"/> <meta property="twitter:site" content="@abc"/> <meta property="twitter:title" content="dummy text"/> <meta property="twitter:

浏览 13提问于2017-03-06得票数 0

1回答

robots.tx不允许所有有爬行延迟的

我想从一个特定的网站获取信息，并检查是否允许我爬行。robots.txt文件考虑了15种不同的用户代理，然后是其他用户代理。我的困惑来自于其他人的陈述(包括我在内)。确实是 User-agent: * Crawl-delay: 5 Disallow: / Disallow: /sbe_2020/pdfs/ Disallow: /sbe/sbe_2020/2020_pdfs Disallow: /newawardsearch/ Disallow: /ExportResultServlet* 如果我正确地阅读了这篇文章，网站要求没有未经授权的用户代理对其进行抓取

浏览 3提问于2015-01-23得票数 1

回答已采纳

4回答

有没有可能通过robots.txt控制爬行速度？

、、

我们可以在robot.txt中告诉机器人爬行或不爬行我们的网站。另一方面，我们可以在Google网站管理员中控制爬行速度( Google机器人抓取网站的数量)。我想知道是否可以通过robots.txt限制爬虫活动我的意思是接受机器人来抓取页面，但要根据时间、页面或大小限制它们的存在！

浏览 3提问于2011-10-17得票数 14

回答已采纳

1回答

我应该在Google网站管理员工具中删除旧的http属性吗？

、、、、

我是一个新手。大约一个月前，我在我的WordPress / woocommerce网站上安装了一个SSL证书。该网站的HTTP版本自去年12月下旬才推出。我正在建立一个谷歌商业中心购物馈送的过程中，并收到来自谷歌的警报，让我知道他们有问题爬行我的网站图片，因为我的robots.txt文件的问题。我检查了Google WMT，发现我的https属性没有问题，但是我的旧HTTP属性被列为与robots.txt文件相关的“严重健康问题”。当我运行robots.txt测试器时，我得到了以下结果 script: User-agent: * Disallow: / Crawl-delay: 10

浏览 0提问于2016-04-21得票数 0

2回答

使用python robotparser

、、

我不明白如何使用robotparser模块中的解析功能。这是我尝试过的： In [28]: rp.set_url("http://anilattech.wordpress.com/robots.txt") In [29]: rp.parse("""# If you are regularly crawling WordPress.com sites please use our firehose to receive real-time push updates instead. # Please see http://en.wordpress.com

浏览 2提问于2011-10-05得票数 0

1回答

在拒绝所有爬虫之后，Bing停止了索引，除了Googlebot、Yahoo-slurp和Msnbot之外。

、、、

Bing从结果中删除了我的顶部页面，3天前，它们在第一页显示。也许几周前我更新了robots.txt文件。如果有什么问题阻止bingbot为我的顶部页面建立索引，有人可以在模板下面检查一下吗？提前感谢 User-agent: * Crawl-Delay: 20 User-agent: * Disallow: / User-agent: Googlebot Disallow: User-agent: Yahoo-slurp Disallow: User-agent: Msnbot Disallow:

浏览 0提问于2018-04-23得票数 3

1回答

停止web.archive.org以保存站点页面

我试着访问以前的facebook.com网页。该站点向我显示了一个错误，即它无法保存页面，因为站点robots.txt/ 有人能知道robots.txt中哪些语句使web.archive.org无法访问站点吗?我想是因为这里提到的#权限语句()。有没有其他的方法，我可以为我的网站，以及这样做。我也不希望woorank.com或builtwith.com分析我的网站。注意:如果我向robots.txt添加了一些语句以获得上述结果，搜索引擎机器人在爬行我的站点和索引它时应该不会遇到任何问题。

浏览 5提问于2014-10-13得票数 0

回答已采纳

5回答

脸书和爬虫- Robots.txt中的延迟？

、、

Facebook的网络爬虫机器人是否遵守robots.txt文件中的指令？

浏览 1提问于2011-10-11得票数 13

回答已采纳

1回答

我应该在我的Facebook应用上用robots.txt阻止搜索引擎吗？

、、、

在我的主页上有几个子域，我利用robots.txt来阻止搜索引擎索引它们的内容，比如我的图片和下载子域，因为我不希望这个内容的直接URL被索引。我这样做： User-agent: * Disallow: / 现在我有了一个新的子域名“Facebook”，我将用它来托管为Facebook开发的应用程序。我的问题是，我是否应该使用上面的代码来阻止这个子域？应用程序本身不应该通过直接的URL访问和使用(但我相信它仍然有效，虽然没有测试它)，它应该通过canvas使用，类似于apps.facebook.com/app_name。我不介意搜索引擎索引这个URL，它是正确的索引。但我认为，对他们来说，

浏览 0提问于2010-11-10得票数 4

回答已采纳

1回答

如何用PHP解析robots.txt文件？

、、、、

我试图解析一个网站的robots.txt文件(其中facebook将是一个随机网址)。我想去掉不适合用户代理的任何行(例如本例中的前两行)。所以可以去掉任何不以A，D或U开头的线？我还想让每个用户代理成为他们自己的听话数组，标题是用户代理，即获得所有google允许的和不允许$arrgoogleBot上的url的url。到目前为止这是我的密码！ <?php //URl to start crawling $start = "https://www.facebook.com"; //Url to crawl, crawled or not crawl $craw

浏览 2提问于2017-08-13得票数 1

3回答

Facebook爬虫机器人崩溃网站

、、

Facebook是不是刚刚实现了一些网络爬虫？在过去的几天里，我的网站已经崩溃了几次，严重超载了我追踪到的Facebook的I地址。我试着用谷歌搜索，但找不到任何关于通过robots.txt控制Facebook的爬虫机器人的权威资源。这里有关于添加以下内容的参考：用户-代理: facebookexternalhit/1.1爬网-延迟:5 用户-代理: facebookexternalhit/1.0爬网-延迟:5 User-agent: facebookexternalhit/* Crawl-delay: 5 但我找不到任何关于Facebook bot是否尊重robots.txt的具体参考资

浏览 2提问于2012-10-14得票数 7

1回答

在Java中抓取网站

、、

我正在尝试做的是一个URL的列表，并下载每个URL的内容(用于索引)。最大的问题是，如果我遇到一个类似facebook事件的链接，它只是重定向到登录页面，我需要能够检测并跳过该URL。似乎robots.txt文件就是为了这个目的而存在的。我查了heritrix，但这似乎比我需要的多得多。有没有更简单的工具可以相应地提供关于robots.txt和抓取站点的信息？ (而且，我不需要跟踪额外的链接并建立一个深度索引，我只需要为列表中的各个页面建立索引。)

浏览 0提问于2010-07-08得票数 1

回答已采纳

4回答

阻止facebook进入我的网站

、、、、

我有一个安全的链接方向服务，我正在运行()。如果我在php中更改标题以重定向访问者，那么当用户通过facebook发送链接时，facebook可以显示我要重定向到的网站的预览。我希望避免这种情况。现在，我正在使用AJAX调用来获取URL和javascript来重定向，但是它给不使用javascript的用户带来了问题。以下是我想阻止facebook的几种方法，但我似乎无法工作：我曾经尝试过阻止facebook的机器人(facebookexternalhit/1.0和facebookexternalhit/1.1)，但它不起作用，我不认为他们是为了阻止facebook的IP地址而使用它们，但

浏览 21提问于2011-11-19得票数 9

回答已采纳

1回答

使用Scrapy登录Facebook时出现问题

、、

(我曾在Scrapy google-group上问过这个问题，但运气不佳。) 我正在尝试使用Scrapy登录Facebook。我在交互式shell中尝试了以下操作：我设置了头部并创建了一个请求，如下所示： header_vals={'Accept-Language': ['en'], 'Content-Type': ['application/ x-www-form-urlencoded'], 'Accept-Encoding': ['gzip,deflate'], 'Accept&#

浏览 3提问于2011-08-17得票数 3

回答已采纳

1回答

从Yandex防止高带宽使用

、、、、

虽然我在我的robots.txt文件中放了一行Yandex，但有时Yandex对我的网站进行了积极的索引。因此，我硬编码了一个部件并检查了用户代理，如果用户代理是这样的，则提供缓存的文件："Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"。但是，当我查看statcounter日志时，我最近看到其他与Yandex相关的机器人经常爬我的站点。它们类似于跟随者。我从我的cPanel日志中获取了这个信息： Beeline (128.69.243.12) Agent: Mozilla/4.0 (compa

浏览 0提问于2012-07-27得票数 3

1回答

我的Joomla网站的robots.txt中不允许的图片在Facebook中共享时不能显示

我注意到，由于我不允许在我的Joomla网站上使用robots.txt的图片，当我在Facebook上分享一篇文章时，图像将不会显示。为什么会这样呢？这真的有关系吗？我的robots.txt文件： User-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /images/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /librar

浏览 0提问于2013-06-20得票数 1

回答已采纳

4回答

Robot分析器似乎没有正确地解析

、、、

我正在编写一个爬虫，为此我正在实现robots.txt解析器，我使用的是标准的lib 。似乎robot分析器是而不是解析正确，我正在调试我的爬虫使用谷歌的。 (以下示例来自IPython) In [1]: import robotparser In [2]: x = robotparser.RobotFileParser() In [3]: x.set_url("http://www.google.com/robots.txt") In [4]: x.read() In [5]: x.can_fetch("My_Crawler", "/cata

浏览 4提问于2013-03-11得票数 6

回答已采纳

2回答

我应该在我的网站上爬行直到它完成吗？

我的客户想要主持他的网站与“下开发”横幅，直到它完成。该网站上的唯一内容是与该文本的图形。我应该阻止robots.txt中的搜索引擎直到它完成吗？这个网站将从facebook等链接，然后我们将完成它。

浏览 0提问于2018-03-21得票数 0

2回答

Twitter元图像没有在Twitter上呈现，因为它“可能受到站点的robots.txt文件的限制”。

、、、

所以这就是我尝试使用Twitter时的链接--图像不知怎么不起作用，而它却适用于Facebook。它只适用于Facebook，但在Twitter上，我遇到了一些问题：警告:由Twitter：https://scontent.xx.fbcdn.net/v/t31.0-8/19388529_1922333018037676_3741053750453855177_o.jpg?_nc_cat=0&oh=ba7394f2a6af68cb4b78961759a154f1&oe=5B6BC349指定的图像URL元数据库可能受到站点的robots.txt文件的限制，这将阻止

浏览 0提问于2018-04-03得票数 7

回答已采纳

1回答

描述在google搜索+重定向元标签到粉丝页面

、、

这是我的问题..。有这样一个域: dbrinterativa.com 当我尝试在google中搜索“dbr”时，它返回的是这个网站作为第一个选项。但问题是，html有一个元标签，将用户重定向到facebook的粉丝页面……谷歌正在获取这个粉丝页面的描述和标题！ <meta http-equiv="refresh" content="0;url=https://www.facebook.com/dbrinterativa"> 还有另一个问题。当我试图像dbrinterativa.com ()一样在谷歌中搜索它的网址时，它告诉我robots.txt不

浏览 0提问于2012-11-10得票数 0

1回答

Heritrix:只对一个站点忽略robots.txt

我正在使用Heritrix 3.2.0。我想从一个网站抓取一切，包括通常由robots.txt保护的页面。但是，对于其他站点，我不想忽略robots.txt。(你知道，不要让Facebook或谷歌对我们发火) 我试图设置一个覆盖页，与3.0/3.1手册中的一个非常相似(在文章的末尾) 作业是在没有评论的情况下构建的，但是覆盖似乎没有被触发，本地robots.txt仍然被遵守。那我做错什么了？斯蒂格·海默 <beans> ... all the normal default crawler-beans.cxml stuff ... <bean id="

浏览 5提问于2015-06-09得票数 3

1回答

针对多个爬行请求控制Facebook爬行延迟

、、、

Facebook使用该IP地址范围爬行我的服务器-这会导致我的服务器多次停机 31.13.97.117 31.13.97.116 31.13.97.113 31.13.97.115 31.13.97.112 31.13.97.118 31.13.97.114 31.13.97.119 第一:不管任何Robots.txt规则...所以不能对它使用Crawler-Delay。第二:停止使用iptables ( linux防火墙)的爬行进程，导致Facebook社交插件的OpenGraph阅读、点赞、分享和评论出现问题。请您如何停止这种爬行或控制他们保持社交插件的工作..？我看到了这个解决方案：

浏览 1提问于2014-03-27得票数 0

1回答

一个“不允许/”的robots.txt文件会停止我网站的所有爬行吗？

、

我知道以下内容将阻止所有的机器人爬行我的网站 User-agent: * Disallow: / 但是像这样的东西呢？ User-agent: * Crawl-delay: 10 # Directories Disallow: /includes/ Disallow: /misc/ Disallow: /modules/ Disallow: /profiles/ Disallow: /scripts/ Disallow: /themes/ # Files Disallow: /CHANGELOG.txt Disallow: /cron.php Disallow: /INSTALL.mysql.

浏览 2提问于2014-05-15得票数 1

1回答

百度蜘蛛每天造成3Gb的流量，但我在中国做生意。

、、、

我在一个困难的情况下，百度蜘蛛击中我的网站造成了大约3Gb的带宽价值一天。同时，我在中国做生意，所以我不想就这么阻止它。有没有其他人遇到过类似的情况(有蜘蛛)？你遇到了一个神奇的解决方案吗？或者你只是接受它或者阻止还是不阻止机器人？

浏览 0提问于2015-11-24得票数 3

1回答

对google搜索隐藏Facebook应用程序

、、

有没有办法从谷歌搜索中隐藏我们的Facebook应用程序。该应用程序在iFrame中运行，我曾尝试使用与iFrame URL相同位置的robots.txt文件，并使用元标记，但该应用程序仍然显示在谷歌搜索中。我还向谷歌站长工具提交了iFrame网址的删除请求，但没有起到作用。感谢您所能提供的任何帮助。

浏览 0提问于2012-05-10得票数 0

2回答

生成一个动态的robots.txt，但系统是附加正斜杠的

、、

我正在动态地创建robots.txt，而不是创建物理robots.txt文件。我是从CMS和系统是附加一个正斜杠的每一页。在robots.txt的例子中，我编写了.htaccess代码，以便从mysite.com/robots.txt重定向到mysite.com/robots.txt/。以这种方式进入robots.txt会有什么问题吗？

浏览 0提问于2014-04-25得票数 1

1回答

.htaccess允许社交媒体爬虫工作(Facebook和Twitter)

、、、、

我已经创建了一个SPA单页应用程序与角11，这是我托管在一个共享主机服务器。我面临的问题是，我不能在社交媒体(Facebook和Twitter)上分享我拥有的任何页面(除了第一条路径- /)，因为元标签没有更新(我有一个服务，负责处理每个页面的元标记)。(我知道这是因为Facebook和Twitter没有爬行JavaScript)。为了解决这个问题，我尝试了角通用( Server端渲染)和Scully (创建静态页面)。两者(角通用和史高丽)都修复了我的问题，但我更喜欢使用默认的角度SPA构建。我所采取的办法是：文件结构(共享主机服务器/public_html/)： - c

浏览 8提问于2021-05-25得票数 0

回答已采纳

1回答

Facebook Graph API和Yahoo Pipes :获取新闻提要

、、、

我知道以下内容用于请求新闻提要 https://graph.facebook.com/me/home?access_token?... 它返回json格式的集合。有什么方法可以把它放到管道里？我尝试过获取数据，但robots.txt不允许这样做。我也尝试过从头开始构建url，同样也会产生错误。我已经能够让公共对象与yql一起工作。 select * from json where url="https://graph.facebook.com/search?q=watermelon&type=post" 那么那些需要access_token的应用

浏览 1提问于2010-07-07得票数 1