在robots.txt中不允许路由

是指网站管理员通过编辑robots.txt文件，指定某些网页或目录不被搜索引擎的爬虫程序访问和抓取的行为。

robots.txt是一种文本文件，位于网站的根目录下，用于指导搜索引擎爬虫程序在访问网站时应该遵循的规则。通过在robots.txt中设置不允许路由的规则，网站管理员可以控制搜索引擎爬虫程序对特定页面或目录的访问权限。

不允许路由的作用是保护网站的敏感信息、减少不必要的爬取压力、控制搜索引擎对网站内容的索引和展示。例如，网站的后台管理页面、私密文件夹、临时测试页面等可以通过设置不允许路由来避免被搜索引擎爬虫程序访问和抓取。

在robots.txt中设置不允许路由的语法是通过使用"Disallow"指令来实现的。例如，如果要禁止搜索引擎爬虫程序访问网站的/admin目录，可以在robots.txt中添加以下内容：

User-agent: *

Disallow: /admin/

上述规则中，"User-agent: *"表示适用于所有搜索引擎爬虫程序，"Disallow: /admin/"表示不允许访问/admin目录及其下的所有文件和子目录。

需要注意的是，robots.txt只是一种约定和建议，而不是强制性的限制。一些不遵守规范的搜索引擎爬虫程序可能会忽略robots.txt文件中的规则，因此不应将robots.txt用于保护敏感信息。

腾讯云提供了云安全解决方案，包括Web应用防火墙（WAF）和DDoS防护等产品，可以帮助用户保护网站的安全性和可用性。具体产品信息和介绍可以参考腾讯云的官方网站：https://cloud.tencent.com/product/waf

漂亮的URL和robots.txt

、、、、

让我们假设我们使用的是带有mod_rewrite或类似内容的漂亮URL，并且有以下两条路由： User-agent: *..。例如，不允许: /help不允许/help.html和/ /help.html /index.ht

浏览 3提问于2014-01-26得票数 0

回答已采纳

0回答

在robots.txt中不允许路由

如果我有像/info/page1和/info/page2这样的路由，但是路由/info不存在，如果我用robots.txt写Disallow: /info，机器人会去/info/page1吗？

浏览 0提问于2017-06-14得票数 0

1回答

Google已经为robots.txt自己建立了索引

、、

Google已经对robots.txt进行了索引，现在如果有人搜索'txt‘，它会返回robots.txt文件，这确实不理想(因为这是一个沼泽标准的robots.txt站点，字符串D2实际上出现在文本中谷歌中是否有设置，或者我应该将/robots.txt添加到呃、robots.txt或.中？

浏览 0提问于2018-09-06得票数 5

回答已采纳

1回答

禁用爬行子域google爬虫

、

我想知道我怎么能不允许谷歌爬行我的子域名？另一个曾经是子域。我在awesom媒体文件夹中没有robot.txt，但正如您在/部件中所看到的那样。robot.txt的内容是User-agent: * Disallow:。仅此而已。

浏览 5提问于2014-09-08得票数 1

回答已采纳

2回答

当使用Googlebot的“网络条件”选项卡时，Firebase主机返回Googlebot用户代理的500个内部错误？

、、、

我已经在我的Firebase web应用程序上设置了以下内容(这是一个使用React构建的单一页面应用程序)："rewrites": [{ "function": "ssrApp"基本上，每个请求都应该进入到我的ssrApp函数中，它将检测机器人爬虫用户代理并决定它是否会响应

浏览 4提问于2020-02-25得票数 4

4回答

无法在robots.txt mvc中映射asp.net路由

、、、

我正在为我的应用程序创建robots.txt，以防止出现机器人，因为我当前的站点收到了许多机器人请求。所以我找到了这个链接，来创建robots.txt。这是我在HomeController中的动作方法{}@{} Disallow:&#x

浏览 2提问于2016-08-07得票数 8

回答已采纳

1回答

避免google索引子域

、、

我在同一个cPanel帐户上安装了几个TLD。其中一个被称为主域，其余的被称为次要域。我的问题是谷歌索引我的网页都从两个地址。比如：Medidary.maindomain.com/blabla.html 我如何从google中删除这些索引？

浏览 1提问于2013-06-12得票数 0

1回答

robot.txt以阻止显示目录

几个问题例如，您是否需要放置一个拖尾斜杠：另外，在robots.txt中不允许和添加有什么区别如果我希望google不要在目录中显示特定的页面和文件夹，我该怎么

浏览 1提问于2014-07-26得票数 0

2回答

当我有一个robots.txt时，我应该删除元机器人(索引，跟随)吗？

、、

如果我想让搜索引擎遵循我的robots.txt规则，是否应该删除机器人元标签，我有点困惑。如果页面上存在机器人元标记(索引，如下所示)，那么搜索引擎会忽略我的robots.txt文件并在我的robots.txt中索引指定的不允许的URL吗？我之所以问这个问题，是因为搜索引擎(主要是谷歌)仍然在我的网站上索引不允许的页面。

浏览 1提问于2014-08-24得票数 0

回答已采纳

2回答

如何没有索引特定的网址？

、、

我在搜索如何没有索引特定的URL，但我没有找到任何具体的信息，以下。<?php if(is_single(X)): ?

浏览 2提问于2014-11-11得票数 2

2回答

robots.txt被忽略

、

我在一个joomla网站上工作，robots.txt在捣乱我.我把它放在domain.com/ have /robots.txt上，我只想阻止用户浏览目录。默认情况下，它不允许: /images/并且规则有效，无法访问文件夹。我试着添加“不允许”：/图像/缩略图，但是那个没有用。我注释掉了“不允许:/图像/只是为了测试”。该文件夹仍不可访问。在我的域中没有其他rob

浏览 0提问于2011-12-15得票数 1

回答已采纳

2回答

为什么我在从NSString中删除字符时出错了？

、

在我的代码中，我尝试加载一个ROBOTS.TXT文件，然后用“不允许”字符串过滤它们，如果该行有“不允许字符串”，请删除该字符串并返回行的其余部分。下面是ROBOTS.TXT的一个示例不允许:/搜索不允许: /images允许:/目录/关于 不允许: /c

浏览 0提问于2011-11-26得票数 0

回答已采纳

6回答

有没有办法告诉机器人不要看目录？

我有一个满是图像的目录，我不想被机器人看到，有没有办法让这个目录成为私有目录？谢谢!

浏览 0提问于2009-07-22得票数 3

回答已采纳

8回答

动态robots.txt

每个线程都有自己的页面，但是所有的线程都列在同一个文件夹中，所以我不能将搜索引擎排除在某个文件夹之外。必须是每页。一个传统的robots.txt文件会变得很大，所以我如何才能做到这一点？

浏览 31提问于2008-09-04得票数 10

回答已采纳

1回答

阻止智能手机谷歌网站管理员中的错误

我在智能手机的GWT中遇到了阻塞的错误。所有显示在GWT中的阻塞错误页都已不允许从robots.txt中删除。但我不知道为什么GWT会在阻塞的错误中显示这些页面(、Smartphone、)。在Robots.txt:中的使用有人能帮忙吗？

浏览 5提问于2014-03-14得票数 0

2回答

阻止搜索引擎中的一些动态页面

、、、

这些是我想从搜索引擎中屏蔽的urls。 http://localhost:12534/myurl123-event?

浏览 6提问于2015-08-11得票数 1

2回答

TYPO3 v9.5.0 -错误消息:请求的页面不存在/robots.txt

、、

TYPO3 v9.5.0 -错误消息:请求的页面不存在/robots.txt是什么原因造成的，以及如何

浏览 1提问于2018-10-17得票数 2

回答已采纳

2回答

在google搜索控制台的实时测试url屏幕截图中，没有任何文本可见。

、

谷歌搜索控制台->网址检查->测试现场网址->视图测试页面->截图现场测试的截图- 📷

浏览 0提问于2019-08-27得票数 1

回答已采纳

3回答

Robotx.txt允许管理员登录？

、、

首先，robots.txt搜索了Wordpress，但是没有人告诉我这个文件在哪里。因此，我看到Wordpress中的robots.txt是虚拟的。有人知道解决办法吗？

浏览 5提问于2015-06-03得票数 0

回答已采纳

1回答

为什么robots.txt的含量在手工访问时以及通过ChromeDriver和Chrome通过Selenium访问时有所不同？

、、、、

我正在努力尊重robots.txt文件，当我在网络上爬行时，我遇到了一些奇怪的事情。我要访问的robots.txt URL是：User-agent: *但是，如果我使用Internet或SeleniumWebDriver (ChromeDriver)打开此链接，则会得到以下内容：# robots.txt# This file is to prevent the crawling and# Ignore

浏览 1提问于2019-03-22得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在robots.txt中不允许路由

相关·内容

漂亮的URL和robots.txt

在robots.txt中不允许路由

Google已经为robots.txt自己建立了索引

禁用爬行子域google爬虫

当使用Googlebot的“网络条件”选项卡时，Firebase主机返回Googlebot用户代理的500个内部错误？

无法在robots.txt mvc中映射asp.net路由

避免google索引子域

robot.txt以阻止显示目录

当我有一个robots.txt时，我应该删除元机器人(索引，跟随)吗？

如何没有索引特定的网址？

robots.txt被忽略

为什么我在从NSString中删除字符时出错了？

有没有办法告诉机器人不要看目录？

动态robots.txt

阻止智能手机谷歌网站管理员中的错误

阻止搜索引擎中的一些动态页面

TYPO3 v9.5.0 -错误消息:请求的页面不存在/robots.txt

在google搜索控制台的实时测试url屏幕截图中，没有任何文本可见。

Robotx.txt允许管理员登录？

为什么robots.txt的含量在手工访问时以及通过ChromeDriver和Chrome通过Selenium访问时有所不同？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐