在我的网站上的/cachecp/目录(该目录在我的服务器上不存在,但我假设它是寻找漏洞的黑客机器人)中,我收到了大量来自网络爬虫机器人的请求。IP都是完全不同的,所以我不能阻止IP。
我收到了这样的请求: mydomain.com/cachecp/helps/wholesale-plus-size-clothing.html,但是文件夹和html文件都不存在(或曾经存在)。html文件似乎完全是随机的,与我的产品没有任何关系。
我是否可以使用htaccess向任何试图访问该文件夹和/或禁止该IP多次尝试的机器人发送403错误?
发布于 2013-05-15 18:51:46
在您的robots.txt文件中使用它
User-agent: *
Disallow: /cachecp/
请记住,robots.txt是一个“君子协议”,一些不太谨慎的机器人会完全无视你的规则。
https://stackoverflow.com/questions/16558142
复制相似问题