腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(227)
视频
沙龙
1
回答
尝试从Github页面
抓取
数据
、
我正在尝试使用"scrapy crawl gitrendscrape -o test.json“命令来
抓取
github页面并存储到一个JSON文件中。它创建json文件,但它是空的。127.0.0.1:60232017-01-18 02:29:46 [scrapy.download
浏览 2
提问于2017-01-18
得票数 2
1
回答
Sitemap/
robots
.txt配置冲突
、
、
包含以下规则:Allow: //apiDocs网址在站点地图中,但是根据Google工具,这些
robots
.txt规则
禁止
它被爬行。我想阻止所有与/api/*匹配的URL被
抓取
,但是允许/apiDocs被
抓取
。 我应该如何改变我的
robots
.txt以实现这一点?
浏览 2
提问于2014-10-01
得票数 0
回答已采纳
2
回答
当我有一个
robots
.txt时,我应该删除元机器人(索引,跟随)吗?
、
、
如果我想让搜索引擎遵循我的
robots
.txt规则,是否应该删除机器人元标签,我有点困惑。如果页面上存在机器人元标记(索引,如下所示),那么搜索引擎会忽略我的
robots
.txt文件并在我的
robots
.txt中索引指定的不允许的URL吗?
浏览 1
提问于2014-08-24
得票数 0
回答已采纳
4
回答
如何
禁止
来自
robots
.txt的特定页面
我会在
robots
.txt文件中这样做吗?
禁止
: /wp-admin 我如何定制到特定的页面,如:
浏览 0
提问于2010-08-15
得票数 33
2
回答
正在读取
robots
.txt文件
、
在下面的
robots
.txt文件中,它说明了
禁止
所有的magpie crawler目录。假设我使用的是一个不同的网络爬虫,比如Scrapy。这个
robots
.txt没有列出任何其他东西,那么允许
抓取
机器人
抓取
吗?
浏览 17
提问于2019-01-28
得票数 1
3
回答
需要
robots
.txt文件帮助
、
如果我把同一个
robots
.txt文件放在多个目录和文件夹中呢?Disallow: /otherdirname/dirname2/ 它会影响到什么吗??
浏览 0
提问于2012-10-09
得票数 1
1
回答
SE机器人不会从sitemap.xml中索引页面
、
、
、
、
如果我检查其中一个,例如: 我的robot.txt文件是:Allow: */modules/*.cssDisallow: */config/Disallow: */css/Disallow: */
js</
浏览 3
提问于2019-12-03
得票数 0
回答已采纳
2
回答
C# HTMLAgilityPack网站阻止了我的IP地址
、
、
、
我使用HTMLAgilityPack从以下网站获取超文本标记语言:首先,我尝试更改我的代码-关于如何检索HTML:HtmlWeb hw = new HtmlWeb();foreach (HtmlNode link in doc.DocumentNode.SelectNodes("//a[@href]"))
浏览 0
提问于2012-10-16
得票数 0
回答已采纳
2
回答
Google访问的Ajax Url
、
、
首先,我们有点困惑为什么googlebot试图访问
JS
脚本上的
JS
函数中的URL。
JS
代码: $.get(location.protocol + '//' + location.hostname + '/ajax/?ajaxscript=detail&siteid='+ siteid, function() { ... });上面的函数是在我们的网页上包含的
JS
脚本中,当单击链
浏览 2
提问于2012-09-17
得票数 3
回答已采纳
2
回答
阻止Google对我们第二台服务器上的文件进行索引
实际上,我正在网上搜索这个问题的合适术语,但几个小时后,我决定在这里发布我的问题。现在,谷歌正在索引我想要停止的ww2,让www被爬行和索引。我的问题是: 1.我如何从谷歌索引中删除ww2中那些被爬行的页面? 2.我如何阻止谷歌索引ww2?
浏览 0
提问于2011-03-02
得票数 1
3
回答
robots
.txt中的这个命令是做什么的?
、
我想知道
Robots
.txt中的以下代码是做什么的。Disallow: /*? 有什么想法吗?
浏览 1
提问于2012-11-07
得票数 0
回答已采纳
1
回答
用X-机器人标签代替
robots
.txt有什么好处吗?
、
、
、
看起来有两种主流的解决方案来指导爬虫索引和不索引:添加一个X机器人标记的HTTP头,或者指示一个
robots
.txt。 使用前者有什么好处吗?
浏览 5
提问于2016-02-25
得票数 3
回答已采纳
2
回答
隐藏机密文件夹的最佳
robots
.txt实践
、
我没有把文件夹名称放在
robots
.txt的
禁止
规则中,因为在
robots
.txt中写这个文件夹名称意味着告诉我的访问者这个秘密文件夹。我的问题是,即使我没有发布任何链接到这个文件夹,搜索引擎是否能够知道这个文件夹/
抓取
它?
浏览 0
提问于2017-07-18
得票数 0
回答已采纳
2
回答
需要阻止一些来自机器人文件的URL
、
我想
禁止
在我的网站的机器人文件中的一些网址,并有一些困难。现在,我的
robots
文件包含以下内容:Disallow: /cgi-bin/ seriesgate.tv/search/indv_episodes/frie
浏览 3
提问于2013-07-16
得票数 0
2
回答
Robots
.txt:不允许子目录,但允许目录
我希望允许对以下位置的文件进行爬网:而不是
抓取
以下位置的文件:是正确的
robots
.txt指令:我担心如果我不允许/directory/subdirectory/,我就会
禁止
对/directory/中的所有文件进行爬网,这是我不想做的,那么我使用
浏览 1
提问于2011-03-22
得票数 7
回答已采纳
1
回答
“这是一个无效的脚本资源请求。”Websense爬行/ScriptResource.axd时出错
、
、
、
、
在
robots
.txt中
禁止
这些文件很好(正如TheLukeMcCarthy建议的那样)。用户代理:*不允许:/网站/WebResource.axd 这些站点使用ASP.NET和HTML5开发,并托管在IIS7上。 提前感谢!
浏览 0
提问于2013-05-16
得票数 2
3
回答
保护网站内容不受爬虫的攻击
、
、
商业网站(ASP.NET MVC)的内容经常被竞争对手
抓取
。这些人是程序员,他们使用复杂的方法来爬行网站,因此不可能通过IP识别他们。我个人的想法是使用
robots
.txt:
禁止
爬虫访问页面上的一个公共网址(这可以伪装成一个正常的项目详细信息链接,但对普通用户隐藏有效网址:
禁止
:128以下的 )。如果IP所有者输入了
禁止
链接,则会显示验证码验证。普通用户永远不会关注这样的链接,因为它是不可见的,谷歌不需要
抓取
它,因为它是假的。
浏览 0
提问于2011-07-06
得票数 5
回答已采纳
2
回答
蜘蛛只在站点地图中爬行urls吗?
、
、
、
、
<meta name="
robots
" content="NONE,NOARCHIVE" />
浏览 1
提问于2014-10-29
得票数 0
回答已采纳
2
回答
Robots
.txt -只允许机器人通过htts访问
、
所以我的问题是,我应该向
robots
.txt写入什么,这样才能只允许https
浏览 2
提问于2016-04-14
得票数 0
1
回答
此结果的描述不可用,因为此网站的
robots
.txt -了解移动版本的更多信息
、
、
A description for this result is not available because of this site's
robots
.txt – learn more 如何解决这个问题
浏览 3
提问于2015-06-11
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
ROBOTS怎么写?ROBOTS禁止收录写法、详细说明
robots.txt文件原理、规则和写法
Python爬虫小偏方:如何用robots.txt快速抓取网站?
小心人脸识别抓取 这些网站已经禁止
爬虫冷知识:robot
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券