腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
带有依赖项的PHP站点/脚本地图
刚刚继承了一个大型PHP5.3
站
点,想知道是否有某种
爬虫
或站点地图工具可以识别文件及其依赖项。
浏览 4
提问于2011-05-09
得票数 3
回答已采纳
2
回答
Rails 3和Strange Accept标头
、
我的Rails3
站
点被带有奇怪的accept头的
爬虫
程序击中,触发异常,如下所示以下是一些导致问题的我真的不关心我返回给这些
爬虫
的是什么,只是想避免异常。
浏览 0
提问于2011-02-05
得票数 8
1
回答
Google
爬虫
屏幕大小
、
、
假设一个我有两种类型的图像(A和AAA(更重))为同一网
站
:取决于屏幕的大小,它将显示一幅或另一幅。我想,如果它加载A图像,那么页面速度会比加载AAA图像更好。
浏览 0
提问于2013-07-09
得票数 4
回答已采纳
2
回答
从搜索查询中排除导航菜单
、
我有一个复合的c1网
站
。我喜欢使用Microsoft Search Server功能。我已经安装了所有的软件,但当我搜索时,我会得到每一页的结果,因为导航菜单在每一页上都有索引。当我使用导航菜单上的class="noindex“选项时,菜单中使用的链接后面没有
爬虫
。 谁能告诉我如何才能排除内容,但确保
爬虫
仍然遵循内容中使用的链接?
浏览 10
提问于2011-11-29
得票数 1
回答已采纳
1
回答
在注册域名前发布Azure测试站点的利弊
、
、
、
我一直在将我的网站发布到Azure上,并且我一直在限制IP地址,这样只有我列表中的人才能访问url ex。mysite.azuretestsite.com。但现在我想向人们展示,但我不想要求每个人都提供他们的IP地址,仅仅是为了给他们查看它的许可。即使我还没有注册域名,我也应该担心网站的存活吗?这有什么好处和坏处,如果没有人知道网站的url,这真的很重要吗?我更担心的是机器人等
浏览 1
提问于2018-02-22
得票数 0
3
回答
阻止搜索引擎爬网程序访问用作CDN的多个主机名
、
、
、
、
我已经在托管MVC4网
站
的共享主机帐户上配置了多个主机名。我这样做是为了从这些多个主机名加载静态资源,以便通过并行请求获得一些速度。所有这些主机名将映射到IIS中的同一
站
点/应用程序。但是,我想阻止搜索引擎和其他
爬虫
程序访问这些多主机名/子域。否则,它会将它们列在搜索列表中。 我想添加robots.txt,但这些域使用相同的应用程序。所以我已经有了我的主域的robots.txt。你知道如何防止
爬虫
抓取这些额外的主机名吗?
浏览 2
提问于2013-06-21
得票数 2
回答已采纳
1
回答
各位用腾讯云上海
站
的是不是在百度站长里出这个错误了:?
服务器错误:
爬虫
发起抓取,httpcode返回码是5XX ====我的好几个
站
都这样了,以前百度能正常抓取的,但是最近突然不行了,是什么问题啊?大家的腾讯云服务器有这个问题吗?
浏览 198
提问于2016-04-26
1
回答
旧谷歌搜索控制台和新谷歌搜索控制台错误的不同
、
谷歌网站管理员工具搜索控制台给我不同的
爬虫
错误,在旧版本的搜索控制台和新的搜索控制台为同一网
站
。那么,哪一个是正确的,哪个是错误的?我应该信任哪个版本的搜索控制台并继续修复错误?
浏览 0
提问于2018-06-28
得票数 2
回答已采纳
1
回答
ASP.NET MVC头动词与Selenium
、
、
、
Selenium (RC)正被用于测试ASP.NET 1.1
站
点。我们还看到了使用HEAD动词的(非主流)
爬虫
的日志条目。我们创建了robots.txt条目来阻止这些
爬虫
对站点进行索引,但是现在我们想知道从SEO的角度来看最佳实践是什么。对于
爬虫
来说,对头部的响应重要吗?有使用它的主流
爬虫
吗?它会影响SEO排名吗?
浏览 2
提问于2010-05-14
得票数 2
回答已采纳
1
回答
客户端NIO真的很重要吗?
、
、
据我所知,NIO可以帮助服务器,服务于许多请求。因为NIO没有为每个请求模型使用一个线程。我看到一些客户端库使用NIO,我对此不是很确定。那么,为什么在客户端使用brother NIO,性能有什么改进吗?
浏览 0
提问于2012-08-31
得票数 0
回答已采纳
2
回答
PrestaShop robots.txt和/模块/路径索引
、
、
,或者谢谢。
浏览 2
提问于2020-01-16
得票数 0
回答已采纳
1
回答
无法为包括Javascript和JQuery在内的网站生成网站地图
、
、
我正在尝试为我的两个网站生成一个网站地图,但在线和本地软件都不起作用。网站www.xsitemap.com说根网址是一个错误的网址。所有其他的,包括我的软件WebCEO,只是运行并且不产生任何结果。这可能是我犯的一个愚蠢的错误,但我真的很困惑,肯定需要一些帮助。 值得一提的是,我刚刚让WebCEO生成了一个错误,指出在第2459行有一个脚本错误(缺少')‘。有439行代码,所以它出现在一个includes中,但更有可能的是,我的代码中有一个额外
浏览 0
提问于2012-02-03
得票数 0
2
回答
如何使用import.io从下拉列表或多个文本框中动态提取数据
、
、
、
、
根据开始
站
和终点
站
以及时间的不同,我想要得到所有可用列车的列表以及表。即什么是网刮..。我要用刮刀吗?? 谢谢。
浏览 3
提问于2016-02-21
得票数 0
2
回答
MVC网站为google构建xml站点地图
、
、
我试图建立我的网站的xml网站地图提交给谷歌,但不幸的是,任何像A1网
站
地图构建器
爬虫
,和其他在线工具不能走得更远比第一页,给我内部服务器错误500。
浏览 3
提问于2011-01-24
得票数 0
1
回答
Scrapy:如何判断robots.txt是否存在
、
、
由于Scrapy检查和下载它是为了让
爬虫
遵守其中的规则,在
爬虫
类中是否有一个属性或方法或任何东西可以让我知道给定网站是否存在robots.txt来爬行?__dict__,我看到: 不带robots.txt的robots.txt 'robotstxt/response_status_count/404': 1网
站
的'robotstxt/response_status_count/200': 1网
站
如果爬行器在爬行过程中遇到几个域,那么这就不起作
浏览 41
提问于2021-05-04
得票数 1
回答已采纳
2
回答
mongoid self to self关系?
、
、
大家好,我有一个类似下面的
爬虫
模型的类: include Mongoid::Document field :urltype: String index :urlend 如果一个链接后悔了一个URL,并且他们有许多入
站
/
浏览 0
提问于2011-09-21
得票数 2
回答已采纳
2
回答
typo3网
站
爬网程序未编制索引
、
、
、
、
我试图在一个旧的TYPO3 4.5网站上用索引搜索和站点
爬虫
来索引一个页面--但是我尝试了几乎所有的方法都没有效果。我正在运行站点
爬虫
程序,它将获得可以爬行的URL的完整列表,并且我正在运行整个队列我已经设置了“索引配置”和一个网站
爬虫
但它不会建立索引"cache_pages
浏览 5
提问于2016-01-17
得票数 3
2
回答
线程化是否违反了robots.txt?
、
、
、
我刚接触抓取,最近我意识到线程可能是快速抓取站点的一种方法。在我开始讨论这个问题之前,我想这可能是明智的,以确定这是否会最终让我节流。所以问题是,如果我重写我的程序,使用线程来更快地爬行,这会违反大多数网站的robots.txt吗?
浏览 0
提问于2011-06-07
得票数 3
回答已采纳
9
回答
HTTPWebResponse + StreamReader非常慢
、
、
、
、
我正在尝试使用HttpWebResponse.GetResponse()和Streamreader.ReadToEnd()在C#中实现一个有限的网络
爬虫
(仅适用于几百个站点),还尝试使用StreamReader.Read我的
爬虫
有大约20个线程同时从同一
站
点读取数据。这会造成问题吗? 如何大幅减少StreamReader.ReadToEnd时间?
浏览 103
提问于2009-05-23
得票数 21
4
回答
必须至少有一个安全组开放所有入站端口。连接到RDS的AWS胶水
、
因此,我首先创建一个
爬虫
,然后在数据存储中创建一个新连接,如下面的屏幕截图所示: 我检查了其余部分,并最终尝试运行
爬虫
程序,但得到以下错误:At least one security groupin your inbound rule can be restricted to the same security group 我不确定我需要在附加到RDS的安全组中更改什么,但以下是我现在拥有的入
站
规则
浏览 4
提问于2018-07-17
得票数 9
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
今天给大家带来了python抓取b站小视频的小爬虫
B站CEO陈睿:有没有B站,A站都会挂
怎么在b站引流?b站怎么吸粉?b站引流技巧和方法
A站复兴?B站说NO
B站数据库疑泄露 B站回应
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券