网站假如采用的是虚拟空间,那么都会有一定的流量限制,如果大部分的流量都被蜘蛛所占据,那么我们就需要额外花费一些钱去购买流量了。那么假如一个网站很多流量都是蜘蛛抓取所浪费的,有哪些技巧和方法可以限制而不影响seo效果呢?
1,找出虚假蜘蛛进行IP屏蔽。
通过网站日志分析,我们可以知道其实很多所谓的百度spider或谷歌spider其实都是假的,我们可以通过解析出这些虚假蜘蛛的IP进行屏蔽,这样不仅可以节省流量也可以减少网站被采集的风险。具体操作中需要反查出IP是不是真蜘蛛,操作方法为:点击左下角的开始-运行-CMD-输入命令nslookup ip 回车就可以看到结果了。如果是真的搜索蜘蛛都有一个蜘蛛标记,而假的蜘蛛却没有标记。
2,屏蔽无效的蜘蛛或对seo效果小的搜索蜘蛛。
比如我们知道谷歌蜘蛛是抓取量非常大,但是对于很多行业来说谷歌的流量很低,seo效果并不好,因此可以进行屏蔽谷歌蜘蛛的抓取而节省大量的流量,例如美丽说网站就屏蔽了谷歌蜘蛛的抓取。除了谷歌之外,还有一些蜘蛛比如的盘古搜索、bing蜘蛛等,这些流量都非常低的,或者几乎没有太大作用的蜘蛛其实都可以屏蔽掉。
3,用robots限制无效页面或重复页面的抓取。
有一些页面可能以前存在但是现在没有了,或者是存在动态与静态的URL一起存在,由于存在反向链接或数据库内有这样的链接,蜘蛛仍旧会不时进行抓取,我们可以找出返回404页面的URL,把这些URL都给屏蔽掉,这样既提高了抓取屏蔽也减少了流量浪费。
4,限制页面的抓取内容来提高抓取效率与抓取速度,减少抓取流量。
对于任何一个页面来说,都有很多无效的噪音区,比如一个网站的登录、注册部分、最下面的版权信息和一些帮助性的链接导航等,或一些模板上存在一些无法被蜘蛛识别的展示模块等,这些我们都可以采用加Noffollow标签或ajax、JS等方法进行限制或屏蔽抓取,减少抓取量。
5,外部调用或cdn加速来提高蜘蛛的抓取,减少服务器的响应和流量浪费。
目前的网站大多采用大量的图片、视频等多媒体来展示,而这些图片缺需要较多的下载流量,如果我们把图片采用外部调用的方式,那么就可以节省大量的蜘蛛抓取流量。目前比较好的方法有把图片放在其他的服务器或上传到一些网盘上都可以。
6,利用站长工具限制或提高蜘蛛的抓取,或者限制蜘蛛抓取的时间。
目前百度站长平台和谷歌站长平台都有站长抓取的工具,可以用来限制蜘蛛抓取的时间和抓取量,我们可以根据需要进行合理调配,达到最佳的效果。
当然在实际中我们也可以根据自身实际需求来解决,比如可以对一些抓取量过大的栏目在sitemap设置较低的抓取频率、对一些重要的内容如果收录不好的话也可以增加外链或内链来提高抓取等,方法是死的,我们可以根据具体的续期去进行合理化的设置,来达到更少的抓取而更高的抓取效率。
领取专属 10元无门槛券
私享最新 技术干货