开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

抓取页面将返回200，稍后检查该页面将返回403

是指在进行页面抓取时，初始请求页面会返回200状态码，但在稍后的检查中，该页面会返回403状态码。

这种情况通常发生在网站对爬虫进行了限制或防护措施的情况下。网站管理员可能会设置反爬虫机制，通过识别爬虫的请求并返回403状态码来阻止爬虫的访问。

返回200状态码表示请求成功，而返回403状态码表示服务器理解请求，但拒绝提供服务。因此，当我们进行页面抓取时，初始请求页面返回200状态码是正常的，但在稍后的检查中，如果返回403状态码，则表示该页面被服务器拒绝访问。

这种情况下，我们可以采取以下措施来解决问题：

降低爬取频率：通过减少请求的频率，避免触发网站的反爬虫机制。
修改请求头信息：模拟浏览器的请求头，包括User-Agent、Referer等，使请求看起来更像是正常的浏览器访问。
使用代理IP：通过使用代理IP来隐藏真实的请求来源，避免被网站识别为爬虫。
使用验证码识别技术：如果网站设置了验证码验证，可以使用验证码识别技术来自动处理验证码，继续进行页面抓取。
联系网站管理员：如果以上方法无效，可以尝试联系网站管理员，说明自己的需求并请求合作或授权进行页面抓取。

腾讯云相关产品中，推荐使用的是腾讯云的Web应用防火墙（WAF）服务。腾讯云WAF可以提供全面的Web应用安全防护，包括防护DDoS攻击、CC攻击、SQL注入、XSS攻击等，同时也可以对爬虫进行识别和防护。您可以通过以下链接了解更多关于腾讯云WAF的信息：https://cloud.tencent.com/product/waf

相关搜索:将页面js结果返回会话是否将页面返回到登录？将多个图像返回到JSF页面将JSON发布到Razor页面，返回HTML 刷新页面将返回[object CSSStyleDeclaration]如何将数据从页面返回到主窗口？Razor页面将Image in处理程序返回给``<img>``元素返回页面后将值设置为默认值如何将<<<元素返回到eureka中的表单，而不是页面中？如何使用jQuery将值从html页面传递到PHP并返回响应？当查询结果返回时，将页面加载到包含mysql查询代码的div Ghostscript:当我尝试将pdf转换为1.4时，返回一个空页面如何将ondelete函数重定向到一个页面，要求输入密码，然后返回SQLFORM.grid页面？在表单中修改JSP页面中的对象时，不会返回该对象。(将数据写入ID为0的新对象)如何使用iTextSharp将某些页面保存到MemoryStream并将所选页面作为base64字符串返回将字符转换为解码的html，然后返回到提交到页面上的编码如果路由参数的末尾有一个空格，我的页面将返回404？单击每个元素时，将显示jQuery验证成功消息，但当我提交页面并返回时，成功消息将消失 Joomla -如何将所有异常/错误重定向到404页面或返回主页有没有办法将apache/PHP/.htaccess设置为只返回错误404而不显示页面？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

SEOer必学网站分析神器（第三节课）

我们努力奋斗是为了拥有很多的资本，来对抗未来未知的困境。今天继续给大家讲解百度站长工具其他功能作用，在这多谢各位同学的持续关注，等后续评论功能开通后，大家交流起来就方便多，我会继续努力，有任何SEO疑问，可以给我留言。由于接下来讲解的版块功能比较重要，在SEO实际应用中也是久居榜首，所以，请各位同学耐心看完，我尽量控制文章篇幅长度。百度站长工具网页抓取 Robots 抓取频次抓取诊断抓取异常 01 Robots：robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛

造成Baiduspider（百度蜘蛛）抓取网站异常的原因有哪些

有一些网页，内容优质，用户也可以正常访问，但是Baiduspider却无法正常访问并抓取，造成搜索结果覆盖率缺失，对百度搜索引擎对站点都是一种损失，百度把这种情况叫“抓取异常”。对于大量内容无法正常抓取的网站，百度搜索引擎会认为网站存在用户体验上的缺陷，并降低对网站的评价，在抓取、索引、排序上都会受到一定程度的负面影响，影响到网站从百度获取的流量。

00

ETag使用效果对比及经验分享

提起向百度提交数据，大家基本都会想到sitemap，最近又推出的etag是什么东东？真的能有效果吗？ sitemap是解决网站收录至关重要的途径之一，而通常sitemap的更新都不是很及时，并且体量都相对较大，此时也消耗了相应的网站流量及带宽。而ETag可以用来标示网页是否发生了变化，如果没有变化返回304状态码，就不用再重新传输整个网页了。在我们的sitemap配置了ETag之后，对日志一段时间的监测发现，其sitemap响应时间以及耗时的平均时间均大幅度下降，爬虫访问sitemap文件的次数有所增加，

09

异常的403绕过接管整个网站

今天我们来看一个我今年早些时候进行的外部渗透测试之一，由于保密协议，将使用通常的域 redacted.com

03

AuthCov：Web认证覆盖扫描工具

AuthCov使用Chrome headless browser（无头浏览器）爬取你的Web应用程序，同时以预定义用户身份进行登录。在爬取阶段它会拦截并记录API请求及加载的页面，并在下一阶段，以不同的用户帐户“intruder”登录，尝试访问发现的各个API请求或页面。它为每个定义的intruder用户重复此步骤。最后，它会生成一份详细的报告，列出发现的资源以及intruder用户是否可以访问这些资源等。

00

独家 | 手把手教你用Python进行Web抓取（附代码）

作为一名数据科学家，我在工作中所做的第一件事就是网络数据采集。使用代码从网站收集数据，当时对我来说是一个完全陌生的概念，但它是最合理、最容易获取的数据来源之一。经过几次尝试，网络抓取已经成为我的第二天性，也是我几乎每天使用的技能之一。

02

越权漏洞（e.g. IDOR）挖掘技巧及实战案例全汇总

Insecure Direct Object reference (IDOR)不安全的直接对象引用，基于用户提供的输入对象直接访问，而未进行鉴权，这个漏洞在国内被称作越权漏洞。

02

一款用GO语言编写的JS爬取工具~

功能类似于JSFinder，开发由来就是使用它的时候经常返回空或链接不全，作者还不更新修bug，那就自己来咯

02

【Nginx】第六章 Nginx配置实例-动静分离

Nginx 动静分离简单来说就是把动态跟静态请求分开，不能理解成只是单纯的把动态页面和静态页面物理分离。严格意义上说应该是动态请求跟静态请求分开，可以理解成使用Nginx 处理静态页面，Tomcat处理动态页面。动静分离从目前实现角度来讲大致分为两种：

03

使用隧道转发爬虫代理加强版错误解析

在互联网上进行自动数据采集已是互联网从业者的常规操作，爬虫程序想要长期稳定地进行数据采集，都会使用到爬虫代理来避免目标网站的IP访问限制。在数据采集过程中难免会遇到各种各样的问题，若想要想要快速分析数据采集过程中的问题，我们该怎么做呢？其实可以通过HTTP返回的各种状态码进行判断。一般来说，在使用代理的过程中会出现以下几种错误状态码：

01

一份解决爬虫错误问题指南

在互联网上进行自动数据采集已是互联网从业者的常规操作，爬虫程序想要长期稳定地进行数据采集，都会使用到爬虫代理来避免目标网站的IP访问限制。在数据采集过程中难免会遇到各种各样的问题，若想要想要快速分析数据采集过程中的问题，我们该怎么做呢？其实可以通过HTTP返回的各种状态码进行判断。今天就来重点讨论下这几个错误应该如何解决。一、出现HTTP的407错误几种情况下会出现http的407、408错误： 1. 全部是http的407错误，是代理认证信息不对。 1. 少量http的407错误，大量http的200请求成功，有些语言库第一次请求不会传递认证信息，自动发起第二次请求并将认证信息传递，属正常情况。 1. 少量http的200请求成功，少量http的407错误，大量http的429错误，有可能是每秒请求数大量超出代理限定，代理直接返回相关错误。二、429 Too Many Requests 您的请求过快,请降低请求速率注意：如果遇到过多429，可以考虑减少线程数量（并发数量），或加上时间间隔（建议 >300ms)。请求超过代理限制，严格按照所开代理的请求数，按照300毫秒为单位进行管理。如果限制之后，既然大量429，需要优化爬虫策略，应该是目标网站返回的错误提示。三、http状态码403 503 或504 原因：少量不影响，大量403 503或504需要优化爬虫策略四、504 Proxy Gateway TimeoutLink 代理正在切换IP,请稍后(30秒)再试目标网站不可达注意：如果出现少量504属于正常情况。如大量出现，建议在不使用代理的情况下检查目标网站是否可以访问。可能由目标网站的防护措施导致。

01

33. Flask实现BasicAuth基础认证以及DigestAuth摘要认证

一般我们使用Flask进行前后端分离开发的时候，前端与后端直接就是通过 API 请求进行数据交互，那么我们可以如何去确认我们的服务是安全的呢？

02

HTTP 返回状态值详解

当用户点击或搜索引擎向网站服务器发出浏览请求时，服务器将返回Http Header Http头信息状态码,常见几种如下:

03

这9种URL错误对SEO优化有致命影响

时光太瘦，指缝太宽。不经意间的一瞥，已隔经年。如果你不努力，一年后的你仍然是现在的你。要知道，你不是别人羡慕的“富二代”。你想要是生活，别人无法给你，只有靠自己拼搏，靠自己努力，靠自己奋斗，汗水永远比泪水更能打动成功，汗水的浇灌注定绽会放出绚丽的花朵！今天给大家讲解下有关页面URL的问题，URL在SEO中，可以说是比标题还要重要，可以说是禁忌中的禁忌，各位同学一定要多加留意。现在我给各位同学讲解下，在日常中我们都会遇到哪些URL问题。 1 URL上使用#号好不好？ URL当中的#号是一个锚点的标志位

06

用 Puppeteer 实现简书文章备份

读了篇文章《前端使用 puppeteer 爬虫生成《React.js 小书》PDF并合并》。参照这个思路，可以用 Puppeteer 备份简书的文章。

02

软件使用&vmware虚拟机的安装步骤详细[通俗易懂]

实验环境： Windows+Vmware12+ RHEL7.2+ Xshell5 准备工作： 1.关闭并退出 360，电脑管家等优化软件，防止虚拟机运行出现问题。 2.打开链接下载软件链接下载试用版 3.安装该软件，可以指定将来虚拟机存放的目录，其他随意。打开vmware ，界面如下：

01

HTTP状态码查询

如果客户端向服务器发出了某项请求要求显示网站上的某个网页，那么，服务器会返回 HTTP 状态代码以响应该请求。一些常见的状态代码为： 200 - 服务器成功返回网页 403 - 请求的网页禁止访问 404 - 请求的网页不存在 503 - 服务器暂时不可用 1xx（临时响应），用于表示临时响应并需要请求者执行操作才能继续的状态代码。代码说明 100（继续）请求者应当继续提出请求。服务器返回此代码则意味着，服务器已收到了请求的第一部分，现正在等待接收其余部分。 101（切换协议）请求者

scrapy爬虫框架教程（二）-- 爬取豆瓣电影

经过上一篇教程我们已经大致了解了Scrapy的基本情况，并写了一个简单的小demo。这次我会以爬取豆瓣电影TOP250为例进一步为大家讲解一个完整爬虫的流程。

01

基于 Python 的 Scrapy 爬虫入门：代码详解

一、内容分析接下来创建一个爬虫项目，以图虫网为例抓取里面的图片。在顶部菜单“发现” “标签”里面是对各种图片的分类，点击一个标签，比如“美女”，网页的链接为：https://tuchong.com/tags/美女/，我们以此作为爬虫入口，分析一下该页面：打开页面后出现一个个的图集，点击图集可全屏浏览图片，向下滚动页面会出现更多的图集，没有页码翻页的设置。Chrome右键“检查元素”打开开发者工具，检查页面源码，内容部分如下：

09

一款用GO语言编写的JS爬取工具~

功能类似于JSFinder，开发由来就是使用它的时候经常返回空或链接不全，作者还不更新修bug，那就自己来咯

02

404页面对SEO的影响

当你打开某一个网站的内页页面不存在，提示页面不存在或者连接错误，该页面上可以访问到网站的其他页面，这样的页面称之为404页面。

02

如何正确检测或处理网站死链接？

网站死链接一般是指内容死链接，服务器返回状态是正常的，但内容已经变更为不存在、已删除或需要权限等与原内容无关的信息页面。

03

http响应Last-Modified和ETag以及asp.net web api实现

基础知识 1) 什么是”Last-Modified”? 在浏览器第一次请求某一个URL时，服务器端的返回状态会是200，内容是你请求的资源，同时有一个Last-Modified的属性标记此文件在服

05

利用nginx来屏蔽指定的user_agent的访问以及根据user_agent做跳转

对于做国内站的我来说，我不希望国外蜘蛛来访问我的网站，特别是个别垃圾蜘蛛，它们访问特别频繁。这些垃圾流量多了之后，严重浪费服务器的带宽和资源。通过判断user agent，在nginx中禁用这些蜘蛛可以节省一些流量，也可以防止一些恶意的访问。

05

http状态码

状态码查询 201-206都表示服务器成功处理了请求的状态代码，说明网页可以正常访问。 200（成功）服务器已成功处理了请求。通常，这表示服务器提供了请求的网页。 201（已创建）请求成功且服务器已创建了新的资源。 202（已接受）服务器已接受了请求，但尚未对其进行处理。 203（非授权信息）服务器已成功处理了请求，但返回了可能来自另一来源的信息。 204（无内容）服务器成功处理了请求，但未返回任何内容。 205（重置内容）服务器成功处理了请求，但未返回任何内容。与

03

SEO新手必知50个SEO术语词解释

刚入门SEO都需要了解哪些SEO基础知识呢？今天，在这里给各位同学讲解下SEO基础入门专业词汇都有哪些，从新思考它们在我们实际操作中都有哪些用途及意义。白帽SEO（White hat SEO） 1 白帽SEO是通过正规优化手法，来对网站进行优化，是符合搜索引擎优化的规则。它与黑帽SEO是相反，它是业界主流的优化手法，避免了一切风险进行操作的优化手法。虽然白帽SEO见效时间周期要长，但往往成功后，就可以稳定的带来流量，它也是SEO从业者最高道德标准。黑帽SEO（Black hat SEO） 2 对于黑帽

HTTP各个status code代表什么意思

计算机之间的通信以协议为共同基础，客户端和服务端都按照协议的约定进行通信。HTTP的状态码就在HTTP的协议内，规定了很多的状态。客户端请求服务端后，服务端就返回结果，同时返回状态码。告诉客户端，本次请求是成功了还是失败了，还是要客户端做什么操作。那为什么不使用文本状态码呢？不是更加清晰直观吗？这是因为这些状态协议里面已经规定了，提到状态码，就是表示本条状态。

02

面试题之接口测试

1、所谓接口测试就是通过测试不同情况下的入参与之相应的出参信息来判断接口是否符合或满足相应的功能性、安全性要求。

03

Python pandas获取网页中的表数据（网页抓取）

现如今，人们随时随地都可以连接到互联网上，互联网可能是最大的公共数据库，学习如何从互联网上获取数据至关重要。因此，有必要了解如何使用Python和pandas库从web页面获取表数据。此外，如果你已经在使用Excel PowerQuery，这相当于“从Web获取数据”功能，但这里的功能更强大100倍。

03

SEO分享：彻底禁止搜索引擎抓取/收录动态页面或指定路径的方法

最近张戈博客收录出现异常，原因并不明朗。我个人猜测存在如下几个直接原因：更换主题，折腾时带来过多错误页面或间歇性访问错误；直接线上折腾 Nginx 缓存和缩略图，可能导致间歇性大姨妈；新发文章瞬间被转载，甚至是整站被采集，可能导致“降权”；百度居然开始收录动态页面，而且还在持续抓取动态页面。对于前三个，已发生的已无法改变，要发生的也无法阻止。对于转载和采集，我也只能在 Nginx 加入 UA 黑名单和防盗链机制，略微阻碍一下了，但是实际起不到彻底禁止作用，毕竟整个天朝互联网大环境就是这样一个不好

06

新工具上架：SiteLiveScan

SiteLiveScan是一款探测网站存活概率的工具，批量对目标网站(域名或ip:port)进行扫描，筛选出存活站点。

01

第78篇：巧妙方法抓取某商用红队扫描器的4000多个漏洞利用exp

大家好，我是ABC_123，本期分享一个真实案例。大约在两年前，有机会接触到一台红队扫描器设备（也可以理解为渗透测试机器人），我抱着好奇的心态去那里做了一下测试，感觉还不错。里面大概有4000多个漏洞利用exp，当然大部分都是nday漏洞，有一些未公开的1day漏洞，也有一些可能是0day漏洞，其中部分漏洞利用exp做了各种变形用来绕过waf，这些还是引起了我的兴趣。也是研究了两天，用了一个巧妙办法，欺骗这个扫描器发包，我在后台将所有的漏洞利用payload抓取到，整理成标准格式，放到了自己写的工具里面。

03

【前端面试题】11—26道HTTP和HTTPS的面试题(附答案)

Web前端就是当用户在浏览器地址栏中输入一行字母看到的页面结果。然而，从输入字母到看到页面中都发生了什么，数据是怎么得到的？这些都离不开HTTP/HTTPS。

03

「实战」缘分使我们（骗子）相遇

在信息搜集另一个网站的时候，凑巧发现了该网站。经过在百度贴吧的搜索，发现该网站是骗子网站。这才有接下来的剧情~

02

自动播放传智播客课程视频

这学期还弄了个1+web的什么考核, 天天让看视频做那个作业, 打游戏的时候还要盯着时长, 回来切视频太麻烦了, 干脆写了个脚本自动帮我切换, 如果有习题就会播放语音提醒 (一点小提示, 可以配合tampermonkey的H5播放器控制来实现16倍速播放, 畅享极致丝滑, 几秒一个视频, 我也是听我朋友说的传智不计观看视频时长, 如果计视频观看时长给分数的话就GG了, 酌情使用)

02

Wireshark抓包：详解Http协议--响应报文

响应报文：响应行+响应头部+空一行（表示响应头部结束了）+响应正文（服务器要真正给你返回的一个页面内容）。

02

【逻辑漏洞】通过条件竞争进行文件上传

基本概念：竞争条件发生在多个线程同时访问同一个共享代码、变量、文件等没有进行锁操作或者同步操作的场景中。

02

给自己的网站加上robots.txt！(来自飞龙临天的整理投稿）

robots.txt是一个纯文本文件，在这个文件中网站管理者可以声明该网站中不想被搜索引擎访问的部分，或者指定搜索引擎只收录指定的内容。

06

使用 ETag 和 Last-Modified 报头减轻服务器压力（转）

介绍你的网站在并发访问很大并且无法承受压力的情况下,你会选择如何优化? 很多人首先会想从服务器缓存方面着手对程序进行优化,许多不同的服务器缓存方式都有他们自己的特点,像我曾经参与的一些项目中,

01

前端防御性编程

一个页面在呈现给用户之前需要经过静态资源加载、后端接口请求和渲染这三个过程，我们要做的就是在各个过程中防御可能出现的异常情况，保持流畅的用户体验，同时还要应对来自外部的攻击。

02

网页死链检测方法「建议收藏」

在手动的人工功能中去测试相关的链接是否正常。判断网页中属于链接的部分，点击并观察链接目标的正确性。

01

Python爬虫之http协议复习

我们在学习web知识的时候就已经学过了状态码的相关知识，我们知道这是服务器给我的相关反馈，我们在学习的时候就被教育说应该将真实情况反馈给客户端，但是在爬虫中，可能该站点的开发人员或者运维人员为了阻止数据被爬虫轻易获取，可能在状态码上做手脚，也就是说返回的状态码并不一定就是真实情况，比如:服务器已经识别出你是爬虫，但是为了让你疏忽大意，所以照样返回状态码200，但是响应体重并没有数据。

02

4-1.页面置换算法

① 判断置换算法好坏的标准：具有较低的页面置换频率。 ② 内存抖动：页面的频繁更换，导致整个系统效率急剧下降，这个现象称为内存抖动。一、最佳置换算法 1.作用其所选择的被淘汰页，

01

【收藏】一文读懂网络爬虫！

在当前数据爆发的时代，数据分析行业势头强劲，越来越多的人涉足数据分析领域。进入领域最想要的就是获取大量的数据来为自己的分析提供支持，但是如何获取互联网中的有效信息？这就促进了“爬虫”技术的飞速发展。

02

徐大大seo:为什么服务端渲染有利于SEO与服务器对SEO的影响有哪些?

基于html的服务端渲染的问题，只是粗略的介绍了一下它的优缺点，其中涉及到一个SEO,SEO的全称是Search Engine Optimise 即，搜索引擎优化。

00

http状态代码含义

如果某项请求发送到您的服务器要求显示您网站上的某个网页（例如，用户通过浏览器访问您的网页或 Googlebot 抓取网页时），服务器将会返回 HTTP 状态码响应请求。

02

python 爬虫与反爬虫

案例：雪球网返回的就是403403 Forbidden. Your IP Address:xxx.xxx.xxx.xxx.但是当我们这样写：

04

要找房，先用Python做个爬虫看看

再过几个月我就得离开我租的公寓去找一个新的了。尽管这段经历可能会很痛苦，特别是在房地产泡沫即将出现时，我决定将其作为提高Python技能的另一种激励！当一切完成时，我想做到两件事:

03

用 Python 抓网页，你想问的都帮答好了，你还有不懂的吗？

近年来，随着大数据、人工智能、机器学习等技术的兴起，Python 语言也越来越为人们所喜爱。但早在这些技术普及之前，Python 就一直担负着一个重要的工作：自动化抓取网页内容。

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭