使用python抓取ajax页面，但在多次请求之后，它将返回假值 - 腾讯云开发者社区

文章/答案/技术大牛

发布

分析Ajax爬取今日头条街拍美图

本节中，我们以今日头条为例来尝试通过分析Ajax请求来抓取网页数据的方法。这次要抓取的目标是今日头条的街拍美图，抓取完成之后，将每组图片分文件夹下载到本地并保存下来。 1....点击第一条展开，可以发现有一个title字段，它的值正好就是页面中第一条数据的标题。再检查一下其他数据，也正好是一一对应的，如下图所示。 ? 这就确定了这些数据确实是由Ajax加载的。...接下来，就可以直接用Python来模拟这个Ajax请求，然后提取出相关美图链接并下载。但是在这之前，我们还需要分析一下URL的规律。...在该方法中，首先根据item的title来创建文件夹，然后请求这个图片链接，获取图片的二进制数据，以二进制的形式写入文件。图片的名称可以使用其内容的MD5值，这样可以去除重复。...本节的内容需要熟练掌握，在后面的实战中我们还会用到很多次这样的分析和抓取。崔庆才静觅博客博主，《Python3网络爬虫开发实战》作者

8104 1

反爬虫和反反爬虫（上篇）

3.还有一种比较普通的反爬虫策略：通过cookie限制抓取信息，比如我们模拟登陆之后，想拿到登陆之后某页面信息，千万不要以为模拟登陆之后就所有页面都可以抓了，有时候还需要请求一些中间页面拿到特定cookie...4.另外一种比较常见的反爬虫模式当属采用JS渲染页面了。什么意思呢，就是返回的页面并不是直接请求得到，而是有一部分由JS操作DOM得到，所以那部分数据我们也拿不到咯。...（2）基于用户行为的反爬虫还有一部分网站是通过检测用户行为，例如同一IP短时间内多次访问同一页面，或者同一账户短时间内多次进行相同操作。...（3）动态页面的反爬虫上述的几种情况大多都是出现在静态页面，还有一部分网站，我们需要爬取的数据是通过ajax请求得到，或者通过JavaScript生成的。...往期推荐 Python爬虫系列——入门到精通 Python爬虫实例之——小说下载老司机带你用python来爬取妹子图知乎大神爬取高颜值美女（Python爬虫+人脸检测+颜值检测）千元资料免费送——

3.9K3 2

您找到你想要的搜索结果了吗？

是的

没有找到

一篇了解爬虫技术方方面面

然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。...另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；所以一个完整的爬虫一般会包含如下三个模块：网络请求模块爬取流程控制模块内容分析提取模块网络请求...但在爬取一些大型网站时，例如全网抓取京东的评论，微博所有人的信息，关注关系等等，这种上十亿到百亿次设置千亿次的请求必须考虑效率，否则一天只有86400秒，那么一秒钟要抓100次，一天也才8640w次请求...html文档本身，也就是说，我们决定进行抓取的时候，都是html中包含的内容，但是随着这几年web技术飞速的发展，动态网页越来越多，尤其是移动端，大量的SPA应用，这些网站中大量的使用了ajax技术。...Ajax／Fetch异步请求这种情况是现在很常见的，尤其是在内容以分页形式显示在网页上，并且页面无刷新，或者是对网页进行某个交互操作后，得到内容。

1.6K2 0

一篇了解爬虫技术方方面面

1.2K4 0

一篇了解爬虫技术方方面面

1.4K9 0

pyspider 爬虫教程（二）：AJAX 和 HTTP

不过，现在的网站通过使用 AJAX 等技术，在你与服务器交互的同时，不用重新加载整个页面。但是，这些交互手段，让抓取变得稍微难了一些：你会发现，这些网页在抓回来后，和浏览器中的并不相同。...AJAX 通过使用原有的 web 标准组件，实现了在不重新加载整个页面的情况下，与服务器进行数据交互。例如在新浪微博中，你可以展开一条微博的评论，而不需要重新加载，或者打开一个新的页面。...当一个网站使用了 AJAX 的时候，除了用 pyspider 抓取到的页面和浏览器看到的不同以外。你在浏览器中打开这样的页面，或者点击『展开』的时候，常常会看到『加载中』或者类似的图标/动画。...常常被用于防盗链，在抓取图片的时候可能会用到。 X-Requested-With 当使用 XHR 发送 AJAX 请求时会带上的 Header，常被用于判断是不是 AJAX 请求。...在 pyspider 中，你也可以使用 response.cookies 获得返回的 cookie，并使用 self.crawl(URL, cookie={'key': 'value'}) 来设置请求的

1.7K7 0

Python爬虫之Ajax数据爬取基本原理

前言有时候我们在用 requests 抓取页面的时候，得到的结果可能和在浏览器中看到的不一样：在浏览器中可以看到正常显示的页面数据，但是使用 requests 得到的结果并没有。...所以如果遇到这样的页面，直接利用 requests 等库来抓取原始页面，是无法获取到有效数据的，这时需要分析网页后台向接口发送的 Ajax 请求，如果可以用 requests 来模拟 Ajax 请求，那么就可以成功抓取了...所以，本章我们的主要目的是了解什么是 Ajax 以及如何去分析和抓取 Ajax 请求。...前面用 Python 实现请求发送之后，可以得到响应结果，但这里请求的发送变成 JavaScript 来完成。...这类似于 Python 中利用 requests 向服务器发起请求，然后得到响应的过程。那么返回内容可能是 HTML，可能是 JSON，接下来只需要在方法中用 JavaScript 进一步处理即可。

5311 0

Python爬虫的基本原理

因此，使用基本 HTTP 请求库得到的源代码可能跟浏览器中的页面源代码不太一样。...对于这样的情况，我们可以分析其后台 Ajax 接口，也可使用 Selenium、Splash 这样的库来实现模拟 JavaScript 渲染。...会话和 Cookies 在浏览网站的过程中，我们经常会遇到需要登录的情况，有些页面只有登录之后才可以访问，而且登录之后可以连续访问很多次网站，但是有时候过一段时间就需要重新登录。...再回到开头提到的问题，很多页面是需要登录之后才可以查看的。按照一般的逻辑来说，输入用户名和密码登录之后，肯定是拿到了一种类似凭证的东西，有了它，我们才能保持登录状态，才能访问登录之后才能看到的页面。...Cookie 一旦创建，名称便不可更改 Value，即该 Cookie 的值。如果值为 Unicode 字符，需要为字符编码。如果值为二进制数据，则需要使用 BASE64 编码。

7461 0

React基础(9)-React中发送Ajax请求以及Mock数据

image.png 前言在React中,render函数返回的结果,取决于组件的props和state 我们都知道UI页面上的数据不是写死的,往往是从后端的数据接口中拿到的然后将真实的数据填充到页面上...请求,用axios请求数据拿到数据后,然后通过setState去更新组件的state的数据渲染到页面上同时,当价格大于10时,进行了一些逻辑判断,让价格大于10的变红色,在JSX里面是可以插值表达式的方式进行一些特殊处理的...fetch方法该方法是浏览器标准的一个接口,提供了一种简单合理的方式来跨网络异步的获取资源数据,现在也是越来越流行使用的,同样Ajax请求也是放在componentDidMount组件挂载完之后进行数据请求...request-promise的方式实现Ajax数据的请求也是可以的,注意使用该方式时,无法使用本地mock数据的它也是支持promise对象,注意,当返回成功的response的类型是一个json字符串格式...抓取本地化模拟数据使用mockoon进行mock本地数据使用easy-mock伪造接口数据(推荐多用) 结语本文主要讲解了React中如何发送Ajax请求,其中发送请求放置的地方应当在componentDidMount

2.9K3 0

React学习(九)-React中发送Ajax请求以及Mock数据

撰文 | 川川前言在React中,render函数返回的结果,取决于组件的props和state 我们都知道UI页面上的数据不是写死的,往往是从后端的数据接口中拿到的然后将真实的数据填充到页面上...请求,用axios请求数据拿到数据后,然后通过setState去更新组件的state的数据渲染到页面上同时,当价格大于10时,进行了一些逻辑判断,让价格大于10的变红色,在JSX里面是可以插值表达式的方式进行一些特殊处理的...fetch方法该方法是浏览器标准的一个接口,提供了一种简单合理的方式来跨网络异步的获取资源数据,现在也是越来越流行使用的,同样Ajax请求也是放在componentDidMount组件挂载完之后进行数据请求...request-promise的方式实现Ajax数据的请求也是可以的,注意使用该方式时,无法使用本地mock数据的它也是支持promise对象,注意,当返回成功的response的类型是一个json字符串格式...抓取本地化模拟数据使用mockoon进行mock本地数据使用easy-mock伪造接口数据(推荐多用) 结语本文主要讲解了React中如何发送Ajax请求,其中发送请求放置的地方应当在componentDidMount

5.2K3 1

Python 爬虫20题精讲

验证码验证：当某一用户访问次数过多后，就自动让请求跳转到一个验证码页面，只有在输入正确的验证码之后才能继续访问网站解决办法：python可以通过一些第三方库如(pytesser,PIL)来对验证码进行处理...或是wireshark抓包分析ajax请求的界面，然后自己通过规律仿造服务器构造一个请求访问服务器得到返回的真实数据包。...ip进行抓取或者设置抓取的频率降低一些， 3.动态网页的可以使用selenium + phantomjs 进行抓取 4.对部分数据进行加密的，可以使用selenium进行截图，使用python...短时间内多次访问同一页面，或者同一账户短时间内多次进行相同操作 4.数据通过ajax来获取 17.是否搭建过爬虫集群，集群是如何实现节点发现和管理的？...进行抓取或者设置抓取的频率降低一些，动态网页的可以使用selenium + phantomjs 进行抓取对部分数据进行加密的，可以使用selenium进行截图，使用python自带的

41K8 5

爬虫技术的门道，这篇文章总结的最全

除此之外，还有一种更加变态的服务端爬虫检测机制，就是对所有访问页面的http请求，在 http response 中种下一个 cookie token ，然后在这个页面内异步执行的一些ajax接口里去校验来访请求是否含有...cookie token，将token回传回来则表明这是一个合法的浏览器来访，否则说明刚刚被下发了那个token的用户访问了页面html却没有访问html内执行js后调用的ajax请求，很有可能是一个爬虫程序...如果你不携带token直接访问一个接口，这也就意味着你没请求过html页面直接向本应由页面内ajax访问的接口发起了网络请求，这也显然证明了你是一个可疑的爬虫。...基于客户端js运行时的检测现代浏览器赋予了JavaScript强大的能力，因此我们可以把页面的所有核心内容都做成js异步请求 ajax 获取数据后渲染在页面中的，这显然提高了爬虫抓取内容的门槛。...可以抓取一个页面中所有的js及ajax渲染的异步内容；并结合redis实现了一个任务队列，使得爬虫程序可以方便的进行横向、纵向的分布式扩展。

1.1K4 0

前端面试题ajax_前端性能优化面试题

HTTP请求 (5)获取异步调用返回的数据 (6)使用JavaScript和DOM实现局部刷新 ajax是一种创建交互式网页的计算 2，同步和异步的区别?...100 Continue 继续，一般在发送post请求时，已发送了http header之后服务端将返回此信息，表示确认，之后发送具体参数信息 200 OK 正常返回信息 201 Created 请求成功并且服务器创建了新的资源...缓存上有对应资源，会与服务器最后修改时间对比，一致则返回304; 8、浏览器开始下载html文档(响应报头，状态码200)，同时使用缓存; 9、文档树建立，根据标记请求所需指定MIME类型的文件（比如...callback=动态生成方法的方法名）请求数据，而后台则需要将接收到的callback值与数据一同返回，呈现出执行js方法的语句（方法名(数据)），其实就是在请求回来的数据中是执行请求是动态生成的js...GET方式需要使用Request.QueryString来取得变量的值，而POST方式通过Request.Form来获取变量的值，也就是说Get是通过地址栏来传值，而Post是通过提交表单来传值。

3.1K1 0

如果有人问你Python爬虫抓取技术的门道，请叫他来看这篇文章

每日分享一些学习的方法和需要注意的小细节点击：python技术分享从爬虫的攻防角度来讲最简单的爬虫，是几乎所有服务端、客户端编程语言都支持的http请求，只要向目标页面的url发起一个http...除此之外，还有一种更加变态的服务端爬虫检测机制，就是对所有访问页面的http请求，在 http response 中种下一个 cookie token ，然后在这个页面内异步执行的一些ajax接口里去校验来访请求是否含有...cookie token，将token回传回来则表明这是一个合法的浏览器来访，否则说明刚刚被下发了那个token的用户访问了页面html却没有访问html内执行js后调用的ajax请求，很有可能是一个爬虫程序...如果你不携带token直接访问一个接口，这也就意味着你没请求过html页面直接向本应由页面内ajax访问的接口发起了网络请求，这也显然证明了你是一个可疑的爬虫。...基于客户端js运行时的检测现代浏览器赋予了JavaScript强大的能力，因此我们可以把页面的所有核心内容都做成js异步请求 ajax 获取数据后渲染在页面中的，这显然提高了爬虫抓取内容的门槛。

1.2K1 0

Python爬虫之Ajax分析方法与结果提取

观察可以发现，这里的返回结果是个人信息，如昵称、简介、头像等，这也是用来渲染个人主页所使用的数据。JavaScript 接收到这些数据之后，再执行相应的渲染方法，整个页面就渲染出来了。...所以说，我们看到的微博页面的真实数据并不是最原始的页面返回的，而是后来执行 JavaScript 后再次向后台发送了 Ajax 请求，浏览器拿到数据后再进一步渲染出来的。 2....Ajax 请求接下来，不断滑动页面，可以看到页面底部有一条条新的微博被刷出，而开发者工具下方也一个个地出现 Ajax 请求，这样我们就可以捕获到所有的 Ajax 请求了。...接下来，我们用 Python 实现 Ajax 请求的模拟，从而实现数据的抓取。 Ajax 结果提取这里仍然以微博为例，接下来用 Python 来模拟这些 Ajax 请求，把发过的微博爬取下来。...通过这个实例，我们主要学会了怎样去分析 Ajax 请求，怎样用程序来模拟抓取 Ajax 请求。了解了抓取原理之后，下一节的 Ajax 实战演练会更加得心应手。

1.3K1 2

Python分布式微博爬虫（源码分享）

该项目从模拟登陆到各个页面的请求、从简单页面到复杂页面解析处理和相关的异常处理、从单机到分布式迁移都做了大量的工作和反复测试，花了我绝大部分业余的时间你可以用它来干嘛微博舆情分析论文撰写的一些数据...user.py 微博特定话题搜索任务 search.py 微博用户主页信息抓取任务 home.py 微博评论抓取任务 comment.py 微博转发抓取任务 repost.py 配置和使用环境配置:...小白和新手请直接查看这里考虑到Python3是趋势和一些将该项目用于学习的用户，项目运行环境为Python3.x 项目存储后端使用Mysql，所以需要在存储服务器上安装Mysql,注意设置字符集编码为...(url): """ 返回值主要供第一次本地调用使用（获取总页数），网络调用忽略返回值 :param url: :return: """ ajax_html...比如用户抓取，一个http请求只能得到一个用户信息，而对于用户关注和粉丝抓取，一个http请求可以得到几十个关注或者粉丝用户的uid，所以可以部署一个用户关注或者粉丝抓取节点，部署10个或者更多的用户信息抓取节点

1.5K6 0

使用AJAX获取Django后端数据

但是如果我们只想更新页面的一部分，则不必完全重新渲染页面-这时候就要用到AJAX了。 AJAX提供了一种将GET或POST请求发送到Django视图并接收任何返回的数据而无需刷新页面的方法。...它将返回一个response，该response将返回所请求的响应。为了从响应中获取数据，我们必须通过多次使用.then处理程序来使用链式response。...该视图将返回JsonResponse，该序列将数据字典序列化并将其发送回我们的页面，在此页面中将通过链接进行处理。现在，我们可以使用JavaScript使用GET请求中的数据来更新页面的一部分。...如果AJAX请求是通过与后端其他位置相同的模板提供的，我们可以使用默认值“ same-origin”。这意味着，如果所请求的URL与提取调用来自同一站点，则将在请求中发送用户凭据。...确保请求是AJAX 在大多数情况下，都会发出AJAX请求，因为我们只希望更新页面的一部分，并且需要获取新数据来进行更新。在页面上下文之外，JsonResponse返回的数据本身很少使用。

10.1K4 0

运用phantomjs无头浏览器破解四种反爬虫技术

，先返回一部分，之后再进行几秒的js能力验证后加载。...另外一种则检测是无js处理能力当即就给出拒绝码，这类型就是xici代理的方式，如果你用python直接发送请求，无论是scrapy还是requests，都会返回500错误。...如下： image.png 但是如果你使用上面牛刀小试的代码，在python中用系统指令调用这行命令，则相当于用phantomjs来执行请求操作，源代码就会直接返回。...还有别人使用ajax等跳过请求，也是一种方式不过也挺难的。请勿私信问代码。没留。 7 总结：与反爬虫进行斗争，如果你能熟练使用上诉的技巧就基本无往而不利了。...使用adsl | tor | 代理 | 可以让对方无法针对ip封禁，使用header的字段伪造，算是入门防止对方识别并返回假数据。使用phantoms则基本对方不能阻止你的访问。

2.1K3 1

Python每日一练(21)-抓取异步数据

异步加载与AJAX 2. 基本原理 2.1 发送请求 2.2 解析响应 2.3 渲染页面 2.4 Flask框架模拟实现异步加载页面 3. 逆向工程 4....基本原理 AJAX 的实现分为3步：发送请求（通常是指HTTP请求）解析响应（通常是指JSON格式的数据）渲染页面（通常是指将JSON格式的数据显示在Web页面的某些元素上)。...2.4 Flask框架模拟实现异步加载页面本例使用 Flask 框架模拟实现一个异步加载的页面。页面使用模板显示，并且通过 jQuery 向服务端发送请求，获取数据后，将数据显示在页面上。...XHR 用于过滤异步方式发送的请求。知道了异步请求的 URL，就可以通过 requests 等网络库通过 URL 抓取数据，不过返回的数据格式不是 HTML，也不是 XML ，而是 JSON。...通过观察发现，详情页的企业详情数据也是动态加载出来的，该请求是 POST 请求，所有的 POST 请求的 URL 都是一样的，只有参数 id 值是不同。

3.7K2 0

这次给大家带来复杂点的ajax请求该如何破？

本次文章是写如何应对复杂点的ajax请求，上篇文章简单写了下简单点的ajax请求，也就10行代码就可以把数据都抓下来了，可以说非常强大。有兴趣的可以看看谈谈如何抓取ajax动态网站。...登陆成功之后很容易就可以在charles找到这个请求，让我们先看看nlt参数是怎样来的。我们可以先复制这个nlt参数，然后在charles工具内按下ctrl+f就会出现这个页面 ?...2.使用python来模拟登陆 def __get_nlt(self): """给ult参数""" url = "https://auth.dxy.cn/accounts...3.分析ajax请求登陆成功之后。随便点进一个页面都可以然后点击三角形按钮都可以看到详细内容 ?...推荐文章利用python爬取网易云音乐，并把数据存入mysql 谈谈如何抓取ajax动态网站

1.1K3 0

点击加载更多

分析Ajax爬取今日头条街拍美图

反爬虫和反反爬虫（上篇）

一篇了解爬虫技术方方面面

一篇了解爬虫技术方方面面

一篇了解爬虫技术方方面面

pyspider 爬虫教程（二）：AJAX 和 HTTP

Python爬虫之Ajax数据爬取基本原理

Python爬虫的基本原理

React基础(9)-React中发送Ajax请求以及Mock数据

React学习(九)-React中发送Ajax请求以及Mock数据

Python 爬虫20题精讲

爬虫技术的门道，这篇文章总结的最全

前端面试题ajax_前端性能优化面试题

如果有人问你Python爬虫抓取技术的门道，请叫他来看这篇文章

Python爬虫之Ajax分析方法与结果提取

Python分布式微博爬虫（源码分享）

使用AJAX获取Django后端数据

运用phantomjs无头浏览器破解四种反爬虫技术

Python每日一练(21)-抓取异步数据

这次给大家带来复杂点的ajax请求该如何破？

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐