优质文章,第一时间送达
还记得我们上一次写的一篇文章吗?如果你不记得小编告诉你,请点击:王者荣耀是最受欢迎的手游吗?让我们用python爬虫告诉你吧如果跟着一起学习的网友应该知道,其实我们只爬了一页的内容,离我们的目的还是比较遥远,今天大家就跟着和我一起学习如何把下一页的内容再爬出来吧。
说到这里,你们会感觉,下一页的内容不是和之前的相似直接替换下之前的url吗?哈哈我也到希望这么简单,直接把原来的page=1改为page=2这样获取不就得了,但是说这话的人应该没有尝试去爬,其实目标网站不是这样的,他把下一页的数据放在了一个data里面,我们需要解析,详情如下。
一。了解网站布局
当你在网站上点击“更多”,发现会又多出30个游戏详情页,但是原来的并没有消失,如下图所示
点击更多后变成:
原来的并没有消失和以前我们经常看到的不一样。并不是那种点击下一页就出现下一页的内容,第二页消失的常用界面。这时我们应该出来调试模式了。
二。找到“更多”元素
我们祭出谷歌大法,把目标网站放在谷歌浏览器,然后按住F12进入调试模式,找到更多元素,如下图所示
点击鼠标右键,复制更多元素链接地址,然后得到url链接
三。直接访问url
当你直接访问获得的url后你会发现这是存在一个data里面,然后是一坨你看不懂的数据
其实,对于有点html常识的人来说能看懂这就是html数据,这些json数据我们可以直接通过格式化来获取的。
四。使用request自带的json来格式化数据。
Requests 中也有一个内置的 JSON 解码器,助你处理 JSON 数据:
详细代码如图:
通过这种方法即可把json数据转换成普通的html数据来处理,加上while循环即可把所有的数据获取完成。
至此,结合我们原来的代码即可把该网站的更多网页内容给爬去出来并获取了,你还等什么赶紧来尝试吧。
五。课后疑问和建议
由于该网站本身已经对各大平台的游戏或者安卓和IOS系统进行了排名,也不清楚他们的排名是如何得来的,那么大家思考下我们可以用这些数据进行怎样的分析呢?
问题1:我们需要抓取哪些数据,以及进行怎么样的数据分析
问题2:我们可以利用这些数据做怎样的云化处理
建议1:大家喜欢怎样的文章方式,以及呈现形式
建议2:欢迎大家对源码进行重构和提提意见,小编的变量和函数命名能力很差
欢迎大家根据以上的问题和建议在公众号下留言,让我们更加互动的去学习,让随手学驿站这个公众号走的更远
领取专属 10元无门槛券
私享最新 技术干货