首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python爬取英雄联盟、王者荣耀、阴阳师、绝地求生高清壁纸

点击「DataCastle数据城堡」快速关注~

编者按:@沉默小熊猫 是DC学院的一名学员,在用了一周多时间学习了课程《Python爬虫(入门+进阶)》后,写了一个爬虫程序向DC学院投稿。小编将@沉默小熊猫 的成果整理出来与大家一起分享,文末有完整代码和高清壁纸的获取方式。

爬取了当前比较火的游戏壁纸,MOBA游戏《英雄联盟》,手游《王者荣耀》、《阴阳师》,FPS游戏《绝地求生》,其中《英雄联盟》的壁纸最难爬取,这里展示爬取《英雄联盟》全部英雄壁纸的过程,学会了这个,自己再去爬取其他游戏壁纸也就不成问题啦。

先看一下最终爬取的效果,每个英雄的壁纸都被爬取下来了:

“黑暗之女 安妮”的12张壁纸:

高清大图:

下面开始正式教学!

版本:Python 3.5

工具:Jupyter notebook实现各个环节,最终整合成LOL_scrawl.py文件

1

了解爬取对象,设计爬取流程

在使用爬虫前,先花一定时间对爬取对象进行了解,是非常有必要的,这样可以帮助我们科学合理地设计爬取流程,以避开爬取难点,节约时间。

1.1英雄基本信息

打开英雄联盟官网,看到所有英雄的信息:

若要爬取全部英雄,我们先要获取这些英雄的信息,在网页上“右击——检查——Elements”,就能在看到英雄的信息了,如下图所示,包括英雄昵称、英雄名称、英文名等等。由于这些信息是使用JavaScript动态加载的,普通爬取方法无法获取,我们考虑使用虚拟浏览器PhantomJS来获取这些信息。

我们点击进入“暗黑之女 安妮”的页面,页面地址为“http://lol.qq.com/web201310/info-defail.shtml?id=Annie”,地址中的“Annie”是这个英雄的英文名,若要访问其他英雄界面,只需要更改英文名就可以了。

在英雄页面上,通过点击略缩图可以切换到不同的皮肤大图,在大图上“右击——在新标签页中打开图片”,就能打开大图,这就是我们要的高清壁纸:

观察上图的地址信息,再打开其他几张安妮的皮肤壁纸来查看,发现不同壁纸仅在图片编号上有差别:

http://ossweb-img.qq.com/images/lol/web201310/skin/big1000.jpg

http://ossweb-img.qq.com/images/lol/web201310/skin/big1001.jpg

http://ossweb-img.qq.com/images/lol/web201310/skin/big1002.jpg

http://ossweb-img.qq.com/images/lol/web201310/skin/big1003.jpg

......

再观察英雄“盲僧 李青”的壁纸地址:

http://ossweb-img.qq.com/images/lol/web201310/skin/big64000.jpg

http://ossweb-img.qq.com/images/lol/web201310/skin/big64001.jpg

http://ossweb-img.qq.com/images/lol/web201310/skin/big64002.jpg

......

再观察英雄“卡牌大师 崔斯特”的壁纸地址:

http://ossweb-img.qq.com/images/lol/web201310/skin/big4000.jpg

http://ossweb-img.qq.com/images/lol/web201310/skin/big4001.jpg

http://ossweb-img.qq.com/images/lol/web201310/skin/big4002.jpg

......

1

可以总结出这样一条规则:壁纸地址由三部分组成,固定地址+英雄id+壁纸编号。

固定地址:“http://ossweb-img.qq.com/images/lol/web201310/skin/big”以及末尾的“.jpg”

英雄id:安妮的id是1,李青的id是64,崔斯特的是40,我们还需要找到所有英雄的id

壁纸编号:壁纸编号从000开始,001、002、003...,根据不同英雄的皮肤数量而不同,目前每个英雄壁纸都不超过20个,也就是最多编到020

1.2英雄ID

在上面的过程中,我们已经基本了解了要爬取对象的信息了,但每一个英雄的id是多少却还不知道,在网页源代码和用JavaScript加载后都找不到英雄和id的对应信息,猜测这个信息可能是放在某个js文件里,我们来找一找。

在所有英雄信息界面“右键——检查——Network”,再刷新一下界面,可以找到一个champion.js文件:

打开champion.js文件,发现里面就存着我们需要的信息,英雄英文名与英雄id一一对应:

1.3爬虫流程图

至此对我们要爬取的对象已经有了一定的了解,对于具体爬取方法也有了想法,我们可以设计如下爬虫流程图:

2

设计代码整体框架

根据爬虫流程图,我们可以设计如下代码框架:

这个代码框架非常容易读懂,主要就是run()函数,run()函数完成了这样一套工作:创建LOL文件夹——获得键盘输入的信息——若信息为“All”则爬取全部英雄壁纸,否则爬取单个英雄壁纸。

在爬取所有或者单个英雄壁纸时,由于可能因为网络不稳定等因素导致爬取失败,因此我们要使用try-except来处理爬取壁纸时的代码:

至此已经打好了爬虫框架,下面对爬取过程中最核心的两个代码进行解释:get_heroframe()与get_image(heroid,heroframe)。

3

爬取所有英雄信息

3.1解析js文件

首先我们要解析champion.js文件,得到英雄英文名与id的一一对应关系。使用urllib.request打开文件地址,读取内容并当做字符串处理,解析内容并转为字典,key为英文名,value为英雄id:

得到字典herodict如下:

3.2 Selenium+PhantomJS实现动态加载

对于官网网站上的所有英雄信息页面,由于是用JavaScript加载出来的,普通方法并不好爬取,我们使用Selenium+PhantomJS的方法来动态加载英雄信息。Selenium 是自动化测试工具,它支持Chrome、Safari、Firefox 等浏览器驱动,在使用前先需要安装selenium模块。而PhantomJS是一个虚拟浏览器,它没有界面,但它的dom渲染、js运行、网络访问、canvas/svg绘制等功能都很完备,在页面抓取、页面输出、自动化测试等方面有广泛的应用。PhantomJS可以在官方网站上下载。

我们使用Selenium+PhantomJS的方法来动态加载英雄信息,使用BeautifulSoup获取网址页面内容:

得到页面内容后,使用BeautifulSoup对页面内容进行解析,将英雄昵称、名称、id等信息存入heroframe中:

至此,get_heroframe()函数实现了爬取所有英雄的信息,并存放在heroframe.csv文件中,如下所示:

4

爬取英雄壁纸

得到每一个英雄的信息后,我们就可以开始愉快的爬取它们的壁纸啦~定义get_image(heroid,heroframe)函数,用于爬取单个英雄的全部壁纸。

首先在LOL文件夹中建立该英雄的子文件夹:

然后就可以爬取这个英雄的壁纸了。由于每个英雄壁纸都不超过20张,我们使用一个20以内的循环就能爬取到所有壁纸了:

爬取完成后输出成功的提示:

到这里就大功告成啦!只要运行一下这个小程序,所有英雄的皮肤壁纸就都收入囊中了,当然也可以爬取单个英雄的所有皮肤,只要根据提示输入英雄的昵称或名称就好。

爬取单个英雄皮肤壁纸:

爬取所有英雄皮肤壁纸:

运行代码时注意保持网络畅通,如果网速太慢可能会爬取失败。在3兆有线网的网速下爬取全部139个英雄的全部高清壁纸(约一千张图)大概要3-4分钟。

《王者荣耀》、《阴阳师》、《绝地求生》等其他游戏的壁纸也是同样道理就可以爬取了,据我实践,《英雄联盟》的爬取难度是最高的,因此将上述过程弄懂了,自己再编写代码爬其他游戏就易如反掌了。

最后,放一张“龙的传人 李青”壁纸,恭喜LPL夺冠!

最后的最后,感谢DC学院的爬虫课程,老师答疑很及时,学员群内讨论也很热烈,可以学到很多东西,但有一点小小建议:授课老师的英文再地道一点就好了哈哈哈。

DataCastle数据城堡

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171225G0NX3I00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券