这几天在进行新的内容学习,并且在尝试使用据说是全宇宙唯一一款专门开发python的ide工具,叫做pycharm。
这个软件是全英文的,不过在网上有汉化的工具包,但是仔细想一想,这么牛皮的软件用汉化版的会不会有点low(就像中文软件你使用英文包一样)。所以,我还是决定自己来玩一玩这款软件。下图软件运行的截图(还正在爬小说中ing)
下面进入正题。这是我们今天要爬取的小说网站:小说排行榜_2017完结小说排行榜_笔趣阁
相信经常看小说的朋友应该对这些小说一点也陌生。那么,我们怎样才能将这些小说一次性下载下来呢?
我们先讲一下,主要思路:
1.爬取网站总榜,获取每本小说的url;
2通过每本小说的url,找到每本小说的所有章节的url;
3通过每本书每一章的url,获取到每一章的内容。
分析网页
很明显就能找到,每个榜单都在标签:
·····
05-081.武炼巅峰
之中
所以代码可以如下来写:
成功将所有小说的url均保存到了comments之中。
下一步就是获取每本小说的每一章,comments列表中的每一个url之后,返回出每一章的url
最后,爬取每一章中的内容:
最后将所有函数联合起来,使用循环,实现功能:
爬取部分结果:
爬取的小说:
还在爬取第一本ing····,本来很早之前就开始爬了,最后发现
让我们来看看内容:
码字不易,希望大家能点个赞
领取专属 10元无门槛券
私享最新 技术干货