是不是还在为喜欢小说不能看而遗憾.作为爱小说之一,我也和你们一样经常烦恼,为什么我的小说不能在一个地方看完,为什么不能看接下来的剧情,呜呜呜!
现在不用遗憾了,python让你一次看个够!
首先是引入库
然后将网址赋值
接下来尝试爬取该页的小说内容
find方法也可以和正则表达式搭配使用,并且多用于图片,视频等资源的爬取
由于本次爬取内容全在一个class属性值为read-content的盒子中,所以采用了find方法,如果该网页中,文字被放在多个盒子里,则应采用findAll方法,并且返回值为一个集合,需要用循环遍历输出。
将代码整合运行,发现可以实现文章的爬取,但是现在的问题是,爬取了该小说的一章,那么,往后的几章该如何爬取呢?
由前面步骤可以得出,只要得知下一章的网址,即可进行爬取。首先,将打印文字的部分封装为函数,那么,每次取得新的地址,即可打印出对应文本
现在的问题是如何爬取下一章的网址,观察网页结构可得知,下一章的按钮实质是一个id为j_chapterNext的a标签,那么,可由这个标签获得下一章的网址
重新包装函数,整理得:
将文本写入text文件中
哈哈哈!再也不会为看小说烦恼了!
领取专属 10元无门槛券
私享最新 技术干货